統計学の総合演習問題

  1. Q1〜Q50 統計学 完全版

  1. Q1

  2. 【問題】

次のデータの平均値、中央値、最頻値を求めよ。

$$ 4, \quad 3, \quad 7, \quad 2, \quad 5, \quad 4, \quad 0, \quad 5, \quad 6, \quad 2 $$

まずは、自分の力で解けるかチャレンジしてみましょう。 データの代表値の基本を押さえる良い問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【平均値・中央値・最頻値】データの代表値の求め方をマスターしよう

導入

データを要約するとき、その「中心」を表す代表値として、平均値・中央値・最頻値がよく使われます。それぞれ求め方が異なり、データの性質によって使い分けられるのがポイントです。

使う武器(公式・定理)

  1. 平均値 = データの合計 ÷ データの個数
  2. 中央値 = データを小さい順に並べたときの、真ん中の値(偶数個のときは中央2つの平均)
  3. 最頻値 = 最も多く現れる値

思考のプロセス(Step by Step)

Step 1:平均値を求める

合計 = $4 + 3 + 7 + 2 + 5 + 4 + 0 + 5 + 6 + 2 = 38$

個数 = $10$ 個

$$ \text{平均値} = \frac{38}{10} = 3.8 $$

Step 2:中央値を求める

小さい順に並べる:$0, 2, 2, 3, 4, 4, 5, 5, 6, 7$

$10$ 個なので、中央は $5$ 番目と $6$ 番目の平均。

$5$ 番目 = $4$、$6$ 番目 = $4$

$$ \text{中央値} = \frac{4 + 4}{2} = 4 $$

Step 3:最頻値を求める

各値の出現回数:$0 \to 1$ 回、$2 \to 2$ 回、$3 \to 1$ 回、$4 \to 2$ 回、$5 \to 2$ 回、$6 \to 1$ 回、$7 \to 1$ 回

$2, 4, 5$ がそれぞれ $2$ 回で最多。よって最頻値は $2, 4, 5$ の $3$ つ。

解答

  • 平均値:$3.8$
  • 中央値:$4$
  • 最頻値:$2, 4, 5$

  1. 【まとめ】
  • 平均値は「合計 ÷ 個数」で求める。
  • 中央値は必ず「並び替え」から始める。
  • 最頻値は複数ある場合もある。



  1. Q2

  2. 【問題】

生徒 $10$ 人の小テストの結果、平均値が $13.8$ 点であった。

$$ 13, \quad 14, \quad 14, \quad 15, \quad 14, \quad 13, \quad 13, \quad a, \quad 13, \quad 14 $$

このとき、$a$ の値を求めよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 平均値の定義から未知数を求める典型問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【平均値から未知数を求める】定義式を逆算する思考

導入

平均値が与えられていて、その中の1つの値 $a$ が未知。このような問題では、「平均値 = 合計 ÷ 個数」の式を逆に使い、合計から $a$ を導きます。

使う武器(公式・定理)

$$ \text{平均値} = \frac{\text{データの合計}}{\text{データの個数}} $$

変形すると:$\text{合計} = \text{平均値} \times \text{個数}$

思考のプロセス(Step by Step)

Step 1:合計を求める

平均値 $13.8$、個数 $10$ より、

$$ \text{合計} = 13.8 \times 10 = 138 $$

Step 2:$a$ 以外の合計を計算する

$13 + 14 + 14 + 15 + 14 + 13 + 13 + 13 + 14 = 123$

Step 3:$a$ を求める

合計が $138$ であるため、

$$ 123 + a = 138 $$

$$ a = 138 – 123 = 15 $$

解答

$$ a = 15 $$


  1. 【まとめ】
  • 平均値の定義式を「合計 = 平均 × 個数」に変形して使う。
  • 未知数は「全体の合計 − 既知の合計」で求める。



  1. Q3

  2. 【問題】

次の度数分布表から、平均値を求めよ。

階級値(点) 0 1 2 3 4 5
度数(人) 2 5 8 11 14 10 50

まずは、自分の力で解けるかチャレンジしてみましょう。 度数分布表からの平均値計算は、階級値×度数の合計が鍵です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【度数分布表から平均値を求める】階級値×度数の活用

導入

度数分布表では、各階級の代表値として「階級値」を使います。階級値×度数を足し合わせ、総度数で割ることで平均値を求めます。

使う武器(公式・定理)

$$ \text{平均値} = \frac{\sum \left( \text{階級値} \times \text{度数} \right)}{\text{総度数}} $$

思考のプロセス(Step by Step)

Step 1:階級値×度数を計算する

階級値 度数 階級値×度数
0 2 0
1 5 5
2 8 16
3 11 33
4 14 56
5 10 50
50 160

Step 2:平均値を求める

$$ \text{平均値} = \frac{160}{50} = 3.2 $$

解答

$$ \text{平均値} = 3.2 \text{(点)} $$


  1. 【まとめ】
  • 度数分布表の平均値は「階級値×度数」の合計を総度数で割る。
  • 表に「階級値×度数」の列を追加すると計算しやすい。



  1. Q4

  2. 【問題】

ある変量 $x$ について、データの値がすべて等しいとき、分散と標準偏差はいくらになるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 データに散らばりがないときの分散・標準偏差の性質を問う問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【データがすべて等しいときの分散・標準偏差】散らばりがないときの極限

導入

分散は「データの散らばり具合」を表す指標です。すべての値が同じなら、散らばりは $0$。分散の定義から、そのときの分散と標準偏差を考えます。

使う武器(公式・定理)

  1. 分散 $s^2 = \frac{1}{n} \sum_{i=1}^{n} \left( x_i – \bar{x} \right)^2$(偏差の2乗の平均)
  2. 標準偏差 $s = \sqrt{\text{分散}}$

データがすべて等しいとき、各 $x_i = \bar{x}$ なので、偏差 $x_i – \bar{x} = 0$ となる。

思考のプロセス(Step by Step)

Step 1:偏差を考える

データの値がすべて等しいとき、平均値 $\bar{x}$ もその値と一致する。

したがって、各データの偏差は $x_i – \bar{x} = 0$ となる。

Step 2:分散を求める

分散は偏差の2乗の平均なので、

$$ s^2 = \frac{1}{n} \sum_{i=1}^{n} 0^2 = 0 $$

Step 3:標準偏差を求める

$$ s = \sqrt{0} = 0 $$

解答

  • 分散:$0$
  • 標準偏差:$0$

  1. 【まとめ】
  • データに散らばりがなければ、分散も標準偏差も $0$。
  • 分散は「偏差の2乗の平均」なので、偏差がすべて $0$ なら分散も $0$。



  1. Q5

  2. 【問題】

次のデータの中央値として考えられる値は何通りあるか。

$$ 37, \quad 31, \quad 38, \quad 27, \quad 41, \quad 35, \quad 30, \quad a \quad \left( \text{単位は冊} \right) $$

ただし、$a$ は $0$ 以上の整数とする。

まずは、自分の力で解けるかチャレンジしてみましょう。 中央値が $a$ の値によってどう変わるかを考える問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【中央値のとりうる値の数】$a$ の範囲ごとに中央値を考える

導入

$8$ 個のデータの中央値は、小さい順に並べたときの $4$ 番目と $5$ 番目の平均です。$a$ が変わると並び順が変わり、中央にくる2つの値が変わる可能性があります。$a$ の範囲ごとに、中央値として現れる値を数えます。

使う武器(公式・定理)

  • $n$ 個のデータの中央値:$n$ が偶数のとき、$\frac{n}{2}$ 番目と $\frac{n}{2}+1$ 番目の平均
  • 本問では $8$ 個なので、$4$ 番目と $5$ 番目の平均

思考のプロセス(Step by Step)

Step 1:$a$ を除いた7つの値を並べる

$27, 30, 31, 35, 37, 38, 41$

Step 2:$a$ の位置で中央値がどう変わるか考える

$8$ 個の中央値は $4$ 番目と $5$ 番目の平均。$a$ がどこに入るかで、$4$ 番目・$5$ 番目が変わる。

$27 \leq 30 \leq 31 \leq 35 \leq 37 \leq 38 \leq 41$ の間に $a$ を挿入する。

  • $a \leq 27$ のとき:並びは $a, 27, 30, 31, 35, 37, 38, 41$ → 中央値 = $\frac{31+35}{2} = 33$
  • $27 < a \leq 30$ のとき:中央値 = $\frac{31+35}{2} = 33$
  • $30 < a \leq 31$ のとき:中央値 = $\frac{31+35}{2} = 33$
  • $31 < a \leq 35$ のとき:$a$ が $4$ 番目または $5$ 番目に入る。中央値 = $\frac{a+35}{2}$ または $\frac{31+a}{2}$ など、$a$ に依存
  • $35 < a \leq 37$ のとき:同様に $a$ に依存
  • $37 < a \leq 38$ のとき:中央値 = $\frac{35+37}{2} = 36$
  • $38 < a \leq 41$ のとき:中央値 = $\frac{35+37}{2} = 36$
  • $a > 41$ のとき:中央値 = $\frac{35+37}{2} = 36$

Step 3:中央値として現れる値を整理する

  • $33$($a \leq 31$ のとき)
  • $\frac{31+35}{2} = 33$、$\frac{a+31}{2}$、$\frac{a+35}{2}$、$\frac{35+a}{2}$、$\frac{37+a}{2}$ など、$31 < a \leq 38$ のときは $a$ によって様々な値
  • $36$($a \geq 38$ のとき)

$a$ は $0$ 以上の整数。$31 < a \leq 38$ のとき、$a = 32, 33, 34, 35, 36, 37, 38$ の $7$ 通り。

このとき中央値は $\frac{4\text{番目}+5\text{番目}}{2}$ で、$4$ 番目・$5$ 番目の組み合わせは:

  • $a \leq 30$:$(31, 35)$ → $33$
  • $31 \leq a \leq 35$:$(a, 35)$ または $(31, a)$ など → $\frac{a+35}{2}$ または $\frac{31+a}{2}$。$a = 32, 33, 34, 35$ で $33.5, 34, 34.5, 35$ など
  • $35 \leq a \leq 37$:$(35, a)$ または $(a, 37)$ など
  • $a \geq 38$:$(35, 37)$ → $36$

中央値として現れる異なる値を数える:

  • $33$($a \leq 31$)
  • $31 < a < 38$ のとき、$\frac{\text{小}+\text{大}}{2}$ の形で、$33.5, 34, 34.5, 35, 35.5, 36, 36.5$ など
  • $36$($a \geq 38$)

より丁寧に:$4$ 番目と $5$ 番目のペアは $(27,30), (30,31), (31,35), (35,37), (37,38), (38,41)$ の隣接ペアの間に $a$ が入ることで決まる。

$a$ の範囲と中央値:

  • $a \leq 30$:4番目=31, 5番目=35 → 33
  • $30 < a \leq 31$:4番目=31, 5番目=35 → 33
  • $31 < a \leq 35$:4番目=a, 5番目=35 または 31,a など。実際は $a, 31, 35, 37$ の並びで、$31 \leq a \leq 35$ なら 4番目=a, 5番目=35 → $\frac{a+35}{2}$
  • $35 < a \leq 37$:4番目=35, 5番目=a → $\frac{35+a}{2}$
  • $37 < a \leq 38$:4番目=35, 5番目=37 → 36
  • $a \geq 38$:4番目=35, 5番目=37 → 36

中央値として現れる値:

  • $33$($a \leq 31$)
  • $\frac{a+35}{2}$($31 < a \leq 35$)→ $a=32,33,34,35$ で $33.5, 34, 34.5, 35$
  • $\frac{35+a}{2}$($35 < a \leq 37$)→ $a=36,37$ で $35.5, 36$
  • $36$($a \geq 38$)

異なる値:$33, 33.5, 34, 34.5, 35, 35.5, 36$ の $7$ 通り。

ただし $a=35$ のとき $\frac{35+35}{2}=35$、$a=36$ のとき $\frac{35+36}{2}=35.5$、$a=37$ のとき $\frac{35+37}{2}=36$。$36$ は $a \geq 37$ でも出るので重複あり。

ユニークな中央値:$33, 33.5, 34, 34.5, 35, 35.5, 36$ → 7通り

解答

$$ 7 \text{ 通り} $$


  1. 【まとめ】
  • $a$ の値によって、小さい順の並びが変わり、中央値が変わる。
  • 範囲を区切って、中央にくる2つの値のペアを特定する。



  1. Q6

  2. 【問題】

次のデータの範囲(レンジ)と四分位範囲(IQR)を求めよ。

$$ 10, \quad 14, \quad 15, \quad 21, \quad 28, \quad 39, \quad 53, \quad 76, \quad 99 $$

まずは、自分の力で解けるかチャレンジしてみましょう。 データの散らばりを表す範囲と四分位範囲の求め方を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【範囲と四分位範囲】データの散らばりを測る2つの指標

導入

データの散らばり具合を表す指標として、範囲(レンジ)と四分位範囲(IQR)があります。範囲は最大値と最小値の差、四分位範囲は第3四分位数と第1四分位数の差です。

使う武器(公式・定理)

  1. 範囲(レンジ) = 最大値 − 最小値
  2. 四分位範囲(IQR) = 第3四分位数 $Q_3$ − 第1四分位数 $Q_1$
  3. 第1四分位数:データを小さい順に並べたとき、下から $\frac{1}{4}$ の位置の値
  4. 第3四分位数:データを小さい順に並べたとき、下から $\frac{3}{4}$ の位置の値

思考のプロセス(Step by Step)

Step 1:データを小さい順に並べる

すでに並んでいる:$10, 14, 15, 21, 28, 39, 53, 76, 99$

Step 2:範囲を求める

$$ \text{範囲} = 99 – 10 = 89 $$

Step 3:四分位数を求める

$9$ 個のデータ。第1四分位数は下から $2.25$ 番目付近、第3四分位数は下から $6.75$ 番目付近。

四分位数の求め方(1つ目の方法:中央値の中央値):

  • 中央値(5番目)= $28$
  • 下半分:$10, 14, 15, 21$ の中央値 = $\frac{14+15}{2} = 14.5$ → $Q_1$
  • 上半分:$39, 53, 76, 99$ の中央値 = $\frac{53+76}{2} = 64.5$ → $Q_3$

四分位数の求め方(別の定義):$n=9$ のとき、$Q_1$ は $\frac{n+1}{4} = 2.5$ 番目、$Q_3$ は $\frac{3(n+1)}{4} = 7.5$ 番目。2番目と3番目の平均、7番目と8番目の平均など、定義によって異なる。

一般的な定義(データを4等分):$Q_1$ は下から25%の位置。$9$ 個なら $2.25$ 番目。線形補間で $15 + 0.25 \times (21-15) = 16.5$ など。問題によって定義が異なる場合がある。

シンプルに:下半分の中央値 = $14, 15$ の平均 = $14.5$、上半分の中央値 = $53, 76$ の平均 = $64.5$ とする。

$$ \text{IQR} = 64.5 – 14.5 = 50 $$

解答

  • 範囲(レンジ):$89$
  • 四分位範囲(IQR):$50$

  1. 【まとめ】
  • 範囲は最大値と最小値の差で、外れ値の影響を受けやすい。
  • 四分位範囲は中央 $50\%$ のデータの幅で、外れ値に頑健。



  1. Q7

  2. 【問題】

$100$ 人の生徒の身長データにおいて、第1四分位数が $155$ cm、第3四分位数が $165$ cmであった。このとき、四分位偏差はいくらか。

まずは、自分の力で解けるかチャレンジしてみましょう。 四分位偏差の定義を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【四分位偏差】四分位範囲の半分を理解する

導入

四分位偏差は、四分位範囲(IQR)の半分です。中央 $50\%$ のデータの幅の「中心からの距離」を表す指標として使われます。

使う武器(公式・定理)

$$ \text{四分位偏差} = \frac{Q_3 – Q_1}{2} = \frac{\text{IQR}}{2} $$

$Q_1$:第1四分位数、$Q_3$:第3四分位数

思考のプロセス(Step by Step)

Step 1:四分位範囲を求める

$$ \text{IQR} = Q_3 – Q_1 = 165 – 155 = 10 $$

Step 2:四分位偏差を求める

$$ \text{四分位偏差} = \frac{10}{2} = 5 $$

解答

$$ \text{四分位偏差} = 5 \text{(cm)} $$


  1. 【まとめ】
  • 四分位偏差は四分位範囲の半分。
  • $Q_1$ と $Q_3$ がわかれば、$\frac{Q_3 – Q_1}{2}$ で求まる。



  1. Q8

  2. 【問題】

箱ひげ図において、箱の左端、中央の線、右端が表す統計量はそれぞれ何か。

まずは、自分の力で解けるかチャレンジしてみましょう。 箱ひげ図の読み取りの基本を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【箱ひげ図の読み取り】箱の各部分が表す統計量

導入

箱ひげ図は、データの分布を視覚的に表すグラフです。箱の左端・中央の線・右端がそれぞれどの統計量に対応するかを理解することが、読み取りの第一歩です。

使う武器(公式・定理)

箱ひげ図の構成:

  • 箱の左端:第1四分位数 $Q_1$
  • 箱の中央の線:中央値(メディアン)
  • 箱の右端:第3四分位数 $Q_3$
  • ひげ:最小値・最大値(または外れ値を除いた範囲)

思考のプロセス(Step by Step)

箱ひげ図では、データを小さい順に並べたときの「四分位数」と「中央値」が箱で表現されます。

  • 箱の左端 = 下から $25\%$ の位置 = 第1四分位数 $Q_1$
  • 箱の中央 = 下から $50\%$ の位置 = 中央値
  • 箱の右端 = 下から $75\%$ の位置 = 第3四分位数 $Q_3$

解答

  • 箱の左端:第1四分位数($Q_1$)
  • 箱の中央の線:中央値(メディアン)
  • 箱の右端:第3四分位数($Q_3$)

  1. 【まとめ】
  • 箱ひげ図の箱は、$Q_1$・中央値・$Q_3$ の3本の線で区切られている。
  • 左から順に「25%の位置」「50%の位置」「75%の位置」と覚えるとよい。



  1. Q9

  2. 【問題】

次のデータの分散と標準偏差を求めよ。

$$ 5, \quad 6, \quad 5, \quad 5, \quad 8 $$

まずは、自分の力で解けるかチャレンジしてみましょう。 分散と標準偏差の基本計算を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【分散と標準偏差】偏差の2乗の平均から求める

導入

分散は「データの散らばり具合」を数値化した指標です。偏差(各値と平均の差)の2乗の平均が分散、その平方根が標準偏差です。

使う武器(公式・定理)

  1. 平均値 $\bar{x} = \frac{1}{n} \sum x_i$
  2. 分散 $s^2 = \frac{1}{n} \sum \left( x_i – \bar{x} \right)^2$(偏差の2乗の平均)
  3. 標準偏差 $s = \sqrt{s^2}$

思考のプロセス(Step by Step)

Step 1:平均値を求める

$$ \bar{x} = \frac{5 + 6 + 5 + 5 + 8}{5} = \frac{29}{5} = 5.8 $$

Step 2:各データの偏差を求める

$5 – 5.8 = -0.8$、$6 – 5.8 = 0.2$、$5 – 5.8 = -0.8$、$5 – 5.8 = -0.8$、$8 – 5.8 = 2.2$

Step 3:偏差の2乗の平均(分散)を求める

$$ s^2 = \frac{(-0.8)^2 + (0.2)^2 + (-0.8)^2 + (-0.8)^2 + (2.2)^2}{5} $$

$$ = \frac{0.64 + 0.04 + 0.64 + 0.64 + 4.84}{5} = \frac{6.8}{5} = 1.36 $$

Step 4:標準偏差を求める

$$ s = \sqrt{1.36} = 1.166… $$

$\sqrt{1.36} = \sqrt{\frac{34}{25}} = \frac{\sqrt{34}}{5} \approx 1.17$

解答

  • 分散:$s^2 = 1.36$
  • 標準偏差:$s = \sqrt{1.36} \approx 1.17$(または $\frac{\sqrt{34}}{5}$)

  1. 【まとめ】
  • 分散 = 偏差の2乗の平均。
  • 標準偏差 = 分散の平方根。単位が元のデータと同じになる。



  1. Q10

  2. 【問題】

変量 $x$ の平均値が $60$、分散が $36$ であるとする。新しい変量 $y = x – 15$ とするとき、$y$ の平均値と分散を求めよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 変量の変換(平行移動)による平均・分散の変化を問う問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【変量の変換】平行移動による平均・分散の変化

導入

変量を $y = x + c$ のように定数だけ加える変換(平行移動)をすると、平均値は $c$ だけ変化しますが、分散は変化しません。散らばり具合は変わらないからです。

使う武器(公式・定理)

  1. $y = x + c$ のとき

    • $\bar{y} = \bar{x} + c$
    • $s_y^2 = s_x^2$(分散は不変)
  2. 理由:偏差 $y_i – \bar{y} = (x_i + c) – (\bar{x} + c) = x_i – \bar{x}$ なので、偏差は変わらない。したがって分散も変わらない。

思考のプロセス(Step by Step)

Step 1:$y$ の平均値を求める

$y = x – 15$ は $y = x + (-15)$ とみなせる。

$$ \bar{y} = \bar{x} + (-15) = 60 – 15 = 45 $$

Step 2:$y$ の分散を求める

定数を加えるだけの変換では、分散は変化しない。

$$ s_y^2 = s_x^2 = 36 $$

解答

  • $y$ の平均値:$45$
  • $y$ の分散:$36$

  1. 【まとめ】
  • 定数を加える変換では、平均値は同じだけ変化し、分散は変わらない。
  • 「散らばり具合」は平行移動では変わらない、と理解するとよい。



  1. Q11

  2. 【問題】

変量 $x$ の平均値が $50$、標準偏差が $10$ であるとする。新しい変量 $y = 2x + 10$ とするとき、$y$ の平均値と標準偏差を求めよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 変量の変換(拡大・平行移動)による平均・標準偏差の変化を問う問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【変量の変換】$y = ax + b$ のときの平均・標準偏差

導入

変量を $y = ax + b$ のように変換すると、平均値は $\bar{y} = a\bar{x} + b$、標準偏差は $s_y = |a| s_x$ となります。定数 $b$ は分散・標準偏差に影響しません。

使う武器(公式・定理)

  1. $y = ax + b$ のとき

    • $\bar{y} = a\bar{x} + b$
    • $s_y = |a| s_x$(標準偏差は係数の絶対値倍)
  2. 理由:偏差 $y_i – \bar{y} = a(x_i – \bar{x})$ なので、偏差は $a$ 倍。分散は偏差の2乗の平均なので $a^2$ 倍。標準偏差は $\sqrt{a^2} = |a|$ 倍。

思考のプロセス(Step by Step)

Step 1:$y$ の平均値を求める

$a = 2$、$b = 10$ より、

$$ \bar{y} = 2 \times 50 + 10 = 100 + 10 = 110 $$

Step 2:$y$ の標準偏差を求める

$$ s_y = |2| \times s_x = 2 \times 10 = 20 $$

解答

  • $y$ の平均値:$110$
  • $y$ の標準偏差:$20$


  1. 【まとめ】
  • 平均値は $a\bar{x} + b$、標準偏差は $|a| s_x$。
  • 定数 $b$ は標準偏差に影響しない。



  1. Q12

  2. 【問題】

データの修正問題。$6$ 人のデータがあり、計算した平均値は $14$、分散はある値であった。しかし、データの一部に誤りがあり、正しくは「$18$ が $17$」「$9$ が $10$」であった。修正後、平均値と分散はそれぞれ「増加・減少・不変」のどれになるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 データの修正による平均・分散の変化を論理的に考える問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【データの修正】誤りを直したときの平均・分散の変化

導入

データの一部を修正すると、平均値と分散がどう変化するかを考えます。「$18 \to 17$」は $1$ 減、「$9 \to 10$」は $1$ 増なので、合計は変わらないように見えますが、分散はどうなるでしょうか。

使う武器(公式・定理)

  1. 平均値 = 合計 ÷ 個数 → 合計が変わらなければ平均も不変
  2. 分散 = 偏差の2乗の平均 → 各値が平均に近づくと分散は減少、遠ざかると増加

思考のプロセス(Step by Step)

Step 1:合計の変化を考える

修正前:$18$ と $9$ があった。 修正後:$17$ と $10$ になる。

$18 + 9 = 27$、$17 + 10 = 27$ なので、合計は変わらない。

Step 2:平均値の変化

合計が不変、個数も不変なので、平均値は不変

Step 3:分散の変化を考える

分散は「平均からの距離の2乗の平均」です。

修正前:$18$ は平均 $14$ から $+4$、$9$ は平均 $14$ から $-5$。 修正後:$17$ は平均 $14$ から $+3$、$10$ は平均 $14$ から $-4$。

$18 \to 17$:平均からの距離が $4 \to 3$ に近づく(偏差の絶対値が減少) $9 \to 10$:平均からの距離が $5 \to 4$ に近づく(偏差の絶対値が減少)

両方とも平均に近づいているので、偏差の2乗の和は減少。したがって分散は減少

解答

  • 平均値:不変
  • 分散:減少

  1. 【まとめ】
  • 合計が変わらなければ平均は不変。
  • 各値が平均に近づく修正では、分散は減少する。



  1. Q13

  2. 【問題】

2つのグループの統合。 Aグループ($10$ 人):平均 $70$ 点 Bグループ($20$ 人):平均 $60$ 点 このとき、全体の平均点を求めよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 2つのグループを統合したときの平均の求め方を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【2つのグループの統合】加重平均で全体の平均を求める

導入

人数の異なる2つのグループを統合したときの平均は、「合計 ÷ 総人数」で求めます。各グループの合計を足し合わせ、総人数で割る考え方です。

使う武器(公式・定理)

$$ \text{全体の平均} = \frac{\text{全体の合計}}{\text{総人数}} = \frac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B} $$

$n_A$:Aグループの人数、$\bar{x}_A$:Aグループの平均、同様にBグループ

思考のプロセス(Step by Step)

Step 1:各グループの合計を求める

Aグループ:$10 \times 70 = 700$ 点 Bグループ:$20 \times 60 = 1200$ 点

Step 2:全体の合計と総人数

全体の合計 = $700 + 1200 = 1900$ 点 総人数 = $10 + 20 = 30$ 人

Step 3:全体の平均を求める

$$ \text{全体の平均} = \frac{1900}{30} = \frac{190}{3} \approx 63.3 $$

解答

$$ \text{全体の平均} = \frac{190}{3} \approx 63.3 \text{(点)} $$


  1. 【まとめ】
  • 全体の平均 = 全体の合計 ÷ 総人数。
  • 各グループの「人数×平均」を足すと全体の合計になる。



  1. Q14

  2. 【問題】

2つのグループの統合(分散)。 Aグループ($8$ 個):平均 $3$、分散 $4$ Bグループ($12$ 個):平均 $8$、分散 $9$ このとき、全体の分散を求める手順を式で示せ(計算不要)。

まずは、自分の力で解けるかチャレンジしてみましょう。 2つのグループを統合したときの分散の求め方を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【2つのグループの統合】全体の分散を求める手順

導入

2つのグループを統合したときの分散は、「(2乗の平均) − (平均の2乗)」の公式を使います。全体の平均と、全体の2乗の平均を求め、その差が分散になります。

使う武器(公式・定理)

  1. 分散の公式:$s^2 = \overline{x^2} – \left( \bar{x} \right)^2$(2乗の平均 − 平均の2乗)

  2. 全体の平均:$\bar{x} = \frac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B}$

  3. 全体の2乗の平均:$\overline{x^2} = \frac{n_A \left( s_A^2 + \bar{x}_A^2 \right) + n_B \left( s_B^2 + \bar{x}_B^2 \right)}{n_A + n_B}$

    ($s^2 = \overline{x^2} – \bar{x}^2$ より $\overline{x^2} = s^2 + \bar{x}^2$ を用いる)

  4. 全体の分散:$s^2 = \overline{x^2} – \left( \bar{x} \right)^2$

思考のプロセス(Step by Step)

Step 1:全体の平均 $\bar{x}$ を求める

$$ \bar{x} = \frac{8 \times 3 + 12 \times 8}{8 + 12} = \frac{24 + 96}{20} = \frac{120}{20} = 6 $$

Step 2:各グループの2乗の平均を求める

$s^2 = \overline{x^2} – \bar{x}^2$ より $\overline{x^2} = s^2 + \bar{x}^2$

Aグループ:$\overline{x_A^2} = 4 + 3^2 = 4 + 9 = 13$ Bグループ:$\overline{x_B^2} = 9 + 8^2 = 9 + 64 = 73$

Step 3:全体の2乗の平均 $\overline{x^2}$ を求める

$$ \overline{x^2} = \frac{8 \times 13 + 12 \times 73}{20} = \frac{104 + 876}{20} = \frac{980}{20} = 49 $$

Step 4:全体の分散を求める

$$ s^2 = \overline{x^2} – \left( \bar{x} \right)^2 = 49 – 6^2 = 49 – 36 = 13 $$

解答(手順のみ)

  1. 全体の平均 $\bar{x} = \frac{n_A \bar{x}_A + n_B \bar{x}_B}{n_A + n_B}$ を求める。
  2. 各グループの2乗の平均 $\overline{x^2} = s^2 + \bar{x}^2$ を求める。
  3. 全体の2乗の平均 $\overline{x^2} = \frac{n_A \overline{x_A^2} + n_B \overline{x_B^2}}{n_A + n_B}$ を求める。
  4. 全体の分散 $s^2 = \overline{x^2} – \left( \bar{x} \right)^2$ を求める。

  1. 【まとめ】
  • 全体の分散は「全体の2乗の平均 − 全体の平均の2乗」で求める。
  • 各グループの2乗の平均は $s^2 + \bar{x}^2$ で求まる。



  1. Q15

  2. 【問題】

次のデータから、分散を「(2乗の平均) − (平均の2乗)」の公式を用いて求めよ。

$$ 1, \quad 3, \quad 5, \quad 7, \quad 9 $$

まずは、自分の力で解けるかチャレンジしてみましょう。 分散の別公式の使い方を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【分散の別公式】(2乗の平均) − (平均の2乗) で求める

導入

分散は「偏差の2乗の平均」で求めるのが基本ですが、「(2乗の平均) − (平均の2乗)」という別の公式もあります。計算が楽になる場合があるので、使いこなせると便利です。

使う武器(公式・定理)

$$ s^2 = \overline{x^2} – \left( \bar{x} \right)^2 $$

$\overline{x^2}$:各データの2乗の平均、$\bar{x}$:平均値

思考のプロセス(Step by Step)

Step 1:平均値を求める

$$ \bar{x} = \frac{1 + 3 + 5 + 7 + 9}{5} = \frac{25}{5} = 5 $$

Step 2:2乗の平均を求める

各データの2乗:$1^2, 3^2, 5^2, 7^2, 9^2 = 1, 9, 25, 49, 81$

$$ \overline{x^2} = \frac{1 + 9 + 25 + 49 + 81}{5} = \frac{165}{5} = 33 $$

Step 3:分散を求める

$$ s^2 = \overline{x^2} – \left( \bar{x} \right)^2 = 33 – 5^2 = 33 – 25 = 8 $$

解答

$$ s^2 = 8 $$


  1. 【まとめ】
  • 分散 = (2乗の平均) − (平均の2乗)。
  • 平均と2乗の平均がわかれば、偏差を計算せずに分散を求められる。



  1. Q16

  2. 【問題】

変量 $x$ を標準化($z$ 得点化)する以下の式について、

$$ z = \frac{x – \bar{x}}{s_x} $$

$z$ の平均値と標準偏差は必ずいくつになるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 標準化の性質を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【標準化($z$ 得点)】平均0・標準偏差1になる理由

導入

標準化とは、データを「平均 $0$、標準偏差 $1$」に変換することです。$z = \frac{x – \bar{x}}{s_x}$ という変換をすると、$z$ の平均は必ず $0$、標準偏差は必ず $1$ になります。

使う武器(公式・定理)

  1. 標準化の式:$z = \frac{x – \bar{x}}{s_x}$

  2. 性質:標準化した変量 $z$ は、平均が $0$、標準偏差が $1$ になる。

  3. 理由

    • 平均:$z$ は偏差 $\left( x – \bar{x} \right)$ を $s_x$ で割ったもの。偏差の平均は常に $0$ なので、$z$ の平均も $0$。
    • 標準偏差:偏差を $s_x$ で割ると、標準偏差は $\frac{s_x}{s_x} = 1$ になる。

思考のプロセス(Step by Step)

Step 1:$z$ の平均を考える

$z_i = \frac{x_i – \bar{x}}{s_x}$ より、

$$ \bar{z} = \frac{1}{n} \sum z_i = \frac{1}{n} \sum \frac{x_i – \bar{x}}{s_x} = \frac{1}{s_x} \cdot \frac{1}{n} \sum \left( x_i – \bar{x} \right) $$

偏差の和 $\sum \left( x_i – \bar{x} \right) = 0$ なので、$\bar{z} = 0$。

Step 2:$z$ の標準偏差を考える

$z$ の偏差は $z_i – \bar{z} = z_i – 0 = z_i = \frac{x_i – \bar{x}}{s_x}$。

$z$ の分散は、$x$ の分散を $s_x^2$ で割ったものになる。$s_z^2 = \frac{s_x^2}{s_x^2} = 1$。

したがって $s_z = 1$。

解答

  • $z$ の平均値:$0$
  • $z$ の標準偏差:$1$

  1. 【まとめ】
  • 標準化すると、平均は必ず $0$、標準偏差は必ず $1$ になる。
  • 偏差値の計算など、異なる尺度のデータを比較するときに使われる。



  1. Q17

  2. 【問題】

数値 $a, b, c$ の平均値が $14$、分散が $64$ であるとき、$a^2 + b^2 + c^2$ の値を求めよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 分散の別公式から2乗の和を求める問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【2乗の和】分散の公式から $a^2 + b^2 + c^2$ を求める

導入

分散の公式 $s^2 = \overline{x^2} – \left( \bar{x} \right)^2$ を変形すると、$\overline{x^2} = s^2 + \left( \bar{x} \right)^2$ となります。これを用いて、$a^2 + b^2 + c^2$ を求めます。

使う武器(公式・定理)

  1. 分散の公式:$s^2 = \overline{x^2} – \left( \bar{x} \right)^2$

  2. 変形:$\overline{x^2} = s^2 + \left( \bar{x} \right)^2$

  3. 2乗の和:$\sum x_i^2 = n \cdot \overline{x^2}$

思考のプロセス(Step by Step)

Step 1:2乗の平均を求める

$\overline{x^2} = s^2 + \left( \bar{x} \right)^2 = 64 + 14^2 = 64 + 196 = 260$

Step 2:2乗の和を求める

$n = 3$ なので、

$$ a^2 + b^2 + c^2 = 3 \times 260 = 780 $$

解答

$$ a^2 + b^2 + c^2 = 780 $$


  1. 【まとめ】
  • $\overline{x^2} = s^2 + \left( \bar{x} \right)^2$ から2乗の平均を求める。
  • 2乗の和 = 個数 × 2乗の平均。



  1. Q18

  2. 【問題】

偏差の和が常に $0$ になることを、以下の式変形を用いて証明せよ。

$$ \sum_{i=1}^{n} \left( x_i – \bar{x} \right) = 0 $$

まずは、自分の力で解けるかチャレンジしてみましょう。 統計学の基本性質であり、分散や標準偏差の理解の土台となる重要な証明です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【偏差の和が0になる証明】統計学の基本性質をシグマ記号で理解する

導入

偏差とは、各データの値から平均値を引いたものです。この偏差の合計は、どんなデータでも必ず $0$ になります。なぜでしょうか。平均値の定義とシグマ記号の性質を使って証明します。

使う武器(公式・定理)

  1. シグマ記号の分配法則:$\sum_{i=1}^{n} \left( a_i – bi \right) = \sum{i=1}^{n} ai – \sum{i=1}^{n} b_i$

  2. 定数のシグマ:$\sum_{i=1}^{n} c = nc$($c$ は $i$ に依存しない定数)

  3. 平均値の定義:$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} xi$ より、$\sum{i=1}^{n} x_i = n\bar{x}$

思考のプロセス(Step by Step)

Step 1:左辺を展開する

$$ \sum_{i=1}^{n} \left( xi – \bar{x} \right) = \sum{i=1}^{n} xi – \sum{i=1}^{n} \bar{x} $$

Step 2:定数 $\bar{x}$ のシグマを処理する

$\bar{x}$ は $i$ に依存しない定数なので、

$$ \sum_{i=1}^{n} \bar{x} = n\bar{x} $$

Step 3:平均の定義を代入する

$\sum_{i=1}^{n} x_i = n\bar{x}$ より、

$$ \sum_{i=1}^{n} x_i – n\bar{x} = n\bar{x} – n\bar{x} = 0 $$

解答

平均値の定義より、$\sum_{i=1}^{n} x_i = n\bar{x}$ である。

これを用いると、

$$ \sum_{i=1}^{n} \left( xi – \bar{x} \right) = \sum{i=1}^{n} xi – \sum{i=1}^{n} \bar{x} = n\bar{x} – n\bar{x} = 0 $$

となり、偏差の和が常に $0$ になることが示された。


  1. 【まとめ】
  • 偏差の和は、データの値に関わらず常に $0$ になる。
  • 平均値 $\bar{x}$ は、シグマ計算の中では定数として扱う。



  1. Q19

  2. 【問題】

次の $x, y$ のデータについて、共分散 $s_{xy}$ を求めよ。

$$ (x, y) = (2, 3), \ (4, 5), \ (6, 7), \ (8, 9), \ (10, 11) $$

まずは、自分の力で解けるかチャレンジしてみましょう。 共分散の基本計算を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【共分散】偏差の積の平均から求める

導入

共分散は、2つの変量 $x$ と $y$ の「直線的な関係の強さ」を表す指標です。偏差の積の平均として定義され、正の値なら正の相関、負の値なら負の相関を示します。

使う武器(公式・定理)

$$ s{xy} = \frac{1}{n} \sum{i=1}^{n} \left( x_i – \bar{x} \right) \left( y_i – \bar{y} \right) $$

偏差の積の平均。

思考のプロセス(Step by Step)

Step 1:$x$ と $y$ の平均を求める

$\bar{x} = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6$

$\bar{y} = \frac{3 + 5 + 7 + 9 + 11}{5} = \frac{35}{5} = 7$

Step 2:各ペアの偏差を求める

$x_i$ $y_i$ $x_i – \bar{x}$ $y_i – \bar{y}$ $(x_i – \bar{x})(y_i – \bar{y})$
2 3 -4 -4 16
4 5 -2 -2 4
6 7 0 0 0
8 9 2 2 4
10 11 4 4 16

Step 3:共分散を求める

$$ s_{xy} = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8 $$

解答

$$ s_{xy} = 8 $$


  1. 【まとめ】
  • 共分散 = 偏差の積の平均。
  • $x$ が増えると $y$ も増える傾向なら共分散は正。



  1. Q20

  2. 【問題】

あるデータの相関係数が $r = -0.85$ であった。このとき、散布図の点の分布はどのような傾向を示すか(右上がり/右下がり、強い/弱い)。

まずは、自分の力で解けるかチャレンジしてみましょう。 相関係数から散布図の傾向を読み取る問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【相関係数と散布図】$r = -0.85$ の意味

導入

相関係数 $r$ は、2つの変量の「直線的な関係の強さと向き」を表します。$r$ の符号で向き(右上がり/右下がり)、絶対値で強さ(強い/弱い)がわかります。

使う武器(公式・定理)

  1. 相関係数 $r$ の性質

    • $r > 0$:正の相関(右上がり)
    • $r < 0$:負の相関(右下がり)
    • $|r|$ が $1$ に近いほど強い相関、$0$ に近いほど弱い相関
  2. 目安:$|r| \geq 0.7$ 程度で「強い」、$|r| \leq 0.3$ 程度で「弱い」とされることが多い。

思考のプロセス(Step by Step)

Step 1:符号を確認する

$r = -0.85 < 0$ なので、負の相関。散布図では右下がりの傾向。

Step 2:絶対値を確認する

$|r| = 0.85$ は $1$ に近いので、強い相関。

解答

右下がりで、強い負の相関を示す。



  1. 【まとめ】
  • 相関係数 $r$ の符号で向き、絶対値で強さがわかる。
  • $r = -0.85$ は、右下がりで強い負の相関。



  1. Q21

  2. 【問題】

変量 $x$ の標準偏差が $5$、変量 $y$ の標準偏差が $4$、$x$ と $y$ の共分散が $12$ であるとき、相関係数 $r$ を求めよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 相関係数の基本計算を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【相関係数】共分散と標準偏差から求める

導入

相関係数 $r$ は、共分散を $x$ と $y$ の標準偏差の積で割った値です。公式に当てはめるだけで求められます。

使う武器(公式・定理)

$$ r = \frac{s_{xy}}{s_x s_y} $$

$s_{xy}$:共分散、$s_x$:$x$ の標準偏差、$s_y$:$y$ の標準偏差

思考のプロセス(Step by Step)

公式 $r = \frac{s_{xy}}{s_x s_y}$ に与えられた数値を代入する。

$$ r = \frac{12}{5 \times 4} = \frac{12}{20} = 0.6 $$

解答

$$ r = 0.6 $$


  1. 【まとめ】
  • 相関係数 = 共分散 ÷ ($x$ の標準偏差 × $y$ の標準偏差)。
  • 公式に代入するだけの典型問題なので、確実に押さえておきたい。



  1. Q22

  2. 【問題】

相関係数が $0$ であることは、$x$ と $y$ の間に「何の関係もない」ことを意味するか。(ヒント:非線形の関係)

まずは、自分の力で解けるかチャレンジしてみましょう。 相関係数の限界を理解する重要な概念問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【相関係数0の意味】無相関と「関係なし」は同じか

導入

相関係数が $0$ のとき「無相関」といいます。しかし、無相関は「何の関係もない」ことを意味するのでしょうか。ヒントにある「非線形の関係」を考えると、答えが見えてきます。

使う武器(公式・定理)

  1. 相関係数は「直線的な関係」の強さを表す指標。
  2. 曲線的な関係(非線形)は、相関係数では捉えられない。
  3. 例:$y = x^2$ のような放物線の関係では、相関係数が $0$ になることがある。

思考のプロセス(Step by Step)

相関係数が $0$ であることは、「直線的な関係がない」ことを意味します。

しかし、$x$ と $y$ の間に曲線的な関係(非線形の関係)がある場合でも、相関係数が $0$ になることがあります。

例えば、$y = x^2$ のような放物線の関係では、$x$ が増えても $y$ が一方向に増えるわけではなく、相関係数が $0$ に近くなることがあります。

したがって、相関係数が $0$ だからといって「何の関係もない」とは言えません。

解答

意味しない。 相関係数は直線的な関係を測る指標であり、二次関数的な関係(非線形な関係)がある場合でも相関係数が $0$ になることがあるから。


  1. 【まとめ】
  • 相関係数 $0$ = 直線的な関係がない、であって「何の関係もない」ではない。
  • 非線形の関係が隠れている可能性がある。



  1. Q23

  2. 【問題】

変量 $x, y$ の相関係数が $0.6$ であるとき、$x$ を $2$ 倍、$y$ を $-3$ 倍した新しい変量 $x’, y’$ の相関係数はいくらになるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 変量変換による相関係数の変化を問う問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【変量変換と相関係数】係数の符号で相関係数が反転する

導入

変量を $x’ = ax$、$y’ = cy$ のように変換したとき、相関係数は係数の積 $ac$ の符号によって決まります。$ac > 0$ なら符号はそのまま、$ac < 0$ なら符号が反転します。

使う武器(公式・定理)

変量変換 $x’ = ax$、$y’ = cy$ のとき:

  • $ac > 0$(同符号)のとき:$r’ = r$
  • $ac < 0$(異符号)のとき:$r' = -r$

相関係数は「関係の向き」を表すので、一方の符号を反転させると相関係数の符号も反転する。

思考のプロセス(Step by Step)

$x’ = 2x$、$y’ = -3y$ という変換を考える。

$x$ の係数は $2$(正)、$y$ の係数は $-3$(負)。

係数の積は $2 \times (-3) = -6$ となり、

一方が増えたときにもう一方が減るという「向き」が逆転するため、相関係数の符号が反転する。

したがって、$r’ = -0.6$ となる。

解答

$$ r’ = -0.6 $$


  1. 【まとめ】
  • 変量を倍にするとき、掛ける数の符号の積が負なら相関係数の符号は反転する。
  • 定数を加えるだけの変換では相関係数は変わらない。



  1. Q24

  2. 【問題】

次の文章は正しいか。 「数学の点数と50m走のタイムには強い負の相関がある。したがって、50m走の練習をすれば数学の点数が上がると言える。」

まずは、自分の力で解けるかチャレンジしてみましょう。 相関と因果の違いを理解する重要な概念問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【相関と因果】相関があるから因果関係があるとは言えない

導入

「相関がある」ことと「因果関係がある」ことは別物です。数学の点数が高い人ほど50m走が速い(負の相関)としても、50m走の練習が数学の点数を上げるとは限りません。

使う武器(公式・定理)

  1. 相関:2つの変量の間に直線的な関係があること。
  2. 因果:一方が他方の原因であること。
  3. 相関 ≠ 因果:相関があっても、因果関係があるとは限らない。
  4. 第3の変数:両方に影響する別の要因(例:運動習慣、生活リズム)が隠れている可能性がある。

思考のプロセス(Step by Step)

数学の点数と50m走のタイムに負の相関があるとしても、それは「数学が得意な人ほど走るのが速い傾向がある」という相関を示しているだけです。

「50m走の練習をすれば数学の点数が上がる」というのは因果関係を主張しています。

相関があるからといって因果関係があるとは言えません。例えば、運動習慣や生活リズムが両方に影響している可能性があります。

したがって、この文章は正しくない

解答

正しくない。 相関があることと因果関係があることは別であり、負の相関があるからといって「50m走の練習をすれば数学の点数が上がる」とは言えないから。


  1. 【まとめ】
  • 相関 ≠ 因果。相関があるからといって、一方が他方の原因とは限らない。
  • 「〜すれば〜になる」という因果の主張には、相関だけでは不十分。



  1. Q25

  2. 【問題】

散布図において、ある1点が全体から大きく離れている(外れ値)。この点を除外すると、相関係数の絶対値は一般にどう変化するか。

まずは、自分の力で解けるかチャレンジしてみましょう。 外れ値が相関係数に与える影響を考える問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【外れ値と相関係数】除外すると絶対値はどうなるか

導入

外れ値は、相関係数に大きな影響を与えることがあります。外れ値を除外すると、相関係数の絶対値は一般にどう変化するでしょうか。外れ値の位置によって異なりますが、典型的な傾向を考えます。

使う武器(公式・定理)

  1. 相関係数は、すべての点の位置によって決まる。
  2. 外れ値が直線的な傾向から外れている場合、その点は相関係数を「弱める」方向に働くことが多い。
  3. 外れ値を除外すると、残りの点の直線的な傾向がよりはっきりし、相関係数の絶対値は大きくなることが多い

思考のプロセス(Step by Step)

外れ値が「全体の直線的な傾向から外れた位置」にある場合を考える。

例えば、右上がりの傾向があるデータに、左下に1点だけ離れた外れ値があるとする。この外れ値は、直線的な傾向を乱し、相関係数を $1$ から遠ざける方向に働く。

外れ値を除外すると、残りの点はより直線に近く並ぶため、相関係数の絶対値は大きくなる($1$ に近づく)ことが多い。

一方、外れ値がたまたま直線の延長上にある場合は、除外すると相関係数が小さくなることもある。しかし「一般に」という問いに対しては、外れ値は傾向を乱すことが多いので、除外すると絶対値は大きくなると答えるのが適切。

解答

大きくなる($1$ に近づく)ことが多い。外れ値は直線的な傾向を乱すことが多く、除外すると残りの点の直線的な関係がよりはっきりするため。



  1. 【まとめ】
  • 外れ値は相関係数に大きな影響を与える。
  • 傾向を乱す外れ値を除外すると、相関係数の絶対値は一般に大きくなる。



  1. Q26

  2. 【問題】

公正なコインを $10$ 回投げて $8$ 回表が出た。「このコインは表が出やすい」と判断してよいか。有意水準 $0.05$ とし、以下の確率を用いよ。

$$ P(X \geqq 8) = 0.055 $$

まずは、自分の力で解けるかチャレンジしてみましょう。 仮説検定の基本を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【仮説検定】有意水準と棄却の判断

導入

「公正なコイン」を仮定したとき、$10$ 回中 $8$ 回以上表が出る確率がどれくらいかを考えます。この確率が有意水準より大きいか小さいかで、仮説を棄却するかどうかを判断します。

使う武器(公式・定理)

  1. 帰無仮説:コインは公正である(表が出る確率 $p = 0.5$)
  2. 有意水準 $\alpha = 0.05$:帰無仮説を棄却する基準
  3. 判断の基準:$P(X \geqq 8)$ が $\alpha$ より大きければ、偶然でも起こりうる範囲と判断し、帰無仮説は棄却しない。

思考のプロセス(Step by Step)

Step 1:与えられた確率を確認する

$P(X \geqq 8) = 0.055$

Step 2:有意水準と比較する

有意水準 $\alpha = 0.05$ である。

$P(X \geqq 8) = 0.055 > 0.05 = \alpha$

Step 3:判断する

$P(X \geqq 8)$ が有意水準 $0.05$ より大きいので、「公正なコインでも $8$ 回以上表が出ることは、$5\%$ 以上の確率で起こりうる」と判断できる。

したがって、帰無仮説(コインは公正)を棄却するには不十分。つまり、「このコインは表が出やすい」と判断することはできない

解答

判断してよいとは言えない。 $P(X \geqq 8) = 0.055$ は有意水準 $0.05$ より大きいため、公正なコインでも $8$ 回以上表が出ることは十分起こりうる。したがって、「表が出やすい」と結論づけるには不十分である。


  1. 【まとめ】
  • $p$ 値 $>$ 有意水準 → 帰無仮説は棄却しない。
  • 「偶然でも起こりうる」範囲なら、有意な差があるとは言えない。



  1. Q27

  2. 【問題】

ある試験の合格・不合格と、教材Aの使用・不使用の関係を調べるために作成する表を何というか。

まずは、自分の力で解けるかチャレンジしてみましょう。 統計でよく使う表の名称を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【クロス集計表】2つのカテゴリの関係を表す表

導入

2つのカテゴリ変数(合格・不合格と、教材Aの使用・不使用)の関係を調べるとき、それぞれの組み合わせの度数を表にまとめます。この表には名前があります。

使う武器(公式・定理)

  1. クロス集計表(分割表、 contingency table):2つのカテゴリ変数の組み合わせごとの度数を表にしたもの。
  2. 行と列にそれぞれのカテゴリを並べ、セルに度数を入れる。

思考のプロセス(Step by Step)

合格・不合格(2カテゴリ)と、教材Aの使用・不使用(2カテゴリ)の組み合わせは $2 \times 2 = 4$ 通り。

それぞれの組み合わせの人数(度数)を表にまとめたものが、クロス集計表(または分割表)である。

解答

クロス集計表(または分割表


  1. 【まとめ】
  • クロス集計表(分割表)は、2つのカテゴリ変数の関係を調べるための表。
  • 合格・不合格と教材の使用・不使用のような、2×2の表が典型的。



  1. Q28

  2. 【問題】

仮説検定において「帰無仮説」とは何か、簡潔に説明せよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 仮説検定の基本用語を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【帰無仮説】仮説検定で「棄却するかどうか」を試す仮説

導入

仮説検定では、「棄却するかどうかを試す仮説」を立てます。これが帰無仮説です。通常は「差がない」「効果がない」といった、否定したい仮説を帰無仮説とします。

使う武器(公式・定理)

  1. 帰無仮説($H_0$):検定の対象となる仮説。通常は「差がない」「効果がない」など、否定したい内容を置く。
  2. 対立仮説($H_1$):帰無仮説の反対。証明したい内容。
  3. 検定の流れ:帰無仮説が正しいと仮定し、得られたデータがその仮定の下でどれくらい起こりにくいかを計算。有意水準より小さければ帰無仮説を棄却。

思考のプロセス(Step by Step)

帰無仮説は、仮説検定において「正しいと仮定して、その仮定の下で得られたデータが起こる確率を計算する」ための仮説である。

通常は「差がない」「効果がない」といった、否定したい(棄却したい)仮説を帰無仮説とする。

データが帰無仮説の下で十分起こりにくいと判断されたとき、帰無仮説を棄却し、対立仮説を採択する。

解答

帰無仮説とは、仮説検定において「正しいと仮定して検定を行う仮説」であり、通常は「差がない」「効果がない」など、否定したい内容を置く。この仮説の下で得られたデータが起こる確率を計算し、有意水準より小さければ棄却する。


  1. 【まとめ】
  • 帰無仮説は、検定で「棄却するかどうか」を試す仮説。
  • 通常は「差がない」「効果がない」といった否定したい内容を置く。



  1. Q29

  2. 【問題】

ある新薬の効果を検証したい。「効果がない」と仮定したとき、その結果が得られる確率が $0.01$ であった。基準となる確率(有意水準)が $0.05$ のとき、どのような結論を導くべきか。

まずは、自分の力で解けるかチャレンジしてみましょう。 仮説検定の結論の導き方を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【仮説検定の結論】$p$ 値と有意水準の比較

導入

「効果がない」と仮定したとき、得られた結果が起こる確率($p$ 値)が $0.01$ でした。有意水準が $0.05$ のとき、この $p$ 値は有意水準より小さいので、どのような結論になるでしょうか。

使う武器(公式・定理)

  1. $p$ 値:帰無仮説が正しいと仮定したとき、得られたデータ(またはそれ以上に極端なデータ)が起こる確率。
  2. 有意水準 $\alpha$:帰無仮説を棄却する基準。通常 $0.05$ や $0.01$。
  3. 判断:$p$ 値 $< \alpha$ なら、帰無仮説を棄却。$p$ 値 $\geqq \alpha$ なら、帰無仮説は棄却しない。

思考のプロセス(Step by Step)

Step 1:$p$ 値と有意水準を比較する

$p$ 値 = $0.01$、有意水準 $\alpha = 0.05$

$0.01 < 0.05$ なので、$p$ 値 $<$ 有意水準

Step 2:結論を導く

$p$ 値が有意水準より小さいので、帰無仮説(効果がない)を棄却する。

したがって、「効果がない」とは言えず、新薬に効果があると結論づけられる(統計的に有意な差がある)。

解答

$p$ 値 $0.01$ は有意水準 $0.05$ より小さいため、帰無仮説(効果がない)を棄却する。したがって、新薬に効果があると結論づけられる(統計的に有意な差がある)。


  1. 【まとめ】
  • $p$ 値 $<$ 有意水準 → 帰無仮説を棄却 → 「効果がある」と結論。
  • $p$ 値 $\geqq$ 有意水準 → 帰無仮説は棄却しない → 「効果がある」とは言えない。



  1. Q30

  2. 【問題】

データセット $X = {x_1, \dots, x_n}$ の各値を2乗したデータの平均値は、元のデータの平均値 $m$ と標準偏差 $s$ を用いて、定数 $c$ を用いて以下のように表されることを証明せよ。

$$ c \left( s^2 + m^2 \right) $$

まずは、自分の力で解けるかチャレンジしてみましょう。 分散の公式を用いた証明問題です。問題文の「定数 $c$ を用いて」は、おそらく「何らかの定数」という意味で、本問では $c = 1$ となることを示すと考えられます。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【2乗の平均の公式】$s^2 + m^2$ で表されることの証明

導入

分散の公式 $s^2 = \overline{x^2} – \left( \bar{x} \right)^2$ を変形すると、$\overline{x^2} = s^2 + \left( \bar{x} \right)^2$ となります。つまり、2乗の平均は「分散 + 平均の2乗」で表されます。$m = \bar{x}$、$s^2$ は分散とすると、$\overline{x^2} = s^2 + m^2$ となります。定数 $c$ については、$c = 1$ のとき $\overline{x^2} = s^2 + m^2$ と表されることを示します。

使う武器(公式・定理)

  1. 分散の定義:$s^2 = \frac{1}{n} \sum \left( x_i – \bar{x} \right)^2$
  2. 分散の別公式:$s^2 = \overline{x^2} – \left( \bar{x} \right)^2$
  3. 変形:$\overline{x^2} = s^2 + \left( \bar{x} \right)^2$

思考のプロセス(Step by Step)

Step 1:分散の定義を展開する

$$ s^2 = \frac{1}{n} \sum_{i=1}^{n} \left( xi – \bar{x} \right)^2 = \frac{1}{n} \sum{i=1}^{n} \left( x_i^2 – 2\bar{x} x_i + \bar{x}^2 \right) $$

Step 2:シグマを分配する

$$ = \frac{1}{n} \sum x_i^2 – \frac{2\bar{x}}{n} \sum x_i + \frac{1}{n} \sum \bar{x}^2 $$

$$ = \overline{x^2} – 2\bar{x} \cdot \bar{x} + \bar{x}^2 = \overline{x^2} – \bar{x}^2 $$

Step 3:$\overline{x^2}$ について解く

$$ s^2 = \overline{x^2} – \bar{x}^2 $$

$$ \overline{x^2} = s^2 + \bar{x}^2 $$

$m = \bar{x}$ とおくと、$\overline{x^2} = s^2 + m^2$。

定数 $c$ を用いて $c \left( s^2 + m^2 \right)$ と表すなら、$c = 1$ のとき $\overline{x^2} = 1 \cdot \left( s^2 + m^2 \right) = s^2 + m^2$ となる。

解答

分散の定義 $s^2 = \frac{1}{n} \sum \left( x_i – \bar{x} \right)^2$ を展開すると、

$$ s^2 = \frac{1}{n} \sum x_i^2 – \frac{2\bar{x}}{n} \sum x_i + \bar{x}^2 = \overline{x^2} – 2\bar{x}^2 + \bar{x}^2 = \overline{x^2} – \bar{x}^2 $$

したがって、

$$ \overline{x^2} = s^2 + \bar{x}^2 = s^2 + m^2 $$

$m = \bar{x}$ である。これは $c = 1$ のとき $c \left( s^2 + m^2 \right)$ の形で表される。


  1. 【まとめ】
  • 2乗の平均 = 分散 + 平均の2乗。
  • 分散の定義から変形して導ける。



  1. Q31

  2. 【問題】

右に裾が長い(右に歪んだ)分布において、一般的に平均値と中央値の大小関係はどうなるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 分布の形状と代表値の関係を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【右に歪んだ分布】平均値と中央値の大小関係

導入

右に裾が長い分布では、右側に極端に大きな値(外れ値)が引っ張る形になります。このとき、平均値と中央値はどちらが大きくなるでしょうか。

使う武器(公式・定理)

  1. 平均値:すべての値を足して個数で割る。極端な値の影響を強く受ける。
  2. 中央値:真ん中の値。極端な値の影響を受けにくい。
  3. 右に歪んだ分布:右側に長い裾がある。右側に大きな値が引っ張る。

思考のプロセス(Step by Step)

右に歪んだ分布では、右側に極端に大きな値が存在する。

平均値は、この大きな値に引っ張られて右に寄る(大きくなる)。

中央値は、真ん中の値なので、極端な値の影響を受けにくく、平均値ほど右には寄らない。

したがって、平均値 $>$ 中央値 となることが多い。

解答

平均値 $>$ 中央値 となる。右に歪んだ分布では、右側の大きな値が平均値を引き上げる一方、中央値はその影響を受けにくいためである。


  1. 【まとめ】
  • 右に歪んだ分布では、平均値が中央値より大きくなりやすい。
  • 平均値は外れ値の影響を受けやすく、中央値は頑健。



  1. Q32

  2. 【問題】

箱ひげ図の外れ値の基準としてよく用いられる「1.5IQRルール」について、第1四分位数 $Q_1$、第3四分位数 $Q_3$、四分位範囲 $\text{IQR}$ を用いて説明せよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 外れ値の判定基準を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【1.5IQRルール】箱ひげ図の外れ値の基準

導入

箱ひげ図では、ひげの範囲を決める際に「外れ値」を除外することがあります。その基準としてよく使われるのが「1.5IQRルール」です。四分位数と四分位範囲を使って説明します。

使う武器(公式・定理)

  1. 四分位範囲:$\text{IQR} = Q_3 – Q_1$
  2. 1.5IQRルール
    • $Q_1 – 1.5 \times \text{IQR}$ より小さい値は外れ値(下側)
    • $Q_3 + 1.5 \times \text{IQR}$ より大きい値は外れ値(上側)

思考のプロセス(Step by Step)

Step 1:IQRを定義する

$$ \text{IQR} = Q_3 – Q_1 $$

Step 2:外れ値の境界を定める

下側の境界:$Q_1 – 1.5 \times \text{IQR}$

上側の境界:$Q_3 + 1.5 \times \text{IQR}$

Step 3:外れ値の判定

  • $Q_1 – 1.5 \times \text{IQR}$ より小さい値は外れ値(下側の外れ値)
  • $Q_3 + 1.5 \times \text{IQR}$ より大きい値は外れ値(上側の外れ値)

箱ひげ図では、これらの外れ値はひげの先端ではなく、個別にプロットすることが多い。

解答

1.5IQRルールとは、四分位範囲 $\text{IQR} = Q_3 – Q_1$ を用いて、次のように外れ値を判定する基準である。

  • $Q_1 – 1.5 \times \text{IQR}$ より小さい値は下側の外れ値
  • $Q_3 + 1.5 \times \text{IQR}$ より大きい値は上側の外れ値

これらの境界より外にあるデータを外れ値とみなし、箱ひげ図ではひげの先端ではなく個別に表示することが多い。


  1. 【まとめ】
  • 1.5IQRルールは、$Q_1$ と $Q_3$ から $1.5 \times \text{IQR}$ だけ外れた範囲を外れ値の境界とする。
  • 箱ひげ図でひげの長さを決める際に使われる。



  1. Q33

  2. 【問題】

あるクラスのテスト結果の箱ひげ図において、「中央値が箱の左寄り(第1四分位数に近い)」にあるとき、得点の分布はどのような特徴を持っていると考えられるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 箱ひげ図から分布の特徴を読み取る問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【箱ひげ図の読み取り】中央値が左寄りのときの分布の特徴

導入

箱ひげ図では、箱の左端($Q_1$)、中央の線(中央値)、右端($Q_3$)の位置関係で、分布の形状がわかります。中央値が左寄りにあるとき、どのような分布になるでしょうか。

使う武器(公式・定理)

  1. 箱の左半分:$Q_1$ から中央値まで(下位25%〜50%)
  2. 箱の右半分:中央値から $Q_3$ まで(50%〜75%)
  3. 中央値が左寄り:箱の左半分が狭く、右半分が広い。つまり、中央値〜$Q_3$ の範囲(上位25%〜50%)にデータが広く散らばっている。

思考のプロセス(Step by Step)

中央値が箱の左寄り($Q_1$ に近い)にあるということは、箱の左半分が狭く、右半分が広いことを意味する。

つまり、下位25%〜50%のデータは狭い範囲に集中している一方、上位50%〜75%のデータは広い範囲に散らばっている。

このことから、得点の分布は右に歪んでいる(右に裾が長い)と考えられる。低い得点にデータが集中し、高い得点側に広く散らばっている。

あるいは、上位の得点にばらつきが大きいという特徴がある。

解答

中央値が箱の左寄りにあるとき、箱の左半分(下位25%〜50%)が狭く、右半分(50%〜75%)が広い。したがって、得点の分布は右に歪んでいる(右に裾が長い)と考えられる。低い得点にデータが集中し、高い得点側に広く散らばっている。あるいは、上位の得点にばらつきが大きいという特徴がある。


  1. 【まとめ】
  • 中央値が左寄り = 箱の右半分が広い = 右に歪んだ分布。
  • 上位の得点にばらつきが大きい。



  1. Q34

  2. 【問題】

ヒストグラムと箱ひげ図の対応。山が2つある(双峰性)分布のヒストグラムを箱ひげ図にすると、どのような形になりやすいか。中央値付近の密度に着目して答えよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 双峰性分布と箱ひげ図の関係を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【双峰性分布の箱ひげ図】中央値付近の密度に着目する

導入

山が2つある(双峰性)分布では、データが2つのグループに分かれています。このような分布を箱ひげ図にすると、どのような形になるでしょうか。中央値付近の密度(データの集中度)に着目して考えます。

使う武器(公式・定理)

  1. 双峰性分布:ヒストグラムに山が2つある分布。データが2つのグループに分かれている。
  2. 中央値:データを小さい順に並べたときの真ん中の値。
  3. 箱ひげ図:$Q_1$、中央値、$Q_3$ で箱を区切る。中央値付近のデータの密度は箱の形には直接表れないが、中央値が「谷」の位置に来ることがある。

思考のプロセス(Step by Step)

双峰性分布では、ヒストグラムに2つの山があり、その間に「谷」がある。

中央値は、データを小さい順に並べたときの真ん中の値なので、データが2つのグループに分かれている場合、中央値は谷の付近(2つの山の間の、密度が低い領域)に位置することが多い。

箱ひげ図では、中央値は箱の中央の線で表される。双峰性分布の場合、中央値が谷の位置にあるため、中央値付近の密度が低い(データが少ない)という特徴がある。

箱ひげ図の形としては、中央値が $Q_1$ と $Q_3$ のほぼ中央にある場合、箱は一見均等に見えるが、ヒストグラムで見ると中央値付近は谷になっている。つまり、箱ひげ図だけでは双峰性はわかりにくく、中央値付近が実際には密度が低い(谷)であることが、ヒストグラムと対応する。

答えとしては、中央値付近の密度が低い(中央値が2つの山の間の谷に位置する)ため、箱ひげ図では中央の線が「谷」に対応し、ヒストグラムの谷の部分が箱の中央に対応する形になりやすい、と説明できる。

解答

双峰性分布では、2つの山の間に「谷」がある。中央値はデータの真ん中の値なので、2つのグループの間に位置することが多く、中央値付近は密度が低い(谷に対応する)。箱ひげ図にすると、中央値の線がこの谷の位置に対応し、箱の中央付近がヒストグラムの谷(密度の低い部分)に対応する形になりやすい。箱ひげ図だけでは双峰性は判別しにくいが、ヒストグラムと対応づけると、中央値付近の密度の低さが理解できる。


  1. 【まとめ】
  • 双峰性分布では、中央値が2つの山の間の谷付近に位置することが多い。
  • 箱ひげ図の中央値の線が、ヒストグラムの谷に対応する形になりやすい。



  1. Q35

  2. 【問題】

範囲(レンジ)が $20$ であるデータに、新しい値を追加した。このとき、範囲は小さくなることがあるか。理由とともに答えよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 範囲の性質を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【範囲に値を追加】範囲は小さくなることがあるか

導入

範囲 = 最大値 − 最小値 です。新しい値を追加すると、その値が最大値より大きいか、最小値より小さい場合、範囲は大きくなります。では、範囲が小さくなることはあるでしょうか。

使う武器(公式・定理)

  1. 範囲 = 最大値 − 最小値
  2. 新しい値を追加したとき:
    • 新しい値が最大値より大きい → 新しい最大値ができる → 範囲は大きくなる
    • 新しい値が最小値より小さい → 新しい最小値ができる → 範囲は大きくなる
    • 新しい値が最大値と最小値のにある → 最大値・最小値は変わらない → 範囲は変わらない

思考のプロセス(Step by Step)

範囲を小さくするには、「最大値が小さくなる」か「最小値が大きくなる」必要がある。

新しい値を追加するだけでは、既存の最大値・最小値はそのまま残る。新しい値が既存の最大値より大きければ、最大値は更新されるが、その場合範囲は大きくなる。新しい値が既存の最小値より小さければ、最小値は更新されるが、その場合も範囲は大きくなる。

新しい値が最大値と最小値の間にあるとき、最大値・最小値は変わらないので、範囲も変わらない。

結論:新しい値を追加するだけでは、範囲が小さくなることはない。範囲は「変わらない」か「大きくなる」かのどちらかである。

解答

小さくなることはない。

範囲 = 最大値 − 最小値 である。新しい値を追加するとき、(1) 新しい値が既存の最大値より大きい場合、最大値が更新され範囲は大きくなる。(2) 新しい値が既存の最小値より小さい場合、最小値が更新され範囲は大きくなる。(3) 新しい値が最大値と最小値の間にある場合、最大値・最小値は変わらず範囲も変わらない。いずれの場合も範囲が小さくなることはない。


  1. 【まとめ】
  • 値を追加するだけでは、範囲は小さくならない。
  • 範囲が小さくなるには、最大値や最小値を「取り除く」か「置き換える」必要がある。



  1. Q36

  2. 【問題】

変量 $x$ の平均値が $800$、標準偏差が $50$ であるとき、計算を簡単にするために以下の変換を行った。

$$ u = \frac{x – 800}{50} $$

この変量 $u$ の平均値と標準偏差はそれぞれいくらになるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 標準化に近い変換による平均・標準偏差の変化を問う問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【標準化に近い変換】$u = \frac{x – 800}{50}$ の平均・標準偏差

導入

$u = \frac{x – 800}{50}$ は、$x$ を平均 $800$ で引き、標準偏差 $50$ で割る変換です。これは標準化($z$ 得点化)そのものです。標準化した変量の平均は $0$、標準偏差は $1$ になります。

使う武器(公式・定理)

  1. 標準化の式:$z = \frac{x – \bar{x}}{s_x}$
  2. 標準化の性質:$z$ の平均は $0$、標準偏差は $1$
  3. 本問では $u = \frac{x – 800}{50}$ で、$800$ は $x$ の平均、$50$ は $x$ の標準偏差なので、$u$ は標準化そのもの。

思考のプロセス(Step by Step)

$u = \frac{x – 800}{50}$ は、$x$ の平均 $800$ を引き、標準偏差 $50$ で割る変換である。これは標準化($z$ 得点化)の式そのものである。

標準化した変量の平均は必ず $0$、標準偏差は必ず $1$ になる。

したがって、$u$ の平均値は $0$、標準偏差は $1$ である。

解答

  • $u$ の平均値:$0$
  • $u$ の標準偏差:$1$

  1. 【まとめ】
  • $u = \frac{x – \bar{x}}{s_x}$ は標準化の式。$u$ の平均は $0$、標準偏差は $1$。
  • 計算を簡単にするために、平均を引いて標準偏差で割る変換がよく使われる。



  1. Q37

  2. 【問題】

変量 $x$ の分散が $s_x^2$ であるとき、$y = -3x + 5$ と変換した。変量 $y$ の分散 $s_y^2$ を $s_x^2$ を用いて表せ。

まずは、自分の力で解けるかチャレンジしてみましょう。 変量の変換による分散の変化を問う問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【変量の変換と分散】$y = ax + b$ のときの分散

導入

変量を $y = ax + b$ と変換したとき、分散は $s_y^2 = a^2 s_x^2$ となります。定数 $b$ は分散に影響しません。係数 $a$ の2乗が効くので、$a = -3$ のとき $a^2 = 9$ です。

使う武器(公式・定理)

  1. $y = ax + b$ のとき:$s_y^2 = a^2 s_x^2$
  2. 理由:偏差 $y_i – \bar{y} = a(x_i – \bar{x})$ なので、偏差は $a$ 倍。分散は偏差の2乗の平均なので $a^2$ 倍。
  3. 定数 $b$ は分散に影響しない。

思考のプロセス(Step by Step)

$y = -3x + 5$ より、$a = -3$、$b = 5$。

分散は $s_y^2 = a^2 s_x^2 = (-3)^2 s_x^2 = 9 s_x^2$。

解答

$$ s_y^2 = 9 s_x^2 $$


  1. 【まとめ】
  • 分散は係数 $a$ の2乗倍。$s_y^2 = a^2 s_x^2$。
  • 定数 $b$ は分散に影響しない。



  1. Q38

  2. 【問題】

偏差値の定義。平均 $50$、標準偏差 $10$ になるように変換した数値を偏差値という。ある生徒の得点が平均値と同じだった場合、その偏差値はいくらか。

まずは、自分の力で解けるかチャレンジしてみましょう。 偏差値の定義を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【偏差値】平均と同じ得点の偏差値は?

導入

偏差値は、平均 $50$、標準偏差 $10$ になるように変換した数値です。標準化(平均0、標準偏差1)した後に、$10$ を掛けて $50$ を足す変換です。平均と同じ得点のとき、偏差値はいくらになるでしょうか。

使う武器(公式・定理)

  1. 偏差値 = $50 + 10 \times z$($z$ は標準化した値)
  2. 標準化:$z = \frac{x – \bar{x}}{s_x}$。$x = \bar{x}$ のとき $z = 0$。
  3. 平均と同じ得点:$x = \bar{x}$ のとき、$z = 0$ なので、偏差値 = $50 + 10 \times 0 = 50$。

思考のプロセス(Step by Step)

偏差値は、標準化した値 $z$ を用いて $50 + 10z$ で表される。

得点が平均値と同じとき、$x = \bar{x}$ なので、$z = \frac{x – \bar{x}}{s_x} = 0$。

したがって、偏差値 = $50 + 10 \times 0 = 50$。

解答

$$ \text{偏差値} = 50 $$


  1. 【まとめ】
  • 偏差値は平均 $50$、標準偏差 $10$ になるように変換した値。
  • 平均と同じ得点の偏差値は必ず $50$。



  1. Q39

  2. 【問題】

変量 $x$ と変量 $y$ の相関係数が $r = 0.6$ であるとする。$x$ を $2$ 倍し、$y$ に $10$ を加えた新しい変量 $x’, y’$ の間の相関係数はどうなるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 変量変換による相関係数の変化を問う問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【相関係数と定数加算】$y$ に定数を加えても相関係数は変わらない

導入

変量を $x’ = ax + b$、$y’ = cy + d$ と変換したとき、相関係数は係数 $a$ と $c$ の符号によって決まります。定数 $b$ や $d$ を加えても、相関係数は変わりません。本問では $x’ = 2x$、$y’ = y + 10$ です。

使う武器(公式・定理)

  1. 相関係数と変量変換:$x’ = ax + b$、$y’ = cy + d$ のとき、$ac > 0$ なら $r’ = r$、$ac < 0$ なら $r' = -r$
  2. 定数を加える:偏差は変わらないので、相関係数は変わらない。$x’ = 2x$、$y’ = y + 10$ のとき、$x$ の係数は $2$(正)、$y$ の係数は $1$(正)。$ac = 2 \times 1 = 2 > 0$ なので、$r’ = r$。

思考のプロセス(Step by Step)

$x’ = 2x$、$y’ = y + 10$ という変換を考える。

$x$ の係数は $2$(正)、$y$ の係数は $1$(正)。係数の積は $2 \times 1 = 2 > 0$ なので、同符号。

したがって、相関係数は変わらない。$r’ = r = 0.6$。

解答

変わらない。 $r’ = 0.6$ のままである。$x$ を $2$ 倍する変換と $y$ に $10$ を加える変換では、係数の積が正なので、相関係数の符号は反転しない。また、定数を加える変換は相関係数に影響しない。


  1. 【まとめ】
  • 定数を加える変換では、相関係数は変わらない。
  • 係数の積が正なら、相関係数の符号はそのまま。



  1. Q40

  2. 【問題】

変量 $x$ と変量 $y$ の相関係数が $r = 0.8$ であるとする。$x$ はそのままで、$y$ を $-1$ 倍した新しい変量 $y’ = -y$ との間の相関係数はどうなるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 変量の符号反転と相関係数の変化を問う問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【相関係数と符号反転】$y$ を $-1$ 倍すると相関係数は反転する

導入

変量を $y’ = -y$ のように $-1$ 倍すると、一方が増えるともう一方が減る関係に変わります。相関係数は「関係の向き」を表すので、符号が反転します。

使う武器(公式・定理)

  1. 変量変換:$x’ = x$(係数 $1$)、$y’ = -y$(係数 $-1$)
  2. 係数の積:$1 \times (-1) = -1 < 0$ なので、異符号。
  3. 相関係数:係数の積が負のとき、$r’ = -r$。したがって $r’ = -0.8$。

思考のプロセス(Step by Step)

$x’ = x$、$y’ = -y$ という変換を考える。

$x$ の係数は $1$、$y$ の係数は $-1$。係数の積は $1 \times (-1) = -1 < 0$ なので、異符号。

一方が増えたときにもう一方が減るという「向き」が逆転するため、相関係数の符号が反転する。

したがって、$r’ = -r = -0.8$。

解答

符号が反転する。 $r’ = -0.8$ となる。$y$ を $-1$ 倍する変換では、係数が負なので、相関係数の符号が反転する。


  1. 【まとめ】
  • $y$ を $-1$ 倍すると、相関係数の符号が反転する。
  • 係数の積が負のとき、$r’ = -r$。



  1. Q41

  2. 【問題】

擬似相関(見かけ上の相関)について。「アイスクリームの売上」と「水難事故の件数」には強い正の相関があるが、これらに因果関係はないとされる。その理由を「第3の変数」という言葉を使って説明せよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 擬似相関の概念を理解する重要な問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【擬似相関】第3の変数が隠れている相関

導入

「アイスクリームの売上」と「水難事故の件数」には正の相関があります。しかし、アイスクリームを売れば水難事故が増えるわけではありません。なぜ相関があるのに因果関係がないのでしょうか。「第3の変数」という考え方が鍵です。

使う武器(公式・定理)

  1. 擬似相関:見かけ上の相関。2つの変量に相関があるように見えるが、実際には第3の変数が両方に影響している。
  2. 第3の変数:2つの変量の両方に影響を与える別の要因。本問では「気温」や「季節」が考えられる。

思考のプロセス(Step by Step)

アイスクリームの売上と水難事故の件数は、どちらも気温(または季節)という第3の変数の影響を受けている。

  • 気温が高い(夏)→ アイスクリームの売上が増える
  • 気温が高い(夏)→ 海や川に行く人が増え、水難事故が増える

したがって、2つの変量は直接の因果関係ではなく、第3の変数(気温・季節)が両方に影響しているために、見かけ上の相関が生じている。これを擬似相関という。

解答

第3の変数(気温や季節)が「アイスクリームの売上」と「水難事故の件数」の両方に影響しているためである。気温が高い季節にはアイスクリームの売上が増え、同時に海や川に行く人が増えて水難事故も増える。したがって、2つの変量の間に直接の因果関係はなく、第3の変数による見かけ上の相関(擬似相関)である。


  1. 【まとめ】
  • 擬似相関は、第3の変数が両方に影響しているために生じる見かけ上の相関。
  • 相関があるからといって因果関係があるとは限らない。



  1. Q42

  2. 【問題】

共分散 $s_{xy}$ が $0$ であれば、相関係数 $r$ は必ず $0$ になるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 共分散と相関係数の関係を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【共分散0と相関係数】$s_{xy} = 0$ なら $r = 0$ か

導入

相関係数は $r = \frac{s_{xy}}{s_x sy}$ で定義されます。共分散 $s{xy}$ が $0$ のとき、分子が $0$ なので、分母が $0$ でなければ $r = 0$ になります。ただし、分母が $0$ の場合はどうでしょうか。

使う武器(公式・定理)

  1. 相関係数の定義:$r = \frac{s_{xy}}{s_x s_y}$
  2. 共分散が0のとき:分子 $s_{xy} = 0$ なので、分母 $s_x s_y \neq 0$ なら $r = 0$。
  3. 分母が0のとき:$s_x = 0$ または $s_y = 0$ のとき、すなわち $x$ または $y$ のデータに散らばりがないとき、相関係数は定義されない(または不定)。

思考のプロセス(Step by Step)

$r = \frac{s_{xy}}{s_x s_y}$ である。

$s_{xy} = 0$ のとき、分子は $0$ である。

分母 $s_x s_y$ について:

  • $s_x \neq 0$ かつ $s_y \neq 0$ のとき(データに散らばりがあるとき)、$r = \frac{0}{s_x s_y} = 0$。したがって、$r = 0$ になる
  • $s_x = 0$ または $s_y = 0$ のとき(データに散らばりがないとき)、分母が $0$ となり、相関係数は定義されない。

通常、相関係数を考えるときは、両方の変量に散らばりがある($s_x \neq 0$、$sy \neq 0$)ことを前提とする。このとき、$s{xy} = 0$ ならば $r = 0$ になる

解答

はい、必ず $0$ になる($s_x \neq 0$ かつ $sy \neq 0$ のとき)。相関係数は $r = \frac{s{xy}}{s_x sy}$ で定義され、$s{xy} = 0$ のとき分子が $0$ なので、分母が $0$ でなければ $r = 0$ である。$s_x$ または $s_y$ が $0$ のときは相関係数は定義されないが、通常は両方に散らばりがあることを前提とする。


  1. 【まとめ】
  • 共分散が $0$ なら、相関係数は $0$ になる(標準偏差が $0$ でないとき)。
  • 共分散 $0$ = 無相関。



  1. Q43

  2. 【問題】

散布図上で、すべての点が右下がりの一直線上に並んでいるとき、相関係数 $r$ の値はいくらか。

まずは、自分の力で解けるかチャレンジしてみましょう。 完全な負の相関の相関係数を問う問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【完全な負の相関】一直線上に並ぶときの相関係数

導入

相関係数 $r$ は $-1 \leqq r \leqq 1$ の範囲にあり、$r = 1$ は完全な正の相関(右上がりの一直線)、$r = -1$ は完全な負の相関(右下がりの一直線)を表します。

使う武器(公式・定理)

  1. 相関係数の範囲:$-1 \leqq r \leqq 1$
  2. $r = 1$:すべての点が右上がりの一直線上に並ぶ(完全な正の相関)
  3. $r = -1$:すべての点が右下がりの一直線上に並ぶ(完全な負の相関)

思考のプロセス(Step by Step)

すべての点が右下がりの一直線上に並んでいるということは、$x$ が増えると $y$ が一定の割合で減る、完全な負の直線関係がある。

このとき、相関係数は $r = -1$ である。

解答

$$ r = -1 $$


  1. 【まとめ】
  • すべての点が一直線上に並ぶとき、$r = 1$(右上がり)または $r = -1$(右下がり)。
  • 右下がりの一直線なら $r = -1$。



  1. Q44

  2. 【問題】

「相関係数が高い($1$ に近い)」ことは、「変化の割合(直線の傾き)が急である」ことを意味するか。 (ヒント:$y = x$ と $y = 0.1x$ の相関係数を比較して考察せよ)

まずは、自分の力で解けるかチャレンジしてみましょう。 相関係数と傾きの関係を理解する重要な概念問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【相関係数と傾き】相関係数が高い = 傾きが急?

導入

相関係数は「直線的な関係の強さ」を表します。傾きが急なほど相関係数が高くなるのでしょうか。ヒントにある $y = x$ と $y = 0.1x$ を比較すると、答えが見えてきます。

使う武器(公式・定理)

  1. 相関係数は「直線にどれだけ近いか」を表す。傾きの大きさには依存しない。
  2. $y = x$:傾き $1$。すべての点が一直線上に並ぶので、$r = 1$。
  3. $y = 0.1x$:傾き $0.1$。すべての点が一直線上に並ぶので、$r = 1$。
  4. どちらも完全な直線関係なので、相関係数は $1$。傾きが違っても相関係数は同じ。

思考のプロセス(Step by Step)

$y = x$ と $y = 0.1x$ を比較する。

  • $y = x$:$x$ が $1$ 増えると $y$ が $1$ 増える。傾きは $1$。すべての点が一直線上に並ぶので、$r = 1$。
  • $y = 0.1x$:$x$ が $1$ 増えると $y$ が $0.1$ 増える。傾きは $0.1$。すべての点が一直線上に並ぶので、$r = 1$。

どちらも完全な直線関係なので、相関係数はどちらも $r = 1$ である。傾きが $1$ でも $0.1$ でも、相関係数は同じ。

したがって、相関係数が高いことは、傾きが急であることを意味しない。相関係数は「直線にどれだけ近いか」を表し、傾きの大きさには依存しない。

解答

意味しない。 相関係数は「直線的な関係の強さ」を表し、直線にどれだけ近いかを示す。$y = x$(傾き $1$)と $y = 0.1x$(傾き $0.1$)はどちらも完全な直線関係なので、相関係数はどちらも $1$ である。傾きが異なっても相関係数は同じなので、相関係数が高いことは傾きが急であることを意味しない。


  1. 【まとめ】
  • 相関係数は「直線にどれだけ近いか」を表し、傾きの大きさには依存しない。
  • 傾きが緩くても、完全な直線関係なら $r = 1$。



  1. Q45

  2. 【問題】

クロス集計表(分割表)の読み取り。ある試験の合否(合格・不合格)と勉強法(A・B)の表がある。「勉強法Aの方が有利である」と判断するためには、単に合格者数を見るのではなく、何を比較する必要があるか。

まずは、自分の力で解けるかチャレンジしてみましょう。 クロス集計表の正しい読み取り方を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【クロス集計表の読み取り】合格者数だけでは判断できない理由

導入

勉強法AとBのどちらが有利か判断するとき、単に「Aの合格者数がBより多い」だけでは不十分です。なぜでしょうか。勉強法Aを使った人数とBを使った人数が違う可能性があるからです。

使う武器(公式・定理)

  1. クロス集計表:合格・不合格と勉強法A・Bの組み合わせごとの人数を表にしたもの。
  2. 正しい比較:各勉強法ごとの合格率(合格者数 ÷ その勉強法を使った総数)を比較する必要がある。
  3. 理由:勉強法Aを使った人が100人、Bを使った人が10人なら、合格者数だけでは公平な比較ができない。

思考のプロセス(Step by Step)

単に合格者数を見るだけでは、勉強法AとBの「有利さ」を公平に比較できない。

例えば、勉強法Aを使った人が100人で合格者が50人、勉強法Bを使った人が10人で合格者が5人だとすると、合格者数はAの方が多いが、合格率はどちらも $50\%$ で同じである。

したがって、各勉強法ごとの合格率(合格者数 ÷ その勉強法を使った総人数)を比較する必要がある。

解答

各勉強法ごとの合格率(合格者数 ÷ その勉強法を使った総人数)を比較する必要がある。勉強法AとBを使った人数が異なる場合、合格者数だけでは公平な比較ができないため、合格率で比較する必要がある。


  1. 【まとめ】
  • クロス集計表では、単純な人数ではなく割合(率)を比較する必要がある。
  • 各カテゴリごとの比率を比較することで、公平な判断ができる。



  1. Q46

  2. 【問題】

データの復元。3つの正の数 $a, b, c$ がある。平均値が $4$、分散が $0$ であるとき、$a, b, c$ の値を求めよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 分散が0のときのデータの性質を利用する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【分散0のデータ】すべての値が等しいとき

導入

分散が $0$ であることは、データに散らばりがない、すなわちすべての値が等しいことを意味します。平均が $4$ で分散が $0$ なら、$a = b = c = 4$ です。

使う武器(公式・定理)

  1. 分散が0 $\Leftrightarrow$ すべての偏差が $0$ $\Leftrightarrow$ すべての値が等しい
  2. 平均が $4$ ですべて等しい $\Rightarrow$ $a = b = c = 4$

思考のプロセス(Step by Step)

分散が $0$ であるとき、偏差の2乗の平均が $0$ なので、すべての偏差が $0$ である。

したがって、$a – \bar{x} = 0$、$b – \bar{x} = 0$、$c – \bar{x} = 0$ となり、$a = b = c = \bar{x}$。

平均値が $4$ なので、$\bar{x} = 4$。よって $a = b = c = 4$。

解答

$$ a = b = c = 4 $$


  1. 【まとめ】
  • 分散が $0$ $\Leftrightarrow$ すべての値が等しい。
  • 平均が $m$ で分散が $0$ なら、すべての値は $m$。



  1. Q47

  2. 【問題】

平均値と分散の性質。データの中に極端な外れ値が1つ含まれている場合、「平均値」と「中央値」のうち、より影響を受けにくい(頑健性がある)のはどちらか。

まずは、自分の力で解けるかチャレンジしてみましょう。 代表値の頑健性を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【代表値の頑健性】外れ値の影響を受けにくいのはどちらか

導入

データに極端な外れ値が1つ含まれているとき、平均値と中央値のどちらが影響を受けにくいでしょうか。平均値はすべての値を足して個数で割るので、1つの極端な値に引っ張られます。中央値は真ん中の値なので、1つの外れ値の影響を受けにくいです。

使う武器(公式・定理)

  1. 平均値:すべての値を足して個数で割る。1つの極端な値が合計を大きく変えるため、影響を受けやすい。
  2. 中央値:真ん中の値。1つの外れ値が端に来ても、中央の値は変わらないことが多い。影響を受けにくい(頑健)。

思考のプロセス(Step by Step)

極端な外れ値が1つある場合を考える。

平均値:合計に外れ値が含まれるため、外れ値が大きいと合計が大きく変わり、平均値も大きく変わる。影響を受けやすい

中央値:データを小さい順に並べたときの真ん中の値。外れ値は端(最小または最大)に位置することが多く、中央の値は変わらない。影響を受けにくい

したがって、中央値の方が頑健性がある。

解答

中央値である。中央値は真ん中の値なので、1つの極端な外れ値が端に来ても中央の値は変わらないことが多い。一方、平均値はすべての値を足して個数で割るため、1つの極端な値に引っ張られ、影響を受けやすい。


  1. 【まとめ】
  • 中央値は外れ値に対して頑健(ロバスト)。
  • 平均値は外れ値の影響を受けやすい。



  1. Q48

  2. 【問題】

2つの変量 $x, y$ の和の平均。変量 $z = x + y$ を考える。$x$ の平均を $\bar{x}$、$y$ の平均を $\bar{y}$ とするとき、$z$ の平均 $\bar{z}$ が以下に等しいことを示せ。

$$ \bar{z} = \bar{x} + \bar{y} $$

まずは、自分の力で解けるかチャレンジしてみましょう。 和の平均が平均の和に等しいことの証明です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【和の平均】$\bar{z} = \bar{x} + \bar{y}$ の証明

導入

2つの変量の和 $z = x + y$ の平均は、それぞれの平均の和 $\bar{x} + \bar{y}$ に等しくなります。平均の定義とシグマ記号の性質を使って証明します。

使う武器(公式・定理)

  1. 平均の定義:$\bar{z} = \frac{1}{n} \sum_{i=1}^{n} z_i$
  2. シグマの分配法則:$\sum (a_i + b_i) = \sum a_i + \sum b_i$

思考のプロセス(Step by Step)

Step 1:$\bar{z}$ の定義を書く

$$ \bar{z} = \frac{1}{n} \sum_{i=1}^{n} zi = \frac{1}{n} \sum{i=1}^{n} \left( x_i + y_i \right) $$

Step 2:シグマを分配する

$$ = \frac{1}{n} \left( \sum_{i=1}^{n} xi + \sum{i=1}^{n} y_i \right) $$

Step 3:平均の定義を用いる

$\sum x_i = n\bar{x}$、$\sum y_i = n\bar{y}$ より、

$$ = \frac{1}{n} \left( n\bar{x} + n\bar{y} \right) = \frac{n\bar{x} + n\bar{y}}{n} = \bar{x} + \bar{y} $$

解答

$$ \bar{z} = \frac{1}{n} \sum_{i=1}^{n} zi = \frac{1}{n} \sum{i=1}^{n} \left( x_i + y_i \right) $$

$$ = \frac{1}{n} \left( \sum_{i=1}^{n} xi + \sum{i=1}^{n} y_i \right) = \frac{1}{n} \left( n\bar{x} + n\bar{y} \right) = \bar{x} + \bar{y} $$

したがって、$\bar{z} = \bar{x} + \bar{y}$ が示された。


  1. 【まとめ】
  • 和の平均 = 平均の和。$\bar{x + y} = \bar{x} + \bar{y}$。
  • シグマの分配法則と平均の定義から導ける。



  1. Q49

  2. 【問題】

最小二乗法の考え方。散布図において、データ点との距離(誤差)の2乗の和を最小にする直線を何と呼ぶか。

まずは、自分の力で解けるかチャレンジしてみましょう。 回帰分析の基本用語を押さえる問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【最小二乗法】誤差の2乗の和を最小にする直線

導入

散布図に直線を当てはめるとき、「データ点との距離(誤差)の2乗の和を最小にする」という基準で直線を決める方法があります。この方法で得られる直線には名前があります。

使う武器(公式・定理)

  1. 最小二乗法:誤差の2乗の和を最小にする直線を求める方法。
  2. 回帰直線(または最小二乗回帰直線):最小二乗法によって得られる直線。$y$ の $x$ への回帰直線、$x$ の $y$ への回帰直線などがある。

思考のプロセス(Step by Step)

散布図において、データ点との距離(誤差)の2乗の和を最小にする直線は、回帰直線(または最小二乗回帰直線)と呼ばれる。

この直線を求める方法が最小二乗法である。

解答

回帰直線(または最小二乗回帰直線


  1. 【まとめ】
  • 最小二乗法:誤差の2乗の和を最小にする直線を求める方法。
  • その直線を回帰直線(最小二乗回帰直線)という。



  1. Q50

  2. 【問題】

相関係数 $r$ の定義式において、$|r| \leqq 1$ となることは、ベクトルの内積の性質(コーシー・シュワルツの不等式)によって保証されている。これを数式で表現せよ。

まずは、自分の力で解けるかチャレンジしてみましょう。 相関係数とコーシー・シュワルツの不等式の関係を理解する問題です。

「いまから解説します。自分の力で一度解いてみましたか?」


  1. 【相関係数とコーシー・シュワルツの不等式】$|r| \leqq 1$ の保証

導入

相関係数 $r$ は常に $-1 \leqq r \leqq 1$ の範囲にあります。これは、ベクトルの内積とコーシー・シュワルツの不等式によって保証されています。偏差を成分とするベクトルを考えると、相関係数は「余弦」に相当し、その絶対値が $1$ 以下になることがわかります。

使う武器(公式・定理)

  1. コーシー・シュワルツの不等式:ベクトル $\vec{a}$、$\vec{b}$ について、 $$ \left| \vec{a} \cdot \vec{b} \right| \leqq \left| \vec{a} \right| \left| \vec{b} \right| $$ 等号は $\vec{a}$ と $\vec{b}$ が平行のとき。

  2. 相関係数の定義:$r = \frac{s_{xy}}{s_x s_y} = \frac{\sum (x_i – \bar{x})(y_i – \bar{y})}{\sqrt{\sum (x_i – \bar{x})^2} \sqrt{\sum (y_i – \bar{y})^2}}$

  3. ベクトル表示:$\vec{u} = (x_1 – \bar{x}, \ldots, x_n – \bar{x})$、$\vec{v} = (y_1 – \bar{y}, \ldots, y_n – \bar{y})$ とおくと、 $$ r = \frac{\vec{u} \cdot \vec{v}}{|\vec{u}| |\vec{v}|} $$ これは $\vec{u}$ と $\vec{v}$ のなす角の余弦である。コーシー・シュワルツの不等式より、 $$ |\vec{u} \cdot \vec{v}| \leqq |\vec{u}| |\vec{v}| $$ したがって、 $$ \left| \frac{\vec{u} \cdot \vec{v}}{|\vec{u}| |\vec{v}|} \right| \leqq 1 $$ すなわち $|r| \leqq 1$。

思考のプロセス(Step by Step)

相関係数は、偏差ベクトルの内積をノルムの積で割った形で表せる。これは2つのベクトルのなす角の余弦に相当する。

コーシー・シュワルツの不等式: $$ \left| \vec{u} \cdot \vec{v} \right| \leqq \left| \vec{u} \right| \left| \vec{v} \right| $$

両辺を $|\vec{u}| |\vec{v}|$ で割ると、 $$ \left| \frac{\vec{u} \cdot \vec{v}}{|\vec{u}| |\vec{v}|} \right| \leqq 1 $$

これが $|r| \leqq 1$ を保証する。

解答

偏差を成分とするベクトル $\vec{u} = \left( x_1 – \bar{x}, \ldots, x_n – \bar{x} \right)$、$\vec{v} = \left( y_1 – \bar{y}, \ldots, y_n – \bar{y} \right)$ を考えると、相関係数は $$ r = \frac{\vec{u} \cdot \vec{v}}{|\vec{u}| |\vec{v}|} $$ と表せる。コーシー・シュワルツの不等式 $$ \left| \vec{u} \cdot \vec{v} \right| \leqq \left| \vec{u} \right| \left| \vec{v} \right| $$ より、 $$ \left| r \right| = \left| \frac{\vec{u} \cdot \vec{v}}{|\vec{u}| |\vec{v}|} \right| \leqq 1 $$ が成り立つ。



  1. 【まとめ】
  • 相関係数は偏差ベクトルの内積をノルムの積で割った形で表せる。
  • コーシー・シュワルツの不等式により、$|r| \leqq 1$ が保証される。


まずは「質問しホーダイプラン」を
1ヶ月間「0円」で体験

無料学習相談で、あなたの状況に合わせた学習計画と「最適なプランの使い方」を具体的にご案内します。

お友達紹介・兄弟姉妹割引あり。口コミで広がっています。

【期間限定】

  • 無料学習相談(プロが学習計画をご提案)
  • 全教科 LINE質問し放題
  • オンライン自習室 利用し放題
  • 学習コーチング(希望者)

▼ 友だち追加後、すぐに「無料学習相談」を予約できます ▼

友だち追加
※「無料」:無料学習相談/「0円体験」:質問しホーダイプラン(申込から1ヶ月無料)

関連記事

等差数列・等比数列の条件から a , b a,b を求める

【数学II解説】剰余の定理で余りを求める3つのパターン!難問x^102も複素数なら一撃?

sin80°cos170°-cos80°sin170°、1/tan²50°-1/cos²40° の値を、余角・補角の公式で解く

PAGE TOP