「平均値はわかる。でも分散とか標準偏差って、結局何なの?」
そう思う人、多いと思います。学校の先生が黒板の前で話すように、例を交えながら説明していきますね。
要するに何か、一言でいうと
- 平均値 … データの「真ん中」の値。みんなの合計を人数で割ったもの。 単位はデータと同じ (例:点のデータなら平均も点)。
- 分散 … データの「ばらつき具合」を数で表したもの。平均からどれくらいずれているか。単位はデータの2乗(例:点$^2$)。
- 標準偏差 … 分散の平方根。 単位はデータと同じ (例:点のデータなら標準偏差も点)。平均値と同じ単位・同じ次元をもつ。
「平均値で真ん中がわかる。分散と標準偏差で、その周りにどれくらいばらけてるかがわかる」
これが一番短い説明です。
平均値:データの「真ん中」
何を表しているか
平均値は、データの代表値のひとつです。
「このデータ、だいたいどれくらいの値なの?」という問いに対する、いちばんよく使う答えです。
具体例
$5$ 人のテストの得点が $60, 70, 80, 90, 100$ 点だったとします。
平均値は、
$$ \frac{60 + 70 + 80 + 90 + 100}{5} = \frac{400}{5} = 80 \text{(点)} $$
です。単位はデータと同じ「点」です。
「この $5$ 人のだいたいの実力は $80$ 点くらい」と言えます。
注意点
平均値だけだと、「みんなが同じくらいか」「ばらばらか」はわかりません。
$80, 80, 80, 80, 80$ の $5$ 人も、$0, 50, 80, 110, 160$ の $5$ 人も、平均はどちらも $80$ 点です。
散らばり方を知るには、分散や標準偏差が必要になります。
偏差:平均からの「ずれ」
偏差とは
偏差とは、各データの値から平均値を引いたものです。
$$ \text{偏差} = \text{そのデータの値} – \text{平均値} $$
「平均よりどれだけ上か・下か」を表す数だと覚えておいてください。
具体例:偏差の計算
$5$ 人のテストの得点が $60, 70, 80, 90, 100$ 点だったとします。平均は $80$ 点です。
| 得点 | 偏差(得点 − 80) |
|---|---|
| $60$ | $60 – 80 = -20$ |
| $70$ | $70 – 80 = -10$ |
| $80$ | $80 – 80 = 0$ |
| $90$ | $90 – 80 = 10$ |
| $100$ | $100 – 80 = 20$ |
$60$ 点の人は平均より $20$ 点下(偏差 $-20$ 点)、$100$ 点の人は平均より $20$ 点上(偏差 $20$ 点)というわけです。偏差の単位も、データや平均値と同じ「点」です。
偏差の大切な性質:合計はいつも $0$
偏差には、どんなデータでも必ず成り立つ性質があります。
偏差の合計は、かならず $0$ になるのです。
先ほどの例で確認しましょう。
$$ (-20) + (-10) + 0 + 10 + 20 = 0 $$
プラスとマイナスがきれいに打ち消し合っています。
なぜ偏差の合計は $0$ になるのか
まず、具体的な数で確かめてみましょう。得点 $60, 70, 80, 90, 100$ の偏差の合計を考えます。
偏差の合計は、
$$ (60 – 80) + (70 – 80) + (80 – 80) + (90 – 80) + (100 – 80) $$
です。括弧を外して並べ替えると、
$$ (60 + 70 + 80 + 90 + 100) – (80 + 80 + 80 + 80 + 80) $$
となります。つまり、「データを全部足したもの」から「平均を $5$ 回足したもの」を引いているわけです。
ここがポイントです。平均とは「データの合計 ÷ 個数」で求めたものです。だから、
$$ \text{データの合計} = 60 + 70 + 80 + 90 + 100 = 400 $$
$$ \text{平均を5回足したもの} = 80 \times 5 = 400 $$
のふたつは、同じ値になります。同じものから同じものを引いているので、差は $0$ です。
どんなデータでも、平均の定義から「データの合計 = 平均 × 個数」が成り立ちます。だから偏差の合計は、いつも $0$ になるのです。
偏差の平均も $0$
偏差の合計が $0$ なので、その平均(合計 ÷ 個数)も当然 $0$ です。
だから、偏差をそのまま平均しても、「散らばり具合」は表せません。プラスとマイナスが打ち消して $0$ になるだけです。
散らばりを数にするには、偏差の2乗を使う必要があります。それが次に説明する「分散」です。
分散・標準偏差の計算 — Step 1〜4 の手順
分散と標準偏差を求めるには、以下の Step 1〜4 の順で計算します。
解答フォーマット
Step 1 平均値を求める
$$ \bar{x} = \frac{\text{データの合計}}{\text{個数}} \quad \text{(単位はデータと同じ)} $$
Step 2 偏差と偏差の2乗の表を作る
| 値 | (各データを横に並べる) |
|---|---|
| 偏差 | (各偏差を横に並べる。単位はデータと同じ) |
| 偏差の2乗 | (各偏差の2乗を横に並べる。単位はデータの2乗) |
Step 3 偏差の2乗の平均値(分散)を求める
$$ s^2 = \frac{\text{偏差の2乗の合計}}{\text{個数}} $$
分散の単位はデータの2乗(点$^2$、cm$^2$など)です。
Step 4 偏差の2乗の平均値の平方根(標準偏差)を求める
$$ s = \sqrt{s^2} \quad \text{(単位はデータと同じ。偏差と平均値と同じ次元)} $$
ルートのまま計算できるところまで計算する。小数近似は用いない。標準偏差の単位は平均値と同じです。
具体例:$0, 50, 80, 110, 160$ で計算してみる
データ $0, 50, 80, 110, 160$(単位:点)について、Step 1〜4 にしたがって分散と標準偏差を求める。
Step 1 平均値を求める
$$ \bar{x} = \frac{0 + 50 + 80 + 110 + 160}{5} = \frac{400}{5} = 80 \text{(点)} $$
Step 2 偏差と偏差の2乗の表を作る
| 値(点) | $0$ | $50$ | $80$ | $110$ | $160$ |
|---|---|---|---|---|---|
| 偏差(点) | $-80$ | $-30$ | $0$ | $30$ | $80$ |
| 偏差の2乗 | $6400$ | $900$ | $0$ | $900$ | $6400$ |
偏差は「その値 − 平均」。偏差の単位はデータと同じ(点)。偏差の2乗の単位はデータの2乗(点$^2$)。
Step 3 偏差の2乗の平均値(分散)を求める
$$ s^2 = \frac{6400 + 900 + 0 + 900 + 6400}{5} = \frac{14600}{5} = 2920 \text{(点}^2\text{)} $$
分散の単位はデータの2乗(点$^2$)です。
Step 4 偏差の2乗の平均値の平方根(標準偏差)を求める
$$ s = \sqrt{2920} = 2\sqrt{730} \text{(点)} $$
$\sqrt{2920} \approx 54.0$ なので、「だいたい平均から $54$ 点くらいの幅でばらついている」というイメージです。 平均値(点)と標準偏差(点)は、単位が同じ です。
なぜ2乗するのか(偏差の平均では分散にならない理由)
偏差をそのまま平均すると、プラスとマイナスが打ち消し合って、いつも $0$ になってしまいます。
たとえば $0, 50, 80, 110, 160$ の偏差は $-80, -30, 0, 30, 80$ です。このまま平均をとると、
$$ \frac{(-80) + (-30) + 0 + 30 + 80}{5} = \frac{0}{5} = 0 $$
となり、プラスとマイナスがきれいに打ち消し合って $0$ です。どんなデータでも、偏差の合計は必ず $0$ になるため、その平均も必ず $0$ になってしまいます。
だから2乗してから平均をとります。2乗すると全部プラスになるので、「平均からどれくらい離れているか」の大きさをちゃんと拾えるのです。
分散と標準偏差の関係
- 分散 … ばらつきの「2乗」で表したもの。単位はデータの2乗(点$^2$、cm$^2$など)。
- 標準偏差 … ばらつきを「元の単位」で表したもの(分散の平方根)。 単位は平均値と同じ (点、cm など)。
$$ \text{標準偏差} = \sqrt{\text{分散}} $$
もっと簡単な例で整理
$5$ 日間の勉強時間が $2, 4, 6, 8, 10$ 時間だったとします。Step 1〜4 にしたがって求める。
Step 1 平均値を求める
$$ \bar{x} = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6 \text{(時間)} $$
Step 2 偏差と偏差の2乗の表を作る
| 値(時間) | $2$ | $4$ | $6$ | $8$ | $10$ |
|---|---|---|---|---|---|
| 偏差(時間) | $-4$ | $-2$ | $0$ | $2$ | $4$ |
| 偏差の2乗 | $16$ | $4$ | $0$ | $4$ | $16$ |
Step 3 偏差の2乗の平均値(分散)を求める
$$ s^2 = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8 \text{(時間}^2\text{)} $$
Step 4 偏差の2乗の平均値の平方根(標準偏差)を求める
$$ s = \sqrt{8} = \sqrt{4 \times 2} = 2\sqrt{2} \text{(時間)} $$
平均値(時間)と標準偏差(時間)は、 単位が同じ です。偏差も同じ「時間」の単位をもちます。つまり、このデータは「平均 $6$ 時間のまわりに、だいたい $\pm 2\sqrt{2}$ 時間くらいの幅でばらついている」と考えられます。
まとめ:3つの指標の役割
| 指標 | 何を表すか | 単位 | イメージ |
|---|---|---|---|
| 平均値 | データの中心 | データと同じ(点、cm、時間など) | 「だいたいこれくらい」 |
| 分散 | ばらつきの大きさ(2乗) | データの2乗(点$^2$、cm$^2$など) | 数だけ見て大小を比べる用 |
| 標準偏差 | ばらつきの大きさ(元の単位) | データと同じ=平均値と同じ(点、cm、時間など) | 「平均から○くらい離れている」と説明する用 |
平均値と標準偏差は、どちらもデータと同じ単位・同じ次元をもつ 。偏差も同じです。分散だけが単位が2乗になります。
平均値で「中心」がわかり、分散と標準偏差で「その周りにどれくらい散らばっているか」がわかる。
これが、高校数学で扱う平均値・分散・標準偏差の意味です。