今日から使える標準偏差

昨今、統計学の重要性が叫ばれています。ですので、統計学を学ぼうと入門書を買いあさり、勉強を始めている人が多いかと思います。

でも、いざ読み始めてみると「数学アレルギー」が発症したり、「分かりやすい」と評判の本なのに練習問題が解けずに挫けてしまったり、結局自分には統計学は向いていないんだと諦めてしまったりする人が多いのではないでしょうか?

そういう気持ち、とてもよく分かります。なぜなら、上に書いたことは全部、僕が今まさに感じていることだからです。これから紹介する「標準偏差」については、そこまで深刻には考えていませんが、より難しい考え方(仮説検定、実験計画法、分散分析など)を勉強していると、上に書いたような気持ちに苛まれます。

何はともあれ、「標準偏差」は基本中の基本ですから、サクッと皆様方に「今日から使える」方法を教えていきたいと思います。

完全に理解する必要はない

さて、「標準偏差」を使いこなすとはどういうことでしょうか。それは、

自力で標準偏差が計算できること

です。「えっ、そんなことでいいの?」と思われた方、何か勘違いをしていないでしょうか。むしろこれ以上に何を求める必要がありましょう。最初のうちから完全理解を目指していては、いつまでたっても次のステップに移れないではありませんか。

数学、特に統計学がバリバリできる人から見れば、「標準偏差が自力で計算できたところで、標準偏差そのものを完全に理解したとは言い難い」と思うでしょう。

でも、皆様方にとっては「標準偏差を数学的に完全理解すること」が目的ではなく、「なんとなく理解している状態から、正しく使うことができる状態になること」が目的だと思います。ですから、以下に紹介する内容でも十分お役に立てる筈です。

3ステップで計算可能!?

標準偏差を求めるための公式がありますが、シグマ記号を見ただけで嫌気が差す方のために、例題を解きながら3ステップに分けて説明します。

ステップ①
 ー すべてのデータを足し上げて、データの数で割る
ステップ②
 ー 「データから平均値を引いて、2乗する」をすべてのデータについて繰り返し、
   それらを足し上げる
ステップ③
 ー 平方和を(データの数ー1)で割り、平方根をとる

例題 次のデータについて、標準偏差を求めよ。

32、 27、 29、 34、 33

エクセルや関数電卓だと一発で計算可能ですが、どんなに簡単な問題であっても、頭を悩まして自分の手で解くことにはとても意義があります。ステップ①から少しずつ取り組んでいきましょう。

ステップ①すべてのデータを足し上げて、データの数で割る

これは要するに「平均値」を求めていますが、敢えて噛み砕いて書いてみました。実際に、上のデータについて、

すべてのデータを足し上げて・・・
 → 32 + 27 + 29 + 34 + 33
   = 155

データの数で割ると・・・
 → 155 ÷ 5 = 31

となりますので、ステップ①の結果は「31」です。もっと格好良く表現すると、「平均値は31である」ということです。

ステップ②「データから平均値を引いて、2乗する」をすべてのデータについて繰り返し、それらを足し上げる

これは要するに何を求めているでしょうか?先ほどは「平均値」と即答できた方も、これについてはやや難しいかもしれません。正解は「平方和(もしくは偏差平方和)」です。

またもやシグマ記号が嫌いな方のために噛み砕いて書きましたが、むしろ冗長になってしまい申し訳ありません。

さて、これも実際にやってみると、

「データから平均値を引いて、・・・
 → 32 ー 31 = 1

2乗する」・・・
 → 1 × 1 = 1

・・・をすべてのデータについて繰り返し、・・・
 → (27 ー 31)×(27 ー 31) = 16
   (29 ー 31)×(29 ー 31) = 4
   (34 ー 31)×(34 ー 31) = 9
   (33 ー 31)×(33 ー 31) = 4

それらを足し上げる・・・
 → 1 + 16 + 4 + 9 + 4 = 34

となりますので、ステップ②の結果は「34」です。これまた、かなり格好良い表現をすると、「偏差平方和は34である」ということになります。

データの数が増えると計算する回数も増えますが、やることはいつも同じで、平均値を引く→2乗する→足し上げる、です。表にまとめたりするとわかりやすくなると思います。

ステップ③平方和を(データの数ー1)で割り、平方根をとる

最後のステップです。これが要するに「標準偏差」になります。ゴールまでもう少しですから、頑張りましょう。

平方和を(データの数ー1)で割り、・・・
 → 34 ÷ (5 ー 1) = 8.5

平方根をとる・・・
 → √ 8.5 = 2.92

大変お疲れさまでした。これで標準偏差が計算できました。因みに、平方和を(データの数ー1)で割ると「分散」が計算できます。ですから、これまでの結果を総合すると、「データの分散は8.5であり、標準偏差は2.92である」ということになります。

さいごに

「分散」という考え方も「標準偏差」と同じくらいに大切な考え方ですが、今はとりあえず「分散のルートをとると標準偏差になる」もしくは、「標準偏差を2乗すると分散になる」とざっくり覚えておくとよいでしょう。後ほど「分散分析」という考え方に出くわした時、きっと役に立ちますよ。

さて、標準偏差の計算ステップはいかがでしたか?「意外と簡単じゃん!」と思った方、何も見ないでお手持ちの本で練習問題に取り組んでみて下さい。「ステップ②ってどうするんだっけ?」「分散は平方和をデータの数で割るんだっけ?」と、自分の記憶が曖昧なことに気づくはずです。

結局、「標準偏差を使いこなす」ために必要なことは、「1にも2にも練習あるのみ!」なんですね。数学者や統計学者といった専門家を目指すわけではないなら、細かいことは抜きにして、使えるようになるまでひたすら繰り返せばいいんです。

次回以降の構想は全然練っていませんが、標準偏差(+分散)をマスターしただけでは統計学の「と」の字も分かったことになりません。やはり、統計学の女王的存在である「正規分布」や基礎教養として知っておきたい「区間推定と仮説検定」について、今回と同じように「自力で計算できる」ような解説ができればと思っています。

では、また!

コメント