平方和、分散、標準偏差の違いは?


うぱうぱ~!今回は平方和と分散と標準偏差の違いについて話します。

それぞれの公式

平方和の公式

 \displaystyle \sum_{i=1}^{n}{(x_i-\overline{x})}^2

平方和はもう一つ公式があり、 S=\displaystyle\sum_{i=1}^{n}{x^{2}_{i}}-\dfrac{(\displaystyle\sum_{i=1}^{n}{x_{i})}^{2}}{n} となる。言葉でいうと、個々のデータの二乗の和からデータの和の2乗の平均を引いたものである。

分散の公式

 V=\dfrac{S}{n-1}

標準偏差の公式

 s=\sqrt{V}

それぞれの概念の違い

それぞれの違いについて説明する。

分散は見ての通り、データと平均の差を二乗した和のことである。なのでデータ数が増えるほど値が大きくなってしまう。そのため分散が生れた。分散では平方和の平均であるのでデータ数が増えたとしても平均化によって値が大きくなっていくことがなくなる。さらにもっと直観的に分かるように標準偏差が生れた。平方和や分散はデータの二乗により単位が二乗になっている。そこで標準偏差によりルートを付けることで直観的になる。

まとめると

平方和は同じデータ数なら比較するのは可能である。しかし、データ数が増えると値が大きくなる。

分散は平方和を平均にするのでデータ数に依存することはない。しかし、元のデータ単位の二乗となっている。

標準偏差は分散の平方根なのでデータの単位と一致する。分散よりも直観的に分かりやすいのは、以下の具体例が分かりやすいです。

例えば、身長のデータを考えてみる。以下の2つのグループの身長データを比較すると:
グループA: 160 cm, 165 cm, 170 cm, 175 cm, 180 cm
グループB: 140 cm, 150 cm, 160 cm, 170 cm, 180 cm

これらのグループの分散と標準偏差を計算してみよう。
グループAの分散 = 100 グループAの標準偏差 = 10
グループBの分散 = 200 グループBの標準偏差 = 14.14

この例では、グループAとグループBの分散は異なるが、標準偏差を見るとグループBの方がグループAよりも身長データがより広がっていることが分かる。標準偏差はデータのばらつきを直感的に理解しやすく、単位が元のデータと同じであるため、比較や解釈が容易。
一方、分散は単位が元のデータの単位の二乗となるため、直接的な比較が難しくなる。例えば、分散が100と200の場合、その差がどれだけ大きいのか、実際のデータのばらつきの程度を直感的に把握するのは難しい。
したがって、標準偏差はデータのばらつきを直感的に理解しやすい尺度と言える。データのばらつきを比較する際には、標準偏差を使用することで、データの範囲や散らばり具合をより直感的に把握することができる。

 

最後まで読んでくれてありがとう!