自由度ってなに?

うぱうぱ~!今日は自由度(degree of freedom)について述べるよ!自由度っていわれても説明するのは難しいと思います。それを述べていきます。

自由度とは

 自由度は一言でいうと、データセットや統計モデルにおいてパラメータの独立な情報の数を表しています。複雑なのでもう少し簡単に言うと、「自由に決めることができるデータの数」のことです。

例えば、データが{1,2,3,4,5}の自由度は5つです。しかし、{1,2,3,4,〇}のデータで平均が3の場合は〇は自由に決めることができず、〇は5と決められます。このように平均が分かっている場合は自由度はn-1となってしまいます。


データセットのサイズが小さく、自由度の低い場合、データセットの特徴を限定的に表現するため、もでるは単純なモデルとなります。モデルの予測能力は低くなる可能性があります。つまりモデルはバイアスが高い傾向にあります。


データセットのサイズが大きく自由度が高い場合、データセットの塔区長より詳細にとらえるためモデルは複雑なモデルとなります。データにより柔軟に対応できるため、バイアスの低い傾向にあります。しかし、データセット内のノイズや外れ値による影響も受けやすく、過学習のリスクも高まります。

自由度の分かりやすい認識方法

自由度についてまだ分からない人に対して、自由度についてもう少し分かりやすく述べます。自由度で認識が難しいのは「どんな」自由度かわかっていないからです。計算するための自由度なのか、標本分散に対する自由度なのか、それが明確になっていない方です。

例えば、標本平均を求める時は、
 \overline{x}=\dfrac{\sum_{i=1}^{n}x_{i}}{n}
となり、平均値の自由度nで割っています。

次に、標本分散を求める時は
s^{2}=\dfrac{\sum{(x_{i}-\overline{x})^{2}}}{n-1}
となり、標本分散の自由度n-1で割っています。

なぜ、平均はnで標本分散はn-1になるかというと、標本分散で使われる平均の情報が自由度に影響を与えるからです。その証拠に、\sum_{i=1}^{n}(x_{i}-\overline{x})は0となってしまい、平均にも情報が残っていることが分かります。

まとめ

自由度は理解が難しく、なにも考えずに使っていることが多いと思います。それを理解するために「パラメータの独立な情報の数」と認識しておき、それがなぜ重要なのかを知っておく必要があります。標本分散がn-1で割るのはその計算に平均が使われるからであると覚えておいて欲しいです。