不偏分散はなぜ\(n-1\)で割るの?
普通の分散ではダメな理由を知りたい!
こんな悩みを解決します。
※スマホでご覧になる場合は,途中から画面を横向きにしてください.
母集団から抽出した大きさ\(n\)の標本\(X_1,\; X_2,\; \cdots X_n\)から計算される分散には,
標本分散\(S^2\) (sample variance) と不偏分散\(U^2\) (unbiased variance)
の2種類があり,混乱しがちです.
\[ 標本分散S^2=\frac{\displaystyle \sum_{k=1}^n (X_k-\overline{X})^2}{n} \]
\[ 不偏分散U^2=\frac{\displaystyle \sum_{k=1}^n (X_k-\overline{X})^2}{n-1} \]
推測統計の分野では通常,2つ目の不偏分散という推定量を利用します.
なぜ推測統計では\(n\)でなく\(n-1\)で割った不偏分散を用いるのでしょうか?
本記事ではこの理由を数式を用いて2通りの方法でご紹介していきます.
✔︎本記事の内容
・推測統計と推定量について
・n-1で割る理由を理解しよう
・n-1で割る方法を2通りの方法で証明
なぜ不偏分散が\(n-1\)で割った形になっているのかをきちんと証明した入門レベルの統計本では少なめです.
以下の2冊は読みやすくて,しっかりと証明もされています.
それでは,不偏分散を理解するために必要な「推測統計」「推定量」の話から始めていきましょう.
推測統計とは
母集団から標本を無作為に抽出し,標本をもとにして元の母集団の分布の様子を調べる方法
具体的には標本をもとにして,母集団の分布を特徴づける母数という量を推測していきます.
母数とは具体的には,母平均\(\mu\)や母分散\(\sigma^2\)などのことを指します.
つまり,標本を用いて何らかの計算をし,母平均や母分散の値を推測していくのが推測統計の大まかな流れとなります.
推定量と推定量が満たすべき2つの条件
母数(母平均や母分散など)を推定する材料となる統計量を「推定量」といいます.
具体的には,「標本平均\(\overline{X}\)」や「不偏分散\(U^2\)」が「推定量」に当たります.
このような推定量には次の2つの満たされるべき条件があります.
1 一致性
標本の大きさ\(n\)が大きくなれば,真の母数に近づく
2 不偏性
期待値が真の母数に一致する
推測統計では,この2つの条件を満たした推定量を用いて議論を進めていきます.
標本分散\(S^2\)には「不偏性」がない
標本平均
\[ \overline{X}=\frac{X_1 +X_2+ \cdots +X_n}{n} \]
には「一致性」と「不偏性」があることが分かっています(証明は省略).
一方,標本分散
\[ S^2=\frac{\displaystyle \sum_{k=1}^n (X_k-\overline{X})^2}{n} \]
には「一致性」はありますが,「不偏性」がありません.
「不偏性」とは「期待値が真の母数に一致する」ことでしたね.
もし不偏性があれば標本分散\(S^2\)の期待値は
\[ E(S^2)=\sigma^2\]
となるはずですが,実際に計算をしてみると
\[ E(S^2)=\frac{n-1}{n}\sigma^2 ・・・(A)\]
となってしまいい,標本分散\(S^2\)の期待値\(E(S^2)\)は\(\sigma^2\)に一致しません.
※詳しい計算方法はこの後,ご紹介していきます!
つまり,標本分散\(S^2\)には不偏性がなく,推定量が満たすべき条件を満たしていないのです.
不偏性を持たせた推定量が不偏分散
不偏分散\(U^2\)はunbiased varianceの略です.
「不偏」とは文字通り「偏りがない」という意味で,不偏分散は不偏性を持つように作られた統計量です.
\[ U^2=\frac{\displaystyle \sum_{k=1}^n (X_k-\overline{X})^2}{n-1} \]
ではこの不偏分散がどのようにして作られるのかを見ていきます.
先ほどの標本分散の期待値の式をもう一度見てみましょう.
\[ E(S^2)=\frac{n-1}{n}\sigma^2 ・・・(A)\]
不偏性をもつ推定量をつくるために,つまり上の式の右辺が\(\sigma^2\)になるように式変形をしていけばよいのです.
(A)の両辺に\(\displaystyle \frac{n}{n-1}\)をかけます.
\[ \frac{n}{n-1}E(S^2)=\frac{n}{n-1}\times \frac{n-1}{n}\sigma^2\]
\[ E(\frac{n}{n-1}S^2)=\sigma^2 \]
ここで\(U^2=\displaystyle\frac{n}{n-1}S^2\)とおくと
\[ E(U^2)=\sigma^2\]
となり,\(U^2\)が不偏性をもつ推定量となります!
\(U^2\)を具体的に求めてみましょう.
\[ S^2=\frac{\displaystyle \sum_{k=1}^n (X_k-\overline{X})^2}{n} \]
を用いると
\begin{align}
U^2&=\frac{n}{n-1}S^2\\
&=\frac{n}{n-1}\times \frac{\displaystyle \sum_{k=1}^n (X_k-\overline{X})^2}{n} \\
&=\frac{\displaystyle \sum_{k=1}^n (X_k-\overline{X})^2}{n-1}
\end{align}
となりました.
この\(U^2\)を不偏分散とよびます.
以上,\(n-1\)で割る理由の大まかな流れを解説しました.
次のセクションからは次の式(A)の証明していきます.
\[ E(S^2)=\frac{n-1}{n}\sigma^2 ・・・(A)\]
この式が証明できれば,不偏分散が\( n-1 \)で割られている理由がきちんと示されたことになります.
計算は少し手ごわいですが,不偏分散をしっかりと理解するために頑張ってみましょう.
Σの良い計算練習にもなります.
2通りの方法をご紹介しますので何度も練習し,理解を深めていきましょう.
証明で使う公式一覧
まずは式(A)を証明するために必要な公式をご紹介します.
確率変数\(X\)の期待値を\(E(X)\),分散を\(V(X)\)で表すと,母平均は\(\mu\),母分散は\(\sigma^2\)なので以下の式が成り立ちます.
\( E(X)=\mu\)
\( V(X)=\sigma^2 \)
また分散の定義から次の関係式も成り立ちます.
\( V(X)=E((X-\mu)^2)\)
標本として抽出した\(X_1,\; X_2,\; \cdots , X_n\)も確率変数ですので,上の式の\(X\)を,
\(X_1,\; X_2,\; \cdots , X_n\)に変えても成り立ちます.
次に,確率変数X,Yの公式をまとめておきます.
\( E(aX+b)=aE(X)+b \)
\( E(X+Y)=E(X)+E(Y)\)
\( V(aX+b)=a^2V(X)\)
\(X\)と\(Y\)が互いに独立のとき
\( E(XY)=E(X)E(Y) \)
\( V(X+Y)=V(X)+V(Y) \)
さらに,標本平均\(\overline{X}\)には次の性質がありました.
\( E(\overline{X})=\mu \)
\( V(\overline{X})=\displaystyle\frac{\sigma^2}{n}\)
それではこれらの公式を使って,次の式(A)を2通りの方法で証明してみます.
\[E(S^2)=\frac{n-1}{n}\sigma^2 ・・・(A)\]
※スマホでご覧になる際は,ここから画面を横向きにお願いします
【方法1】分散の計算公式\(V(X)=E(X^2)-\{E(X)\}^2\)を利用
\begin{align*}
S^2&=\frac{\displaystyle \sum_{k=1}^n (X_k-\overline{X})^2}{n} \\
&=\frac{1}{n} \sum_{k=1}^n \{ X_k^2-2X_k\overline{X}+(\overline{X})^2 \} \\
&=\frac{1}{n}\left\{ \sum_{k=1}^n X_k^2 -2\overline{X} \sum_{k=1}^n X_k +(\overline{X})^2 \sum_{k=1}^n 1\right\}
\end{align*}
\begin{align*}
\displaystyle \sum_{k=1}^n X_k&= X_1+\cdots +X_n =n\overline{X}
\end{align*}
であるから
\begin{align*}
S^2&=\frac{1}{n}\left\{\sum_{k=1}^n X_k^2 -2n(\overline{X})^2+n(\overline{X})^2\right\} \\
&=\frac{1}{n}\left\{ \sum_{k=1}^n X_k^2 -n(\overline{X})^2\right\}
\end{align*}
よって
\begin{align*}
E(S^2)&=\frac{1}{n}\left\{ E\left(\sum_{k=1}^n X_k^2 \right)-nE\left[ (\overline{X})^2\right] \right\} \\
&=\frac{1}{n}\left\{ E\left( {X_1}^2\right)+\cdots +E\left({X_n}^2\right)-nE\left[ (\overline{X})^2\right]\right\} \cdots ①\\
\end{align*}
ここで,分散の公式
\[V(X)=E(X^2)-\left\{E(X)\right\}^2 \]
より
\begin{align*}
E(X^2)=V(X)+\left\{E(X)\right\}^2・・・②
\end{align*}
これより
\[ E(X^2)=\sigma^2+\mu^2 \]
よって
\begin{align*}
E({X_1}^2)&=E({X_2}^2)=\cdots =E({X_n}^2)\\
&=\sigma^2+\mu^2\cdots ③
\end{align*}
また②の\(X\)を\(\overline{X}\)におきかえ,\(V( \overline{X} )=\displaystyle \frac{\sigma^2}{n}\)を用いると
\begin{align*}
E\left[(\overline{X})^2\right]
&=V(\overline{X})+\{E(\overline{X})\}^2\\
&=\frac{\sigma^2}{n}+\mu^2\cdots ④
\end{align*}
となるので,③④を①に代入して
\begin{align*}
E(S^2)&=\frac{1}{n}\left\{ n(\sigma^2+\mu^2)-n\left( \frac{\sigma^2}{n}+\mu^2\right) \right\} \\
&=\frac{1}{n}(n\sigma^2+n\mu^2-\sigma^2-n\mu^2)\\
&=\frac{1}{n}(n\sigma^2-\sigma^2)\\
&=\sigma^2-\frac{1}{n}\sigma^2 \\
&=\frac{n-1}{n}\sigma^2
\end{align*}
下から2行目の式から,\(S^2\)の期待値が母分散\(\sigma^2\)よりも\(\displaystyle \frac{1}{n}\sigma^2\)だけ小さくなっていることがわかります.
【方法2】母平均\(\mu\)を引いた形に変形する方法
大学の教科書などでよく見かける方法です.
\begin{align*}
S^2&=\frac{\displaystyle \sum_{k=1}^n (X_k-\overline{X})^2}{n} \\
&=\frac{1}{n} \sum_{k=1}^n \left\{ (X_k-\mu)-(\overline{X}-\mu)\right\}^2 \\
&=\frac{1}{n} \sum_{k=1}^n \left\{ (X_k-\mu)^2-2(X_k-\mu)(\overline{X}-\mu)
+(\overline{X}-\mu)^2\right\} \\
&=\frac{1}{n} \left\{ \! \sum_{k=1}^n (X_k-\mu)^2\! -2(\overline{X}-\mu)\! \sum_{k=1}^n (X_k-\mu)
+(\overline{X}-\mu)^2\! \sum_{k=1}^n 1\! \right\}
\end{align*}
ここで
\begin{align*}
\sum_{k=1}^n (X_k-\mu)
&= \sum_{k=1}^n x_k-\mu \sum_{k=1}^n 1\\
&=n\overline{X}-n\mu \\
&=n( \overline{X}-\mu)
\end{align*}
であるから
\begin{align*}
S^2&=\frac{1}{n} \left\{ \sum_{k=1}^n (X_k-\mu)^2-2n(\overline{X}-\mu)^2
+n(\overline{X}-\mu)^2\right\}\\
&=\frac{1}{n} \left\{ \sum_{k=1}^n (X_k-\mu)^2-n(\overline{X}-\mu)^2\right\}\\
&=\frac{1}{n} \sum_{k=1}^n (X_k-\mu)^2-(\overline{X}-\mu)^2\\
\end{align*}
よって
\begin{align*}
E(S^2)&=\frac{1}{n} E\left[ \sum_{k=1}^n (X_k-\mu)^2\right] -E\left[ (\overline{X}-\mu)^2
\right] \cdots ①\\
\end{align*}
ここで\(X_k(k=1,\; 2,\; \cdots ,n)\)は確率変数なので,分散の定義式\(E[(X_k-\mu)^2]=\sigma^2\)
を用いると
\begin{align*}
&E\left[ \sum_{k=1}^n (X_k-\mu)^2\right]\\
&=E[(X_1-\mu)]+E[(X_2-\mu)]+\cdots +E[(X_n-\mu)]\\
&=\sigma^2+\sigma^2+\cdots +\sigma^2\\
&=n\sigma^2\cdots ②
\end{align*}
また,標本平均\(\overline{X}\)の性質から
\begin{align*}
E\left[ (\overline{X}-\mu)^2\right]&=V( \overline{X})=\frac{\sigma^2}{n}\cdots ③
\end{align*}
②③を①に代入して
\begin{align*}
E(S^2)&=\frac{1}{n}\cdot n\sigma^2-\frac{\sigma^2}{n}\\
&=\sigma^2-\frac{\sigma^2}{n}\\
&=\frac{n-1}{n}\sigma^2
\end{align*}
方法1と同様に,下から2行目の式を見ると,\(S^2\)の期待値が母分散\(\sigma^2\)より
\(\displaystyle \frac{\sigma^2}{n}\)だけ小さくなっていることがわかります.
まとめ
不偏分散\( U^2 \)がなぜ\( n-1 \)で割られていのかについて解説してきました。
不偏分散\( U^2 \)は推定量が満たすべき性質のひとつ「不偏性」を持つようにするために,標本分散\( S^2\)を変形したものです.
\(n\)で割るか,\(n-1\)で割るかの違いなので,標本の大きさ\(n\)が大きい時には,両者はほとんど差がありません.
しかし,標本の大きさ\(n\)が小さい時には,標本分散は不偏分散より小さい値となってしまい,正しく推定を行うことができなくなってしまいます.
2通りの証明方法を解説しましたがどちらも結構大変な式変形が続きましたね。
統計学をしっかりと勉強したい方は手を動かしてぜひ証明にチャレンジしてみてください.
ノートなどに書きながら,自分自身の手で証明をしてみることで確実に力がつくはずです.
最後までお読みいただきありがとうございました.
数式アレルギーのある方はこちらがおすすめ
統計学に出てくる数学を中学レベルから学ぶならこの本がおすすめ
統計学をしっかり学ぶならこれが定番!難しめです