「標準正規分布は正規分布と何が違うか分からない」
「正規分布を標準化すると何が良いのか?」
「標準化するときの式の意味って何?」
標準正規分布や、正規分布の標準化といった言葉は推定や検定を行うときによく出てきます。
しかし、意味がよく分からずに計算すると何か頭に引っかかるものがありますし、計算手順もすぐに忘れてしまいます。
本記事では、正規分布を標準化することのメリットや計算式の意味について1つずつ丁寧に解説していきます。
標準正規分布の定義
正規分布を標準化するにあたって、まずは標準正規分布とは何かということを知る必要があります。
正規分布を復習すると、確率密度関数は、
$$f(x)=\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$
と表されます。
また、平均\(\mu\)、分散\(\sigma^2\)の正規分布のことを簡単に\(N(\mu,\sigma^2)\)と書くことも多いです。
標準正規分布とは、平均 0 、分散 1 の正規分布のことです。
\(\mu=0\)、\(\sigma^2=1\)を代入して確率密度関数は、
$$f(x)=\frac{1}{\sqrt{2\pi}} \exp\left(-\frac{x^2}{2}\right)$$
となります。
正規分布の一般的な場合と比べて簡単に見えますね。
確率密度関数をグラフに描くと上図のようになります。
標準正規分布は平均が 0 なので、軸に沿って対称なグラフとなります。
ちなみに、標準正規分布を記号で書くと、\(N(0,1)\)です。
標準正規分布を考えるメリット
確かに標準正規分布は分かりやすいですが、
「そもそも何故、標準正規分布を考える必要があるの?」
という疑問を持たれる方もいると思います。
この疑問に答えるために、次のような例題を考えてみましょう。
\(N(20,4)\)は、平均 20 、分散 4 の正規分布のことですので、確率密度関数は、
$$f(x)=\frac{1}{2\sqrt{2\pi}} \exp\left(-\frac{(x-20)^2}{8}\right)$$
となります。
普通に考えると、22g以上のボールができる確率は、
$$P(x\text{≧}22)=\int_{22}^{\infty} \frac{1}{2\sqrt{2\pi}} \exp\left(-\frac{(x-20)^2}{8}\right) dx$$
と計算できるはずです。
しかし、一見して分かるように、この式をスラスラ計算できる人はほとんどいないでしょう。
筆者も、式を見ただけで計算を諦めてしまいます。
ここで標準正規分布の出番です。
何とかして\(N(20,4)\)を\(N(0,1)\)に変換して、標準正規分布の積分、
$$\int_c^{\infty} \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{x^2}{2}\right) dx$$
をあらかじめ計算したデータを持っておけば、平均や分散の値に関わらず、積分を簡単に計算できるようになります。
実際に、標準正規分布の積分の計算結果は広く出回っており、「正規分布表」としてまとめられています。
統計学の教科書の後ろに記載されていることが多いです。
(教科書によっては、上の積分と微妙に形が違うこともあるので注意してください)
確かに\(N(0,1)\)に変換できれば、すぐに答えにたどり着くことができそうですが、
「どうやって\(N(0,1)\)に変換するのか?」
という問題が残っています。
それを次の節で見ていきましょう。
正規分布の標準化の方法
ようやく正規分布の標準化までたどり着きました。
この節では、\(N(\mu,\sigma^2)\)を\(N(0,1)\)に変換する方法について説明します。
変換するにあたり、一次式
$$Z=aX+b$$
で計算できれば最も簡単で便利そうです。
一次式で計算できないか考えてみます。
ここで、下図のように、\(X\)が\(N(\mu,\sigma^2)\)に従い、\(Z\)が\(N(0,1)\)に従うとします。
期待値を\(E(\cdot)\)、分散を\(V(\cdot)\)の記号で書くと、Zの期待値は 0 で分散は 1 なので、
\begin{align}
&E(Z)=E(aX+b)=0\\
&V(Z)=V(aX+b)=1\\
\end{align}
期待値の性質と分散の性質を使って式を変形すると、
\begin{align}
&aE(X)+b=0\\
&a^2V(X)=1\\
\end{align}
\(X\)は\(N(\mu,\sigma^2)\)に従いますので、
\begin{align}
&a\mu+b=0\\
&a^2\sigma^2=1\\
\end{align}
連立方程式を解いて、
$$a=\frac{1}{\sigma}, b=-\frac{\mu}{\sigma}$$
長々と計算が続いてしまいましたが、\(Z=aX+b\)でしたので、
$$Z=\frac{X-\mu}{\sigma}$$
という関係が成り立ちます。
これが X を Z に変換する式で、正規分布を標準化する式として頻繁に用いられます。
教科書では標準化の式が天下り的に与えられることも多いですが、その過程を地道に計算するとスッキリします。
次の節では、正規分布の標準化の式を具体的にどのように使うのかについて説明します。
正規分布の標準化の具体例
上で使用した例題を再掲します。
標準化の式は
$$Z=\frac{X-\mu}{\sigma}$$
でしたので、これに\(\mu=20, \sigma=2\)を代入します。
(N(20,4)の 4 は分散の値であり、標準化のときに使う\(\sigma\)は標準偏差ですので、\(\sigma=\sqrt{4}\)です。)
さて、代入の結果は
\begin{align}
Z&=\frac{X-20}{2}\\
X&=2Z+20\\
\end{align}
これで標準化の準備完了です。22g以上のボールができる確率は、
\begin{align}
P(X\text{≧}22)&=P(2Z+20\text{≧}22)\\
&=P(Z\text{≧}1)\\
\end{align}
と変形できます。
この式の意味は、「N(20,4)から25以上の値を取りだす確率と、N(0,1)から 1 以上の値を取りだす確率は等しい」ということです。
変換してN(0,1)に持っていくと正規分布表が使えるので、面倒な積分を計算する必要がありません。
正規分布表によると、
$$P(Z\text{≧}1)=0.16$$
ですので、例題の答えは「22g以上のボールができる確率は約16%である」となります。
まとめ
本記事では、正規分布を標準化する理由と、その方法について説明しました。
正規分布を標準化する理由は、
「標準化すると複雑な計算を行う必要がなく、正規分布表を使うことができるから」
であり、\(N(\mu,\sigma^2)\)を\(N(0,1)\)に変換する式は、
$$Z=\frac{X-\mu}{\sigma}$$
です。
標準正規分布に変換する式は、推定や検定の分野で頻繁に登場しますので、変換式自体を覚えてしまっても良いと思います。
以上、正規分布の標準化に関する考察でした。