icon

正規分布の最尤推定

公開: 2025-05-31 / 最終更新: 2025-06-29
正規分布最尤推定

正規分布の最尤推定量が標本平均・標本分散になることを示す。

はじめに

正規分布の確率密度関数は以下であった。

p(x;μ,σ2)=12πσ2exp((xμ)22σ2)\begin{align} p(x;\mu,\sigma^2) &= \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \end{align}

最尤推定では、尤度L(θ)L(\theta)が最大になるパラメータθ\thetaを推定する。

θ^=arg maxθL(θ)\begin{align} \hat\theta = \argmax_\theta L(\theta) \end{align}

このままでは計算が面倒くさいので、対数をとっておく。

θ^=arg maxθlogL(θ)\begin{align} \hat\theta = \argmax_\theta\log L(\theta) \end{align}

対数尤度関数の整理もここでしておこう。

logL(θ)=logp(X;θ)=log(n=1Np(x(n);θ))=n=1Nlogp(x(n);θ)=n=1Nlog(12πσ2exp((x(n)μ)22σ2))=n=1N(12log(2π)+logσ+(x(n)μ)22σ2)\begin{align} \log L(\theta) &= \log p(X;\theta) \\ &= \log \left( \prod_{n=1}^N p(x^{(n)}; \theta) \right) \\ &= \sum_{n=1}^N \log p(x^{(n)}; \theta) \\ &= \sum_{n=1}^N \log \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x^{(n)}-\mu)^2}{2\sigma^2} \right) \right) \\ &= -\sum_{n=1}^N \left( \frac{1}{2}\log(2\pi) + \log\sigma + \frac{(x^{(n)}-\mu)^2}{2\sigma^2} \right) \end{align}

では実際にμ\muσ2\sigma^2を求めていく。

平均を求める

対数尤度関数を平均μ\muについて整理する。

logL(θ)=n=1N(12log(2π)+logσ+(x(n)μ)22σ2)=12σ2n=1N(x(n)μ)2+const\begin{align} \log L(\theta) &= -\sum_{n=1}^N \left( \frac{1}{2}\log(2\pi) + \log\sigma + \frac{(x^{(n)}-\mu)^2}{2\sigma^2} \right) \\ &= -\frac{1}{2\sigma^2} \sum_{n=1}^N (x^{(n)}-\mu)^2 + \text{const} \end{align}

μ\muに関係のない項はconst\text{const}としてまとめた。結果的にμ\muについて上に凸の二次関数になった。よって微分して傾きが00になる点を求めれば良い。

ということで微分して

μlogL(θ)=12σ2n=1Nμ(x(n)μ)2=1σ2n=1N(x(n)μ)\begin{align} \frac{\partial}{\partial\mu} \log L(\theta) &= -\frac{1}{2\sigma^2} \sum_{n=1}^N \frac{\partial}{\partial\mu} (x^{(n)}-\mu)^2 \\ &= \frac{1}{\sigma^2} \sum_{n=1}^N (x^{(n)} - \mu) \\ \end{align}

=0=0で解くと

1σ2n=1N(x(n)μ)=0n=1N(x(n)μ)=0n=1Nx(n)Nμ=0μ=1Nn=1Nx(n)μ=Xˉ\begin{align} \frac{1}{\sigma^2} \sum_{n=1}^N (x^{(n)} - \mu) &= 0 \\ \sum_{n=1}^N (x^{(n)} - \mu) &= 0 \\ \sum_{n=1}^N x^{(n)} - N\mu &= 0 \\ \mu &= \frac{1}{N}\sum_{n=1}^N x^{(n)} \\ \mu &= \bar X \end{align}

標本平均になった。

分散を求める

対数尤度関数を分散σ2\sigma^2について整理する。

logL(θ)=n=1N(12log(2π)+logσ+(x(n)μ)22σ2)=N2logσ212σ2(n=1N(x(n)μ)2)+const=N2(logσ2+S2σ2)+const\begin{align} \log L(\theta) &= -\sum_{n=1}^N \left( \frac{1}{2}\log(2\pi) + \log\sigma + \frac{(x^{(n)}-\mu)^2}{2\sigma^2} \right) \\ &= -\frac{N}{2} \log \sigma^2 - \frac{1}{2\sigma^2} \left( \sum_{n=1}^N(x^{(n)} - \mu)^2 \right) + \text{const} \\ &= -\frac{N}{2} \left( \log \sigma^2 + \frac{S^2}{\sigma^2} \right) + \text{const} \end{align}

μ\muと同様、σ2\sigma^2に関係ない項はconst\text{const}としてまとめた。

途中の変形には1Nn(x(n)μ)2=S2\frac{1}{N} \sum_n (x^{(n)}-\mu)^2=S_2を用いた。S2S^2は標本分散。ここで、σ2\sigma^2を変数にするとごちゃごちゃするので、

F(x)=N2(logx+S2x)\begin{align} F(x) = -\frac{N}{2} \left( \log x + \frac{S^2}{x} \right) \end{align}

としておく。これの最大値を取るxxを求める。

F(x)F(x)を微分し

F(x)=N2(1xS2x2)\begin{align} F'(x) = -\frac{N}{2} \left( \frac{1}{x} - \frac{S^2 }{x^2} \right) \\ \end{align}

=0=0で解くと

1xS2x2=0x=S2\begin{align} \frac{1}{x} - \frac{S^2 }{x^2} &= 0 \\ x &= S^2 \end{align}

標本分散となった。この方程式の解はこれだけなので、F(x)F(x)x=S2x=S^2で唯一の極値を取ることになる。そしてこの点における二階微分は

L(x)=N2(1x22S2x3)=N2(x2S2x3)L(S2)=N2(S2)2<0\begin{align} L''(x) &= \frac{N}{2} \left( \frac{1}{x^2} - \frac{2S^2}{x^3} \right) \\ &= \frac{N}{2} \left( \frac{x - 2S^2}{x^3} \right) \\ L''(S^2) &= -\frac{N}{2(S^2)^2} < 0 \end{align}

と負になるため、この点は極大値である。よってF(x)F(x)x=S2x=S^2唯一の極大値=最大値を取る。

まとめ

以上より、正規分布の最尤推定量は

μ^=Xˉσ^2=S2\begin{align} \hat\mu &= \bar X \\ \hat\sigma^2 &= S^2 \end{align}

となる。