Sys.time()
[1] "2024-04-14 08:57:08 JST"
Rでデータサイエンス
単回帰モデル\[y_i=\alpha+\beta x_i+\epsilon_i\quad i=1,2,\cdots,n\]において、説明変数\(x_i\)が非確率的、誤差項\(\epsilon_i\)が\(E(\epsilon_i)=0\)、\(Cov(\epsilon_i,\,\epsilon_j)=0,\,i \neq j\)(無相関)かつ\(V(\epsilon_i)=\sigma^2\)(均一分散)であるとき、\(\beta\)の任意の線形推定量\(\hat{\beta}\)は、定数\(d_1,d_2,\cdots,d_n\)を用いて\[\beta^{*}=\displaystyle\sum_{i=1}^nd_i\,y_i\]と表すことができる。
\(\beta^{*}\)は不偏であるため、期待値の線形性から \[\begin{aligned} E\left(\beta^{*}\right)&=E\left(\displaystyle\sum_{i=1}^nd_i\,y_i\right) =\displaystyle\sum_{i=1}^nd_i\,E(y_i) =\displaystyle\sum_{i=1}^nd_i\,E(\alpha+\beta\, x_i+\epsilon_i) \\&=\displaystyle\sum_{i=1}^nd_i\,E(\alpha)+\displaystyle\sum_{i=1}^nd_i\,E(\beta\, x_i)+\displaystyle\sum_{i=1}^nd_i\,E(\epsilon_i) \\&=\alpha\displaystyle\sum_{i=1}^nd_i+\beta\displaystyle\sum_{i=1}^nd_i\,x_i+\displaystyle\sum_{i=1}^nd_i\cdot0 =\alpha\displaystyle\sum_{i=1}^nd_i+\beta\displaystyle\sum_{i=1}^nd_i\,x_i =\beta\end{aligned}\]が常に成立する。
よって\[\displaystyle\sum_{i=1}^nd_i=0,\quad\displaystyle\sum_{i=1}^nd_i\,x_i=1\]は満たされなければならない。
ここで、\[c_i=\dfrac{x_i-\bar{x}}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}\]とすると、 \[\displaystyle\sum_{i=1}^nc_i\,d_i =\dfrac{\displaystyle\sum_{i=1}^n\left(x_i-\bar{x}\right)\,d_i}{\displaystyle\sum_{i=1}^n\left(x_i-\bar{x}\right)^2} =\dfrac{\displaystyle\sum_{i=1}^nx_i\,d_i-\displaystyle\sum_{i=1}^n\bar{x}\,d_i}{\displaystyle\sum_{i=1}^n\left(x_i-\bar{x}\right)^2} =\dfrac{1-\bar{x}\cdot0}{\displaystyle\sum_{i=1}^n\left(x_i-\bar{x}\right)^2} =\dfrac{1}{\displaystyle\sum_{i=1}^n\left(x_i-\bar{x}\right)^2} \]
また\[\displaystyle\sum_{i=1}^nc^2=\dfrac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{\left((x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2\right)^2}=\dfrac{1}{\displaystyle\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}\]であるため\[\displaystyle\sum_{i=1}^nc_i\,d_i=\displaystyle\sum_{i=1}^nc_i^2\]の関係がある。
\(\beta\)の線形推定量は、\[\hat{\beta}=\dfrac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}\]であり、その分散は(Rで確率・統計:一致推定量参照)\[V(\hat{\beta)}=\dfrac{\sigma^2}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}=\sigma^2\displaystyle\sum_{i=1}^nc_i^2\]
一方、 \[\begin{aligned} V(\beta^{*}) &=\sigma^2\displaystyle\sum_{i=1}^nd_i^2 =\sigma^2\displaystyle\sum_{i=1}^n((d_i-c_i)+c_i)^2 =\sigma^2\displaystyle\sum_{i=1}^n(d_i-c_i)^2+\sigma^2\displaystyle\sum_{i=1}^nc_i^2 \\&\geq\sigma^2\displaystyle\sum_{i=1}^nc_i^2 \end{aligned}\]
であるため、\[V(\beta^{*})\geq V(\hat{\beta})\]となり、\(V(\hat{\beta})\)は不偏かつ最小分散となる。