· 

統計検定2級のフィードバック(前編)

(著)ざっきぃ

こんにちは。

 

先日、日本統計学会が主催する「統計検定」の2級を受けてきました。

 

本番の数日後に解答が発表され、自己採点の結果、ありがたいことに受かっていることがわかりました。ただ、結構対策して臨んだものの抜け落ちている知識が多く、やや不本意な結果になったかなという思いがあります。

そこで今回から二度に分けて、僕が間違えた問題や、正解はしたものの本質的に理解していなかった問題を、抜けていた基礎知識とともに整理していきたいなと思います。僕が手間取った問題は、多分多くの人が穴になりがちな箇所だと思いますので、もしかすると統計を勉強している皆さんのお役に立てるかもしれません。

 

問題は、こちらのHPからダウンロードできます。

http://www.toukei-kentei.jp/wp-content/uploads/201711grade2.pdf

 

まずは5番と24番から行きましょう。単回帰分析についてです。

$y=\alpha+\beta x_i+\epsilon_i$という関係を考えるとき、$\beta$の推定値$\hat{\beta}$について、以下の式が成り立ちます。 \[\hat{\beta}=\frac{T_{xy}}{T_{xx}} \ , T_{xy}=\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}), T_{xx}=\sum_{i=1}^{n}(x_i-\bar{x})^2\] ここで、$\hat{\beta}$は$\beta$の不偏推定量である確率変数であり、正規分布$\displaystyle{N(\beta,\frac{\sigma^2}{T_{xx}})}$に従います($\sigma^2$は誤差項$\epsilon_i$の分散)。なので \[z=\frac{\hat{\beta}-\beta}{\sigma/\sqrt{T_{xx}}}~N(0,1)\] も成り立ちます。

しかし当然ですが、$\sigma^2$は未知ですよね。$\sigma^2$の不偏推定量$\hat{\sigma}^2$は以下のようになります。なお、$\hat{\sigma}$の値は、Residual standard errorとして出力結果に表示されます。 \[\hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^{n}e_i^2 \ ,e_i=y_i-\hat{y_i}\] $z$の式に現れる未知の$\sigma^2$を$\hat{\sigma}^2$で置き換えた統計量$t$は、自由度$n-2$の$t$分布に従うことが知られています。この$n-2$から24番の答えが5番だとわかるのですが、僕は間違ってしまいました。$\hat{\beta}$の標準誤差は \[se(\hat{\beta})=\frac{\hat{\sigma}}{\sqrt{T_{xx}}}\] です。

ここで係数$\beta$について、$\beta=\beta_0$という帰無仮説の検定を考えます。回帰分析において最も強い関心を持たれるのは、$\beta_0=0$の場合、すなわち$x$が$y$に影響を与えないという仮説なんですね。Rなどのソフトで出力したときの$t$値はこの場合の値、すなわち$\displaystyle{\frac{\hat{\beta}}{\hat{\sigma}/\sqrt{T_{xx}}}}$になります。なので、標準誤差と$t$値の積がEstimateの値になることが言えます。これで、5番は簡単ですね。僕は雰囲気で正解したのですが、実際に意味がわかっているとは言い難かったです。

$t$値を自由度$n-2$の$t$分布のパーセント点と比較した時の$p$値が、$Pr(>|t|)$として表示されます。

そうそう、$Pr(>|t|)$の値で$2e-16$みたいなのが出てきたら、戸惑いませんか?僕は、$e$って自然対数の底だとずっと思い込んでいました(試験中も、汗)。でも、それだと$p$値が負の値になって、おかしいなあって。笑い事じゃないんですが、これは$2\times 10^{-16}$の意味なんです。極めて小さく、推定値としては優秀だということですね。