色々面白い。のですが学生時代に勉強してないのがバレバレで超はずかしい。
5-5 の正規分布から派生した確立分布、の章を確認しています。
- 期待値や合計値はサンプルサイズさえ適切 (大きい) なら正規分布で近似できる
- t 値とか F 比などの統計量は標本から得られた値なので、統計量の標本分布に沿って変化する
- 母集団分布の確立密度関数がわかっていれば、標本分布も計算で求めることができる
- 標本分布を知っておくことでシミュレーションなしで p 値を求めることも可能
- 期待値の分散は標準誤差の二乗で標準誤差とは期待値の標準偏差
t 分布
- t 分布とは「正しい分散」がわからなかった時の標準正規分布
- t 分布におけるパラメータは自由度のみ
正規分布のとこ、流し読んでるというか酒が入っていたのでアレなのかどうか。
d <- c(-1, -1, 0, 0, 1, 3, 5, 6, 7, 7)
hyoujungGosa <- sd(d) / sqrt(length(d))
qnorm(p=0.025, mean=mean(d), sd=hyoujunGosa)
期待値と期待値の標準偏差 (標準誤差) な正規分布で確率変数が x を下回る確立が 2.5% な x を戻す、のか。そして qnorm は以下な書き換えができるみたい。
mean(d) + qnorm(p=0.025, mean=0, sd=1) * hyoujunGosa
標準正規分布に標準誤差を掛けて期待値を加えています。この方式で t 分布を使いなさい、とのことで以下な式が案内されています。
mean(d) + qt(p=0.025, df=9) * hyoujunGosa
mean(d) + qt(p=0.0975, df=9) * hyoujunGosa
そして信頼区間は t 検定でも出力される、とのこと。
t.test(d)
そういえば qt に渡す自由度が 9 になっていますがデータサイズから 1 引いた値、なのかどうか。自由度てケイスによって違うって話だったはずなのですが、このあたりってどうやって確認すれば良いのかな。(備忘
あと、R の手続きを以下に控え。
- dt() : 確立密度
- pt() : ある値以下になる確立を求める
- qt() : ある確立になる基準値を求める
- rt() : 乱数発生
カイ二乗分布
「標準正規分布に従う確率変数」を「二乗してから合計した値の標本分布」とのこと。二乗するメリットとして
- 分散は二乗されている
- 正規分布に従う確率変数を二乗する処理もしばしば
というナニを扱うケイスでこの分布が出てくるとのこと。パラメータは自由度のみ、とのことでした。
- dchisq() : 確立密度
- pchisq() : ある値以下になる確立を求める
- qchisq() : ある確立になる基準値を求める
- rchisq() : 乱数発生
F 分布
「正規分布に従う確立変数」から計算された「分散の比の確立分布」とのこと。
F 比は「効果の分散 / 誤差の分散」であり、分散の比。なので F 分布に従うとのことで、この分布を使えば p 値が計算できる、とのことなのですがここの繋りなあたりの理解が微妙。
F 分布のパラメータは、分子の分散の自由度と分母の分散の自由度、とのことですが、分子は効果で分母は誤差、って理解でよいのかどうか。
- df() : 確立密度
- qf() : ある値以下になる確立を求める
- qf() : ある確立になる基準値を求める
- rf() : 乱数発生
PB 検定で求めた p 値は、という件、確認してみます。どちらかというと 2-1 のあたりを確認した方が良さげ。2-1-10 では
- 効果の自由度 : 2
- 誤差の自由度 : 3
という形で案内されていますね。つうか
> anova(modelANOVA)
Analysis of Variance Table
Response: length
Df Sum Sq Mean Sq F value Pr(>F)
medicine 2 64 32 16 0.02509 *
Residuals 3 6 2
の DF な列が自由度なのか。これ、2-1-7 とか 2-1-8 あたりで計算されていますが、不偏分散の計算式に出てきている n - 1
が自由度になるのかどうか。