正規分布の派生品

色々面白い。のですが学生時代に勉強してないのがバレバレで超はずかしい。

5-5 の正規分布から派生した確立分布、の章を確認しています。

期待値や合計値はサンプルサイズさえ適切 (大きい) なら正規分布で近似できる
t 値とか F 比などの統計量は標本から得られた値なので、統計量の標本分布に沿って変化する
母集団分布の確立密度関数がわかっていれば、標本分布も計算で求めることができる
標本分布を知っておくことでシミュレーションなしで p 値を求めることも可能
期待値の分散は標準誤差の二乗で標準誤差とは期待値の標準偏差

t 分布

t 分布とは「正しい分散」がわからなかった時の標準正規分布
t 分布におけるパラメータは自由度のみ

正規分布のとこ、流し読んでるというか酒が入っていたのでアレなのかどうか。

d <- c(-1, -1, 0, 0, 1, 3, 5, 6, 7, 7)
hyoujungGosa <- sd(d) / sqrt(length(d))
qnorm(p=0.025, mean=mean(d), sd=hyoujunGosa)

期待値と期待値の標準偏差 (標準誤差) な正規分布で確率変数が x を下回る確立が 2.5% な x を戻す、のか。そして qnorm は以下な書き換えができるみたい。

mean(d) + qnorm(p=0.025, mean=0, sd=1) * hyoujunGosa

標準正規分布に標準誤差を掛けて期待値を加えています。この方式で t 分布を使いなさい、とのことで以下な式が案内されています。

mean(d) + qt(p=0.025, df=9) * hyoujunGosa
mean(d) + qt(p=0.0975, df=9) * hyoujunGosa

そして信頼区間は t 検定でも出力される、とのこと。

t.test(d)

そういえば qt に渡す自由度が 9 になっていますがデータサイズから 1 引いた値、なのかどうか。自由度てケイスによって違うって話だったはずなのですが、このあたりってどうやって確認すれば良いのかな。(備忘

あと、R の手続きを以下に控え。

dt() : 確立密度
pt() : ある値以下になる確立を求める
qt() : ある確立になる基準値を求める
rt() : 乱数発生

カイ二乗分布

「標準正規分布に従う確率変数」を「二乗してから合計した値の標本分布」とのこと。二乗するメリットとして

分散は二乗されている
正規分布に従う確率変数を二乗する処理もしばしば

というナニを扱うケイスでこの分布が出てくるとのこと。パラメータは自由度のみ、とのことでした。

dchisq() : 確立密度
pchisq() : ある値以下になる確立を求める
qchisq() : ある確立になる基準値を求める
rchisq() : 乱数発生

F 分布

「正規分布に従う確立変数」から計算された「分散の比の確立分布」とのこと。

F 比は「効果の分散 / 誤差の分散」であり、分散の比。なので F 分布に従うとのことで、この分布を使えば p 値が計算できる、とのことなのですがここの繋りなあたりの理解が微妙。

F 分布のパラメータは、分子の分散の自由度と分母の分散の自由度、とのことですが、分子は効果で分母は誤差、って理解でよいのかどうか。

df() : 確立密度
qf() : ある値以下になる確立を求める
qf() : ある確立になる基準値を求める
rf() : 乱数発生

PB 検定で求めた p 値は、という件、確認してみます。どちらかというと 2-1 のあたりを確認した方が良さげ。2-1-10 では

効果の自由度 : 2
誤差の自由度 : 3

という形で案内されていますね。つうか

> anova(modelANOVA)
Analysis of Variance Table

Response: length
          Df Sum Sq Mean Sq F value  Pr(>F)
medicine   2     64      32      16 0.02509 *
Residuals  3      6       2

の DF な列が自由度なのか。これ、2-1-7 とか 2-1-8 あたりで計算されていますが、不偏分散の計算式に出てきている n - 1 が自由度になるのかどうか。