# 正規分布とその応用

## 流れ

正規分布であることを利用すれば、シミュレーションを行うことなく様々なことができる。
その応用方法を記載する。また、正規分布から得られた標本分布としてt分布を導入する。

1. 標本がある値以下となる割合（下側確率）の求め方と累積分布関数
2. 下側確率とパーセント点
3. t値とt値の標本分布とt分布


In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
%precision 3
%matplotlib inline

  return f(*args, **kwds)
  return f(*args, **kwds)
  return f(*args, **kwds)
  return f(*args, **kwds)
  return f(*args, **kwds)


### 1. 標本がある値以下となる割合（下側確率）の求め方と累積分布関数

- 下側確率 = 標本がある値以下となったデータの個数 / サンプルサイズ で求められる
- 累積分布関数を使えば、定積分の式で求めることができる
- 累積分布関数（または分布関数）とは、「ある値以下となる確率を計算してくれるもの」
- 正規分布において、確率変数Xが3以下となる確率というと

$$
P(X \leqq 3) = \int_{-\infty}^3 \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} dx
$$


### 2. 下側確率とパーセント点

「確率変数xが〇を下回る確率は△%である」という表現を考える。

- 〇（変数）を固定して、△（確率）を求める場合、この時の△が下側確率
- △（確率）を固定して、〇（変数）を求める場合、この時の〇がパーセント点


In [4]:
# 下側確率も求める例（正規分布：N(4, 0.8**2), x=4）
stats.norm.cdf(loc=4, scale=0.8, x=4)

0.5

In [5]:
# パーセント点を求める例（正規分布：N(4, 0.8**2), 下側確率2.5%）
stats.norm.ppf(loc=4, scale=0.8, q=0.025)

2.4320288123679563

### 3. t値とt値の標本分布とt分布

#### t値とは

$$
t value = \frac{\hat{\mu} - \mu}{\frac{\hat{\sigma}}{\sqrt{N}}}
$$


$$\hat{\mu} : 標本平均$$
$$\mu : 母平均$$
$$\hat{\sigma} : 標本から計算された標準偏差（不偏分散の平方根）$$

#### t値の標本分布

- 母集団分布を正規分布とした場合のt値の標本分布をシミュレーションし、標準正規分布と比較すると
- 平均値は0になり、分散は1より少し大きいことが分かる

#### t分布

- **母集団分布が正規分布であるときのt値の標本分布** をt分布という
- t分布には自由度というパラメータがあり、自由度nとしたときのt分布を t(n) などと表記する
- 自由度とは、サンプルサイズから1引いた数である。サンプルサイズNとすると、n = N-1 である

<font color=red>**t分布の性質あれこれ**</font>

- 平均値は0である
- 分散は1より少し大きくなる
- 分散を具体的に計算する場合（自由度をn(>2)として）

$$ t(n)の分散 = \frac{n}{n-2} $$

サンプルサイズが大きくなると標準正規分布に近づく

別の資料で確認したところ、サンプルサイズ30以下ならt分布、30より大なら標準正規分布を適用する

というような記述を見たことがある。サンプルサイズが小さいときのモデルと言える。

#### t分布の意義

- **母分散が分かっていない状況であっても、標本平均の分布について言及することができる**

ここらへんの説明は [統計Web](https://bellcurve.jp/statistics/course/) の方が分かりやすいかもしれない