## 適合度カイ二乗検定について

適合度カイ二乗検定（Goodness-of-Fit Chi-Square Test）は、観測データが期待される理論的分布にどれだけ適合しているかを評価するための統計的方法です。この検定は、カテゴリデータの分布を評価する際によく使用されます。

### 検定の目的

適合度カイ二乗検定は、以下の仮説を検証します。
- **帰無仮説（$H_0$）**: 観測データは期待される分布に適合している。
- **対立仮説（$H_1$）**: 観測データは期待される分布に適合していない。

### 計算方法

1. **観測度数（$O_i$）**: 各カテゴリにおける実際の観測データの度数。
2. **期待度数（$E_i$）**: 各カテゴリにおける理論的に期待される度数。
3. **カイ二乗統計量（$\chi^2$）**: 以下の式で計算されます。

   $$
   \chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i}
   $$

4. **自由度（$df$）**: カテゴリの数（$n$）から1を引いた値（$df = n - 1$）。
5. **$p$値**: カイ二乗分布に基づいて計算され、帰無仮説を棄却するかどうかを判断するために使用されます。

### 手順

1. **データの収集**: 各カテゴリにおける観測度数を集めます。
2. **期待度数の計算**: 各カテゴリに対する期待度数を計算します。
3. **カイ二乗統計量の計算**: 上記の式に従ってカイ二乗統計量を計算します。
4. **自由度の決定**: カテゴリの数から1を引いた値を自由度とします。
5. **p値の計算**: カイ二乗分布表を用いて、計算したカイ二乗統計量と自由度から$p$値を求めます。
6. **結果の解釈**: $p$値があらかじめ設定した有意水準（通常は0.05）より小さい場合、帰無仮説を棄却し、観測データは期待分布に適合していないと判断します。

### 例

次の例で適合度カイ二乗検定を行います。

あるコインが公正かどうかを検定するために、100回の投げた結果を記録しました。結果は次の通りです。
- 表（Heads）：60回
- 裏（Tails）：40回

期待度数は、公正なコインの場合、表と裏の出る確率は50%ずつです。したがって、100回の投げた場合の期待度数はどちらも50回です。

#### カイ二乗統計量の計算

観測度数（$O$）：表=60、裏=40

期待度数（$E$）：表=50、裏=50

$$
\chi^2 = \frac{(60 - 50)^2}{50} + \frac{(40 - 50)^2}{50} = \frac{10^2}{50} + \frac{(-10)^2}{50} = \frac{100}{50} + \frac{100}{50} = 4
$$

#### 自由度

自由度（$df$）：カテゴリの数 - 1 = 2 - 1 = 1

#### p値の計算

カイ二乗分布表を参照し、$\chi^2 = 4$と自由度1に対応する$p$値を求めます。

#### 結果の解釈

もし$p$値が0.05未満であれば、コインが公正でないという結論を出すことができます。実際にカイ二乗分布表を用いて$p$値を求めると、この場合$p$値は約0.0455となり、0.05未満です。したがって、帰無仮説を棄却し、コインは公正でない可能性があると判断します。

### Pythonコードでの実装

以下に、Pythonでこの適合度カイ二乗検定を実施するコード例を示します。

このコードを実行すると、カイ二乗統計量と$p$値が出力されます。これにより、観測データが期待分布に適合しているかどうかを評価できます。

In [None]:
import scipy.stats as stats
# 観測度数
observed = [60, 40]

# 期待度数
expected = [50, 50]

# カイ二乗検定の実施
chi2, p = stats.chisquare(f_obs=observed, f_exp=expected)

print(f"カイ二乗統計量: {chi2}")
print(f"p値: {p}")