## 多項分布の差の検定について

多項分布に基づくデータの差の検定は、複数のカテゴリに分類されたデータにおいて、2つ以上の分布が同一であるかどうかを検定する方法です。この検定は、例えば異なるグループ間でのカテゴリデータの分布の違いを調べる場合に使用されます。

### 検定の概要

多項分布の差の検定は、一般的にはカイ二乗検定（$\chi^2$ 検定）が用いられます。この検定では、観測されたカテゴリの頻度と期待されるカテゴリの頻度の差が有意かどうかを判断します。

### 手順

1. **データの整理**：
    - 各カテゴリの観測データを集計します。例えば、$k$ 個のカテゴリに分類されたデータが $n$ 個のグループに分けられている場合、観測頻度を行列 $O$ にまとめます。

2. **期待頻度の計算**：
    - 各カテゴリの期待頻度を計算します。期待頻度は、全体の分布に基づいて計算されます。期待頻度の行列を $E$ とします。

3. **カイ二乗統計量の計算**：
    - カイ二乗統計量 $\chi^2$ を次のように計算します：
      $$
      \chi^2 = \sum_{i=1}^{n} \sum_{j=1}^{k} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
      $$

4. **自由度の計算**：
    - 検定の自由度は $(n - 1) \times (k - 1)$ です。

5. **有意性の判断**：
    - カイ二乗分布に基づいて $p$ 値を計算し、事前に設定した有意水準 $\alpha$ と比較して有意性を判断します。$p$ 値が $\alpha$ 未満であれば、帰無仮説（2つの分布が同じである）を棄却します。

### 具体例

ここでは、2つのグループ間で3つのカテゴリに分かれたデータのカイ二乗検定を行う例を示します。

#### データの例

| グループ | カテゴリ1 | カテゴリ2 | カテゴリ3 |
|----------|-----------|-----------|-----------|
| グループA | 10        | 20        | 30        |
| グループB | 15        | 25        | 35        |

#### カイ二乗検定の手順

1. **観測頻度** $O$：
    $$
    O = \begin{pmatrix}
    10 & 20 & 30 \\
    15 & 25 & 35
    \end{pmatrix}
    $$

2. **期待頻度の計算**：
    - 各カテゴリの期待頻度は、全体の割合に基づいて計算されます。例えば、グループAのカテゴリ1の期待頻度は次のように計算します：
      $$
      E_{A1} = \frac{(10 + 15) \times (10 + 20 + 30)}{2 \times 3}
      $$

3. **カイ二乗統計量の計算**：
    - カイ二乗統計量 $\chi^2$ を計算します。

4. **自由度の計算**：
    - 自由度は $(2 - 1) \times (3 - 1) = 2$ です。

5. **$p$ 値の計算と有意性の判断**：

#### Pythonでの実装

以下に、Pythonでカイ二乗検定を実行する例を示します。

このコードでは、観測データを使用してカイ二乗検定を実行し、カイ二乗統計量、$p$ 値、自由度、期待頻度を計算しています。また、$p$ 値に基づいて有意性を判断しています。

### まとめ

多項分布の差の検定は、複数のカテゴリに分類されたデータの分布の差を検定するために使用されます。カイ二乗検定はこの目的に非常に適しており、観測頻度と期待頻度の差をカイ二乗統計量として計算し、有意性を判断します。Pythonを用いることで、この検定を簡単に実行することができます。

In [1]:
import numpy as np
from scipy.stats import chi2_contingency

# 観測データ
observed = np.array([[10, 20, 30],
                     [15, 25, 35]])

# カイ二乗検定の実行
chi2, p, dof, expected = chi2_contingency(observed)

print(f"Chi2 Statistic: {chi2}")
print(f"P-value: {p}")
print(f"Degrees of Freedom: {dof}")
print("Expected Frequencies:")
print(expected)

# 有意性の判断
alpha = 0.05
if p < alpha:
    print("有意水準 0.05 で帰無仮説を棄却します。分布に有意な差があります。")
else:
    print("有意水準 0.05 で帰無仮説を棄却できません。分布に有意な差はありません。")


Chi2 Statistic: 0.27692307692307694
P-value: 0.870696738961232
Degrees of Freedom: 2
Expected Frequencies:
[[11.11111111 20.         28.88888889]
 [13.88888889 25.         36.11111111]]
有意水準 0.05 で帰無仮説を棄却できません。分布に有意な差はありません。
