## カイ二乗分布について

### 概要
カイ二乗分布（χ²分布）は、主にカテゴリカルデータの分析や分散の検定に使用される確率分布です。カイ二乗分布は、独立した標準正規分布に従う変数の二乗和として定義されます。

### 特徴
- **非対称性**: カイ二乗分布は右に偏っており、自由度が増えるとより対称に近づきます。
- **非負の値**: カイ二乗分布の値は常に0以上です。
- **自由度**: カイ二乗分布は自由度（df）によって決まります。自由度が増えると、分布は正規分布に近づきます。

### 確率密度関数（PDF）
カイ二乗分布の確率密度関数は以下のように表されます：

$$
f(x; k) = \frac{x^{(k/2 - 1)} e^{-x/2}}{2^{k/2} \Gamma(k/2)}
$$

ここで、$k$ は自由度、$\Gamma$ はガンマ関数です。

### 使用方法
カイ二乗分布は主に以下のような場合に使用されます：

1. **適合度検定**:
   - 観測データが特定の理論分布に従うかどうかを検定します。

2. **独立性の検定**:
   - 2つのカテゴリ変数の独立性を検定します。クロス集計表を使用して行います。

3. **分散の検定**:
   - 母集団の分散が特定の値に等しいかどうかを検定します。

### 具体例

#### 1. 適合度検定
あるデータセットが特定の理論分布に適合しているかどうかを検定します。例として、あるコインが公平であるかどうかを検定します。

**データ**:
- コインの表が出た回数: 55回
- コインの裏が出た回数: 45回

理論的には、公平なコインでは表と裏がそれぞれ50回ずつ出るはずです。

1. **帰無仮説**: コインは公平である。
2. **観測度数**: $O = [55, 45]$
3. **期待度数**: $E = [50, 50]$

4. **カイ二乗値の計算**:
$$
\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} = \frac{(55 - 50)^2}{50} + \frac{(45 - 50)^2}{50} = \frac{25}{50} + \frac{25}{50} = 1
$$

5. **自由度**: df = カテゴリ数 - 1 = 2 - 1 = 1

6. **p値の計算**:
   - カイ二乗分布表または計算機を用いて、$ \chi^2(1) = 1$ の$p$値を求めます。例えば、PythonのSciPyライブラリを使用して計算できます。

#### Pythonを使用した例




In [2]:
from scipy.stats import chi2

# カイ二乗値
chi2_value = 1

# 自由度
df = 1

# p値を計算
p_value = 1 - chi2.cdf(chi2_value, df)

print("p値:", p_value)


p値: 0.31731050786291415


#### 2. 独立性の検定
ある地域での投票結果と性別の独立性を検定します。

**データ**（クロス集計表）:
- 男性が候補Aに投票した数: 30
- 男性が候補Bに投票した数: 20
- 女性が候補Aに投票した数: 20
- 女性が候補Bに投票した数: 30

1. **帰無仮説**: 性別と投票結果は独立している。
2. **観測度数**: 以下の表に示します。

|           | 候補A | 候補B | 合計 |
|-----------|-------|-------|------|
| 男性      | 30    | 20    | 50   |
| 女性      | 20    | 30    | 50   |
| 合計      | 50    | 50    | 100  |

3. **期待度数**:
   - 各セルの期待度数は、行の合計と列の合計の積を全体の合計で割ったものです。

|           | 候補A | 候補B |
|-----------|-------|-------|
| 男性      | 25    | 25    |
| 女性      | 25    | 25    |

4. **カイ二乗値の計算**:
$$
\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} = \frac{(30 - 25)^2}{25} + \frac{(20 - 25)^2}{25} + \frac{(20 - 25)^2}{25} + \frac{(30 - 25)^2}{25}
$$
$$
= \frac{25}{25} + \frac{25}{25} + \frac{25}{25} + \frac{25}{25} = 4
$$

5. **自由度**: df = (行数 - 1) × (列数 - 1) = (2 - 1) × (2 - 1) = 1

6. **p値の計算**:
   - カイ二乗分布表または計算機を用いて、$ \chi^2(1) = 4$ の$p$値を求めます。例えば、PythonのSciPyライブラリを使用して計算できます。

#### Pythonを使用した例

In [1]:
from scipy.stats import chi2

# カイ二乗値
chi2_value = 4

# 自由度
df = 1

# p値を計算
p_value = 1 - chi2.cdf(chi2_value, df)

print("p値:", p_value)

p値: 0.04550026389635842


### 結果の解釈
$p$値が有意水準（通常$\alpha = 0.05$）より小さい場合、帰無仮説を棄却します。上記の例では、$p$値が小さいため、性別と投票結果は独立していないと結論付けます。

カイ二乗分布は、カテゴリカルデータの分析において非常に有用なツールであり、データの適合度や独立性を評価するために広く使用されます。

## カイ二乗分布を用いた母分散の検定の例題

### 例題
ある機械部品の寿命について、製造元は母分散が $\sigma^2 = 20$ であると主張しています。この主張を検証するために、以下の標本データが得られました：

- 標本データ: $[10, 12, 14, 16, 18, 20, 22, 24, 26, 28]$

このデータを用いて、母分散が20であるかどうかをカイ二乗分布を使って検定します。

### ステップ1: 帰無仮説と対立仮説の設定
- **帰無仮説（$H_0$）**: 母分散は20である（$\sigma^2 = 20$）。
- **対立仮説（$H_1$）**: 母分散は20ではない（$\sigma^2 \neq 20$）。

### ステップ2: 標本分散の計算
1. 標本平均を計算します：
$$
\bar{x} = \frac{10 + 12 + 14 + 16 + 18 + 20 + 22 + 24 + 26 + 28}{10} = 19
$$

2. 各データポイントと平均の差の二乗を求めます：
$$
(10 - 19)^2, (12 - 19)^2, (14 - 19)^2, (16 - 19)^2, (18 - 19)^2, (20 - 19)^2, (22 - 19)^2, (24 - 19)^2, (26 - 19)^2, (28 - 19)^2
$$

3. 上記の差の二乗の合計を求めます：
$$
(10 - 19)^2 = 81, (12 - 19)^2 = 49, (14 - 19)^2 = 25, (16 - 19)^2 = 9, (18 - 19)^2 = 1, (20 - 19)^2 = 1, (22 - 19)^2 = 9, (24 - 19)^2 = 25, (26 - 19)^2 = 49, (28 - 19)^2 = 81
$$
$$
81 + 49 + 25 + 9 + 1 + 1 + 9 + 25 + 49 + 81 = 330
$$

4. 標本分散を計算します：
$$
s^2 = \frac{330}{10 - 1} = \frac{330}{9} = 36.67
$$

### ステップ3: カイ二乗値の計算
カイ二乗値を以下の公式で計算します：
$$
\chi^2 = \frac{(n-1)s^2}{\sigma^2}
$$

ここで：
- $n$ = 10（標本サイズ）
- $s^2$ = 36.67（標本分散）
- $\sigma^2$ = 20（帰無仮説における母分散）

$$
\chi^2 = \frac{(10-1) \cdot 36.67}{20} = \frac{9 \cdot 36.67}{20} = \frac{330.03}{20} = 16.5015
$$

### ステップ4: 自由度の計算
自由度は標本サイズから1を引いたものです：
$$
df = n - 1 = 10 - 1 = 9
$$

### ステップ5: p値の計算
カイ二乗分布表または計算機を用いて、カイ二乗値と自由度を使用して$p$値を求めます。例えば、PythonのSciPyライブラリを使用して計算できます。

#### Pythonを使用した例

In [4]:
from scipy.stats import chi2

# カイ二乗値
chi2_value = 16.5015

# 自由度
df = 9

# 片側検定のp値を計算
p_value = 1 - chi2.cdf(chi2_value, df)

# 両側検定の場合は、2倍にする
p_value_two_tailed = 2 * min(p_value, 1 - p_value)

print("p値:", p_value_two_tailed)

p値: 0.1142386113395304



### ステップ6: 結果の解釈
通常、有意水準$\alpha = 0.05$と比較して$p$値が大きい場合、帰無仮説を棄却しません。$p$値が小さい場合、帰無仮説を棄却し、母分散が20でないと結論付けます。

この例では、$p$値が有意水準$\alpha = 0.05$より大きければ、母分散が20であるという帰無仮説を棄却せず、製造元の主張が正しいと判断します。もし$p$値が小さければ、母分散が20ではないと結論付けます。

以上が、カイ二乗分布を用いた母分散の検定の手順と具体例です。