## F分布について

### 概要
F分布は、分散分析（ANOVA）や回帰分析、分散の等質性の検定などで使用される確率分布です。F分布は、2つの異なる母集団の分散の比率に基づいて検定を行うための分布です。主に、2つの分散の比率が統計的に有意であるかどうかを検定するために使用されます。

### 特徴
- **非対称性**: F分布は右に偏っており、対称ではありません。
- **非負の値**: F分布の値は常に0以上です。
- **自由度**: F分布は2つの自由度（df1, df2）によって決まります。df1は分子の自由度、df2は分母の自由度です。

### 確率密度関数（PDF）
F分布の確率密度関数は以下のように表されます：

$$
f(x; d_1, d_2) = \frac{\sqrt{\left(\frac{d_1 x}{d_1 x + d_2}\right)^{d_1} \left(1 - \frac{d_1 x}{d_1 x + d_2}\right)^{d_2}}}{x B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)}
$$

ここで、$d_1$ と $d_2$ は自由度、$B$ はベータ関数です。

### 使用方法
F分布は主に以下のような場合に使用されます：

1. **分散分析（ANOVA）**:
   - 複数のグループ間の平均値の差を検定するために使用します。グループ間の分散とグループ内の分散の比率を比較するためにF分布を使用します。

2. **回帰分析**:
   - 回帰モデルの有効性を検定するために使用します。モデル全体の説明力を評価するために、回帰モデルと残差の分散の比率を比較します。

3. **分散の等質性の検定**:
   - 2つの標本の分散が等しいかどうかを検定するために使用します。標本の分散の比率が、母集団の分散の比率と等しいかどうかを調べます。

### 具体例

#### 1. 分散分析（ANOVA）
ANOVAを用いて、3つのグループの平均値に有意な差があるかどうかを検定する例を考えます。

**データ**:
- グループ1: [8, 9, 6, 5, 7]
- グループ2: [7, 4, 3, 5, 6]
- グループ3: [8, 9, 6, 5, 8]

1. **平均の計算**:
   - グループ1の平均: $ \bar{x}_1 = 7$
   - グループ2の平均: $ \bar{x}_2 = 5$
   - グループ3の平均: $ \bar{x}_3 = 7.2$
   - 全体の平均: $ \bar{x} = 6.4$

2. **平方和の計算**:
   - **グループ間平方和（SSB）**:
   $$ 
   SSB = 5 \times ((7 - 6.4)^2 + (5 - 6.4)^2 + (7.2 - 6.4)^2) = 5 \times (0.36 + 1.96 + 0.64) = 14
   $$

   - **グループ内平方和（SSW）**:
   $$ 
   SSW = (8-7)^2 + (9-7)^2 + (6-7)^2 + (5-7)^2 + (7-7)^2 + (7-5)^2 + (4-5)^2 + (3-5)^2 + (5-5)^2 + (6-5)^2 + (8-7.2)^2 + (9-7.2)^2 + (6-7.2)^2 + (5-7.2)^2 + (8-7.2)^2 = 26.8
   $$

3. **自由度の計算**:
   - グループ間の自由度: $ df_1 = k - 1 = 3 - 1 = 2$
   - グループ内の自由度: $ df_2 = N - k = 15 - 3 = 12$

4. **F値の計算**:
$$ 
F = \frac{SSB / df_1}{SSW / df_2} = \frac{14 / 2}{26.8 / 12} = \frac{7}{2.2333} = 3.133
$$

5. **p値の計算**:
   - F分布表または計算機を用いて、$ F(2, 12) = 3.133$ の$p$値を求めます。$ p$値が有意水準（通常$\alpha = 0.05$）より小さい場合、帰無仮説を棄却し、グループ間の平均値に有意な差があると結論付けます。

### 例2: 分散の等質性の検定
2つの標本の分散が等しいかどうかを検定する場合を考えます。

**データ**:
- 標本1: [10, 12, 14, 16, 18]
- 標本2: [20, 22, 24, 26, 28]

1. **分散の計算**:
   - 標本1の分散: $ s_1^2 = 10$
   - 標本2の分散: $ s_2^2 = 10$

2. **F値の計算**:
$$ 
F = \frac{s_1^2}{s_2^2} = \frac{10}{10} = 1
$$

3. **自由度の計算**:
   - 標本1の自由度: $ df_1 = n_1 - 1 = 5 - 1 = 4$
   - 標本2の自由度: $ df_2 = n_2 - 1 = 5 - 1 = 4$

4. **p値の計算**:
   - F分布表または計算機を用いて、$ F(4, 4) = 1$ の$p$値を求めます。$ p$値が有意水準（通常$\alpha = 0.05$）より大きい場合、帰無仮説を棄却せず、2つの標本の分散が等しいと結論付けます。

このように、F分布は分散分析や分散の等質性の検定で広く使用され、複数のグループ間の平均値の差や分散の比率を検定するための強力なツールです。

## 分散の等質性の検定の例題

### 概要
分散の等質性の検定（F検定）は、2つの標本の分散が等しいかどうかを検定するための方法です。これは、標本が同じ母集団から取られているか、または異なる母集団から取られているかを判断するために重要です。

### 例題
以下のデータセットを使用して、2つの標本の分散が等しいかどうかを検定します。

- 標本1: $[12, 15, 14, 10, 13, 16, 12, 14, 15, 11]$
- 標本2: $[20, 22, 19, 23, 21, 24, 20, 22, 19, 21]$

### ステップ1: 分散の計算
まず、それぞれの標本の分散を計算します。

#### 標本1の分散の計算
1. 標本1の平均を計算します：
$$
\bar{x}_1 = \frac{12 + 15 + 14 + 10 + 13 + 16 + 12 + 14 + 15 + 11}{10} = 13.2
$$

2. 各データポイントと平均の差の二乗を求めます：
$$
(12 - 13.2)^2, (15 - 13.2)^2, (14 - 13.2)^2, \ldots, (11 - 13.2)^2
$$

3. 上記の差の二乗の合計を求めます：
$$
(12 - 13.2)^2 = 1.44, (15 - 13.2)^2 = 3.24, (14 - 13.2)^2 = 0.64, \ldots, (11 - 13.2)^2 = 4.84
$$
$$
1.44 + 3.24 + 0.64 + 10.24 + 0.04 + 7.84 + 1.44 + 0.64 + 3.24 + 4.84 = 33.6
$$

4. 標本1の分散を計算します：
$$
s_1^2 = \frac{33.6}{10 - 1} = \frac{33.6}{9} = 3.73
$$

#### 標本2の分散の計算
1. 標本2の平均を計算します：
$$
\bar{x}_2 = \frac{20 + 22 + 19 + 23 + 21 + 24 + 20 + 22 + 19 + 21}{10} = 21.1
$$

2. 各データポイントと平均の差の二乗を求めます：
$$
(20 - 21.1)^2, (22 - 21.1)^2, (19 - 21.1)^2, \ldots, (21 - 21.1)^2
$$

3. 上記の差の二乗の合計を求めます：
$$
(20 - 21.1)^2 = 1.21, (22 - 21.1)^2 = 0.81, (19 - 21.1)^2 = 4.41, \ldots, (21 - 21.1)^2 = 0.01
$$
$$
1.21 + 0.81 + 4.41 + 3.61 + 0.01 + 8.41 + 1.21 + 0.81 + 4.41 + 0.01 = 25.9
$$

4. 標本2の分散を計算します：
$$
s_2^2 = \frac{25.9}{10 - 1} = \frac{25.9}{9} = 2.88
$$

### ステップ2: F値の計算
分散が等しいかどうかを検定するためのF値を計算します。

$$
F = \frac{s_1^2}{s_2^2} = \frac{3.73}{2.88} = 1.295
$$

### ステップ3: 自由度の計算
それぞれの標本の自由度を計算します。

- 標本1の自由度：$df_1 = n_1 - 1 = 10 - 1 = 9$
- 標本2の自由度：$df_2 = n_2 - 1 = 10 - 1 = 9$

### ステップ4: p値の計算
F分布表または計算機を用いて、F値と自由度を使用して$p$値を求めます。例えば、R言語やPythonのSciPyライブラリを使用して計算できます。

#### Pythonを使用した例

In [1]:
from scipy.stats import f

# F値
F_value = 1.295

# 自由度
dfn = 9  # 分子の自由度
dfd = 9  # 分母の自由度

# p値を計算
p_value = 1 - f.cdf(F_value, dfn, dfd)

print("p値:", p_value)

p値: 0.35321449934242855


### ステップ5: 結果の解釈
通常、有意水準$\alpha$ = 0.05と比較して$p$値が大きい場合、帰無仮説を棄却しません。$p$値が小さい場合、帰無仮説を棄却し、2つの標本の分散が異なると結論付けます。

上記の例で計算された$p$値を確認し、$p$値が有意水準$\alpha$ = 0.05より大きい場合、標本1と標本2の分散は等しいと判断できます。