## 超幾何分布の説明と例

### 超幾何分布とは

超幾何分布（ちょうきかぶんぷ、Hypergeometric Distribution）は、有限母集団からの標本抽出に関する確率分布の一つです。特に、リプレースメント（復元抽出）なしで抽出を行う場合に使用されます。具体的には、母集団の中から特定の属性を持つアイテムを含む標本を抽出する際の確率を計算します。

### 定義

超幾何分布は次のように定義されます：

- $N$：母集団のサイズ
- $K$：母集団の中で特定の属性を持つアイテムの数
- $n$：抽出する標本のサイズ
- $k$：標本の中で特定の属性を持つアイテムの数

これらのパラメータに対して、$X$ を「特定の属性を持つアイテムの数」としたとき、確率質量関数（PMF）は以下のようになります：

$$
P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}
$$

ここで、$\binom{a}{b}$ は二項係数を表します。

### 例

あるクラスに30人の生徒がいて、そのうち18人が男子、12人が女子だとします。このクラスからランダムに5人を選ぶとき、ちょうど3人が男子である確率を求めてみましょう。

1. 母集団のサイズ $N = 30$
2. 特定の属性（男子）を持つアイテムの数 $K = 18$
3. 抽出する標本のサイズ $n = 5$
4. 特定の属性を持つアイテムの数 $k = 3$

これを超幾何分布の式に代入します：

$$
P(X = 3) = \frac{\binom{18}{3} \binom{12}{2}}{\binom{30}{5}}
$$

各二項係数を計算します：

- $\binom{18}{3} = \frac{18!}{3!(18-3)!} = 816$
- $\binom{12}{2} = \frac{12!}{2!(12-2)!} = 66$
- $\binom{30}{5} = \frac{30!}{5!(30-5)!} = 142506$

これらを式に代入すると：

$$
P(X = 3) = \frac{816 \times 66}{142506} \approx 0.0378
$$

したがって、このクラスからランダムに5人を選んだとき、ちょうど3人が男子である確率は約0.0378、つまり約3.78%です。

### Pythonでの計算

Pythonでこの確率を計算するためには、`scipy.stats`ライブラリを使用します。以下はその例です：



In [1]:
from scipy.stats import hypergeom

# パラメータの定義
N = 30  # 母集団のサイズ
K = 18  # 特定の属性を持つアイテムの数
n = 5   # 抽出する標本のサイズ
k = 3   # 特定の属性を持つアイテムの数

# 超幾何分布の確率を計算
prob = hypergeom.pmf(k, N, K, n)
print(f"ちょうど3人が男子である確率: {prob:.4f}")

ちょうど3人が男子である確率: 0.3779


## 超幾何分布の期待値と分散

### 期待値

超幾何分布の期待値（平均）は以下の式で表されます：

$$
E(X) = \frac{nK}{N}
$$

ここで、
- $N$：母集団のサイズ
- $K$：母集団の中で特定の属性を持つアイテムの数
- $n$：抽出する標本のサイズ

### 分散

超幾何分布の分散は以下の式で表されます：

$$
\text{Var}(X) = n \cdot \frac{K}{N} \cdot \frac{N-K}{N} \cdot \frac{N-n}{N-1}
$$

これを使って、前述の例の期待値と分散を計算してみましょう。

### 具体例の計算

クラスに30人の生徒がいて、そのうち18人が男子、12人が女子です。ここからランダムに5人を選ぶとき、男子の数の期待値と分散を計算します。

#### パラメータ
- $N = 30$
- $K = 18$
- $n = 5$

#### 期待値の計算

$$
E(X) = \frac{nK}{N} = \frac{5 \times 18}{30} = 3
$$

期待値は3です。

#### 分散の計算

$$
\text{Var}(X) = 5 \cdot \frac{18}{30} \cdot \frac{12}{30} \cdot \frac{25}{29}
$$

これを計算すると：

$$
\text{Var}(X) = 5 \cdot 0.6 \cdot 0.4 \cdot \frac{25}{29} = 5 \cdot 0.6 \cdot 0.4 \cdot 0.862 = 1.032
$$

分散は約1.032です。

### Pythonでの計算

Pythonで期待値と分散を計算するためには、`scipy.stats`ライブラリを使用します。以下はその例です：




In [2]:
from scipy.stats import hypergeom

# パラメータの定義
N = 30  # 母集団のサイズ
K = 18  # 特定の属性を持つアイテムの数
n = 5   # 抽出する標本のサイズ

# 超幾何分布の期待値と分散を計算
mean = hypergeom.mean(N, K, n)
variance = hypergeom.var(N, K, n)

print(f"期待値: {mean}")
print(f"分散: {variance}")

期待値: 3.0
分散: 1.0344827586206897


## 幾何分布について

### 幾何分布とは

幾何分布（Geometric Distribution）は、ベルヌーイ試行（成功確率が一定の独立した試行）において、初めて成功するまでの試行回数を表す確率分布です。これは離散確率分布の一種です。

### 定義

幾何分布の確率質量関数（PMF）は次のように定義されます：

$$
P(X = k) = (1 - p)^{k-1} p
$$

ここで、
- $p$：各試行における成功の確率
- $k$：初めて成功するまでの試行回数（$k \geq 1$）

### 期待値と分散

幾何分布の期待値（平均）と分散は以下の式で表されます：

- 期待値：
  $$
  E(X) = \frac{1}{p}
  $$
  
- 分散：
  $$
  \text{Var}(X) = \frac{1 - p}{p^2}
  $$

### 例

コインを投げて表が出るまでの回数を考えます。このとき、コインの表が出る確率は $p = 0.5$ です。初めて表が出るまでの回数が幾何分布に従います。

#### 期待値と分散の計算

1. 成功確率 $p = 0.5$
2. 期待値：
   $$
   E(X) = \frac{1}{p} = \frac{1}{0.5} = 2
   $$
   
3. 分散：
   $$
   \text{Var}(X) = \frac{1 - p}{p^2} = \frac{1 - 0.5}{0.5^2} = \frac{0.5}{0.25} = 2
   $$

したがって、初めて表が出るまでの期待回数は2回で、分散も2です。

### Pythonでの計算

Pythonで幾何分布の確率、期待値、分散を計算するためには、`scipy.stats`ライブラリを使用します。以下はその例です：



In [3]:
from scipy.stats import geom

# 成功確率
p = 0.5

# 初めて成功するまでの試行回数が3回である確率を計算
k = 3
prob = geom.pmf(k, p)
print(f"初めて成功するまでの試行回数が3回である確率: {prob:.4f}")

# 幾何分布の期待値と分散を計算
mean = geom.mean(p)
variance = geom.var(p)

print(f"期待値: {mean}")
print(f"分散: {variance}")

初めて成功するまでの試行回数が3回である確率: 0.1250
期待値: 2.0
分散: 2.0


## 幾何分布と二項分布の違い

幾何分布と二項分布はどちらもベルヌーイ試行に基づく離散確率分布ですが、それぞれの定義と用途は異なります。以下にその違いを説明します。

### 二項分布

#### 定義

二項分布（Binomial Distribution）は、固定された回数の試行において、特定の成功回数の確率を求める分布です。

- $n$：試行回数
- $p$：各試行における成功の確率
- $X$：成功回数

二項分布の確率質量関数（PMF）は次のように定義されます：

$$
P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}
$$

ここで、$\binom{n}{k}$は二項係数を表します。

#### 期待値と分散

- 期待値：
  $$
  E(X) = np
  $$

- 分散：
  $$
  \text{Var}(X) = np(1 - p)
  $$

#### 用途

二項分布は「$n$回の試行で成功が$k$回起こる確率」を求める場合に使用されます。

### 幾何分布

#### 定義

幾何分布（Geometric Distribution）は、試行を繰り返して初めて成功するまでの試行回数を表す分布です。

- $p$：各試行における成功の確率
- $X$：初めて成功するまでの試行回数

幾何分布の確率質量関数（PMF）は次のように定義されます：

$$
P(X = k) = (1 - p)^{k-1} p
$$

#### 期待値と分散

- 期待値：
  $$
  E(X) = \frac{1}{p}
  $$

- 分散：
  $$
  \text{Var}(X) = \frac{1 - p}{p^2}
  $$

#### 用途

幾何分布は「初めて成功するまでの試行回数」を求める場合に使用されます。

### 違いのまとめ

1. **試行回数の固定**:
   - 二項分布は試行回数$n$が固定されており、その中で成功回数$k$を求めます。
   - 幾何分布は試行を繰り返し、初めて成功するまでの回数$k$を求めます。

2. **確率の関心**:
   - 二項分布は固定された試行回数の中での成功回数に関心があります。
   - 幾何分布は成功が初めて起こるまでの試行回数に関心があります。

3. **確率質量関数（PMF）**:
   - 二項分布のPMFは$\binom{n}{k} p^k (1 - p)^{n - k}$です。
   - 幾何分布のPMFは$(1 - p)^{k-1} p$です。

### 例

#### 二項分布の例

あるテストで10回の質問があり、各質問に正解する確率が0.7であるとします。10回の質問のうち、ちょうど7回正解する確率を求めます。

- $n = 10$
- $p = 0.7$
- $k = 7$

$$
P(X = 7) = \binom{10}{7} (0.7)^7 (0.3)^3
$$

#### 幾何分布の例

ある製品の製造過程で、製品が合格する確率が0.1であるとします。初めて合格するまでの製造回数を求めます。

- $p = 0.1$
- $X = k$

$$
P(X = k) = (0.9)^{k-1} (0.1)
$$

### Pythonでの計算


In [4]:
from scipy.stats import binom

# パラメータの定義
n = 10
p = 0.7
k = 7

# 二項分布の確率を計算
prob_binom = binom.pmf(k, n, p)
print(f"10回の試行でちょうど7回成功する確率: {prob_binom:.4f}")

from scipy.stats import geom

# パラメータの定義
p = 0.1
k = 5

# 幾何分布の確率を計算
prob_geom = geom.pmf(k, p)
print(f"初めて成功するまでの試行回数が{k}回である確率: {prob_geom:.4f}")

10回の試行でちょうど7回成功する確率: 0.2668
初めて成功するまでの試行回数が5回である確率: 0.0656


## 負の二項分布について

### 負の二項分布とは

負の二項分布（Negative Binomial Distribution）は、幾何分布の一般化で、独立したベルヌーイ試行において、成功が指定回数に達するまでの試行回数を表す確率分布です。具体的には、$r$回の成功を得るまでに必要な試行回数$X$をモデル化します。

### 定義

負の二項分布の確率質量関数（PMF）は次のように定義されます：

$$
P(X = k) = \binom{k-1}{r-1} p^r (1 - p)^{k-r}
$$

ここで、
- $p$：各試行における成功の確率
- $r$：成功回数
- $k$：試行回数（$k \geq r$）

### 期待値と分散

負の二項分布の期待値（平均）と分散は以下の式で表されます：

- 期待値：
  $$
  E(X) = \frac{r}{p}
  $$

- 分散：
  $$
  \text{Var}(X) = \frac{r(1 - p)}{p^2}
  $$

### 例

コインを投げて表が出るまでの回数を考えます。このとき、コインの表が出る確率は $p = 0.5$ です。表が3回出るまでの試行回数をモデル化します。

#### パラメータ
- 成功確率 $p = 0.5$
- 成功回数 $r = 3$

#### 期待値と分散の計算

1. 期待値：
   $$
   E(X) = \frac{r}{p} = \frac{3}{0.5} = 6
   $$
   
2. 分散：
   $$
   \text{Var}(X) = \frac{r(1 - p)}{p^2} = \frac{3(1 - 0.5)}{0.5^2} = \frac{3 \cdot 0.5}{0.25} = 6
   $$

したがって、3回成功するまでの期待試行回数は6回で、分散も6です。

### 負の二項分布と幾何分布の関係

負の二項分布は幾何分布の一般化と見ることができます。幾何分布は「1回の成功」を得るまでの試行回数をモデル化し、負の二項分布は「$r$回の成功」を得るまでの試行回数をモデル化します。したがって、幾何分布は負の二項分布の特別な場合と考えることができます。

- 幾何分布の場合：$r = 1$
  - 期待値：$E(X) = \frac{1}{p}$
  - 分散：$\text{Var}(X) = \frac{1 - p}{p^2}$

以上が負の二項分布の基本的な説明と具体例です。何か他にご質問があればお知らせください。

In [5]:
from scipy.stats import nbinom

# パラメータの定義
r = 3   # 成功回数
p = 0.5 # 成功確率

# 試行回数が7回である確率を計算
k = 7
prob = nbinom.pmf(k - r, r, p)  # k-rに注意
print(f"成功回数が3回に達するまでの試行回数が7回である確率: {prob:.4f}")

# 負の二項分布の期待値と分散を計算
mean = nbinom.mean(r, p)
variance = nbinom.var(r, p)

print(f"期待値: {mean}")
print(f"分散: {variance}")

成功回数が3回に達するまでの試行回数が7回である確率: 0.1172
期待値: 3.0
分散: 6.0


## 多項分布について

### 多項分布とは

多項分布（Multinomial Distribution）は、ある試行を複数回行い、それぞれの試行で複数のカテゴリのいずれかに分類されるとき、各カテゴリに分類される回数を表す確率分布です。これは、二項分布の一般化と見ることができます。

### 定義

多項分布は以下のように定義されます：

- $n$：試行回数
- $k$：カテゴリ数
- $p_i$：カテゴリ$i$に分類される確率（$i = 1, 2, \ldots, k$）
- $X_i$：カテゴリ$i$に分類される回数（$i = 1, 2, \ldots, k$）

これらのパラメータに対して、多項分布の確率質量関数（PMF）は以下のようになります：

$$
P(X_1 = x_1, X_2 = x_2, \ldots, X_k = x_k) = \frac{n!}{x_1! x_2! \cdots x_k!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}
$$

ここで、$x_1 + x_2 + \cdots + x_k = n$ および $p_1 + p_2 + \cdots + p_k = 1$ である必要があります。

### 期待値と分散

多項分布の各カテゴリ$i$についての期待値と分散は以下のようになります：

- 期待値：
  $$
  E(X_i) = np_i
  $$

- 分散：
  $$
  \text{Var}(X_i) = np_i(1 - p_i)
  $$

- 共分散（カテゴリ$i$と$j$の間）：
  $$
  \text{Cov}(X_i, X_j) = -np_i p_j \quad (i \neq j)
  $$

### 例

サイコロを10回振って、それぞれの面が出る回数をモデル化します。サイコロの各面が出る確率は$1/6$です。

#### パラメータ
- $n = 10$：試行回数
- $k = 6$：カテゴリ数（サイコロの面の数）
- $p_1 = p_2 = p_3 = p_4 = p_5 = p_6 = 1/6$：各面が出る確率

#### 期待値と分散の計算

1. 期待値：
   $$
   E(X_i) = np_i = 10 \times \frac{1}{6} = \frac{10}{6} \approx 1.67
   $$

2. 分散：
   $$
   \text{Var}(X_i) = np_i(1 - p_i) = 10 \times \frac{1}{6} \times \left(1 - \frac{1}{6}\right) = 10 \times \frac{1}{6} \times \frac{5}{6} = \frac{50}{36} \approx 1.39
   $$

3. 共分散：
   $$
   \text{Cov}(X_i, X_j) = -np_i p_j = -10 \times \frac{1}{6} \times \frac{1}{6} = -\frac{10}{36} \approx -0.28 \quad (i \neq j)
   $$

### Pythonでの計算

Pythonで多項分布の確率を計算するためには、`numpy`ライブラリを使用します。以下はその例です：


In [6]:

import numpy as np

# パラメータの定義
n = 10  # 試行回数
p = [1/6] * 6  # 各カテゴリの確率

# 多項分布に従うランダムサンプルを生成
sample = np.random.multinomial(n, p)
print(f"サンプル: {sample}")

# 多項分布の確率を計算
from scipy.stats import multinomial

# カテゴリごとの回数
x = [2, 1, 2, 1, 3, 1]

# 確率を計算
prob = multinomial.pmf(x, n, p)
print(f"確率: {prob:.4f}")

サンプル: [0 1 5 3 0 1]
確率: 0.0025
