In [None]:
import matplotlib_fontja  # 日本語フォントの表示崩れを防ぐ（別途インストール必要）

# 3.2 離散確率分布



このノートブックでは、統計学と確率論の基礎となる主要な離散確率分布について学ぶ。離散確率分布は、取りうる値が飛び飛びの値（離散的な値）に限られる確率変数の分布だ。

## 3.2.1 ベルヌーイ分布（Bernoulli Distribution）

ベルヌーイ分布とは、「成功」か「失敗」、あるいは「当たり」か「外れ」など、2つだけの結果しかない場合に使う確率分布である。このような一回きりの試行を**ベルヌーイ試行**という。

### 用語解説

- **確率分布**：あるできごとがそれぞれどれくらいの可能性で起こるかをまとめたもの。
- **確率変数**：できごとを数字で表したもの。たとえば表が出たら「1」、裏が出たら「0」など。
- **パラメータ**：ここでは「成功する確率p」のこと。コイン投げで表が出る確率が $p=0.5$ なら、パラメータ$p$は0.5である。

### ベルヌーイ分布の定義

例えば、「コインを1回投げて表が出たら1、裏なら0とする」とき、

- $X = 1$ (成功)：確率 $p$
- $X = 0$ (失敗)：確率 \$1-p$

となる。

### 確率質量関数（PMF）

ベルヌーイ分布で、$X$（結果）は0か1だけ。確率の式は次のようになる：

$$P(X = x) = p^x (1-p)^{1-x}, \quad x \in \{0, 1\}$$

これはどういう意味か。  
- $x = 1$ ⇒ $P(X=1) = p^1(1-p)^{0} = p$
- $x = 0$ ⇒ $P(X=0) = p^0(1-p)^{1} = 1-p$

つまり、成功（1）の確率は $p$、失敗（0）の確率は \$1-p$ になる。
**「確率質量関数」とは、各可能な結果ごとに確率を教えてくれる公式、というイメージである。**

### 期待値と分散

- **期待値**は「平均値」のこと。何度も繰り返したときの平均の結果のこと。
    - $E[X] = p$  
    つまり「成功する割合」がそのまま平均になる。

- **分散**は「ばらつき」の度合。どれくらい結果が安定しないか、を数字で表したもの。
    - $Var[X] = p(1-p)$  
    成功確率$p$が0.5のときが一番ばらつきが大きい。

### 具体的な例とイメージ

- **コイン投げ**（表が出る確率 $p$）：$p=0.5$のときは本当の公平なコイン。
- **試験の合否**：「合格」なら1、不合格なら0。
- **工場の検品**：製品が「良品」なら1、「不良品」なら0。
- **アンケートの「はい/いいえ」質問**：「はい」なら1、「いいえ」なら0。

### 実世界での役立ち方

- 製品の品質管理（不良品の割合＝$p$を推定する）
- 臨床試験で「薬が効いた/効かなかった」をまとめる
- サービスの満足度調査（「満足/不満足」）

つまり、**「どちらか一方」の結果しかない場面では、ベルヌーイ分布が基本になる**。  
今後出てくるもっと複雑な分布（たとえば二項分布や正規分布）も、「ベルヌーイ分布がたくさん集まったもの」として考えられることが多い。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# ベルヌーイ分布の可視化
p_values = [0.2, 0.5, 0.8]  # 異なる成功確率
x = np.array([0, 1])  # 取りうる値

plt.figure(figsize=(10, 6))

for i, p in enumerate(p_values):
    # 確率質量関数の計算
    pmf = [1-p, p]  # P(X=0) = 1-p, P(X=1) = p
    
    plt.subplot(1, 3, i+1)
    plt.bar(x, pmf, width=0.4)
    plt.xticks([0, 1])
    plt.ylim(0, 1)
    plt.title(f'ベルヌーイ分布 (p={p})')
    plt.xlabel('x')
    plt.ylabel('P(X=x)')

plt.tight_layout()
plt.show()

### ベルヌーイ分布のシミュレーション



ベルヌーイ試行をシミュレーションして、理論的な期待値と分散を確認してみよう。

In [None]:
# ベルヌーイ試行のシミュレーション
np.random.seed(42)  # 再現性のため
p = 0.3  # 成功確率
n_trials = 10000  # 試行回数

# ベルヌーイ試行のシミュレーション
bernoulli_trials = np.random.random(n_trials) < p  # p未満なら成功(True)、そうでなければ失敗(False)
bernoulli_trials = bernoulli_trials.astype(int)  # TrueとFalseを1と0に変換

# 結果の集計
success_count = np.sum(bernoulli_trials)
success_rate = success_count / n_trials

# 理論値との比較
theoretical_mean = p
theoretical_var = p * (1-p)
empirical_mean = np.mean(bernoulli_trials)
empirical_var = np.var(bernoulli_trials)

print(f"成功確率 p = {p}")
print(f"試行回数 = {n_trials}")
print(f"成功回数 = {success_count}")
print(f"成功率 = {success_rate:.4f}")
print("\n理論値と実験値の比較:")
print(f"期待値: 理論値 = {theoretical_mean}, 実験値 = {empirical_mean:.4f}")
print(f"分散: 理論値 = {theoretical_var:.4f}, 実験値 = {empirical_var:.4f}")

## 3.2.2 二項分布（Binomial Distribution）

二項分布とは、ある試行を繰り返したときに成功する回数についての確率を表すものである。具体的には、同じ成功確率 $p$ を持つ独立な試行を $n$ 回行った場合に、成功回数 $X$ がどのように分布するかを示す。

### 定義


二項分布には、以下の二つのパラメータがある：

- $n$：独立した試行の回数（例えば、コインを投げる回数、サイコロを振る回数など、正の整数である必要がある）
  - 例：コインを10回投げる、サイコロを20回振る。
- $p$：各試行での成功確率（例えば、コインの表が出る確率などで、$0$ から $1$ の間の値を取る）
  - 例：コインの表が出る確率（通常は $0.5$）、サイコロで6の目が出る確率（$0.1667$ ）。

成功回数を表す確率変数 $X$ は、$n$ 回の試行の中で成功した回数を示すものであり、$X$ の値は $0, 1, 2, \ldots, n$ である。

### 確率質量関数（PMF）

二項分布の確率質量関数とは、特定の成功回数 $k$ に対する確率を求める公式である。次のように表される：

$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n$$

ここで、$\binom{n}{k}$ は「組み合わせの数」を示し、$n$ 個のものから $k$ 個を選ぶ場合の数を表す。この公式は、次のように計算される：

$$\binom{n}{k} = \frac{n!}{k!(n-k)!}$$

例として、$n$ 回のコイン投げの中で $k$ 回表が出る確率を求めるのに使う。

### 期待値と分散

二項分布における期待値と分散は以下のように求められる：

- 期待値（平均成功回数）：$E[X] = np$
- 分散（成功回数のばらつき）：$Var[X] = np(1-p)$

期待値は、試行を通じて平均的にどのくらい成功するかを示し、分散は成功回数がどれだけ散らばるか（偏るか）を示す。


### 期待値と分散の導出

二項分布は、$n$ 個の独立したベルヌーイ試行の合計と考えることができる：

$$X = X_1 + X_2 + \ldots + X_n$$

ここで、各 $X_i$ は成功するかどうかを示すものである。

期待値の計算において、次のような性質が働く：

$$E[X] = E[X_1 + X_2 + \ldots + X_n] = E[X_1] + E[X_2] + \ldots + E[X_n] = np$$

分散においても、各試行が独立であるため次の式が成り立つ：

$$Var[X] = Var[X_1 + X_2 + \ldots + X_n] = Var[X_1] + Var[X_2] + \ldots + Var[X_n] = np(1-p)$$

### 例

二項分布の実生活における典型的な例は次の通りである：
- コインを $n$ 回投げたときの表の出る回数
- $n$ 人の患者に新薬を投与した際に、効果のある患者の数
- $n$ 回の品質検査で不良品が見つかる回数
- $n$ 回の試験で合格する回数

これらの例は、日常のさまざまな状況においてどのように成功確率を計算し理解するかに役立つものである。

In [None]:
# 二項分布の可視化
from scipy.stats import binom

# 【意図・目的】
# 二項分布が、試行回数 n や成功確率 p を変えたときに
# どのような形になるか（分布の形・平均・ばらつき）を「目で見て理解」するための図を作る。
# 「平均（期待値）」や「標準偏差（分散の√）」が分布のどこにあるかも、線で示している。

# パラメータの設定
n_values = [10, 10, 20]     # 試行回数nのバリエーション。最初の2つはn=10、3つ目はn=20。
p_values = [0.2, 0.5, 0.5]  # 各分布ごとの成功確率p。1つ目はp=0.2、他はp=0.5。

plt.figure(figsize=(15, 5))  # 図のサイズを横長に広げる（3つ並列に表示するため）

# 3パターンの二項分布（B(10, 0.2), B(10, 0.5), B(20, 0.5)）を順々に描く
for i, (n, p) in enumerate(zip(n_values, p_values)):
    # 【背景】二項分布はn回の試行で「pの確率で成功」する問題で使う。
    # 例：コインを10回投げて表が出る回数の分布（p=0.5）
    
    # x: 成功回数。0回からn回まで取りうる全ての整数。
    # 例えば、n=10の場合 → x = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    x = np.arange(0, n+1)
    
    # pmf: 各x（成功回数k）が起きる確率（P(X=k)）を計算
    # 例えば、n=10, p=0.5の場合
    # pmf = [P(X=0), P(X=1), ..., P(X=10)]
    # 例: pmf = [0.00098, 0.00977, 0.04395, ..., 0.04395, 0.00977, 0.00098]
    pmf = binom.pmf(x, n, p)
    
    # 期待値（平均成功回数）と分散（ばらつき）を計算
    mean = n * p                 # 例えば n=10, p=0.5 → mean = 5.0
    var = n * p * (1-p)          # 例えば n=10, p=0.5 → var = 2.5
    std = np.sqrt(var)           # 例えば n=10, p=0.5 → std = 1.58...
    
    plt.subplot(1, 3, i+1)       # 1行3列レイアウト、i+1番目のプロット
    plt.bar(x, pmf, alpha=0.7)   # 高さが確率P(X=k)の棒グラフ
    plt.axvline(mean, color='r', linestyle='--', label=f'期待値 = {mean}')         # 平均を赤い点線で表示
    plt.axvline(mean - std, color='g', linestyle=':', label=f'μ±σ')                # 平均-標準偏差を緑色点線で
    plt.axvline(mean + std, color='g', linestyle=':')                              # 平均+標準偏差も緑色点線で
    plt.title(f'二項分布 B({n}, {p})')         # グラフタイトル
    plt.xlabel('成功回数 k')                   # 横軸ラベル
    plt.ylabel('P(X=k)')                       # 縦軸ラベル
    plt.legend()                               # 凡例

plt.tight_layout()  # 図が重ならないよう自動調整
plt.show()

# --- 補足 ---
# 意味：
# ・nが大きくなると分布が左右対称に近づき、ばらつきも大きくなる。
# ・pが0.5だと分布が中央に寄るが、pが0.2のように小さくなると分布は左（小さい成功回数側）に寄る。
# ・この可視化で「試行回数や成功確率による二項分布の違い」が感覚的に理解できる。
#
# 実用例：
# ・例えばコインの表回数、製品検査で合格する数など、"成功か失敗か"という出来事の回数問題で応用できる。

### 二項分布のシミュレーション



二項分布に従う乱数を生成し、理論的な期待値と分散を確認してみよう。

In [None]:
# 二項分布のシミュレーション

# 【意図・背景】
# 理論的な二項分布（計算上の分布）と、実際に無作為で実験（シミュレーション）した分布が
# どのくらい一致するかを比べることで、統計の「理論と現実」がどれくらい一致するかを目で実感できる。
# コンピュータがあれば、何度も実験して平均値や分散などが「理論通り」になることを確かめられる。

# 乱数の種を固定（再現性のため）
np.random.seed(42)

n = 10           # 試行回数（例：コインを10回投げる）
p = 0.3          # 各試行の成功確率（例：表の確率が0.3の場合）
n_experiments = 10000  # 実験（シミュレーション）を1万回繰り返す

# --- ①二項分布に従う乱数を生成 ---
# binomial_samplesは「1万回シミュレーションしたとき、それぞれ何回成功したか」をリストで持つ。
# 例：binomial_samples = [2, 3, 5, 4, 1, ...]（長さは10,000）
binomial_samples = np.random.binomial(n, p, n_experiments)

# --- ②結果の集計 ---
# unique_valuesは、出現した成功回数kの種類
# countsは、それぞれのkが何回出現したかの回数
# 例：unique_values = [0, 1, 2, 3, 4, 5, 6]
#     counts = [120, 450, 1475, ...]（0が何回、1が何回...）
unique_values, counts = np.unique(binomial_samples, return_counts=True)
# 各kごとの出現割合を求める（相対頻度＝実験から求めた確率）
# 例：k=3が1475回なら empirical_pmf[3] = 1475 / 10000 = 0.1475
empirical_pmf = counts / n_experiments

# --- ③理論的PMFの計算 ---
# 「本来の理論上なら、それぞれのkは何パーセントの確率で発生するか」を計算
theoretical_pmf = binom.pmf(unique_values, n, p)

# --- ④理論値と実験値の平均・分散の比較 ---
theoretical_mean = n * p              # 理論的な平均値（期待値）
theoretical_var = n * p * (1-p)       # 理論的な分散
empirical_mean = np.mean(binomial_samples)   # 実験値（シミュレーション結果）の平均値
empirical_var = np.var(binomial_samples)     # 実験値の分散

# --- ⑤結果をグラフで表示 ---
plt.figure(figsize=(10, 6))
plt.bar(unique_values, empirical_pmf, alpha=0.5, label='シミュレーション結果')  # 実験から得た確率（棒グラフ）
plt.plot(unique_values, theoretical_pmf, 'ro-', label='理論的PMF')              # 理論上の確率（赤丸線）
plt.axvline(theoretical_mean, color='g', linestyle='--', label=f'理論的期待値 = {theoretical_mean}')  # 理論的平均
plt.title(f'二項分布 B({n}, {p}) のシミュレーション (実験回数 = {n_experiments})')
plt.xlabel('成功回数 k')       # 横軸＝成功回数
plt.ylabel('確率 P(X=k)')      # 縦軸＝確率
plt.legend()
plt.grid(alpha=0.3)
plt.show()

# --- ⑥平均値・分散の理論値と実験値を表示 ---
print(f"パラメータ: n = {n}, p = {p}")
print("\n理論値と実験値の比較:")
print(f"期待値: 理論値 = {theoretical_mean}, 実験値 = {empirical_mean:.4f}")
print(f"分散: 理論値 = {theoretical_var:.4f}, 実験値 = {empirical_var:.4f}")

# --- コメント付き解説 ---
# ・乱数で何度も試すことで「理論上の分布≒実際の出現頻度」になることが分かる。
# ・シミュレーションバー（青）の上に理論値ライン（赤）がぴったり重なるほど、試行回数が多いほど、
#   「理論で学んだ数式が現実のデータにも良い精度で当てはまる」と実感できる。
# ・これは“統計的な法則”が実際にデータでも現れること（大数の法則）を確かめている場面である。
# ・現実の問題（品質検査の合格数、薬の有効率など）でも「予想どおりか？」を知るのに応用できる。
#
# --- 用語解説 ---
# ・PMF（確率質量関数）：離散型の確率分布で、各"値"が現れる確率を与える関数。
# ・理論値：式を用いて計算（n, pから導く）した値。本来「こうなるはず」な値。
# ・実験値：シミュレーションや現実のデータから実際に測定した値。