In [1]:
import matplotlib_fontja

# 3. 確率変数と主要分布

このノートブックでは、確率変数の概念と主要な確率分布について学ぶ。確率分布は統計学や機械学習の基礎となる重要な概念だ。

## 3.1 確率変数とは

**確率変数**とは、確率的な実験や観測の結果を数値として表現するものだ。例えば：

- サイコロを振って出る目の数
- コインを10回投げたときの表の出る回数
- ある地域の1日の降水量
- 製品の寿命

確率変数は大きく分けて2種類ある：

1. **離散確率変数**：取りうる値が有限個または可算無限個の確率変数
   - 例：サイコロの目（1, 2, 3, 4, 5, 6）、家族の子供の数

2. **連続確率変数**：区間内のどの値も取りうる確率変数
   - 例：身長、体重、時間

確率変数は通常、大文字（$X$, $Y$など）で表し、その実現値（具体的な値）は小文字（$x$, $y$など）で表す。

## 3.2 期待値と分散の再確認

### 期待値（きたいち、Expected Value）

**【用語説明】**
- 「期待値」とは、サイコロやくじ引きなど、偶然によって決まる数字（=確率変数）が平均してどのくらいになりそうか、という"平均的な値"のことである。計算するときの記号は E[X] または $\mu$（ミュー）を使う。

#### 離散確率変数（りさん かくりつ へんすう）の期待値

**【用語説明】**
- 「離散確率変数」とは、出る数字が「切りのいい数」など"パラパラと限られた数字"（例：サイコロの目…1,2,3,4,5,6など）の時に使う。

**例・イメージ：**
サイコロを1回ふるとき、出る目の「平均的な値」が期待値である。

もしサイコロ（1～6）の目がすべて同じ確率$1/6$で出るなら、

$$E[X] = 1 \times \frac{1}{6} + 2 \times \frac{1}{6} + 3 \times \frac{1}{6}+ 4 \times \frac{1}{6} +5 \times \frac{1}{6} +6 \times \frac{1}{6} = 3.5$$

**【公式】**
$$E[X] = \sum_{i=1}^{n} x_i \cdot p_i$$

$x_i$は出る値、$p_i$はその値が出る確率。

#### 連続確率変数（れんぞく かくりつ へんすう）の期待値

**【用語説明】**
- 「連続確率変数」とは、温度や身長のように"細かくどんな数字でも出る"もの（例：51.6cmや171.125℃など）である。

**【公式】**
$$E[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx$$

$f(x)$は「確率密度関数」という関数で、各$x$の出やすさを表す。





### 分散（ぶんさん、Variance）

**【用語説明】**
- 「分散」とは、バラツキが出るデータが、「期待値（平均）からどれだけ離れることが多いか」を表す数字である。"どのくらいブレるか"、"デコボコ具合"とイメージしよう。
- 記号は $Var[X]$ または $\sigma^2$（シグマ二乗）。

**【公式】**
$$Var[X] = E[(X - E[X])^2] = E[X^2] - (E[X])^2$$

- $(X-E[X])$は「平均からのズレ」。
- それを2乗すると、マイナスも全部プラスとして計算できる。



##### 【補足】分散の2つの観点

- 1. 確率論的な分散【上記説明】
     - 「確率変数」（まだ実際に出ていない・理論上の値）が、期待値（平均）からどれだけズレるかを見るもの。
     - $Var[X] = E[(X - E[X])^2]$ という記号や、$\sigma^2$ という記号で書かれることが多い。
         - $E[X]$は「期待値」＝理論上の平均値。
         - 「X」は未来に起こる値（例：サイコロを振ったとき毎回変わる目。
     - 確率や確率密度関数$f(x)$を使った一般的な定義で、式もサイコロや数字の出やすさ（確率）を使って計算。

- 2. 実際のデータの分散
     - すでに集めた具体的なデータ（たとえば、10人のテストの点など）が、平均からどれだけズレているかを見るもの。
     - $\sum(x - \text{平均})^2 \div \text{データ数}$ という形で計算する。
       - $x$は各データの値、$\mu$は母平均、$\bar{x}$は標本平均。
       - $N$は母集団全体のデータ数、$n$は標本のデータ数。
     - 記号は $\sigma^2$（母分散、全体の場合）、$s^2$（標本分散、サンプルの場合）。

- 言い換えると…

  「分散」とは、「データや数値が平均からどれくらい散らばっているか」を示す指標である。  
  ただし、

  - **理論上の確率（まだ出ていない値も含む）で考える時**は $Var[X]$, $E$ , $\sigma^2$ のような記号（期待値、確率）で表す。
  - **実際に集めた現実のデータについて計算する時**は下のような計算式（平均値や個々のデータ）を使う。

- 記号や書き方が違っても、やっていることは本質的に同じ

  どちらも「ズレ（ばらつき）」の平均を2乗の形でとる、という意味は同じである。

- 言い換え・イメージ

  「理論的な分散は『まだ見ぬ未来の予想』として、データの分散は『具体的な集計結果』として、それぞれ同じ“ばらつき”を表している」と考えればよい。


#### 【補足の補足】理論的な分散とデータの分散の違いは「平均で割っているところ？」

**どちらの分散も「ズレの二乗の平均（期待値）」で計算する**、という点は共通している。 \
割る数（分母）が見た目で違うように感じるのは、「記号や式の書き方」の違いと、「どれを平均とみなすか」が違っているからである。

##### 理論的な分散（確率変数の場合）

$$
Var[X] = E[(X - E[X])^2]
$$

この$E[\cdot]$という記号は「平均（期待値）を取る」という意味である。  
実はこの$E[\cdot]$の中で、 **確率で重みを付けて全部を足してから全体で割る（期待値を取る）** という計算をしている。

**たとえば離散の場合**

$$
Var[X] = \sum_{i=1}^n (x_i - E[X])^2 \cdot p_i
$$

- $p_i$は各$x_i$が出る確率（全部足すと1になる）。
- これは、「各ズレの二乗　×　その確率」を全部足している。
- 実は「全部のズレの二乗の重み付き平均」と言える。


##### データの分散（記述統計の場合）

$$
\text{分散} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

または、母分散なら
$$
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
$$

- データが$N$や$n$個ある場合、「全データのズレの二乗」を足し、その数で割る。
- これも「ズレの2乗の平均」である。

##### ※ 標本分散 ($s^2$) について
もし標本データから母集団の分散を推定する時は、分母を「データ数 - 1（n-1）」で割る（不偏分散）。これは「できるだけズレがないように直す」ためのテクニックである。


##### まとめ：違いの本質

- **どちらも「平均」（期待値 or 算術平均値）で割る**ので、「ズレの2乗の平均値」として意味は同じである。
- 理論的分散（$E[\cdot]$や確率重み）は、分母が書式として式の中に現れないことが多いが、実際は**確率で重み付けして平均をとる**操作と同じである。
- データ分散は「個数で割る／n個で割る」操作としてハッキリ現れる。  
- **本質的な違いは「何を平均するか」（確率重みのある値 vs 実データ）だけであり、「ズレの平均」という意味は同じ**である。

**イメージ：**  
- 理論：まだ見ぬ未来のパターンを「全部の確率で割り付けて平均」
- データ：手元のデータ全部の「算術平均」
- どちらも「ブレ具合」「デコボコ度合い」は同じアイデアで測っている

**結論：**  
「平均で割っている／割っていない」という違いが本質ではなく、**実は両方とも「ズレの2乗の平均をとっている」という点で同じである**、と考えると良い。

#### 離散確率変数の分散

**【公式】**
$$Var[X] = \sum_{i=1}^{n} (x_i - E[X])^2 \cdot p_i$$

---

### 例・イメージ（サイコロの場合）を詳しく

#### 【用語解説】
- **離散確率変数**：取りうる値が「ばらばらの数字」に限られている変数。サイコロは「1,2,3,4,5,6」のどれか。
- **$x_i$**：1つ1つの値（サイコロの目）。
- **$p_i$**：各目ごとにその数字が出る確率。
- **$E[X]$**：期待値＝サイコロをものすごくたくさん振ったときの平均値（今回は3.5）。

---

#### ◎ サイコロ（6面）の分散を例に計算してみる

- サイコロの出る目：$x_1=1$, $x_2=2$, $x_3=3$, $x_4=4$, $x_5=5$, $x_6=6$
- それぞれの確率：$p_1 = p_2 = \ldots = p_6 = 1/6$
- 期待値（平均値）：$E[X]=3.5$

##### ステップ1：各目ごとに「ズレの2乗」を計算

| 目 ($x_i$)  | ズレ($x_i - E[X]$) | 2乗($ (x_i - E[X])^2 $) |
|-----------|----------------|--------------------------|
| 1         | 1 - 3.5 = -2.5 | $(-2.5)^2$ = 6.25          |
| 2         | 2 - 3.5 = -1.5 | $(-1.5)^2$ = 2.25          |
| 3         | 3 - 3.5 = -0.5 | $(-0.5)^2$ = 0.25          |
| 4         | 4 - 3.5 =  0.5 | $(0.5)^2$ = 0.25           |
| 5         | 5 - 3.5 =  1.5 | $(1.5)^2$ = 2.25           |
| 6         | 6 - 3.5 =  2.5 | $(2.5)^2$ = 6.25           |

##### ステップ2：それぞれの「ズレの2乗」に確率をかける

- $6.25 \times 1/6$
- $2.25 \times 1/6$
- $0.25 \times 1/6$
- $0.25 \times 1/6$
- $2.25 \times 1/6$
- $6.25 \times 1/6$

##### ステップ3：全部足し合わせる

$$
Var[X] = (6.25 + 2.25 + 0.25 + 0.25 + 2.25 + 6.25) \times \frac{1}{6}
$$

まずカッコ内を計算：
$$
6.25 + 2.25 = 8.5 \\
8.5 + 0.25 = 8.75 \\
8.75 + 0.25 = 9.0 \\
9.0 + 2.25 = 11.25 \\
11.25 + 6.25 = 17.5
$$

全体を1/6倍：
$$
Var[X] = 17.5 \times \frac{1}{6} = \frac{17.5}{6} \approx 2.9167
$$

再掲・参考

**【公式】**
$$Var[X] = \sum_{i=1}^{n} (x_i - E[X])^2 \cdot p_i$$

---

### 【まとめ・イメージ】

- サイコロをめちゃくちゃ沢山振ったら、「期待値」はいつも3.5くらいになる。でも、1や6もでるので「ズレ」が生まれる。
- そのズレの2乗の平均を「分散」と呼ぶ。サイコロの場合は約2.92。
- **分散が大きいと：** いろんな目が出やすい（ばらつき大きい）
- **分散が小さいと：** どの回でも似たような目ばかり出る（ばらつき小さい）

---

#### ★他の例：2つの目しか出ないサイコロ（1か6しか出ない）

もしサイコロが「1」か「6」のどちらかしか出ない特別なサイコロで、1の確率 $2/3$ 、6の確率 $1/3$ としたら・・・

- $E[X] = 1 \times 2/3 + 6 \times 1/3 = 2/3 + 2 = 8/3 \approx 2.67$

- 1のズレ：\$1 - 2.67 = -1.67$ → 2乗 = 約2.78
- 6のズレ：\$6 - 2.67 = 3.33$ → 2乗 = 約11.1

分散：
$$
Var[X] = 2.78 \times 2/3 + 11.1 \times 1/3 = 1.853 + 3.7 = 5.55
$$

→ 普通のサイコロ（分散2.92）より、極端な目（1か6しかない）なので分散が大きくなる。

---

このように、「どの数字がどれだけ出やすいか」と「その数字が平均からどれだけ離れているか」の2つで分散を計算できる。

#### 連続確率変数の分散

**【公式】**  
$$
Var[X] = \int_{-\infty}^{\infty} (x - E[X])^2 \cdot f(x) \, dx
$$

- $\int_{-\infty}^{\infty}$は「全てのxについて、すべての範囲を調べて足し合わせる（=積分する）」という意味。
- $(x - E[X])^2$は「平均（期待値）からのズレの2乗」。

**【用語説明】**  
- **連続確率変数**とは、「どんな小数」も値としてとれるような変数である。例えば身長（160.123cmなど）、体重、時間など。「1.5」や「3.1415」など切れ目のない無限の数字の間をとりうる。

- $f(x)$は **確率密度関数** という。xごとに「どれくらい出やすいか」を表す“山の形”と思えばよい。

    **補足：**
    - $f(x)$は「確率の濃さ（密度）」を表し、**各値そのものは「回数」ではなく「単位あたりの確率」** である。  
    - たとえばxが[点数]なら、$f(x)$の単位は「1/[点数]」となる。  
        - 例：$f(80) = 0.02$なら「80点のまわり1点幅あたりに2%くらいの人がいる」など。
    - 「ある点数ちょうどで当たる確率」は0になるが、「●点～△点の範囲で当たる確率」は  
        $a$点～$b$点まで$f(x)$を積分（合計）すればわかる（$\int_a^b f(x)dx$で計算）。  
    - つまり「厳密には“頻度”とも違い、密度（どのくらい詰まっているか）」を意味する。

- $E[X]$は **期待値**。計算の仕方は連続の場合も離散の場合とほぼ同じである（ただし「足し算」が「積分」という計算方法になる）。



---

### 例・イメージ（具体的な点数の例）

ある学校で100点満点のテストがあり、「だいたい80点くらいの人が多い、でも60点や100点も少しはいる」とする。  
例えば次のような分布（イメージ）で、人がばらけているとする。

- $f(80) = 0.02$（80点「付近」には、1点あたり2%の人が集中）
- $f(60) = 0.01$（60点あたりは1%）
- $f(100) = 0.005$（100点あたりは0.5%）

1. まず、全体（0～100点）の**平均点** $E[X]$ を計算する（例えば「平均80点」としておく）。
2. 80点ちょうどの人の場合 → $(80-80)^2=0$ → “ズレ”なし。
3. 100点の人の場合 → $(100-80)^2=400$（20点ズレ×20点ズレで400点$^2$）
4. 60点の人の場合 → $(60-80)^2=400$
5. $f(100)$や$f(60)$や$f(80)$など、その「場所ごとの密度」をかけて足し合わせる（積分、または「範囲ごとに合計」とイメージしてもよい）。

**計算イメージ：**
- 「ズレの2乗」×「その場所の密度」を合計　
  → $0\times0.02 + 400\times0.01 + 400\times0.005 = 0 + 4 + 2 = 6$  
- 実際はもっと細かいxの場所を無限に考えて計算する（=積分）が、考え方は上記と同じである。

---

### 標準偏差（ひょうじゅんへんさ、Standard Deviation）

**【用語説明】**  
- **標準偏差**とは、分散の平方根（ルート）である。分散は2乗の形なので、標準偏差を計算すると「元の単位（例：点数）」でズレの大きさをイメージしやすくなる。
- 記号は $\sigma$（シグマ）で書く。

**【公式】**  
$$
\sigma = \sqrt{Var[X]}
$$

---

**例・イメージ：**  
- 例1：テストの分散が $100$ 点$^2$なら、標準偏差は $\sqrt{100} = 10$ 点である。
    - これは「だいたい平均から10点くらいズレた人が多いですよ」というイメージ。
- 例2：ある分布で標準偏差が $5$ 点なら、ほとんどの人は「平均点±5点」くらいの範囲に収まっていることが多い、と思える。
- 標準偏差が小さいと「多くの人が平均の近く」、大きいと「平均から遠い人も多い」とイメージすれば良い。

---

**まとめ：**  
- 「連続確率変数の分散」も、「離散確率変数の分散」と同じアイデアで、「ズレの2乗の平均（積分で計算）」でばらつきを測る。
- 標準偏差を使うと、もとのスケール（単位）で「だいたいどのくらいのブレがあるか」がすぐイメージできる。
- $f(x)$の値そのものは「確率」や「人の数」ではなく、「単位あたりの密度（分布の濃さ）」になっているので注意。