In [8]:
# モジュール・ライブラリのインポート（必ず最初に実行）
import sys, os
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import scipy as sp
from scipy import optimize

# 日本語フォントの設定（Mac:'Hiragino Sans', Windows:'MS Gothic'）
plt.rcParams['font.family'] = 'Hiragino Sans'

# 表記の設定
pd.set_option('display.precision', 3)   # 小数点以下の表示桁
pd.set_option('display.max_rows', 20)  # 表示する行数
pd.set_option('display.max_columns', 10)  # 表示する行数
%precision 3

'%.3f'

# 確率の応用

## 確率変数と確率分布

### 確率変数

確率を数学的に扱うには，確率的な事象を数値で表わし，その数値に対して確率が定まっている必要がある．
例えば，サイコロを投げる場合，目の数字を変数と見なすと，各事象には1から6までの整数値が与えられ，それぞれの事象の確率は1/6である．
このように，確率的な事象に数値を対応させた変数 $ X $ に対して $ X=x $ となる確率が定まっているとき，$ X $ を**確率変数**と呼ぶ．
一般に，確率変数 $ X $ は大文字で表し，その**実現値**（個々の試行の結果）は小文字で表す．
もし，確率変数 $ X $ が離散的な値 $ x_{1},\ x_{2},\ \cdots $ しか取らないとき（サイコロの目など），$ X $ を**離散型確率変数**と呼ぶ．
一方，$ X $ が連続値を取る場合（重さ，長さ，時間など）は**連続型確率変数**と呼ぶ．

### 離散型確率分布

離散型確率変数 $ X $ が実現値 $ x_{i} $ を取る確率を

$$
	P(X=x_{i}) = f(x_{i})
$$

と表す．
ただし，$ f $ は以下の条件を満たすとする：

$$
	f(x_{i}) \geq 0, \hspace{0.5cm}かつ \hspace{0.5cm} \sum_{i=1}^{\infty} f(x_{i})=1
$$

このように，確率変数 $ X $ の各実現値 $ x_{1},\ x_{2},\ \cdots $ に対してその確率を対応させた関数 $ f $ を**確率分布関数**と呼ぶ．

特に，$ X $ が離散型確率変数の場合，$ f $ を**離散型確率分布**または**確率（質量）関数**と呼ぶ．
また，確率変数 $ X $ が $ x $ 以下である確率を

$$
	P(X \leq x) = F(x) = \sum_{x_{i}\leq x} f(x_{i})
$$

と表し，これを**累積分布関数**と呼ぶ．
なお，離散型確率変数の累積分布は不連続な関数となる．

なお，記述統計学において，度数分布（ヒストグラム）を扱ったが，これは与えられたデータに対して，階級値と（相対）度数が対応したものであった．
データ数 $ n $ が十分大きい（$ n\to \infty $）ときに相対度数が確率に一致するということを踏まえると，確率分布とはヒストグラムに対する理論的なモデルと捉えることができる．

例として，サイコロを１個投げた場合を考える．
この場合，確率変数の実現値は $ 1,2,3,4,5,6 $ であり，それぞれの確率が $ 1/6 $ なので，確率分布は以下のようになる：

$$
	f(1) = \frac{1}{6},\ f(2) = \frac{1}{6},\ f(3) = \frac{1}{6},\ f(4) = \frac{1}{6},\ f(5) = \frac{1}{6},\ f(6) = \frac{1}{6}
$$

なお，このように全ての実現値に対して同じ確率を取るような確率分布を**一様分布**と呼ぶ．

### 連続型確率分布

連続型確率変数の場合，確率変数 $ X $ がある実現値 $ a $ を取る確率はゼロとなる：

$$
	P(X=a) = 0
$$

そこで，連続型確率変数の場合には，$ X $ がある範囲 $ a \leq X \leq b $ に入る確率

$$
	P(a \leq X \leq b) = \int_{a}^{b} f(x) dx
$$

を考え，これを**確率密度関数**と呼ぶ．
ただし，$ f $ は以下の条件を満たす：

$$
	f(x) \geq 0, \hspace{0.5cm}かつ \hspace{0.5cm} \int_{-\infty}^{\infty} f(x) dx = 1
$$

連続型確率変数 $ X $ の取る値が $ x $ 以下である確率を

$$
	F(x) = \int_{-\infty}^{x} f(x') dx'
$$

と表し，これを**累積分布関数**と呼ぶ．
なお，微分積分学の基本定理より，累積分布関数と確率密度関数は

$$
	f(x) = \frac{d F(x)}{d x}
$$
の関係にある．

## 期待値と分散

### 期待値

確率分布関数に対してもヒストグラムにおける平均値に対応する量を定義でき，これを**期待値**と呼ぶ．
これは，試行の結果期待される値という意味である．
一般に，確率変数 $ X $ に対する期待値は $ E(X) $ と表し，離散型，連続型それぞれに対して以下で定義される：

\begin{align*}
	\begin{split}
	E(X) &= \sum_{i=1}^{n} x_{i} f(x_{i}) \hspace{0.5cm} \textrm{（離散型）}\\[15pt]
	E(X) &= \int_{-\infty}^{\infty} x f(x) dx \hspace{0.5cm} \textrm{（連続型）}
	\end{split}
\end{align*}

### 分散

期待値は分布の重心を表す指標であるが，期待値が同じでも形状が異なる分布はたくさんある．
そこで，分布の形状に関するより詳しい情報を得るには，分布のばらつき具合を表す指標が必要となる．
これが分散であり，$ \mu = E[X] $に対して

$$
	V(X) = E[(X-\mu)^{2}]
$$

と定義される．
特に，離散型，連続型の確率変数に対して以下のように与えられる：

\begin{align*}
	\begin{split}
	V(X) &= \sum_{i} (x_{i}-\mu)^{2} f(x_{i}) \hspace{0.5cm}\textrm{（離散型）} \\
	V(X) &= \int_{-\infty}^{\infty} (x-\mu)^{2} f(x) dx \hspace{0.5cm}\textrm{（連続型）}
	\end{split}
\end{align*}


なお，確率分布の標準偏差は分散の平方根として定義される．

#### 例）宝くじ

ある「くじ」から得られる賞金をどれだけ期待できるかを表すのが期待金額であり，これが確率変数の期待値の本来的な意味である．
いま，1から100までの番号がついた100個の玉が入っている箱から（毎回元に戻しながら）玉を1個取り出す．
このとき，玉の番号に応じて賞金 $ X $ の金額が以下のように決まっているとする（単位は千円）：

- 番号が1から60：$ x_{1}=0 $
- 番号が61から90：$ x_{2}=1 $
- 番号が91から100：$ x_{3}=10 $

これより，くじを1回引いて $ x_{1},\ x_{2},\ x_{3} $ という結果が起きる確率（確率分布）は

$$
	f(x_{1})=0.6,\ f(x_{2})=0.3,\ f(x_{3})=0.1
$$

である．
このとき，くじを多数回引くときに得られる1回当たりの金額が期待値であり，以下のように計算される：

\begin{align*}
	E(X) &= \sum_{i=1}^{3} x_{i}f(x_{i})\\
	&= x_{1}f(x_{1}) + x_{2}f(x_{2}) + x_{3}f(x_{3}) \\
	&= 0\times 0.6 + 1\times 0.3 + 10 \times 0.1 \\
	&= 1.3 \textrm{（千円）}
\end{align*}

下表は1枚300円のある宝くじの賞金と当選確率の関係（確率分布）である．
この宝くじの賞金 $ x $ に対してその期待値を計算すると，$ E[X] = 134 $ 円となる．
宝くじの値段300円に対して期待値が134円であり，買い手からすると明らかに損をするように見える．
しかし，標準偏差の値は約10万円であり，ばらつきも非常に大きいことが分かる．
これは，購入枚数が少なければ大勝する可能性がある一方で，購入枚数が増えるほど損をすることを意味する．

| 賞      | 賞金 $ x $ （円）                         | 当選確率 $ f(x) $ |
| ---------- | -------------------------------------- | ---- |
| 1等    | $ 3\times 10^{8} $ | $ 1/10^{7} $ |
| 1等前後賞 | $ 1\times 10^{8} $ | $ 2/10^{7} $ |
| 2等 | $ 1\times 10^{7} $ | $ 4/10^{7} $ |
| 3等  | $ 1\times 10^{5} $ | $ 1/10^{4} $ |
| 4等  | $ 1\times 10^{4} $ | $ 2/10^{3} $ |
| 5等  | $ 2\times 10^{3} $ | $ 1/100 $ |
| 6等  | $ 3\times 10^{2} $ | $ 1/10 $ |
| はずれ  | $ 0 $ | $ 0.8878993 $ |

## 代表的な離散型確率分布

## 代表的な連続型確率分布
