# 第4部　確率と確率分布の基本


## 3章　二項分布

### 実装：分析の準備

In [None]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd
from scipy import stats

# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# グラフの日本語表記
from matplotlib import rcParams
rcParams['font.family'] = 'sans-serif'
rcParams['font.sans-serif'] = 'Meiryo'

In [None]:
# 表示設定(書籍本文のレイアウトと合わせるためであり、必須ではありません)
np.set_printoptions(linewidth=60)
pd.set_option('display.width', 60)

from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 8, 4

In [None]:
# 書籍と結果を合わせるための乱数の種(必須ではありません)
np.random.seed(4)

### 実装：くじを1枚引くシミュレーション

#### くじを用意する

In [None]:
lottery = np.array([1,1,0,0,0,0,0,0,0,0])
lottery

In [None]:
# くじの当たり率（成功確率）
sum(lottery) / len(lottery)

#### くじを1枚引く

In [None]:
# ランダムにくじを引く
np.random.choice(lottery, size=1, replace=True)

In [None]:
# ランダムにくじを3回引く
print(np.random.choice(lottery, size=1, replace=True))
print(np.random.choice(lottery, size=1, replace=True))
print(np.random.choice(lottery, size=1, replace=True))

### 実装：くじを10枚引くシミュレーション

#### くじを10枚引く

In [None]:
# ランダムにくじを10回引く
print(np.random.choice(lottery, size=10, replace=True))
print(np.random.choice(lottery, size=10, replace=True))
print(np.random.choice(lottery, size=10, replace=True))

#### 乱数の種を設定する

In [None]:
np.random.seed(1)
print(np.random.choice(lottery, size=10, replace=True))
np.random.seed(1)
print(np.random.choice(lottery, size=10, replace=True))
np.random.seed(1)
print(np.random.choice(lottery, size=10, replace=True))

#### 繰り返し実行の結果の確認

In [None]:
np.random.seed(1)
print(np.random.choice(lottery, size=10, replace=True))
print(np.random.choice(lottery, size=10, replace=True))
print(np.random.choice(lottery, size=10, replace=True))

In [None]:
np.random.seed(1)
print(np.random.choice(lottery, size=10, replace=True))
print(np.random.choice(lottery, size=10, replace=True))
print(np.random.choice(lottery, size=10, replace=True))

#### 当たり枚数の集計

In [None]:
# ランダムにくじを10枚引く
np.random.seed(1)
sample_1 = np.random.choice(lottery, size=10, replace=True)
print('くじ引きの結果：', sample_1)
print('当たり枚数　　：', np.sum(sample_1))

### 実装：くじを10枚引く試行を10000回繰り返すシミュレーション

#### シミュレーションの実行

In [None]:
# くじを10枚引く試行を10000回繰り返す

# 試行回数
n_trial = 10000

# 結果を格納する入れ物
binomial_result_array = np.zeros(n_trial)

In [None]:
# シミュレーションの実行
np.random.seed(1)
for i in range(0, n_trial):
    sample = np.random.choice(lottery, size=10, replace=True)
    binomial_result_array[i] = np.sum(sample)

In [None]:
# シミュレーションの結果(最初の10回の結果)
binomial_result_array[0:10]

#### シミュレーション結果のヒストグラム

In [None]:
# シミュレーションの結果の相対度数分布
np.histogram(binomial_result_array,
             bins=np.arange(0, 11, 1), density=True)

In [None]:
# シミュレーションの結果のヒストグラム
sns.histplot(binomial_result_array,
             bins=np.arange(0, 11, 1),
             stat='density', color='gray')

### 実装：二項分布

#### 二項分布の確率質量関数

In [None]:
# 二項分布の確率質量関数(成功確率p=0.5、ベルヌーイ試行の回数n=2、成功回数=1)
round(stats.binom.pmf(k=1, n=2, p=0.5), 3)

In [None]:
# 二項分布の確率質量関数(成功確率p=0.2、ベルヌーイ試行の回数n=10、成功回数=0)
round(stats.binom.pmf(k=0, n=10, p=0.2), 3)

#### 二項分布の確率質量関数のグラフ

In [None]:
# 成功回数が0～10回になる確率を各々計算

# 成功回数
n_success = np.arange(0, 11, 1)

# 確率
probs = stats.binom.pmf(k=n_success, n=10, p=0.2)

# データフレームにまとめる
probs_df = pd.DataFrame({
    'n_success': n_success,
    'probs': probs
})
print(probs_df)

In [None]:
# シミュレーションで得られたヒストグラムと比較

# ヒストグラム(シミュレーション結果)
sns.histplot(binomial_result_array,
             bins=np.arange(0, 11, 1),
             stat='density', color='gray')

# 折れ線グラフ(二項分布の確率質量関数)
sns.lineplot(x=n_success, y=probs,
             data=probs_df, color='black')

#### さまざまな二項分布

In [None]:
# 参考(書籍には載っていないコードです。書籍本文中のグラフを作成するためのコードです)
# 成功回数が0～10回になる確率を各々計算

# 成功回数
n_success = np.arange(0, 11, 1)

# 確率
probs_01 = stats.binom.pmf(k=n_success, n=10, p=0.1)
probs_02 = stats.binom.pmf(k=n_success, n=10, p=0.2)
probs_05 = stats.binom.pmf(k=n_success, n=10, p=0.5)


# データフレームにまとめる
probs_df_2 = pd.DataFrame({
    'n_success': n_success,
    '成功確率0.1': probs_01,
    '成功確率0.2': probs_02,
    '成功確率0.5': probs_05,
})

print(probs_df_2.head(3))

In [None]:
# 参考(書籍には載っていないコードです。書籍本文中のグラフを作成するためのコードです)
probs_df_2.plot(x='n_success', style=['-', '--', ':'], color='black')

### 実装：二項分布に従う乱数の生成

In [None]:
# N=10,p=0.2の二項分布に従う乱数を5個生成
np.random.seed(1)
stats.binom.rvs(n=10, p=0.2, size=5)

### 実装：二項分布の期待値と分散

#### 二項分布の期待値の実装

In [None]:
n = 10
p = 0.2
x_bar = np.mean(binomial_result_array)

print('乱数の平均　　：', round(x_bar, 1))
print('理論的な期待値：', n * p)

In [None]:
# 理論的な期待値
stats.binom.mean(n=10, p=0.2)

#### 二項分布の分散の実装

In [None]:
u2 = np.var(binomial_result_array, ddof=1)
print('乱数の分散　：', round(u2, 1))
print('理論的な分散：', n * p * (1 - p))

In [None]:
# 理論的な分散
stats.binom.var(n=10, p=0.2)

### 実装：二項分布の累積分布関数

#### 二項分布の累積分布関数の実装

In [None]:
# 二項分布の累積分布関数
# (成功確率p=0.2、ベルヌーイ試行の回数n=10、成功回数2回以下)
round(stats.binom.cdf(k=2, n=10, p=0.2), 3)

#### 確率質量関数と累積分布関数の比較

In [None]:
# 成功回数が0のときの比較
print('確率質量関数', round(stats.binom.pmf(k=0, n=10, p=0.2), 3))
print('累積分布関数', round(stats.binom.cdf(k=0, n=10, p=0.2), 3))

In [None]:
# 成功回数が1のときの比較
print('確率質量関数', round(stats.binom.pmf(k=1, n=10, p=0.2), 3))
print('累積分布関数', round(stats.binom.cdf(k=1, n=10, p=0.2), 3))

In [None]:
# 確率質量関数から累積分布関数を求める
pmf_0 = stats.binom.pmf(k=0, n=10, p=0.2)
pmf_1 = stats.binom.pmf(k=1, n=10, p=0.2)
round(pmf_0 + pmf_1, 3)

### 実装：二項分布のパーセント点

In [None]:
# 二項分布のパーセント点
# 成功確率p=0.2、ベルヌーイ試行の回数n=10
print('10%点：', stats.binom.ppf(q=0.1, n=10, p=0.2))
print('20%点：', stats.binom.ppf(q=0.2, n=10, p=0.2))
print('50%点：', stats.binom.ppf(q=0.5, n=10, p=0.2))
print('80%点：', stats.binom.ppf(q=0.8, n=10, p=0.2))
print('95%点：', stats.binom.ppf(q=0.95, n=10, p=0.2))

### 実装：二項分布の上側確率

In [None]:
# 4より上
round(1 - stats.binom.cdf(k=4, n=10, p=0.2), 3)

In [None]:
round(stats.binom.sf(k=4, n=10, p=0.2), 3)

## 4章　正規分布

### 実装：分析の準備

In [None]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd
from scipy import stats

# グラフを描画するライブラリ
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# グラフの日本語表記
from matplotlib import rcParams
rcParams['font.family'] = 'sans-serif'
rcParams['font.sans-serif'] = 'Meiryo'

In [None]:
# 表示設定(書籍本文のレイアウトと合わせるためであり、必須ではありません)
np.set_printoptions(linewidth=60)
pd.set_option('display.width', 60)

from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 8, 4

### 実装：正規分布の確率密度関数

#### 正規分布の確率密度関数

In [None]:
# 正規分布の確率密度関数
# (平均値4、分散1、確率変数は3)
round(stats.norm.pdf(loc=4, scale=1, x=3), 3)

#### インスタンスを生成してから実行する

In [None]:
norm_dist = stats.norm(loc=4, scale=1)
round(norm_dist.pdf(x = 3), 3)

#### 正規分布の確率密度のグラフ

In [None]:
# 正規分布の確率密度関数(平均4、分散1)
# 確率変数が0から8をとる確率密度を各々計算

# 確率変数
x = np.arange(start=0, stop=8, step=0.1)
# 確率密度
density = stats.norm.pdf(x=x, loc=4, scale=1)

# データフレームにまとめる
density_df = pd.DataFrame({
    'x': x,
    'density': density
})

print(density_df.head(3))

In [None]:
# 折れ線グラフ（正規分布の確率密度関数）
sns.lineplot(x=x, y=density,
             data=density_df, color='black')

#### パラメータを変化させたときの正規分布

In [None]:
# 参考(書籍には載っていないコードです。書籍本文中のグラフを作成するためのコードです)
# 確率変数が0から8をとる確率密度を各々計算

# 確率変数
x = np.arange(start=0, stop=8, step=0.1)
# 確率密度
density_41 = stats.norm.pdf(x=x, loc=4, scale=1)
density_21 = stats.norm.pdf(x=x, loc=2, scale=1)
density_42 = stats.norm.pdf(x=x, loc=4, scale=2)

# データフレームにまとめる
density_df_2 = pd.DataFrame({
    'x': x,
    '平均4、分散1': density_41,
    '平均2、分散1': density_21,
    '平均4、分散4': density_42,
})

print(density_df_2.head(3))

In [None]:
# 参考(書籍には載っていないコードです。書籍本文中のグラフを作成するためのコードです)

# 2列のグラフを作る
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(11, 5))

# 1つ目のグラフは、平均値が異なる2種類の正規分布のグラフを描く
sns.lineplot(ax=axes[0], x='x', y='平均4、分散1', linestyle='solid',  color='black', data=density_df_2, label='平均4、分散1')
sns.lineplot(ax=axes[0], x='x', y='平均2、分散1', linestyle='dashed', color='black', data=density_df_2, label='平均2、分散1')
# 1つ目のグラフの装飾
axes[0].set_title('平均値が異なる正規分布', size=20) # グラフタイトル
axes[0].set_ylabel('確率密度', size=15)              # Y軸ラベル

# 2つ目のグラフは、分散が異なる2種類の正規分布のグラフを描く
sns.lineplot(ax=axes[1], x='x', y='平均4、分散1', linestyle='solid',  color='black', data=density_df_2, label='平均4、分散1')
sns.lineplot(ax=axes[1], x='x', y='平均4、分散4', linestyle='dotted', color='black', data=density_df_2, label='平均4、分散4')
# 2つ目のグラフの装飾
axes[1].set_title('分散が異なる正規分布', size=20) # グラフタイトル
axes[1].set_ylabel('')                             # Y軸ラベル

### 実装：誤差の累積シミュレーション

#### 誤差の累積シミュレーションの考え方

In [None]:
# ノイズが加算される回数
n_noise = 10000

# 中心位置
location = 4

# 小さな誤差
noise = np.array([-0.01, 0.01])

In [None]:
# 中心位置にノイズをn_noise個加える
np.random.seed(5)
location + np.sum(np.random.choice(noise, size = n_noise,
                                   replace = True))

In [None]:
# 実行するたびに異なる値になる
location + np.sum(np.random.choice(noise, size = n_noise,
                                   replace = True))

#### シミュレーションを5万回繰り返す

In [None]:
# 試行回数
n_trial = 50000

# ノイズの累積として得られた観測値
observation_result = np.zeros(n_trial)

# locationに誤差をn_noise個ランダムに加える試行をn_trial回行う
np.random.seed(1)
for i in range(0, n_trial):
    observation_result[i] = location + \
    np.sum(np.random.choice(noise, size = n_noise,
                            replace = True))

#### シミュレーション結果の確認

In [None]:
# 乱数の平均と分散
x_bar = np.mean(observation_result)
u2 = np.var(observation_result, ddof=1)
print('平均：', round(x_bar, 1))
print('分散：', round(u2, 1))

In [None]:
# 誤差の累積シミュレーション結果のヒストグラム
sns.histplot(observation_result, bins=20,
             stat='density', color='gray')

# 平均4、分散1の正規分布の確率密度関数の折れ線グラフ
sns.lineplot(x=x, y=density,
             data=density_df, color='black')

### 実装：正規分布に従う乱数の生成

In [None]:
np.random.seed(1)
simulated_sample = stats.norm.rvs(
    loc=4, scale=1, size=8)
simulated_sample

### 実装：正規分布の累積分布関数

In [None]:
# 正規分布の累積分布関数（3を下回る確率）
round(stats.norm.cdf(loc=4, scale=1, x=3), 3)

In [None]:
# 平均値を下回る確率はちょうど50%
round(stats.norm.cdf(loc=4, scale=1, x=4), 3)

### 実装：正規分布のパーセント点

In [None]:
# 正規分布のパーセント点（下側確率が0.025となる点）
round(stats.norm.ppf(loc=4, scale=1, q=0.025), 3)

In [None]:
# 50%点は平均値と等しい
round(stats.norm.ppf(loc=4, scale=1, q=0.5), 3)

### 正規分布の上側確率

In [None]:
# 3以上になる確率
round(stats.norm.sf(loc=4, scale=1, x=3), 3)