<a href="https://colab.research.google.com/github/ohki-yu0225/toukei_1B_12/blob/main/250704_notebook_12.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 統計学実習 IB 第 12 回


# Statistics Practice IB 12th

In [None]:
# 'pandas', 'numpy', 'matplotlib.pyplot', 'japanize_matplotlib', 'scipy.stats'をインポートする。
# Import 'pandas', 'numpy', 'matplotlib.pyplot', 'japanize_matplotlib', and 'scipy.stats'.
!pip install japanize_matplotlib

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib
from scipy import stats

## 離散型の同時確率分布

谷合廣紀　著，辻真吾　監修「Pythonで理解する統計解析の基礎」（技術評論者）を参考にした。

## Simultaneous probability distributions of discrete type

In [None]:
# サイコロAとサイコロBを振り、サイコロAの出目とBの出目の和を確率変数X、サイコロAの出目を確率変数Yとしたときの同時確率関数f(x,y)を定義する
# Define the simultaneous probability function f(x,y) when dice A and B are rolled and the sum of the rolls of dice A and B is the random variable X and the roll of dice A is the random variable Y
def f_xy(x, y):
    if 1 <= y <= 6 and 1 <= x - y <= 6:
        return y * (x - y) / 441
    else:
        return 0

In [None]:
# X, Yの範囲を定め、同時確率分布を計算する
# Determine the range of X, Y and calculate the simultaneous probability distribution
x_set = np.arange(2, 13)
y_set = np.arange(1, 7)
prob = np.array([[f_xy(x_i, y_j) for y_j in y_set] for x_i in x_set])
prob_df = pd.DataFrame(prob, index=x_set, columns=y_set)
print(prob_df)

In [None]:
# 同時確率分布をヒートマップで図示する
# Illustrate simultaneous probability distributions with a heat map
prob = np.array([[f_xy(x_i, y_j) for y_j in y_set] for x_i in x_set])
fig = plt.figure()
ax = fig.add_subplot(111)

c = ax.pcolor(prob)
ax.set_xticks(y_set - 0.5, minor=False)
ax.set_yticks(x_set - 1.5, minor=False)
ax.set_xticklabels(y_set, minor=False)
ax.set_yticklabels(x_set, minor=False)
ax.invert_yaxis()
ax.xaxis.tick_top()
fig.colorbar(c, ax=ax)
plt.show()

In [None]:
# Xの周辺確率分布を計算する
# Calculate the marginal probability distribution around X
prob_x = np.sum(prob, axis=1)
prob_x_df = pd.DataFrame(prob_x, index=x_set)
print(prob_x_df)

In [None]:
# Xの周辺確率分布を図示する
# Illustrate the marginal probability distribution around X
plt.bar(x_set, prob_x)
plt.ylabel("f(X)")
plt.xlabel("X")

In [None]:
# Xの期待値を計算する
# Calculate the expected value of X
x_mean = np.sum(x_set * prob_x)
print(x_mean)

In [None]:
# Xの分散を計算する
# Calculate the variance of X
x_var = np.sum((x_set - x_mean) ** 2 * prob_x)
print(x_var)

In [None]:
# 練習1 Yの周辺確率分布を計算する
# Exercise 1 Calculate the marginal probability distribution around Y


In [None]:
# 練習2 Yの周辺確率分布を図示する
# Exercise 2 Illustrate the marginal probability distribution of Y


In [None]:
# 練習3 Yの期待値を計算する
# Exercise 3 Calculate the expected value of Y

print(y_mean)

In [None]:
# 練習4 Yの分散を計算する
# Exercise 4 Calculate the variance of Y

print(y_var)

In [None]:
# 共分散を計算する
# Calculate the covariance
mean_xy = x_set @ prob @ y_set
cov_xy = mean_xy - x_mean * y_mean
print(cov_xy)

In [None]:
# 練習5 相関係数を計算する
# Exercise 5 Calculate the correlation coefficient

print(rho_xy)

## 連続型の同時確率分布

## Simultaneous probability distributions of continuous type


In [None]:
# 2次元正規分布を生成する
# Generate a two-dimensional normal distribution
mean_x = 0
mean_y = 0
var_x = 1
var_y = 1
rho = 0.5
mean = np.array([mean_x, mean_y])
cov = np.array([[var_x, rho * var_x * var_y], [rho * var_x * var_y, var_y]])
rv = stats.multivariate_normal(mean, cov)

In [None]:
# 2次元正規分布を図示する(Surface plot)
# Illustrate 2-dimensional normal distribution (surface plot)
x, y = np.mgrid[-2:2:0.01, -2:2:0.01]
pos = np.dstack((x, y))
prob_xy = rv.pdf(pos)
fig = plt.figure(figsize=[10,8])
ax = fig.add_subplot(111, projection="3d")
c = ax.plot_surface(x, y, prob_xy, cmap="viridis")
fig.colorbar(c, ax=ax)
ax.set_xlabel("X")
ax.set_ylabel("Y")
ax.set_zlabel("f(X,Y)")
plt.show()

In [None]:
# 2次元正規分布を図示する(ヒートマップ)
# Illustrate 2-dimensional normal distribution (heat map)
fig = plt.figure()
ax = fig.add_subplot(111)
c = ax.pcolor(x, y, prob_xy)
fig.colorbar(c, ax=ax)
ax.set_xlabel("X")
ax.set_ylabel("Y")
plt.show()

In [None]:
# 2次元正規分布から100000点をサンプリングした結果からXのヒストグラムを作成する（周辺確率分布を数値的に近似する）
# Create a histogram of X from the results of sampling 100000 points from a 2-dimensional normal distribution (numerically approximates the marginal probability distribution)
num_samples = 100000
#rv.rvs(num_samples)でrvに従う確率変数をnum_samples点サンプリングする
#rv.rvs(num_samples) to sample num_samples points for random variables following rv
samples = rv.rvs(num_samples)
x_samples = samples[:, 0]
plt.hist(x_samples, bins=50, density=True)
plt.xlabel("X")
plt.ylabel("f(X)")

In [None]:
# 2次元正規分布から100000点をサンプリングした結果からYのヒストグラムを作成する（周辺確率分布を数値的に近似する）
# Create a histogram of Y from the results of sampling 100000 points from a 2-dimensional normal distribution (numerically approximates the marginal probability distribution)
y_samples = samples[:, 1]
plt.hist(y_samples, bins=50, density=True)
plt.xlabel("Y")
plt.ylabel("f(Y)")

In [None]:
# 練習6 標準正規分布を生成する
# Exercise 6 Generating the Standard Normal Distribution


In [None]:
# 練習7 標準正規分布の確率密度関数と2次元正規分布からサンプルされたXの値のヒストグラムを同時に図示する
# Exercise 7 Simultaneously illustrate the probability density function of the standard normal distribution and a histogram of the values of X sampled from a two-dimensional normal distribution

# --- 変更しない/No change ---
plt.hist(x_samples, bins=50, density=True)
plt.xlabel("X")
plt.ylabel("f(X)")
# --- 変更しない/No change ---



In [None]:
# 練習7 標準正規分布の確率密度関数と2次元正規分布からサンプルされたYの値のヒストグラムを同時に図示する
# Exercise 7 Simultaneously illustrate the probability density function of the standard normal distribution and a histogram of the values of Y sampled from a two-dimensional normal distribution

# --- 変更しない/No change ---
y_samples = samples[:, 1]
plt.hist(y_samples, bins=50, density=True)
plt.xlabel("Y")
plt.ylabel("f(Y)")
# --- 変更しない/No change ---



## 確率分布の再正性

## Reproducibility of probability distributions

In [None]:
# サイコロを70回振って1が出る回数を表す確率分布Aとサイコロを30回振って1が出る回数を表す確立分布Bをそれぞれ生成する
# Generate probability distributions A and B, representing the number of times a 1 is rolled 70 times on the dice and the number of times a 1 is rolled 30 times on the dice, respectively
rv1 = stats.binom(70, 1 / 6)
rv2 = stats.binom(30, 1 / 6)

In [None]:
# 確率分布A,Bから100000回のサンプリングを行い、サンプル点の和を計算する
# Calculate the sum of the sample points by sampling 100000 times from probability distributions A and B
num_samples = 100000
x = rv1.rvs(num_samples)
y = rv2.rvs(num_samples)
z = x + y

In [None]:
# 練習9 サイコロを100回振って、1が出る回数を表す確率分布を生成する
# Exercise 9 Roll the dice 100 times and generate a probability distribution representing the number of times a 1 is rolled


In [None]:
# 練習10 サンプル点の和のヒストグラムと練習9で生成した確率分布の確率質量関数を同時に図示する
# Exercise 10 Illustrate simultaneously the histogram of the sum of the sample points and the probability mass function of the probability distribution generated in Exercise 9
