<a href="https://colab.research.google.com/github/yukinaga/numpy_matplotlib/blob/main/section_4/01_probability_statistics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NumPyによる確率/統計
NumPyは、確率/統計において有用な様々な関数を提供しています。  


## ●乱数とは？
例えばサイコロを投げる場合、上の面が決まるまで1-6のどれが出るのか分かりません。「乱数」とは、このような未確定の数値です。  
以下のコードは、NumPyの`random.randint( )`を使って、サイコロのように1-6の値をランダムに返すコードです。`randint( )`関数に整数$n$を引数として渡すと、$0$から$n-1$までの整数の乱数を返します。  

In [None]:
import numpy as np

r_int = np.random.randint(6) + 1  # 0から5までの乱数に、1を加える
print(r_int)  # 1から6までがランダムに表示される

In [None]:
# 練習用


NumPyの`random.rand()`関数を使うと、0から1までの間の小数をランダムに取得することができます。

In [None]:
import numpy as np

r_dec = np.random.rand()   # 0から1の間の小数を、ランダムに返す
print(r_dec)

In [None]:
# 練習用


## ●均一な乱数
先述の`random.rand()`関数は、0から1の間の小数を均等な確率で返します。この関数に整数`a`を引数として渡すと、そのような小数を`a`個得ることができます。  
以下のコードは、多数の均一な乱数をx座標、y座標として、散布図にプロットします。実行することで、`random.rand()`により得られる乱数が均一であることが確認できます。  

In [None]:
import numpy as np
import matplotlib.pyplot as plt

n = 1000  # サンプル数
x = np.random.rand(n)  # 0-1の均一な乱数
y = np.random.rand(n)  # 0-1の均一な乱数

plt.scatter(x, y)  # 散布図のプロット
plt.grid()
plt.show()

In [None]:
# 練習用


## ●偏った乱数
NumPyの`random.randn( )`関数は、後に解説する「正規分布」という分布に従う確率で乱数を返します。正規分布では、中央で確率が高く、両端で確率が低くなります。  
以下のコードは、正規分布に従う多数の乱数をx座標、y座標として散布図にプロットします。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

n = 1000  # サンプル数
x = np.random.randn(n)  # 正規分布に従う乱数
y = np.random.randn(n)  # 正規分布に従う乱数

plt.scatter(x, y)  # 散布図のプロット
plt.grid()
plt.show()

In [None]:
# 練習用


## ●確率への収束
(事象の発生数/試行数)はやがて確率に収束していきます。  
以下のコードは、サイコロを何度も振って5が出た回数を数え、(5が出た回数/振った回数)の推移を表示するコードです。  
試行を重ねるにつれて、(5が出た回数/試行数)が確率（約16.7%）に収束していくことを確認しましょう。  

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = []
y = []
total = 0  # 試行数
num_5 = 0  # 5が出た回数
n = 10000  # サイコロを振る回数

for i in range(n):
    
    if np.random.randint(6)+1 == 5:  # 0-5までのランダムな数に1を加えて1-6に
        num_5 += 1
        
    total += 1
    x.append(i)
    y.append(num_5/total)
    
plt.plot(x, y)
plt.plot(x, [1/6]*n, linestyle="dashed")  # yは1/6がn個入ったリスト
plt.grid()
plt.show()

In [None]:
# 練習用


## ●平均値とは？

「平均値」は、複数の値の合計値を、値の数で割って求めます。  
以下は、$n$個の値の平均値を求める式です。  

$$ \begin{aligned} \\
\mu &= \frac{x_1 + x_2 + \cdots + x_n}{n} \\
&= \frac{1}{n}\sum_{k=1}^n x_k
\end{aligned} $$

例えば、Aさんの体重が60kg、Bさんは40kg、Cさんは55kg、Dさんが45kgであれば、4人の平均体重は以下の通りに計算できます。

$$\frac{60 + 40 + 55 + 44}{4} = 50(kg)$$

このような平均値は、複数の値からなるデータの特徴を表す値の1つです。  

平均値は、NumPyの`average( )`関数（もしくは`mean( )`関数）により計算することができます。  

In [None]:
import numpy as np

x = np.array([55, 45, 60, 40])  # 平均をとるデータ

print(np.average(x))

In [None]:
# 練習用


## ●分散とは？

「分散」は値のばらつき具合を表す指標で、以下の$V$で表されます。

$$V=\frac{1}{n}\sum_{k=1}^n (x_k-\mu)^2$$

この式において、$n$は値の総数、$x_k$は値、$\mu$は平均値です。  
平均値との差を2乗し、平均をとっています。  

例えば、Aさんの体重が60kg、Bさんは40kg、Cさんは55kg、Dさんが45kgであれば、分散は以下ように計算されます。

$$\mu = \frac{60+40+55+45}{4}=50(kg)$$

$$V=\frac{(60-50)^2+(40-50)^2+(55-50)^2+(45-50)^2}{4}=62.5(kg^2)$$

次に、Aさんの体重が48kg、Bさんは49kg、Cさんは52kg、Dさんが51kgの場合の分散を計算します。  
先程と比べて、値のばらつきが小さくなっています。  

$$\mu = \frac{48+49+52+51}{4}=50(kg)$$

$$V=\frac{(48-50)^2+(49-50)^2+(52-50)^2+(51-50)^2}{4}=2.5 (kg^2)$$

こちらの場合の方が、分散が小さくなっていることが確認できます。  

分散は、NumPyの`var( )`関数で計算することができます。  

In [None]:
import numpy as np

# 分散をとるデータ
x_1 = np.array([60, 40, 55, 45]) 
x_2 = np.array([48, 49, 52, 51]) 

# 分散の計算
print(np.var(x_1))
print(np.var(x_2))

In [None]:
# 練習用


## ●標準偏差とは？

「標準偏差」は、分散と同じく値のばらつき具合の指標です。標準偏差$\sigma$は、以下のように分散の平方根をとることにより求めます。  

$$\sigma = \sqrt V=\sqrt{\frac{1}{n}\sum_{k=1}^n (x_k-\mu)^2}$$

例えば、Aさんの体重が60kg、Bさんは40kg、Cさんは55kg、Dさんが45kgであれば、標準偏差は以下ように計算されます。

$$\mu = \frac{60+40+55+45}{4}=50 (kg)$$

$$\sigma=\sqrt{\frac{(60-50)^2+(40-50)^2+(55-50)^2+(45-50)^2}{4}}\fallingdotseq7.91 (kg
)$$

次は、値のばらつきがより小さいケースです。Aさんの体重が48kg、Bさんは49kg、Cさんは52kg、Dさんが51kgとします。    

$$\mu = \frac{48+49+52+51}{4}=50(kg)$$

$$\sigma=\sqrt{\frac{(48-50)^2+(49-50)^2+(52-50)^2+(51-50)^2}{4}}\fallingdotseq1.58 (kg
)$$

こちらのケースの方が、標準偏差が小さくなることが確認できました。  
標準偏差は単位の次元がデータと同じなので、値の散らばり具合を直感的に把握する際には標準偏差が適しています。  

標準偏差は、NumPyの`std( )`関数を使って計算することができます。

In [None]:
import numpy as np

# 標準偏差をとるデータ
x_1 = np.array([60, 40, 55, 45]) 
x_2 = np.array([48, 49, 52, 51]) 

# 標準偏差の計算
print(np.std(x_1))
print(np.std(x_2))

In [None]:
# 練習用


## ●ネイピア数のべき乗
ネイピア数$e$は数学的に扱いやすい値なので、分布や確率を扱う際によく使われます。  
ネイピア数のべき乗$e^x$は、以下のように$\exp$を使ってよく表されます。  

$$\exp(x)$$

NumPyでは、`np.e`によりネイピア数を取得することができます。また、`np.exp( )`関数によりネイピア数のべき乗を計算することができます。  

In [None]:
import numpy as np

print(np.e)  # ネイピア数
print(np.exp(1))  # ネイピア数の1乗
print(np.e**2)  # ネイピア数の2乗
print(np.exp(2))  # ネイピア数の2乗

In [None]:
# 練習用


ネイピア数を使った以下の式により、釣鐘状の曲線を描くことができます。  

$$y=\exp(-x^2)$$


In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-3, 3)
y = np.exp(-x**2)

plt.plot(x, y)
plt.show()

In [None]:
# 練習用


このような釣鐘状の曲線が、正規分布で利用されます。  

## ●正規分布とは？

「正規分布」（normal distribution）は、自然界の様々な現象に対してよく当てはまるデータの分布です。  
例えば、身長や体重、テストの成績、工業製品のサイズなどは正規分布におおよそ従います。  

正規分布において、ある値$x$が得られる確率$f(x)$は、以下の確率密度関数と呼ばれる関数で表されます。  

$$ f(x)=\frac{1}{ \sigma\sqrt{2\pi}}\exp(-\frac{(x-\mu)^2}{2\sigma ^2}) $$ 

ここで、$\mu$は平均値で分布の中央となり、$\sigma$は標準偏差で分布の広がり具合を表します。  

上記の式は少々複雑ですが、平均値を0、標準偏差を1とすると以下のように比較的シンプルな形になります。

$$ f(x)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2}) $$ 

それでは、確率密度関数を使って正規分布の曲線を描画しましょう。平均値は0に固定し、標準偏差を3通りにして3つの曲線を描画します。  

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def pdf(x, mu, sigma):  # mu: 平均値  sigma: 標準偏差
    return 1/(sigma*np.sqrt(2*np.pi))*np.exp(-(x-mu)**2 / (2*sigma**2))  # 確率密度関数

x = np.linspace(-5, 5)
y_1 = pdf(x, 0.0, 0.5)  # 平均値が0で標準偏差が0.5
y_2 = pdf(x, 0.0, 1.0)  # 平均値が0で標準偏差が1
y_3 = pdf(x, 0.0, 2.0)  # 平均値が0で標準偏差が2

plt.plot(x, y_1, label="σ: 0.5")
plt.plot(x, y_2, label="σ: 1.0")
plt.plot(x, y_3, label="σ: 2.0")
plt.legend()

plt.xlabel("x")
plt.ylabel("y")
plt.grid()

plt.show()

In [None]:
# 練習用


標準偏差は値のばらつき具合を表すのですが、これが小さいと曲線の幅が狭くなり、大きいと幅が広くなります。  
また、正規分布の曲線とx軸に挟まれた領域の面積は1になります。これは、確率の総和が1であることに対応します。

## ●正規分布に従う乱数
正規分布に従う乱数は、NumPyの`random.normal( )`関数を使って生成することがます。  
以下のコードは、生成されたデータの分布をmatplotlibの`hist( )`関数でヒストグラムとして表示します。  

In [None]:
import numpy as np
import matplotlib.pyplot as plt
 
# 正規分布に従う乱数を生成
s = np.random.normal(0, 1, 10000)  # 平均0、標準偏差1、10000個

# ヒストグラム
plt.hist(s, bins=25)  # binsは棒の数

plt.xlabel("x", size=14)
plt.grid()

plt.show()

In [None]:
# 練習用


生成されたデータの分布は、釣鐘状の形状となりました。確率密度関数の形状とほぼ同じですね。

## ●共分散とは？

共分散は、2つのデータ間の関係を表す指標の1つです。

$X$、$Y$、2組のデータを、以下のように考えます。両者とも、データの個数は$n$とします。

$$X=x_1,x_2,\cdots ,x_n$$
$$Y=y_1,y_2,\cdots ,y_n$$

これらの共分散$Cov(X,Y)$は、以下の式で表されます。

（式 1）
$$Cov(X,Y)=\frac{1}{n}\sum_{k=1}^n (x_k-\mu_x)(y_k-\mu_y)$$

$\mu_x$は$X$の平均、$\mu_y$は$Y$の平均になります。
  
共分散の意味は、概ね以下のようになります。  


---

共分散が0より大きい → Xが大きいとYも大きい、Xが小さいとYも小さい傾向がある  
共分散が 0 に近い → XとYにあまり関係はない  
共分散が0より小さい → Xが大きいとYは小さい、Xが小さいとYは大きい傾向がある  

---


以下に、共分散の例を挙げます。  
$X$を5人の生徒の英語の点数、$Y$を同じ生徒の国語の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Y=60, 80, 50, 50, 70$$

両者ともにデータの個数は5なので、$X$と$Y$の平均値は以下のようにして計算できます。

$$\mu_x = \frac{50+70+40+60+80}{5} = 60$$
$$\mu_y = \frac{60+80+50+50+70}{5} = 62$$

このとき、共分散は（式 1）を使って以下のように計算することができます。

$$ \begin{aligned} \\
Cov(X,Y) &= \frac{(50-60)(60-62)+(70-60)(80-62)+(40-60)(50-62)+(60-60)(50-62)+(80-60)(70-62)}{5} \\
& = 120
\end{aligned} $$

この場合の共分散は、120となりました。これは、英語の点数が高いと国語の点数も高くなる傾向があることを意味します。

別の例を考えましょう。以下の$X$を英語の点数、$Z$を体育の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Z=60, 40, 60, 40, 30$$

両者ともにデータの個数は5なので、$X$と$Z$の平均値は以下のように計算できます。

$$\mu_x = \frac{50+70+40+60+80}{5} = 60$$
$$\mu_z = \frac{60+40+60+40+30}{5} = 46$$

このときの共分散は、（式 1）を使って以下のように計算できます。

$$ \begin{aligned} \\
Cov(X,Z) &= \frac{(50-60)(60-46)+(70-60)(40-46)+(40-60)(60-46)+(60-60)(40-46)+(80-60)(30-46)}{5} \\
& = -160
\end{aligned} $$

この場合、共分散は-160となりました。これは、英語の点数が高いと体育の点数が低くなる傾向があることを意味します。  

## ●相関係数とは？

相関係数は、2つのデータの関係の強さを-1から1の範囲で表します。    

$X$、$Y$、2組のデータを考えます。両者ともに、データの個数は$n$とします。

$$X=x_1,x_2,\cdots ,x_n$$
$$Y=y_1,y_2,\cdots ,y_n$$

これらの間の相関係数$\rho$は、共分散$Cov(X,Y)$と、XとYそれぞれの標準偏差$\sigma_X$、$\sigma_Y$を使って以下のように表されます。

（式 2）
$$\rho=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}$$

この相関係数$\rho$の範囲は、$-1\leqq \rho \leqq 1$です。

$\rho$が1に近づくと、正の相関が強くなります。  
$\rho$が0の場合、XとYには相関がありません。  
$\rho$が-1に近づくと、負の相関が強くなります。  

相関係数は共分散と似ていますが、$\rho$の範囲が$-1\leqq \rho \leqq 1$に収まるため、両者の関係の強さを直感的に把握しやすいのがメリットです。

相関係数の例を挙げましょう。$X$を英語の点数、$Y$を国語の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Y=60, 80, 50, 50, 70$$

$X$と$Y$の共分散、およびそれぞれの標準偏差は以下の通りに計算できます。  

$$Cov(X,Y) = 120$$
$$\sigma_X = 14.14...$$
$$\sigma_Y = 11.66...$$

このときの相関係数は（式 2）により以下のように計算できます。

$$ \begin{aligned} \\
\rho &= \frac{Cov(X,Y)}{\sigma_X\sigma_Y} \\
&= \frac{120}{14.14...\times 11.66...} \\
&= 0.7276...
\end{aligned} $$

この場合の相関係数は、約0.728となりました。これは、英語の点数が高いと国語の点数も高くなる傾向があることを意味します。

別の例を挙げましょう。以下の$X$を英語の点数、$Z$を体育の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Z=60, 40, 60, 40, 30$$

このとき、$X$と$Y$の共分散、およびそれぞれの標準偏差は以下の通りに計算できます。    

$$Cov(X,Y) = -160$$
$$\sigma_X = 14.14...$$
$$\sigma_Z = 12.0$$

このとき、相関係数は（式 2）により以下の通りに計算できます。

$$ \begin{aligned} \\
\rho &= \frac{Cov(X,Y)}{\sigma_X\sigma_Y} \\
&= \frac{-160}{14.14...\times 12.0} \\
&= -0.9428...
\end{aligned} $$

この場合の相関係数は、約-0.943です。強い負の相関があり、英語の点数が高いと体育の点数が大きく下がるようです。  

## ●相関係数の計算
相関係数は、以下のようにNumPyの`corrcoef( )`関数を使って計算することができます。  
`corrcoef( )`関数の結果は2x2の行列として得られますが、右上と左下の要素が相関係数です。  

In [None]:
import numpy as np
import matplotlib.pyplot as plt
 
x = np.array([50, 70, 40, 60, 80])  # 英語の点数
y = np.array([60, 80, 50, 50, 70])  # 国語の点数

print("--- 相関係数: corrcoef関数を使用 ---")
print(np.corrcoef(x, y))  # 相関係数

plt.scatter(x, y)

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

In [None]:
# 練習用


## ●演習
matplotlibの散布図によりデータを可視化し、NumPyで相関係数を計算しましょう。  
以下のセルにコードを追記してください。  

In [None]:
import numpy as np
import matplotlib.pyplot as plt

n = 1000  # サンプル数
x = np.random.randn(n)  # 正規分布に従う乱数
y = 0.5*x + np.random.randn(n)  # 正規分布に従う乱数

plt.  # ←ここにコードを追記: 散布図のプロット
plt.grid()
plt.xlabel("x")
plt.ylabel("y")
plt.show()

print("--- 相関係数 ---")
print(np.  # ←ここにコードを追記: 相関係数

## ●解答例
以下は解答例です。  
どうしても分からない時、もしくは答え合わせ時に参考にしましょう。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

n = 1000  # サンプル数
x = np.random.randn(n)  # 正規分布に従う乱数
y = 0.5*x + np.random.randn(n)  # 正規分布に従う乱数

plt.scatter(x, y)  # ←ここにコードを追記: 散布図のプロット
plt.grid()
plt.xlabel("x")
plt.ylabel("y")
plt.show()

print("--- 相関係数 ---")
print(np.corrcoef(x, y))  # ←ここにコードを追記: 相関係数