<a href="https://colab.research.google.com/github/yukinaga/minnano_ds/blob/main/section_4/04_covariance_correlation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 共分散と相関係数
2組のデータの関係性を表す数値、共分散と相関係数について解説します。  

## ●共分散とは？

共分散は、2つのデータ間の関係を表す指標の1つです。

$X$、$Y$、2組のデータを、以下のように考えます。両者とも、データの個数は$n$とします。

$$X=x_1,x_2,\cdots ,x_n$$
$$Y=y_1,y_2,\cdots ,y_n$$

これらの共分散$Cov(X,Y)$は、以下の式で表されます。

（式 1）
$$Cov(X,Y)=\frac{1}{n}\sum_{k=1}^n (x_k-\mu_x)(y_k-\mu_y)$$

$\mu_x$は$X$の平均、$\mu_y$は$Y$の平均になります。
  
共分散の意味は、概ね以下のようになります。  


---

共分散が0より大きい → Xが大きいとYも大きい、Xが小さいとYも小さい傾向がある  
共分散が 0 に近い → XとYにあまり関係はない  
共分散が0より小さい → Xが大きいとYは小さい、Xが小さいとYは大きい傾向がある  

---


以下に、共分散の例を挙げます。  
$X$を5人の生徒の英語の点数、$Y$を同じ生徒の国語の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Y=60, 80, 50, 50, 70$$

両者ともにデータの個数は5なので、$X$と$Y$の平均値は以下のようにして計算できます。

$$\mu_x = \frac{50+70+40+60+80}{5} = 60$$
$$\mu_y = \frac{60+80+50+50+70}{5} = 62$$

このとき、共分散は（式 1）を使って以下のように計算することができます。

$$ \begin{aligned} \\
Cov(X,Y) &= \frac{(50-60)(60-62)+(70-60)(80-62)+(40-60)(50-62)+(60-60)(50-62)+(80-60)(70-62)}{5} \\
& = 120
\end{aligned} $$

この場合の共分散は、120となりました。これは、英語の点数が高いと国語の点数も高くなる傾向があることを意味します。

別の例を考えましょう。以下の$X$を英語の点数、$Z$を体育の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Z=60, 40, 60, 40, 30$$

両者ともにデータの個数は5なので、$X$と$Z$の平均値は以下のように計算できます。

$$\mu_x = \frac{50+70+40+60+80}{5} = 60$$
$$\mu_z = \frac{60+40+60+40+30}{5} = 46$$

このときの共分散は、（式 1）を使って以下のように計算できます。

$$ \begin{aligned} \\
Cov(X,Y) &= \frac{(50-60)(60-46)+(70-60)(40-46)+(40-60)(60-46)+(60-60)(40-46)+(80-60)(30-46)}{5} \\
& = -160
\end{aligned} $$

この場合、共分散は-160となりました。これは、英語の点数が高いと体育の点数が低くなる傾向があることを意味します。  

## ●相関係数とは？

相関係数は、2つのデータの関係の強さを-1から1の範囲で表します。    

$X$、$Y$、2組のデータを考えます。両者ともに、データの個数は$n$とします。

$$X=x_1,x_2,\cdots ,x_n$$
$$Y=y_1,y_2,\cdots ,y_n$$

これらの間の相関係数$\rho$は、共分散$Cov(X,Y)$と、XとYそれぞれの標準偏差$\sigma_X$、$\sigma_Y$を使って以下のように表されます。

（式 2）
$$\rho=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}$$

この相関係数$\rho$の範囲は、$-1\leqq \rho \leqq 1$です。

$\rho$が1に近づくと、正の相関が強くなります。  
$\rho$が0の場合、XとYには相関がありません。  
$\rho$が-1に近づくと、負の相関が強くなります。  

相関係数は共分散と似ていますが、$\rho$の範囲が$-1\leqq \rho \leqq 1$に収まるため、両者の関係の強さを直感的に把握しやすいのがメリットです。

相関係数の例を挙げましょう。$X$を英語の点数、$Y$を国語の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Y=60, 80, 50, 50, 70$$

$X$と$Y$の共分散、およびそれぞれの標準偏差は以下の通りに計算できます。  

$$Cov(X,Y) = 120$$
$$\sigma_X = 14.14...$$
$$\sigma_Y = 11.66...$$

このときの相関係数は（式 2）により以下のように計算できます。

$$ \begin{aligned} \\
\rho &= \frac{Cov(X,Y)}{\sigma_X\sigma_Y} \\
&= \frac{120}{14.14...\times 11.66...} \\
&= 0.7276...
\end{aligned} $$

この場合の相関係数は、約0.728となりました。これは、英語の点数が高いと国語の点数も高くなる傾向があることを意味します。

別の例を挙げましょう。以下の$X$を英語の点数、$Z$を体育の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Z=60, 40, 60, 40, 30$$

このとき、$X$と$Y$の共分散、およびそれぞれの標準偏差は以下の通りに計算できます。    

$$Cov(X,Y) = -160$$
$$\sigma_X = 14.14...$$
$$\sigma_Z = 12.0$$

このとき、相関係数は（式 2）により以下の通りに計算できます。

$$ \begin{aligned} \\
\rho &= \frac{Cov(X,Y)}{\sigma_X\sigma_Y} \\
&= \frac{-160}{14.14...\times 12.0} \\
&= -0.9428...
\end{aligned} $$

この場合の相関係数は、約-0.943です。強い負の相関があり、英語の点数が高いと体育の点数が大きく下がるようです。  

## ●相関係数の計算
相関係数は、以下のようにNumPyの`corrcoef( )`関数を使って計算することができます。  
`corrcoef( )`関数の結果は2x2の行列として得られますが、右上と左下の要素が相関係数です。  

In [None]:
import numpy as np
import matplotlib.pyplot as plt
 
x = np.array([50, 70, 40, 60, 80])  # 英語の点数
y = np.array([60, 80, 50, 50, 70])  # 国語の点数

print("--- 相関係数: corrcoef関数を使用 ---")
print(np.corrcoef(x, y))  # 相関係数

plt.scatter(x, y)

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

In [None]:
# 練習用
