# 相関係数
相関係数は、2グループのデータの関係を表します。  
相関係数は、共分散よりも関係の大きさを比較しやすい指標です。

### 相関係数とは？

以下の$X$、$Y$2組のデータを考えます。それぞれ、データの個数は$n$とします。

$$X=x_1,x_2,\cdots ,x_n$$
$$Y=y_1,y_2,\cdots ,y_n$$

これらのデータの相関係数$\rho$は、XとYの共分散$\sigma_{XY}$およびXとYそれぞれの標準偏差$\sigma_X$、$\sigma_Y$を用いて次のように表されます。

（式 1）
$$\rho=\frac{\sigma_{XY}}{\sigma_X\sigma_Y}$$

このとき、相関係数$\rho$は$-1\leqq \rho \leqq 1$の値をとります。

相関係数は+1に近づくと正の相関が強く、Xが大きくなるとYが大きくなる傾向が強くなります。  
相関係数が0の場合、XとYには関係がありません。  
相関係数は-1に近づくと負の相関が強く、Xが大きくなるとYが小さくなる傾向が強くなります。  

相関係数は共分散と似ていますが、どのようなケースでも範囲が$-1\leqq \rho \leqq 1$に収まるため、関係の強さを比較しやすいのがメリットです。

### 相関係数の例
 
以下の$X$を数学の点数、$Y$を英語の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Y=60, 80, 50, 50, 70$$

このとき、$X$と$Y$の共分散、およびそれぞれの標準偏差は以下の通りに求まります。  

$$\sigma_{XY} = 120$$
$$\sigma_X = 14.14...$$
$$\sigma_Y = 11.66...$$

このとき、相関係数は（式 1）により以下の通りに求めることができます。

$$ \begin{aligned} \\
\rho &= \frac{\sigma_{XY}}{\sigma_X\sigma_Y} \\
&= \frac{120}{14.14...\times 11.66...} \\
&= 0.7276...
\end{aligned} $$

以上により、このケースにおける相関係数は、正の値の約0.728となりました。 
これは正の相関であり、数学の点数が高いと英語の点数も高い傾向があることを意味します。

もう一つの例を考えます。以下の$X$を数学の点数、$Z$を国語の点数とします。

$$X=50, 70, 40, 60, 80$$
$$Z=60, 40, 60, 40, 30$$

このとき、$X$と$Y$の共分散、およびそれぞれの標準偏差は以下の通りに求まります。  

$$\sigma_{XZ} = -160$$
$$\sigma_X = 14.14...$$
$$\sigma_Z = 12.0$$

このとき、相関係数は（式 1）により以下の通りに求めることができます。

$$ \begin{aligned} \\
\rho &= \frac{\sigma_{XY}}{\sigma_X\sigma_Y} \\
&= \frac{-160}{14.14...\times 12.0} \\
&= -0.9428...
\end{aligned} $$

このケースにおける相関係数は、負の値の約-0.943となりました。  
これは強い負の相関であり、数学の点数が高いと国語の点数が低い傾向があることを意味します。  

以上のように、相関係数はどのようなケースであっても2つのデータの関係の強さを$-1\leqq \rho \leqq 1$で表すことができます。

### Pythonで相関係数を求める
相関係数は、Numpyのcorrcoef関数を用いて実装することができます。  
共分散と標準偏差を使って計算した値と比較してみましょう。  

In [None]:
import numpy as np
import matplotlib.pyplot as plt
 
x = np.array([50, 70, 40, 60, 80])  # 数学の点数
y = np.array([60, 80, 50, 50, 70])  # 英語の点数

print()  # 相関係数

cov_xy = np.average((x-np.average(x))*(y-np.average(y)))
print()  # （式 1）

plt.scatter(x, y)
plt.show()

### 演習:
以下のセルを補完し、Numpyのcorrcoef関数を用いて相関係数を求めましょう。    
また、共分散と標準偏差を使って相関係数を求め、計算した値と比較してみましょう。 

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.array([30, 70, 40, 60, 90])  # 世界史の点数
y = np.array([20, 60, 50, 40, 80])  # 日本史の点数

print()  # corrcoefで相関係数を求めて表示

cov_xy = np.average((x-np.average(x))*(y-np.average(y)))
print()  # （式 1）で相関係数を求めて表示

plt.scatter(x, y)
plt.show()