<a href="https://colab.research.google.com/github/takatakamanbou/Data/blob/2022/ex05notebookA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data2022 ex05notebookA

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/Data-logo05.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2022

## 準備

以下，コードセルを上から順に実行していってね．

In [None]:
# 準備あれこれ
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

In [None]:
# データを読み込む
dfMPI = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/mpiS100.csv', header=0)
#dfMPI
dfMPI.drop(columns=['学籍番号'], inplace=True)
dfMPI.index = np.arange(1, len(dfMPI)+1, dtype=int)

# あとで使う関数の定義

def R(theta):
    c, s = np.cos(theta), np.sin(theta)   
    return np.array([[c, -s], [s, c]])  # 回転行列

def Gaussian(mu, sigma2, theta, N=200):
    Rmat = R(theta)
    cov = Rmat @ np.diag(sigma2) @ Rmat.T
    np.random.seed(0)
    return np.random.multivariate_normal(mu, cov, size=N)

----
## 散布図と相関 その(1)
----

これまでは，個々の標本の値が一つの量であるような場合について，データを視覚化したり要約したりする方法を考えてきましたが，ここでは，2つ以上の量をひと組としてデータを扱う場合を考えます．

そのようなデータを視覚化するものとして **散布図** を，データの性質を要約する量として **相関係数** を取り上げ，説明します．



----
### 複数の量から成るデータ

課題でも使った，「数学」，「物理」，「情報」の点数データ（サンプルサイズ $100$）は，次のようなものでした．


In [None]:
dfMPI

このデータは，各行がそれぞれある一人の生徒の「数学」，「物理」，「情報」の点数を表しています．
$n$ 番目の生徒の「数学」，「物理」，「情報」の点数をそれぞれ $a_n, b_n, c_n$ と表すことにすると，$n$番目のデータは3つの値の組 $(a_n, b_n, c_n)$ で与えられます（$n=1,2,\dots , 100$）．

たとえば， $n=1$ のデータは $(a_1, b_1, c_1) = (66, 27, 52)$，$n=100$ のデータは $(a_{100}, b_{100}, c_{100}) = (58, 32, 69)$ ですね．

このデータのように，1つのデータが2つ以上の量の組で表されるようなものを，**多変量**のデータと言うことがあります．

以降の説明では，1つのデータが2つの量で表される場合を考えます．
3つ以上の量で表されるデータの場合は，そこから適当に2つの量を選んで考えている，と解釈すればokです．


----
### 散布図

$N$ 組の値 $(x_1, y_1), (x_2, y_2), \dots , (x_N, y_N)$ から成るデータを考えます．
このとき，$(x_n, y_n)$ を座標とする点（$n = 1, 2, \dots, N$の$N$個ある）を平面上に描いたグラフを **散布図** と言います．

関連の課題では，上記の「数学」，「物理」，「情報」のデータについて，

1. 「数学」と「物理」
1. 「数学」と「情報」
1. 「物理」と「情報」

の3種類の散布図を描いてもらいました．こんなんでしたね．


In [None]:
# 「数学」vs「物理」，「数学」vs「情報」，「物理」vs「情報」の散布図
#
fig, ax = plt.subplots(1, 3, facecolor="white", figsize=(16, 5))
ax[0].scatter(dfMPI['数学'], dfMPI['物理'])   # 数学 vs 物理
ax[0].set_title('Math vs Physics')
ax[0].set_xlim(0, 100)
ax[0].set_ylim(0, 100)
ax[1].scatter(dfMPI['数学'], dfMPI['情報'])   # 数学 vs 情報
ax[1].set_title('Math vs Information')
ax[1].set_xlim(0, 100)
ax[1].set_ylim(0, 100)
ax[2].scatter(dfMPI['物理'], dfMPI['情報'])   # 物理 vs 情報
ax[2].set_title('Physics vs Information')
ax[2].set_xlim(0, 100)
ax[2].set_ylim(0, 100)
plt.show()

それぞれの散布図の一つ一つの点は，ひとつひとつのデータの値を表しています．
この例では，$N = 100$ 個あるデータをすべて描いていますので，点の数は100個あるはずです．

詳しくはここでは触れませんが，散布図を描く際は，縦軸横軸の範囲の指定に注意が必要ですね．
範囲が異なればグラフが全く違って見えますので，誤った印象を持ってしまう場合があります．
例は示しませんが，描画領域の縦横の大きさの比率も重要ですね．

In [None]:
# 「数学」vs「物理」，「数学」vs「情報」，「物理」vs「情報」の散布図(2)
#
fig, ax = plt.subplots(1, 3, facecolor="white", figsize=(16, 5))
ax[0].scatter(dfMPI['数学'], dfMPI['物理'])   # 数学 vs 物理
ax[0].set_title('Math vs Physics')
ax[0].set_xlim(0, 100)
ax[0].set_ylim(0, 500)
ax[1].scatter(dfMPI['数学'], dfMPI['情報'])   # 数学 vs 情報
ax[1].set_title('Math vs Information')
ax[1].set_xlim(30, 80)
ax[1].set_ylim(45, 100)
ax[2].scatter(dfMPI['物理'], dfMPI['情報'])   # 物理 vs 情報
ax[2].set_title('Physics vs Information')
ax[2].set_xlim(0, 70)
ax[2].set_ylim(0, 100)
plt.show()

最初の散布図を見ると，「数学」と「情報」の散布図は，他の二つとは点の散らばり方がずいぶん違っているように見えます．
このことを確認しやすくするため，散布図に補助線を追加してみましょう．
横軸/縦軸に対応するデータの平均値を表す垂直/水平の線を描いてみます．

In [None]:
# 数学，物理，情報それぞれの平均
xm = dfMPI.mean(axis=0)
print(xm)

In [None]:
# 「数学」vs「物理」，「数学」vs「情報」，「物理」vs「情報」の散布図(3)
#
fig, ax = plt.subplots(1, 3, facecolor="white", figsize=(16, 5))
ax[0].scatter(dfMPI['数学'], dfMPI['物理'])   # 数学 vs 物理
ax[0].set_title('Math vs Physics')
ax[0].set_xlim(0, 100)
ax[0].set_ylim(0, 100)
ax[0].vlines(xm['数学'], 0, 100, ls="--", color="grey")
ax[0].hlines(xm['物理'], 0, 100, ls="--", color="grey")
ax[1].scatter(dfMPI['数学'], dfMPI['情報'])   # 数学 vs 情報
ax[1].set_title('Math vs Information')
ax[1].set_xlim(0, 100)
ax[1].set_ylim(0, 100)
ax[1].vlines(xm['数学'], 0, 100, ls="--", color="grey")
ax[1].hlines(xm['情報'], 0, 100, ls="--", color="grey")
ax[2].scatter(dfMPI['物理'], dfMPI['情報'])   # 物理 vs 情報
ax[2].set_title('Physics vs Information')
ax[2].set_xlim(0, 100)
ax[2].set_ylim(0, 100)
ax[2].vlines(xm['物理'], 0, 100, ls="--", color="grey")
ax[2].hlines(xm['情報'], 0, 100, ls="--", color="grey")
plt.show()

「数学」と「物理」や「物理」と「情報」の散布図では，平均点の破線で分割された4つの領域にデータが同じように散らばっているように見えます．
ところが，「数学」と「情報」の散布図では，

- 「数学」が平均点より低くて，「情報」が平均点より高い
- 「数学」が平均点より高くて，「情報」が平均点より低い

という二つの領域に他の2つの領域より点がたくさん存在しており，分布が右下がりになっているようです．

このことから，「数学の点数が高いひとは情報の点数が低い傾向にある」ということが読み取れます．
このように，散布図は，2つの量の間にどのような関係があるかを視覚的に捉えるために使うことができます（ただし，その解釈には注意が必要です．「**疑似相関**」の項参照（後日説明します））．


----
### 相関係数

上記の例で散布図から読み取ったようなデータの傾向を，もっと客観的に測る指標として，**相関係数** というものがあります．




$(x_1, y_1), (x_2, y_2), \dots , (x_N, y_N)$ という $N$ 組のデータを考えます．
説明をしやすくするために，$x_1, x_2, \dots, x_N$ という値を表す名前として $X$ を， $y_1, y_2, \dots, y_N$ という値を表す名前として $Y$ を， それぞれ使うことにします．
このとき，このデータの **相関係数** を $r$ という記号で表すことにすると，$r$は次式で与えられます．

$$
\begin{aligned}
r &= \frac{s_{XY}}{s_X s_Y}
\end{aligned}
$$

ただし， $s_X$ と $s_Y$ はそれぞれ $X$ と $Y$ の標準偏差，つまり

$$
s_X = \sqrt{\frac{1}{N}\sum_{n=1}^{N}(x_n - \bar{x})^2}\qquad
s_Y= \sqrt{\frac{1}{N}\sum_{n=1}^{N}(y_n - \bar{y})^2}
$$

です（$\bar{x}, \bar{y}$は $X, Y$ それぞれの平均）．
また，$s_{XY}$ は $X$ と $Y$ の **共分散** と呼ばれる量で，次式で定義されます．

$$
s_{XY} = \frac{1}{N}\sum_{n=1}^{N}(x_n - \bar{x})(ｙ_n - \bar{y})
$$

以前の課題ですでに，上記の「数学」，「物理」，「情報」のデータについて，

1. 「数学」と「物理」
1. 「数学」と「情報」
1. 「物理」と「情報」

の間の相関係数を実際に計算してみてもらいました．こんな値だったはずです．


In [None]:
# 数学，物理，情報の2科目間の相関係数
#
labels = ['数学', '物理', '情報']
for lab_i in labels[:-1]:
    for lab_j in labels[1:]:
        if lab_i != lab_j:
            r = np.corrcoef(dfMPI[lab_i], dfMPI[lab_j])[1, 0]
            print(f'{lab_i} vs {lab_j} の相関係数は {r:.3f}')

これらの値がどのような意味を持つのか，相関係数の式の成り立ちから考えてみましょう．
ポイントは，共分散

$$
s_{XY} = \frac{1}{N}\sum_{n=1}^{N}(x_n - \bar{x})(ｙ_n - \bar{y})
$$
の符号です．
前のように散布図をXとYそれぞれの平均で4つの領域（あ）,（い）,（う）,（え）に分けて考えてみると，共分散の $\Sigma$ の中の各項 $(x_n - \bar{x})(y_n - \bar{y})$ の符号を場合分けできます（下図参照）．

<img width="400" src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex05-correl2.png">

- （あ）: $x_n > \bar{x}$ かつ $y_n > \bar{y}$ なので， $(x_n-\bar{x})(y_n-\bar{y}) > 0$
- （い）: $x_n < \bar{x}$ かつ $y_n > \bar{y}$ なので， $(x_n-\bar{x})(y_n-\bar{y}) < 0$
- （う）: $x_n < \bar{x}$ かつ $y_n < \bar{y}$ なので， $(x_n-\bar{x})(y_n-\bar{y}) > 0$
- （え）: $x_n > \bar{x}$ かつ $y_n < \bar{y}$ なので， $(x_n-\bar{x})(y_n-\bar{y}) < 0$


ここから，（あ）や（う）に入るデータが多いと，共分散の値は符号が正で大きな値をとりがちなことがわかります．
逆に，（い）や（え）に入るデータが多いと，共分散の値は負で小さな（負で絶対値の大きな）値をとりがちになります．
つまり，「Xが平均より大きいとYも平均より大きいことが多く，かつ，Xが平均より小さいとYも平均より小さいことが多い」と，共分散は正の値をとり，「Xが平均より大きいとYは平均より小さいことが多く，かつ，Xが平均より小さいとYは平均より大きいことが多い」と，共分散は負の値をとります．

相関係数は，このような性質を持つ共分散を，$X$，$Y$それぞれの標準偏差で割った値です．
標準偏差は常に正ですので，相関係数の正負は，共分散の正負のみで決まります．
標準偏差で割ることにより，相関係数の値は $[-1, 1]$ の範囲の値をとることになります（その理由の説明はここでは省略します）．




二つの量の間の相関係数が正の値をとる場合，それらには **正の相関がある** といい，相関係数が負の値をとるときは， **負の相関がある** といいます．また，相関係数の値が $0$ に近い場合，  **相関がない** または **無相関である** といいます．

「数学」，「物理」，「情報」のデータの例では，「数学」と「情報」の点数の間の相関係数はおよそ $-0.573$ ですので，これら2科目の点数の間には負の相関があると言えそうです．
相関係数が負であることを反映して，散布図も右下がりになっています．

一方，「数学」と「物理」や「物理」と「情報」の間の相関係数は，それに比べると $0$ に近い値となっています．散布図を見ても，散らばり方にはあまり特徴が見られません．



ここからは，人工的に作ったデータで，相関係数の値と散布図の関係をいろいろ眺めてみましょう．

★★★ 以下の例1から例3までの散布図の概形と相関係数の値をノート等にメモしておいてください．

例1: ほぼ無相関．

In [None]:
# 人工データの散布図と相関係数(1)
#
theta = np.pi/6
mu = [7, 5]
sig2 = [4, 4]
X = Gaussian(mu, sig2, theta)
Xm = np.mean(X, axis=0)
fig, ax = plt.subplots(facecolor="white", figsize=(6, 6))
xlim = np.array([-8, 8]) + mu[0]
ylim = np.array([-8, 8]) + mu[1]
ax.set_xlim(xlim[0], xlim[1])
ax.set_ylim(ylim[0], ylim[1])
ax.scatter(X[:, 0], X[:, 1])
ax.vlines(Xm[0], ylim[0], ylim[1], ls="--", color="grey")
ax.hlines(Xm[1], xlim[0], xlim[1], ls="--", color="grey")
ax.vlines(0, ylim[0], ylim[1], ls="-", color="black")
ax.hlines(0, xlim[0], xlim[1], ls="-", color="black")
plt.show()

r = np.corrcoef(X.T)[1, 0]
print(f'相関係数は {r:.3f}')

例2: 相関係数の値が正の例1つ目

In [None]:
# 人工データの散布図と相関係数(2)
#
theta = np.pi/6
mu = [7, 5]
sig2 = [4, 1]
X = Gaussian(mu, sig2, theta)
Xm = np.mean(X, axis=0)
fig, ax = plt.subplots(facecolor="white", figsize=(6, 6))
xlim = np.array([-8, 8]) + mu[0]
ylim = np.array([-8, 8]) + mu[1]
ax.set_xlim(xlim[0], xlim[1])
ax.set_ylim(ylim[0], ylim[1])
ax.scatter(X[:, 0], X[:, 1])
ax.vlines(Xm[0], ylim[0], ylim[1], ls="--", color="grey")
ax.hlines(Xm[1], xlim[0], xlim[1], ls="--", color="grey")
ax.vlines(0, ylim[0], ylim[1], ls="-", color="black")
ax.hlines(0, xlim[0], xlim[1], ls="-", color="black")
plt.show()

r = np.corrcoef(X.T)[1, 0]
print(f'相関係数は {r:.3f}')

例3: 相関係数の値が正の例2つ目

In [None]:
# 人工データの散布図と相関係数(2)
#
theta = np.pi/6
mu = [7, 5]
sig2 = [4, 0.1]
X = Gaussian(mu, sig2, theta)
Xm = np.mean(X, axis=0)
fig, ax = plt.subplots(facecolor="white", figsize=(6, 6))
xlim = np.array([-8, 8]) + mu[0]
ylim = np.array([-8, 8]) + mu[1]
ax.set_xlim(xlim[0], xlim[1])
ax.set_ylim(ylim[0], ylim[1])
ax.scatter(X[:, 0], X[:, 1])
ax.vlines(Xm[0], ylim[0], ylim[1], ls="--", color="grey")
ax.hlines(Xm[1], xlim[0], xlim[1], ls="--", color="grey")
ax.vlines(0, ylim[0], ylim[1], ls="-", color="black")
ax.hlines(0, xlim[0], xlim[1], ls="-", color="black")
plt.show()

r = np.corrcoef(X.T)[1, 0]
print(f'相関係数は {r:.3f}')

上記のデータを平均を中心に回転させたデータを作って，相関係数がどのように変化するか眺めてみましょう．

In [None]:
#@title 以下の deg の値を 0 から 180 まで範囲でいろいろ変えて，散布図と相関係数の変化を観察しよう．
deg = 0#@param {type:"number"}
theta = deg/180*np.pi

mu = [7, 5]
sig2 = [4, 0.5]
X = Gaussian(mu, sig2, theta)
Xm = np.mean(X, axis=0)
fig, ax = plt.subplots(facecolor="white", figsize=(6, 6))
xlim = np.array([-8, 8]) + mu[0]
ylim = np.array([-8, 8]) + mu[1]
ax.set_xlim(xlim[0], xlim[1])
ax.set_ylim(ylim[0], ylim[1])
ax.scatter(X[:, 0], X[:, 1])
ax.vlines(Xm[0], ylim[0], ylim[1], ls="--", color="grey")
ax.hlines(Xm[1], xlim[0], xlim[1], ls="--", color="grey")
ax.vlines(0, ylim[0], ylim[1], ls="-", color="black")
ax.hlines(0, xlim[0], xlim[1], ls="-", color="black")
plt.show()

r = np.corrcoef(X.T)[1, 0]
print(f'相関係数は {r:.3f}')

（よだんだよん） 上記では，2次元のデータを作って，それに回転行列を作用させることで，様々な相関係数を持つ人工データを生成しています．
`deg` は回転角度を指定してます．