# Chapter03 2次元データの整理

- 3.1 2つのデータの関係性の指標
- 3.2 2次元データの視覚化
- 3.3 アンスコムの例

In [91]:
# ライブラリーの準備
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from plot_util import plot_cov_interact

%precision 3
pd.set_option('display.precision', 3)
%matplotlib inline

In [92]:
# データの準備
df = pd.read_csv('../data/ch2_scores_em.csv', index_col='生徒番号')
df.head()

Unnamed: 0_level_0,英語,数学
生徒番号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [93]:
# arrayとDataFrameの作成
en_scores = np.array(df['英語'])[:10]
ma_scores = np.array(df['数学'])[:10]

scores_df = pd.DataFrame(
    {'english': en_scores, 'math': ma_scores},
    index=pd.Index(['A', 'B', 'C', 'D','E', 'F', 'G', 'H', 'I', 'J'], name='students')
)
scores_df

Unnamed: 0_level_0,english,math
students,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,65
B,69,80
C,56,63
D,41,63
E,57,76
F,48,60
G,65,81
H,49,66
I,65,78
J,58,82


## 3.1 2つのデータの関係性の指標

- 散布図（scatter plot）
- 共分散（covariance）

In [94]:
# 点数の散布図と符号付き面積
plot_cov_interact(en_scores, ma_scores)

interactive(children=(IntSlider(value=42, description='Aさんの英語'), IntSlider(value=65, description='Aさんの数学'), In…

In [95]:
# 共分散の計算
summary_df = scores_df.copy()
summary_df['en_dev'] = summary_df['english'] - summary_df['english'].mean()
summary_df['ma_dev'] = summary_df['math'] - summary_df['math'].mean()
summary_df['dev_prod'] = summary_df['en_dev'] * summary_df['ma_dev']

summary_df

Unnamed: 0_level_0,english,math,en_dev,ma_dev,dev_prod
students,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,42,65,-13.0,-6.4,83.2
B,69,80,14.0,8.6,120.4
C,56,63,1.0,-8.4,-8.4
D,41,63,-14.0,-8.4,117.6
E,57,76,2.0,4.6,9.2
F,48,60,-7.0,-11.4,79.8
G,65,81,10.0,9.6,96.0
H,49,66,-6.0,-5.4,32.4
I,65,78,10.0,6.6,66.0
J,58,82,3.0,10.6,31.8


In [96]:
# 偏差の積の平均
summary_df['dev_prod'].mean()

62.800

- 共分散 $ S_{xy} = \dfrac{1}{n} \displaystyle\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) $
- Numpyの共分散
  - cov()関数で求める
  - 返り値は、
    - 共分散行列（covariance matrix）
    - 分散共分散行列（variance-covariance matrix）
  - と呼ばれる行列

In [97]:
cov_mat = np.cov(en_scores, ma_scores, ddof=0)
cov_mat

array([[86.  , 62.8 ],
       [62.8 , 68.44]])

In [98]:
# 英語と数学の共分散
cov_mat[0, 1], cov_mat[1, 0]

(62.800, 62.800)

In [99]:
# 英語の分散と数学の分散
cov_mat[0, 0], cov_mat[1, 1]

(86.000, 68.440)

In [100]:
# 英語の分散と数学の分散
np.var(en_scores, ddof=0), np.var(ma_scores, ddof=0)

(86.000, 68.440)

### 3.1.2 相関係数

- 共分散 $ S_{xy} = \dfrac{1}{n} \displaystyle\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) $
- 相関係数（correlation coefficient）$ r_{xy} $

$$ r_{xy} = \dfrac{S_{xy}}{S_x S_y}
          = \dfrac{1}{n} \displaystyle\sum_{i=1}^n (\dfrac{x_i - \bar{x}}{S_x})(\dfrac{y_i - \bar{y}}{S_y})
$$

In [101]:
# 英語と数学の相関係数
np.cov(en_scores, ma_scores, ddof=0)[0, 1] / \
    (np.std(en_scores, ddof=0) * np.std(ma_scores, ddof=0))

0.819

- Numpyの相関係数
  - correcoef()関数
  - 返り値は、
    - 相関行列（correlation matrix）
  - と呼ばれる行列

In [102]:
# 英語と数学の相関係数
np.corrcoef(en_scores, ma_scores)

array([[1.   , 0.819],
       [0.819, 1.   ]])

In [103]:
# DataFrameでの相関係数
# corr()メソッドで求める
scores_df.corr()

Unnamed: 0,english,math
english,1.0,0.819
math,0.819,1.0


## 3.2 2次元データの視覚化

### 3.2.1 散布図