In [2]:
#ライブラリとデータを準備する
from os import name
import numpy as np
import pandas as pd

%precision 3
pd.set_option('precision', 3)

#データの読み込み
df = pd.read_csv('./data/ch2_scores_em.csv', index_col='生徒番号')

#最初の10人分のデータを用意する
en_scores = np.array(df['英語'])[:10]
ma_scores = np.array(df['数学'])[:10]
scores_df = pd.DataFrame({'英語':en_scores, '数学':ma_scores}, index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name='生徒'))
scores_df
 




Unnamed: 0_level_0,英語,数学
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,65
B,69,80
C,56,63
D,41,63
E,57,76
F,48,60
G,65,81
H,49,66
I,65,78
J,58,82


In [3]:
#共分散：(p45)点数の散布と符号付け面積の図において、共分散は正であれば正の面積となるデータが多いということで正の相関を、
#負であれば負の面積になるデータが多いということで負の相関があるといえる。
#正と負どちらでもなく、共分散が0に近ければ無相関を表す。
#DataFreameでまとめつつ、共分散を計算する。
summary_df = scores_df.copy()
summary_df['英語の偏差'] = summary_df['英語'] - summary_df['英語'].mean()
summary_df['数学の偏差'] = summary_df['数学'] - summary_df['数学'].mean()
summary_df['偏差同士の積'] = summary_df['英語の偏差'] - summary_df['数学の偏差']
summary_df

Unnamed: 0_level_0,英語,数学,英語の偏差,数学の偏差,偏差同士の積
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,42,65,-13.0,-6.4,-6.6
B,69,80,14.0,8.6,5.4
C,56,63,1.0,-8.4,9.4
D,41,63,-14.0,-8.4,-5.6
E,57,76,2.0,4.6,-2.6
F,48,60,-7.0,-11.4,4.4
G,65,81,10.0,9.6,0.4
H,49,66,-6.0,-5.4,-0.6
I,65,78,10.0,6.6,3.4
J,58,82,3.0,10.6,-7.6


In [4]:
#偏差同士の積の平均値を求める
summary_df['偏差同士の積'].mean()

0.000

In [5]:
#共分散：(p45)点数の散布と符号付け面積の図において、共分散は正であれば正の面積となるデータが多いということで正の相関を、
#負であれば負の面積になるデータが多いということで負の相関があるといえる。
#正と負どちらでもなく、共分散が0に近ければ無相関を表す。
#DataFreameでまとめつつ、共分散を計算する。
summary_df = scores_df.copy()
summary_df['英語の偏差'] = summary_df['英語'] - summary_df['英語'].mean()
summary_df['数学の偏差'] = summary_df['数学'] - summary_df['数学'].mean()
summary_df['偏差同士の積'] = summary_df['英語の偏差'] * summary_df['数学の偏差']
summary_df

Unnamed: 0_level_0,英語,数学,英語の偏差,数学の偏差,偏差同士の積
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,42,65,-13.0,-6.4,83.2
B,69,80,14.0,8.6,120.4
C,56,63,1.0,-8.4,-8.4
D,41,63,-14.0,-8.4,117.6
E,57,76,2.0,4.6,9.2
F,48,60,-7.0,-11.4,79.8
G,65,81,10.0,9.6,96.0
H,49,66,-6.0,-5.4,32.4
I,65,78,10.0,6.6,66.0
J,58,82,3.0,10.6,31.8


In [6]:
#偏差同士の積の平均値を求める
summary_df['偏差同士の積'].mean()

62.800

In [7]:
#NumPyの場合、共分散はcov関数で求めることができる。但し返り値は共分散という値ではなく、共分散行列または、分散共分散行列と呼ばれる行列である。
cov_mat = np.cov(en_scores, ma_scores, ddof=0)
cov_mat

array([[86.  , 62.8 ],
       [62.8 , 68.44]])

In [8]:
#cov関数で求めた共分散の行列において、1行1列目が第1引数の英語、2行2列目が第2引数の数学にそれぞれ対応しており、それらが交わる1行2列目と2行1列目の成分が英語と数学の共分散(偏差同士の積の平均値)に該当する。
#Pythonのインデックスは0始まりなので、結局cov_matの[0,1]成分と[1,0]成分が共分散である。
cov_mat[0,1], cov_mat[1,0]

(62.800000000000004, 62.800000000000004)

In [9]:
#同じ変数同士の共分散はその変数の分散と等しくなっている。[0,0]成分は英語の分散、[1,1]成分は数学の分散になる。
cov_mat[0,0], cov_mat[1,1]

(86.0, 68.44000000000001)

In [10]:
#英語と数学の分散値は分散と一致
np.var(en_scores, ddof=0), np.var(ma_scores, ddof=0)

(86.0, 68.44000000000001)

In [11]:
#相関係数
#英語と数学の相関係数を求めてみる
np.cov(en_scores, ma_scores, ddof=0)[0,1] / (np.std(en_scores) * np.std(ma_scores))

0.8185692341186713

In [12]:
#相関係数をcorrcoef関数で計算すると、返り値は共分散の時と同じ相関行列(correlation matrix)
np.corrcoef(en_scores, ma_scores)

array([[1.   , 0.819],
       [0.819, 1.   ]])

In [13]:
#同様の結果を,DataFrameのcorrメソッドを使って得る
scores_df.corr()

Unnamed: 0,英語,数学
英語,1.0,0.819
数学,0.819,1.0
