In [2]:
import numpy as np
import pandas as pd

%precision 3
pd.set_option('precision', 3)

In [3]:
df = pd.read_csv('/Users/yuya/Desktop/Python_Static/python_stat_sample/data/ch2_scores_em.csv', index_col='生徒番号')

In [4]:
# array、DataFrameの準備
# 最初の10人分のデータを使用
en_scores = np.array(df['英語'])[:10]
ma_scores = np.array(df['数学'])[:10]

scores_df = pd.DataFrame({'英語':en_scores,
                                          '数学':ma_scores},
                                        index=pd.Index(['A', 'B', 'C', 'D', 'E',
                                                                 'F', 'G', 'H', 'I', 'J'],
                                                                  name='生徒'))
scores_df

Unnamed: 0_level_0,英語,数学
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,65
B,69,80
C,56,63
D,41,63
E,57,76
F,48,60
G,65,81
H,49,66
I,65,78
J,58,82


In [5]:
# 共分散を計算する
# →2 種類のデータの関係性を表す指標
# →2種類のデータの偏差の積の平均
#
# →今回のように英語と数学の点数であれば、
# ・英語の点数が高い人は数学の点数も高い→正の相関
# ・英語の点数が高い人は数学の点数が低い→負の相関
# ・英語の点数と数学の点数に関係性がない→無相関
#→共分散の値が大きいほど相関関係が強く、0に近いほど弱い
summary_df = scores_df.copy()
summary_df['英語の偏差'] = summary_df['英語'] - summary_df['英語'].mean()
summary_df['数学の偏差'] = summary_df['数学'] - summary_df['数学'].mean()
summary_df['偏差同士の積'] = summary_df['英語の偏差'] * summary_df['数学の偏差']

summary_df

Unnamed: 0_level_0,英語,数学,英語の偏差,数学の偏差,偏差同士の積
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,42,65,-13.0,-6.4,83.2
B,69,80,14.0,8.6,120.4
C,56,63,1.0,-8.4,-8.4
D,41,63,-14.0,-8.4,117.6
E,57,76,2.0,4.6,9.2
F,48,60,-7.0,-11.4,79.8
G,65,81,10.0,9.6,96.0
H,49,66,-6.0,-5.4,32.4
I,65,78,10.0,6.6,66.0
J,58,82,3.0,10.6,31.8


In [6]:
# 共分散
summary_df['偏差同士の積'].mean()

62.800

In [8]:
# 共分散行列を求める(NumPy)
conv_mat = np.cov(en_scores, ma_scores, ddof=0)
conv_mat

array([[86.  , 62.8 ],
       [62.8 , 68.44]])

In [9]:
# 共分散を示しているのは,(0,1)と(1,0)目の要素
conv_mat[0, 1], conv_mat[1, 0]

(62.800000000000004, 62.800000000000004)

In [10]:
# (0, 0)、(1, 1)の要素はそれぞれ英語と数学の分散の値
conv_mat[0, 0], conv_mat[1, 1]

(86.0, 68.44000000000001)

In [11]:
# 英語、数学の分散を求める
np.var(en_scores, ddof=0), np.var(ma_scores, ddof=0)
# 共分散行列での値と一致している

(86.0, 68.44000000000001)

In [17]:
# 相関係数を求める
# →共分散を各データの標準偏差で割った値
# →単位同士の割り算を行う事で単位に依存しない指標となる
# ・相関係数は1〜-1の値しか取らない
# ・1に近づくほど正の相関であり、-1に近づくほど負の相関を持っていると分かる
#    (0だと無相関)
np.cov(en_scores, ma_scores, ddof=0)[0, 1] /\
(np.std(en_scores) * np.std(ma_scores))

0.8185692341186713

In [19]:
# 相関係数を求める(NumPy)
# (0, 0)、(1, 1)の要素はそれぞれ英語と数学の自身との相関係数(だから1になる)
np.corrcoef(en_scores, ma_scores)

array([[1.   , 0.819],
       [0.819, 1.   ]])

In [20]:
# 相関係数を求める(DataFrame)
scores_df.corr()

Unnamed: 0,英語,数学
英語,1.0,0.819
数学,0.819,1.0
