# 두 데이터 사이의 관계를 나타내는 지표

* 공분산 Covariance
* 상관계수 Correlation Coefficient

In [1]:
import numpy as np
import pandas as pd

%precision 3
pd.set_option('precision', 3)

In [2]:
df = pd.read_csv('./data/ch2_scores_em.csv',
                 index_col='student number')

In [3]:
en_scores = np.array(df['english'])[:10]
ma_scores = np.array(df['mathematics'])[:10]

scores_df = pd.DataFrame({'english':en_scores,
                          'mathematics':ma_scores},
                         index=pd.Index(['A', 'B', 'C', 'D', 'E',
                                         'F', 'G', 'H', 'I', 'J'],
                                        name='student'))
scores_df

Unnamed: 0_level_0,english,mathematics
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,65
B,69,80
C,56,63
D,41,63
E,57,76
F,48,60
G,65,81
H,49,66
I,65,78
J,58,82


### 공분산 Covariance

* 양의 관계 : 한 변수가 증가할 때 다른 한 변수도 증가한다. 공분산의 값이 양수
* 음의 관계 : 한 변수가 증가할 때 다른 한 변수는 감소한다. 공분산의 값이 음수
* 공분산의 값이 0에 가까우면 두 변수는 상관이 없다.

$$Cov(X,Y) = E[(X - \bar X)(Y - \bar Y)]$$

In [4]:
summary_df = scores_df.copy()
summary_df['english_deviation'] =\
    summary_df['english'] - summary_df['english'].mean()
summary_df['mathematics_deviation'] =\
    summary_df['mathematics'] - summary_df['mathematics'].mean()
summary_df['product of deviations'] =\
    summary_df['english_deviation'] * summary_df['mathematics_deviation'] # 수학점수와 영어 점수 편차의 곱
summary_df

Unnamed: 0_level_0,english,mathematics,english_deviation,mathematics_deviation,product of deviations
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,42,65,-13.0,-6.4,83.2
B,69,80,14.0,8.6,120.4
C,56,63,1.0,-8.4,-8.4
D,41,63,-14.0,-8.4,117.6
E,57,76,2.0,4.6,9.2
F,48,60,-7.0,-11.4,79.8
G,65,81,10.0,9.6,96.0
H,49,66,-6.0,-5.4,32.4
I,65,78,10.0,6.6,66.0
J,58,82,3.0,10.6,31.8


In [5]:
summary_df['product of deviations'].mean() # 공분산

62.800

공분산의 값이 양수이므로 수학 점수와 영어 점수는 양의 관계라고 할 수 있다.

#### 분산-공분산 행렬

In [6]:
cov_mat = np.cov(en_scores, ma_scores, ddof=0) # 분산-공분산 행렬
cov_mat

array([[86.  , 62.8 ],
       [62.8 , 68.44]])

분산-공분산 행렬에서 [0,1]과 [1,0]은 수학 점수와 영어 점수의 공분산 값이다.

In [7]:
cov_mat[0, 1], cov_mat[1, 0]

(62.800000000000004, 62.800000000000004)

cov(X,X) 동일 변수의 공분산은 해당 변수의 분산과 같다.  
따라서 [0.0]은 영어 점수의 분산이다.  
[1,1] 값은 수학 점수의 분산 값이다.

In [8]:
cov_mat[0, 0], cov_mat[1, 1]

(86.0, 68.44000000000001)

In [9]:
np.var(en_scores, ddof=0), np.var(ma_scores, ddof=0)

(86.0, 68.44000000000001)

### 상관계수
단위에 의존하지 않는 상관관계를 나타내는 지표가 필요하다. 상관계수는 공분산 각 데이터의 표준편차로 나누어 단위에 의존하지 않는 지표로 정의 한다.

In [10]:
np.cov(en_scores, ma_scores, ddof=0)[0, 1] /\
    (np.std(en_scores) * np.std(ma_scores))

0.8185692341186713

In [11]:
np.corrcoef(en_scores, ma_scores)

array([[1.   , 0.819],
       [0.819, 1.   ]])

In [12]:
scores_df.corr()

Unnamed: 0,english,mathematics
english,1.0,0.819
mathematics,0.819,1.0
