In [3]:
import numpy as np
import pandas as pd

%precision 3
pd.set_option('precision', 3)

In [9]:
df = pd.read_csv('../python_stat_sample-master/data/ch2_scores_em.csv', index_col = 'student number')
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [10]:
en_scores = np.array(df['english'])[:10]
ma_scores = np.array(df['mathematics'])[:10]

scores_df = pd.DataFrame({'english' : en_scores, 'mathematics' : ma_scores}, index = pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name = 'student'))

In [11]:
scores_df

Unnamed: 0_level_0,english,mathematics
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,65
B,69,80
C,56,63
D,41,63
E,57,76
F,48,60
G,65,81
H,49,66
I,65,78
J,58,82


In [12]:
# 3.1 두 데이터 사이의 관계를 나타내는 지표

# 영어 점수가 높은 학생일수록 수학 점수도 높은 경향이 있다면, 영어 점수와 수학 점수는 양의 상관관계에 있다고 한다
# 반대로 영어 점수가 높을 수록 수학 점수가 낮다면 음의 상관관계에 있다고 한다
# 어느 쪽도 해당하지 않고 영어 점수가 수학 점수에 직접적으로 영향을 미치지 않을 때 영어 점수와 수학 점수는 무상관이라고 한다
# 상관을 수치에 대한 지표로 표현해보자

In [14]:
# 3.1.1 공분산
# 우선 영어와 수학 점수가 어떻게 분포되어 있는지 보자
# 산점도로 살펴본다
# 책의 점수의 산점도를 살펴보면 영어 점수가 높은 학생일수록 수학 점수도 높은 선형 관계성이 있는 것 같다
# 결국 영어 점수와 수학 점수는 양의 상관관계에 있다고 말할 수 있다
# 이처럼 양의 상관관계에 있다고 생각되는 데이터의 관계성을 어떻게 수치화 할까?
# '공분산, covariance' 이라는 지표를 사용한다
# 공분산은 분산에 가까운 지표이다

# 공분산을 쉽게 이해하려면 분산의 경우와 마찬가지로 면적을 생각하면 된다
# 공분산이 분산과 다른 점은 가로축과 세로축의 데이터가 다르기 때문에 편차들로 만든 도형이 직사각형이 될 뿐만 아니라
# 음의 면적도 얻을 수 있다는 점이다
# 분산은 가령 편차가 음의 값이 되어도 면적은 제곱값이므로 항상 양의 값이 된다
# 그러나 공분산에서는 가로와 세로의 데이터가 다르므로 
# 한쪽은 편차가 양의 값이고 다른 한쪽은 편차가 음의 값인 경우에 면적이 음의 값이 되어버린다

# '부호를 붙인 면적' 이라는 점에서 보면 면적이 양의 값이 되는 것은
# 영어 점수와 수학 점수가 모두 평균 점수보다 높거나 모두 평균 점수보다 낮은 경우이기 때문에
# 점수의 상관관계를 잘 나타낸다고 볼 수 있다
# 따라서 부호를 붙인 면적의 평균은 상관의 지표가 된다, 이것이 공분산이다

# 공분산이 양의 값이면 면적이 양의 값이 되는 데이터가 많다는 뜻이므로 양의 상관관계에 있고
# 반대로 공분산이 음의 값이면 면적이 음의 값이 되는 데이터가 많다는 뜻이므로 음의 상관관계에 있다고 할 수 있다
# 그 어느 쪽도 아니고 공분산이 0에 가까우면 무상관을 나타낸다

In [15]:
summary_df = scores_df.copy()

In [16]:
summary_df['english_deviation'] = \
summary_df['english'] - summary_df['english'].mean()

summary_df['mathematics_deviation'] = \
summary_df['mathematics'] - summary_df['mathematics'].mean()

summary_df['product of deviations'] = \
summary_df['english_deviation'] * summary_df['mathematics_deviation']

summary_df

Unnamed: 0_level_0,english,mathematics,english_deviation,mathematics_deviation,product of deviations
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,42,65,-13.0,-6.4,83.2
B,69,80,14.0,8.6,120.4
C,56,63,1.0,-8.4,-8.4
D,41,63,-14.0,-8.4,117.6
E,57,76,2.0,4.6,9.2
F,48,60,-7.0,-11.4,79.8
G,65,81,10.0,9.6,96.0
H,49,66,-6.0,-5.4,32.4
I,65,78,10.0,6.6,66.0
J,58,82,3.0,10.6,31.8


In [17]:
summary_df['product of deviations'].mean()

62.800

In [18]:
# 영어 점수와 수학 점수는 양의 상관관계에 있다고 할 수 있다
# NumPy의 경우 공분산은 cov 함수로 구할 수 있다
# 다만, 반환값은 공분산값이 아닌 '공분산 행렬, covariance matrix' 또는 '분산공분산 행렬 variance-covariance matrix' 라고 부르는 행렬이다

In [19]:
cov_mat = np.cov(en_scores, ma_scores, ddof = 0)
cov_mat

array([[86.  , 62.8 ],
       [62.8 , 68.44]])

In [20]:
# 이 행렬의 첫 번째 행과 첫 번째 열이 첫 번째 인수인 영어
# 두 번째 행과 두 번째 열이 두 번째 인수인 수학에 각각 대응
# 이것들을 교차하여 1행 2열, 2행 1열 성분이 영어와 수학의 공분산에 해당한다
# 파이썬의 인덱스는 0부터 시작하므로 결국 cov_mat의 [0, 1]과 [1, 0] 성분이 공분산이 된다

cov_mat[0, 1], cov_mat[1, 0]

(62.800, 62.800)

In [21]:
# 나머지 성분은?
# [0,0]은 영어와 영어의 공분산이다
# 동일한 변수들의 공분산은 해당 변수의 분산과 같다
# 즉, [0,0]은 영어의 분산, [1,1]은 수학의 분산이다

cov_mat[0, 0], cov_mat[1, 1]

(86.000, 68.440)

In [22]:
# 영어와 수학의 분산을 계산해보자

np.var(en_scores, ddof=0), np.var(ma_scores, ddof = 0)

(86.000, 68.440)

In [23]:
# 분산과 일치함을 확인
# DataFrame에도 cov method가 있으나 var method와 달리 ddof 인수를 취하지 않고 불편분산만 계산할 수 있음

In [None]:
# 3.1.2 상관계수