In [6]:
# 2차원 데이터를 이용해서 수치지표와 그래프를 표현하기. scatter를

import numpy as np
import pandas as pd

df = pd.read_csv('./data/student_scores_em.csv',
                 index_col='student number')

en_scores = df['english'][:10]
ma_scores = df['mathematics'][:10]

scores_df = pd.DataFrame({'english': en_scores.values,
                          'mathematics': ma_scores.values},
                         index=['A','B','C','D','E','F','G','H','I','J'])

scores_df['en_deviation'] = scores_df['english'] - scores_df['english'].mean()
scores_df['ma_deviation'] = scores_df['mathematics'] - scores_df['mathematics'].mean()
scores_df['product_deviation'] = scores_df['en_deviation'] * scores_df['ma_deviation']

display(scores_df)

print('covariance(공분산) : ', scores_df['product_deviation'].mean()) # 62.8. 양의 상관관계

Unnamed: 0,english,mathematics,en_deviation,ma_deviation,product_deviation
A,42,65,-13.0,-6.4,83.2
B,69,80,14.0,8.6,120.4
C,56,63,1.0,-8.4,-8.4
D,41,63,-14.0,-8.4,117.6
E,57,76,2.0,4.6,9.2
F,48,60,-7.0,-11.4,79.8
G,65,81,10.0,9.6,96.0
H,49,66,-6.0,-5.4,32.4
I,65,78,10.0,6.6,66.0
J,58,82,3.0,10.6,31.8


covariance(공분산) :  62.8


In [8]:
df = pd.read_csv('./data/student_scores_em.csv',
                 index_col='student number')

en_scores = df['english'][:10]
ma_scores = df['mathematics'][:10]

scores_df = pd.DataFrame({'english': en_scores.values,
                          'mathematics': ma_scores.values},
                         index=['A','B','C','D','E','F','G','H','I','J'])

# Numpy의 함수를 이용해 공분산 구하기. 결과가 covariance matrix(공분산 행렬)로 리턴
# 편차의 곱의 평균(공분산)을 구하는데 평균을 구할 때 n으로 나누는 경우와 n-1로 나누는 경우가 있음
cov_matrix = np.cov(en_scores, ma_scores, ddof=0) # 평균을 구할 때 n으로 나누는 표본분산
print(cov_matrix)
# 0행 0열 - 영어와 영어의 공분산 -> 영어의 분산
# 0행 1열 - 영어와 수학의 공분산
# 1행 0열 - 수학과 영어의 공분산
# 1행 1열 - 수학과 수학의 공분산 -> 수학의 분산
# Pandas에도 cov() 존재하지만, 무조건 n-1로 나누는 불편분산 형태로 사용됨

# [[86.   62.8 ]
#  [62.8  68.44]]

[[86.   62.8 ]
 [62.8  68.44]]


In [13]:
# 실제 데이터를 이용해서 공분산을 구해보자. KOSPI 지수 vs. 삼성전자 주가(KOSPI 200 안의 비중 33%)

import numpy as np
import pandas as pd
import pandas_datareader.data as pdr
from datetime import datetime

start = datetime(2018,1,1) # 2018-01-01 00:00:00
end = datetime(2018,12,31) # 2018-12-31 00:00:00

df_kospi = pdr.DataReader('^KS11', 'yahoo', start, end) # Yahoo Finance에서 KOSPI 지수, 삼성전자 주가를 가져오기. 주가 코드
# display(df_kospi) # 고점, 저점, 시가, 종가, 거래량, 수정종가
df_se = pdr.DataReader('005930.KS', 'yahoo', start, end)
# display(df_se)

cov_matrix = np.cov(df_kospi['Close'], df_se['Close'], ddof=0)
print(cov_matrix) # 488212.99831291. KOSPI 지수와 삼성전자 주가는 양의 상관관계

[[   24078.14439225   488212.99831291]
 [  488212.99831291 11871059.41111261]]


In [14]:
# 음의 상관관계인 데이터를 보자! 남북경협주, 방산주
df_pusan = pdr.DataReader('011390.KS', 'yahoo', start, end) # 남북경협주, 부산산업
df_lig = pdr.DataReader('079550.KS', 'yahoo', start, end) # 방산주, LIG넥스원

cov_matrix = np.cov(df_pusan['Close'], df_lig['Close'], ddof=0)
print(cov_matrix) # -3.84951773e+08. 남북경협주와 방산주 주가는 음의 상관관계

[[ 4.62857448e+09 -3.84951773e+08]
 [-3.84951773e+08  6.33317924e+07]]


In [16]:
# 변수 두 개가 서로 다른 단위일 경우 공분산 값이 달라짐 ex) 키(m, cm, mm) vs. 점수(숫자)
# → normalization로 단위, 숫자 크기를 표준화함. 상관계수(correlation coefficient)

df_kospi = pdr.DataReader('^KS11', 'yahoo', start, end)
df_se = pdr.DataReader('005930.KS', 'yahoo', start, end)

corr_coef = np.corrcoef(df_kospi['Close'], df_se['Close'])
print(corr_coef) # 0.91317306. KOSPI 지수와 삼성전자 주가의 상관계수

[[1.         0.91317306]
 [0.91317306 1.        ]]
