In [2]:
'''
공분산 vs 상관계수 
- 공통점 : 변수 간의 상관성 분석
 
1. 공분산 : 평균을 중심으로 자료의 분포를 나타내는 통계
 - 확률변수 : X, Y -> X 표본평균 : ux, Y 표본평균 : uy
 - 식 : Cov(X,Y) = 1/N * sum( (X-ux) * (Y-uy) )
 
 - Cov(X, Y) > 0 : X가 증가할 때 Y도 증가
 - Cov(X, Y) < 0 : X가 증가할 때 Y는 감소
 - Cov(X, Y) = 0 : 두 변수는 선형관계 아님(서로 독립적 관계)
 - 문제점 : 변량의 값이 클 수록 변수의 상관성이 높게 나타남(iq 큰 이유) 
    
2. 상관계수 : 공분산을 각각의 분산으로 나눈어 정규화한 통계(공분산 문제 해결)
 - 부호는 공분산과 동일, 값은 절대값 1을 넘지 않음(-1 ~ 1)    
 - 식 : Corr(X, Y) = Cov(X,Y) / sqrt( var(X) * var(Y) )
       Corr(X, Y) = Cov(X,Y) / std(X) * std(Y)
'''

# 패키지에 대한 별칭 지정 
import pandas as pd 

# csv 파일 가져오기 
score_iq = pd.read_csv('C:/Users/hyebin/Desktop/Python_ML/data/score_iq.csv')

In [5]:
score_iq.head() # 앞부분 5줄 보기

Unnamed: 0,sid,score,iq,academy,game,tv
0,10001,90,140,2,1,0
1,10002,75,125,1,3,3
2,10003,77,120,1,0,4
3,10004,83,135,2,3,2
4,10005,65,105,0,4,4


In [8]:
print('\n상관계수')
corr = score_iq.corr(method='pearson')
corr # score vs iq   academy 상관계수가 가장높다.


상관계수


Unnamed: 0,sid,score,iq,academy,game,tv
sid,1.0,-0.014399,-0.007048,-0.004398,0.018806,0.024565
score,-0.014399,1.0,0.88222,0.896265,-0.298193,-0.819752
iq,-0.007048,0.88222,1.0,0.671783,-0.031516,-0.585033
academy,-0.004398,0.896265,0.671783,1.0,-0.351315,-0.948551
game,0.018806,-0.298193,-0.031516,-0.351315,1.0,0.239217
tv,0.024565,-0.819752,-0.585033,-0.948551,0.239217,1.0


In [10]:
print('\n공분산')
cov = score_iq.cov()
cov


공분산


Unnamed: 0,sid,score,iq,academy,game,tv
sid,1887.5,-4.100671,-2.718121,-0.231544,1.208054,1.432886
score,-4.100671,42.968412,51.337539,7.119911,-2.890201,-7.214586
iq,-2.718121,51.337539,78.807338,7.227293,-0.413691,-6.972975
academy,-0.231544,7.119911,7.227293,1.46868,-0.62953,-1.5434
game,1.208054,-2.890201,-0.413691,-0.62953,2.186309,0.474899
tv,1.432886,-7.214586,-6.972975,-1.5434,0.474899,1.80264


In [11]:
# [해설] 상관성이 낮아도 변량의 값이 크면(score) 공분산 크게 나타난다. 

# 칼럼 간 상관관계
corr = score_iq['score'].corr(score_iq['iq'])
print('score vs iq 상관관계:', corr)

score vs iq 상관관계: 0.8822203446134705


In [12]:
corr2 = score_iq['score'].corr(score_iq['academy'])
print('score vs academy 상관관계:', corr2)

score vs academy 상관관계: 0.8962646792534942


In [13]:
# 칼럼 간 공분산 
cov = score_iq['score'].cov(score_iq['iq'])
print('score vs iq 공분산 : ', cov)

score vs iq 공분산 :  51.337539149888144


In [14]:
cov = score_iq['score'].cov(score_iq['academy'])
print('score vs academy 공분산 : ', cov)
# [해설] iq가 academy에 비해서 공분산이 매우 큰 이유 

score vs academy 공분산 :  7.119910514541386


In [15]:
X = score_iq['score']
Y1 = score_iq['iq']
Y2 = score_iq['academy']

uy1 = Y1.mean()
uy2 = Y2.mean()
print('mean')
print(uy1, uy2)
# [해설] iq가 academy에 비해서 변량의 값이 크다.
# 상관성이 낮아도 변량의 값이 크면 공분산 크게 나타난다. 

mean
123.77333333333333 1.9666666666666666


In [16]:
X = score_iq['score']
Y1 = score_iq['iq']
Y2 = score_iq['academy']

# 식 : Cov(X,Y) = 1/N * sum((X-ux)*(Y-uy))
def Cov(X, Y):
    ux = X.mean()
    uy = Y.mean() 
    cov_re = 1/len(X) * sum( (X-ux) * (Y-uy) )
    return cov_re
    
cov1 = Cov(X, Y1)
cov2 = Cov(X, Y2)
print('cov :', cov1, cov2)

cov : 50.99528888888886 7.0724444444444385


In [17]:
import numpy as np

# 식 : Corr(X, Y) = Cov(X,Y) / sqrt(var(X)*var(Y))
def Corr(cov, X, Y):    
    var_x = X.var()
    var_y = Y.var()
    corr_re = cov / np.sqrt(var_x * var_y)
    #corr_re = cov / (X.std() * Y.std())
    return corr_re

corr1 = Corr(cov1, X, Y1)
corr2 = Corr(cov2, X, Y2)
print('corr :', corr1, corr2)

corr : 0.8763388756493801 0.8902895813918038
