In [1]:
data1 = np.array([80,85,100,90,95])
data2 = np.array([70,80,100,95,95])

##### 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [5]:
# 분산
def variance(data):
    # TODO
    avg = np.average(data)
    tmp = [(num - avg) ** 2 for num in data]
    
    return sum(tmp) / len(data)

# test code (분산, 표준편차)
variance(data1), variance(data2), variance(data1)**0.5, variance(data2)**0.5

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

In [4]:
# numpy 분산, 표준편차
np.var(data1), np.var(data2), np.std(data1), np.std(data2)

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

##### 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있음 (표본데이터의 크기에 따라서 값이 많이 달라짐)

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [32]:
# 표본상관계수를 사용 (모상관계수를 사용하면 -1을 제거)
def covariance(data1, data2):
    # TODO
    x_ = np.average(data1)
    y_ = np.average(data2)
    
    tmp = sum([(x-x_)*(y-y_) for x,y in zip(data1,data2)])
    
    return tmp / (len(data1) - 1)

In [34]:
# teat code 1
data1 = np.array([80,85,100,90,95])
data2 = np.array([70,80,100,95,95])
result = covariance(data1, data2)
print(result)

93.75


In [35]:
# teat code 2
data3 = np.array([80,85,100,90,95])
data4 = np.array([100,90,70,90,80])
result = covariance(data3, data4)
print(result)

-87.5


In [36]:
np.cov(data1,data2) 

array([[  62.5 ,   93.75],
       [  93.75,  157.5 ]])

In [37]:
np.cov(data3,data4)

array([[  62.5,  -87.5],
       [ -87.5,  130. ]])

##### 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [38]:
def cc(data1, data2):
    # TODO
    x_ = np.average(data1)
    y_ = np.average(data2)
    
    son = sum([(x-x_)*(y-y_) for x,y in zip(data1,data2)])
    mom = (sum([(x-x_)**2 for x in data1]) * sum([(y-y_)**2 for y in data2]))**(0.5)
    
    return son / mom

In [39]:
# teat code 1
data1 = np.array([80,85,100,90,95])
data2 = np.array([70,80,100,95,95])
print(cc(data1, data2))
np.corrcoef(data1, data2)

0.944911182523


array([[ 1.        ,  0.94491118],
       [ 0.94491118,  1.        ]])

In [40]:
# teat code 2
data3 = np.array([80,85,100,90,95])
data4 = np.array([100,90,70,90,80])
print(cc(data3, data4))
np.corrcoef(data3, data4)

-0.970725343394


array([[ 1.        , -0.97072534],
       [-0.97072534,  1.        ]])

In [41]:
# teat code 3
data5 = np.array([80,85,100,90,95])
data6 = np.array([90,95,100,80,85])
print(cc(data5, data6))
np.corrcoef(data5, data6)

0.2


array([[ 1. ,  0.2],
       [ 0.2,  1. ]])

##### 결정계수(cofficient of determination)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 예측할수 있는 정도가 더 정확

##### 프리미어리그 데이터에서 승점에 득점과 실점중에 어떤게 더 영향을 미칠까?

In [43]:
# 승점
point = np.array([81,65,63,61,56,48,43,40,40,36,36,34,32,31,31,30,30,28,27,20])

# 득점
gf = np.array([85,58,73,59,52,55,27,45,37,37,39,28,30,25,25,30,36,29,29,24])

# 실점
ga = np.array([20,23,34,25,27,41,26,43,50,49,55,40,40,42,52,48,57,44,58,49])

In [44]:
(cc(point, gf))**2

0.93645481160394528

In [46]:
(cc(point, ga))**2

0.67757772853881815

In [48]:
print(np.corrcoef(point, gf))
print(np.corrcoef(point,ga))

[[ 1.          0.93645481]
 [ 0.93645481  1.        ]]
[[ 1.        -0.8231511]
 [-0.8231511  1.       ]]
