# np.var = 분산
# np.cov = 공분산
# np.corrcoef = 상관계수

-----------

In [1]:
import numpy as np

In [2]:
data1 = np.array([80,85,100,90,95])
data2 = np.array([70,80,100,95,95])

##### 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [10]:
# 분산
def variance(data):
    return ((data - data.mean())**2).sum() / len(data)


# test code (분산, 표준편차)
variance(data1), variance(data2), variance(data1)**0.5, variance(data2)**0.5

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

In [4]:
# numpy 분산, 표준편차
np.var(data1), np.var(data2), np.std(data1), np.std(data2)

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

In [11]:
%%timeit
variance(data1)

15.9 µs ± 772 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [12]:
%%timeit
np.var(data1)

26.1 µs ± 2.27 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


##### 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있음 (표본데이터의 크기에 따라서 값이 많이 달라짐)

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [28]:
# 표본상관계수를 사용 (모상관계수를 사용하면 -1을 제거)
def covariance(data1, data2):
    return ((data1 - data1.mean()) * (data2 - data2.mean())).sum() / (len(data1) - 1)

In [29]:
# teat code 1
data1 = np.array([80,85,100,90,95])
data2 = np.array([70,80,100,95,95])
result = covariance(data1, data2)
print(result)

93.75


In [30]:
# teat code 2
data3 = np.array([80,85,100,90,95])
data4 = np.array([100,90,70,90,80])
result = covariance(data3, data4)
print(result)

-87.5


In [8]:
np.cov(data1,data2) 

array([[ 62.5 ,  93.75],
       [ 93.75, 157.5 ]])

In [9]:
np.cov(data3,data4)

array([[ 62.5, -87.5],
       [-87.5, 130. ]])

##### 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [32]:
np.abs(data1)

array([ 80,  85, 100,  90,  95])

In [45]:
def cc(data1, data2):
    upper = ((data1 - data1.mean()) * (data2 - data2.mean())).sum()
    lower = np.sqrt((((data1 - data1.mean())**2).sum())
                    * (((data2 - data2.mean())**2).sum()))
    return upper / lower

In [46]:
# teat code 1
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
print(cc(data1, data2))
np.corrcoef(data1, data2)

0.944911182523


array([[ 1.        ,  0.94491118],
       [ 0.94491118,  1.        ]])

In [49]:
# teat code 2
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
print(cc(data3, data4))
np.corrcoef(data3, data4)

-0.970725343394


array([[ 1.        , -0.97072534],
       [-0.97072534,  1.        ]])

In [13]:
# teat code 3
data5 = np.array([80, 85, 100, 90, 95])
data6 = np.array([90, 95, 100, 80, 85])
print(cc(data5, data6))
np.corrcoef(data5, data6)

0.2


array([[1. , 0.2],
       [0.2, 1. ]])

In [50]:
# teat code 3
data5 = np.array([80, 85, 100, 90, 95])
data6 = np.array([90, 95, 100, 80, 85])
print(cc(data5, data6))
np.corrcoef(data5, data6)

0.2


array([[ 1. ,  0.2],
       [ 0.2,  1. ]])

##### 결정계수(cofficient of determination)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 예측할수 있는 정도가 더 정확

##### 프리미어리그 데이터에서 승점에 득점과 실점중에 어떤게 더 영향을 미칠까?

In [52]:
# 승점
point = np.array([81, 65, 63, 61, 56, 48, 43, 40, 40, 36,
                  36, 34, 32, 31, 31, 30, 30, 28, 27, 20])

# 득점
gf = np.array([85, 58, 73, 59, 52, 55, 27, 45, 37, 37,
               39, 28, 30, 25, 25, 30, 36, 29, 29, 24])

# 실점
ga = np.array([20, 23, 34, 25, 27, 41, 26, 43, 50, 49,
               55, 40, 40, 42, 52, 48, 57, 44, 58, 49])

In [56]:
print('승점 vs 득점의 상관계수', cc(point, gf))
print('승점 vs 실점의 상관계수', cc(point, ga))

승점 vs 득점의 상관계수 0.936454811604
승점 vs 실점의 상관계수 -0.823151097028


# 승점과 득점의 상관계수가 높으므로 득점이 더 영향을 미친다

In [60]:
np.corrcoef(point, gf)

array([[ 1.        ,  0.93645481],
       [ 0.93645481,  1.        ]])

In [61]:
np.corrcoef(point, ga)

array([[ 1.       , -0.8231511],
       [-0.8231511,  1.       ]])