# 상관계수 ( Correlation Coefficient )

### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 프리미어리그 데이터 상관계수 분석

In [3]:
import numpy as np

샘플 데이터 생성

In [5]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

### 2. 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [13]:
# 분산 함수
def variance(data):
    avg = np.average(data)
    var = 0
    
    for num in data:
        var += (num - avg)**2
    
    return var / len(data)

In [14]:
variance(data1), variance(data2)

(50.0, 126.0)

In [16]:
# Numpy 분산
np.var(data1), np.var(data2)

(50.0, 126.0)

In [18]:
# Numpy 표준편차
np.std(data1), np.std(data2)

(7.0710678118654755, 11.224972160321824)

In [24]:
# np.random.randint 
# randint(low, high=None, size=None, dtype=int)

p_data1 = np.random.randint(60, 100, int(10E5))
p_data2 = np.random.randint(60, 100, int(10E5))

In [25]:
%%time
variance(p_data1), variance(p_data2)

Wall time: 4.53 s


(133.42629211280354, 133.2379711233713)

In [26]:
%%time
np.var(p_data1), np.var(p_data2)

Wall time: 13 ms


(133.426292112879, 133.237971123551)

 ### 3. 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다
    
- 공분산 값이 음수이면 x 또는 y가 증가할 때 y 또는 x가 감소한다.
- 공분산 값이 양수이면 x 또는 y가 증가할 때 y 또는 x도 증가한다.

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [28]:
# covariance function

In [33]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
np.cov(data1, data2)[0, 1], np.cov(data1, data2) # [0,1]이나 [1,0] 이 공분산

(93.75,
 array([[ 62.5 ,  93.75],
        [ 93.75, 157.5 ]]))

In [34]:
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
np.cov(data3, data4)[0, 1], np.cov(data3, data4)

(-87.5,
 array([[ 62.5, -87.5],
        [-87.5, 130. ]]))

In [35]:
data5 = np.array([800, 850, 1000, 900, 950])
data6 = np.array([1000, 900, 700, 900, 800])
np.cov(data5, data6)[0, 1]

-8750.0

### 4. 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [41]:
np.corrcoef(data1, data2)[0,1], np.corrcoef(data3, data4)[0,1], np.corrcoef(data5, data6)[0,1]

(0.9449111825230682, -0.970725343394151, -0.970725343394151)

### 5. 결정계수(cofficient of determination: R-squared)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확

In [43]:
np.corrcoef(data1, data2)[0,1] ** 2,\
np.corrcoef(data1, data4)[0,1] ** 2

(0.892857142857143, 0.9423076923076923)

### 6. 프리미어리그 데이터 상관계수 분석
- 2016년 프리미어리그 성적에서 득점과 실점 데이터중에 승점에 영향을 더 많이 준 데이터는?

In [45]:
import pandas as pd

In [47]:
!ls datas

2014_p.csv
2014_s.csv
premierleague.csv
train.csv


In [49]:
df = pd.read_csv('./datas/premierleague.csv')
df.head()

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


In [54]:
gf = np.array(df["gf"])
gf

array([106,  68,  74,  84,  62,  74,  36,  44,  56,  39,  45,  45,  48,
        44,  34,  28,  37,  28,  35,  31], dtype=int64)

In [55]:
ga = np.array(df["ga"])
ga

array([27, 28, 36, 38, 38, 51, 39, 58, 60, 47, 55, 61, 68, 64, 54, 58, 56,
       56, 68, 56], dtype=int64)

In [56]:
points = np.array(df["points"])
points

array([100,  81,  77,  75,  70,  63,  54,  49,  47,  44,  44,  44,  42,
        41,  40,  37,  36,  33,  33,  31], dtype=int64)

In [62]:
d1, d1_1 = np.corrcoef(gf, points)[0,1], np.corrcoef(gf, points)[0,1] **2
round(d1, 2), round(d1_1, 2)

(0.93, 0.87)

In [63]:
d2, d2_1 =  np.corrcoef(ga, points)[0,1], np.corrcoef(ga, points)[0,1] **2
round(d2, 2), round(d2_1, 2)

(-0.87, 0.76)