# 상관계수 ( Correlation Coefficient )

### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 프리미어리그 데이터 상관계수 분석

In [3]:
import numpy as np

샘플 데이터 생성

In [4]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

### 2. 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [17]:
# variance code
def variance(data):
    avg=np.average(data)
    var=0
    for i in range(len(data)):
        var += (data[i]-avg)**2
    var/=len(data)
    
    return var

In [19]:
variance(data1), variance(data2), variance(data1) ** 0.5, variance(data2) ** 0.5

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

In [20]:
#np에서 제공하는 분산,표준편차
np.var(data1), np.var(data2), np.std(data1), np.std(data2)

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

일반 함수와 numpy 함수의 퍼포먼스 비교

In [21]:
p_data1 = np.random.randint(60, 100, int(1E5)) #100000개(10^5)
p_data2 = np.random.randint(60, 100, int(1E5))

In [22]:
# 일반함수

In [23]:
%%time
variance(p_data1), variance(p_data2)

Wall time: 1.73 s


(132.92484971159257, 132.6444454556101)

In [24]:
# numpy

In [25]:
%%time
np.var(p_data1), np.var(p_data2)

Wall time: 6 ms


(132.9248497116, 132.6444454556)

### 3. 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다 (+인지 -인지)
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [30]:
# covariance function

In [31]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
print(np.cov(data1, data2))
np.cov(data1, data2)[0, 1]

[[ 62.5   93.75]
 [ 93.75 157.5 ]]


93.75

In [32]:
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
np.cov(data3, data4)[0, 1]

-87.5

In [33]:
data5 = np.array([800, 850, 1000, 900, 950])
data6 = np.array([1000, 900, 700, 900, 800])
np.cov(data5, data6)[0, 1]

-8750.0

### 4. 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [34]:
# correlation coefficient function
#관계정도를 수치화
np.corrcoef(data1, data2)[0,1],\
np.corrcoef(data3, data4)[0,1],\
np.corrcoef(data5, data6)[0,1]

(0.9449111825230682, -0.970725343394151, -0.970725343394151)

### 5. 결정계수(cofficient of determination: R-squared)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확

In [35]:
np.corrcoef(data1, data2)[0,1] ** 2,\
np.corrcoef(data1, data4)[0,1] ** 2
#결론:data4가 data2보다 data1에 영향을 더 많이 준다.

(0.892857142857143, 0.9423076923076923)

### 6. 프리미어리그 데이터 상관계수 분석
- 2016년 프리미어리그 성적에서 득점과 실점 데이터중에 승점에 영향을 더 많이 준 데이터는?

In [36]:
import pandas as pd

In [37]:
!ls datas

2014_p.csv
2014_s.csv
premierleague.csv
train.csv


In [39]:
df = pd.read_csv("datas/premierleague.csv")
df.tail()

Unnamed: 0,name,gf,ga,points
15,Huddersfield Town,28,58,37
16,Southampton,37,56,36
17,Swansea City,28,56,33
18,Stoke City,35,68,33
19,West Bromwich Albion,31,56,31


In [40]:
# 득점
gf = np.array(df["gf"])
gf

array([106,  68,  74,  84,  62,  74,  36,  44,  56,  39,  45,  45,  48,
        44,  34,  28,  37,  28,  35,  31], dtype=int64)

In [41]:
# 실점
ga = np.array(df["ga"])
ga

array([27, 28, 36, 38, 38, 51, 39, 58, 60, 47, 55, 61, 68, 64, 54, 58, 56,
       56, 68, 56], dtype=int64)

In [42]:
# 승점
points = np.array(df["points"])
points

array([100,  81,  77,  75,  70,  63,  54,  49,  47,  44,  44,  44,  42,
        41,  40,  37,  36,  33,  33,  31], dtype=int64)

In [43]:
data1, data2 = np.corrcoef(gf, points)[0, 1] ** 2, np.corrcoef(ga, points)[0, 1] ** 2
data1, data2

#결론: 득점을 높이는게 승점에 더 큰 영향력 가짐 -> 공격력 강화!

(0.8683266496886471, 0.757933920368845)

In [45]:
#소수둘째자리까지 출력
round(data1, 2), round(data2, 2)

(0.87, 0.76)