# 상관계수 ( Correlation Coefficient )

### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 프리미어리그 데이터 상관계수 분석

In [1]:
import numpy as np

샘플 데이터 생성

In [2]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

## 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균
- deviation : 편차

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

### python으로 작성한 variance code

In [22]:
def variance(data):
    
    avg = np.average(data)
    sum_dev_squ = 0
    
    for num in data:
        sum_dev_squ += (num - avg) ** 2
    
    var = sum_dev_squ / len(data)
    
    return var

In [23]:
## 분산
variance(data1), variance(data2)

(50.0, 126.0)

In [24]:
## 표준편차
variance(data1) ** 0.5, variance(data2) ** 0.5

(7.0710678118654755, 11.224972160321824)

## 분산, 표준편차를 numpy로 계산

In [10]:
## 분산
np.var(data1), np.var(data2)

(50.0, 126.0)

In [11]:
## 표준편차 : standard deviation
np.std(data1), np.std(data2)

(7.0710678118654755, 11.224972160321824)

#### 일반 함수와 numpy 함수의 퍼포먼스 비교

In [13]:
## 60~100 까지 갯수가 10의 4승개인 랜덤 함수
p_data1 = np.random.randint(60, 100, int(1E5))
p_data2 = np.random.randint(60, 100, int(1E5))

##### 일반함수

In [16]:
%%time
variance(p_data1), variance(p_data2)

CPU times: user 837 ms, sys: 6.41 ms, total: 843 ms
Wall time: 886 ms


(133.04494286040426, 133.1776492796003)

##### numpy

In [19]:
%%time
np.var(p_data1), np.var(p_data2)

CPU times: user 2.17 ms, sys: 836 µs, total: 3 ms
Wall time: 4.32 ms


(133.04494286040003, 133.1776492796)

## 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 두 편차곱의 평균
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

### python으로 작성한 covariance 함수

In [45]:
def covariance(data1,data2):
    
    avg1 = np.average(data1)
    avg2 = np.average(data2)
    sum_dev = 0
    
    for num1,num2 in zip(data1,data2):
        sum_dev += (num1-avg1) * (num2-avg2)
    
    cov = sum_dev / (len(data1) - 1 )
    return cov

### covariance function

In [46]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
np.cov(data1, data2)

array([[ 62.5 ,  93.75],
       [ 93.75, 157.5 ]])

In [47]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
np.cov(data1, data2)[0, 1]

93.75

#### 속도 비교

In [50]:
%time

covariance(data1,data2)

CPU times: user 3 µs, sys: 1 µs, total: 4 µs
Wall time: 7.87 µs


93.75

In [51]:
%time

np.cov(data1, data2)[0, 1]

CPU times: user 4 µs, sys: 1 µs, total: 5 µs
Wall time: 8.11 µs


93.75

In [28]:
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
np.cov(data3, data4)[0, 1]

-87.5

##### 강도를 나타낼 수 없다

In [29]:
data5 = np.array([800, 850, 1000, 900, 950])
data6 = np.array([1000, 900, 700, 900, 800])
np.cov(data5, data6)[0, 1]

-8750.0

## 피어슨 상관계수(pearson correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

### 최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [32]:
# correlation coefficient function
np.corrcoef(data1, data2)[0,1],\
np.corrcoef(data3, data4)[0,1],\
np.corrcoef(data5, data6)[0,1]

(0.9449111825230682, -0.970725343394151, -0.970725343394151)

## 결정계수(cofficient of determination: R-squared)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화) => 제곱을 하면 값은 더 작아짐(정밀화됨)
- 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확

In [52]:
np.corrcoef(data1, data2)[0,1] ** 2,\
np.corrcoef(data1, data4)[0,1] ** 2

(0.892857142857143, 0.9423076923076923)

## 프리미어리그 데이터 상관계수 분석
- 2016년 프리미어리그 성적에서 득점과 실점 데이터중에 승점에 영향을 더 많이 준 데이터는?

In [53]:
import pandas as pd

In [54]:
!ls datas

[31m2014_p.csv[m[m        [31m2014_s.csv[m[m        [31mpremierleague.csv[m[m [31mtrain.csv[m[m


In [56]:
df = pd.read_csv("datas/premierleague.csv")
df

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70
5,Arsenal,74,51,63
6,Burnley,36,39,54
7,Everton,44,58,49
8,Leicester City,56,60,47
9,Newcastle United,39,47,44


In [39]:
# 득점
gf = np.array(df["gf"])
gf

array([106,  68,  74,  84,  62,  74,  36,  44,  56,  39,  45,  45,  48,
        44,  34,  28,  37,  28,  35,  31])

In [40]:
# 실점
ga = np.array(df["ga"])
ga

array([27, 28, 36, 38, 38, 51, 39, 58, 60, 47, 55, 61, 68, 64, 54, 58, 56,
       56, 68, 56])

In [41]:
# 승점
points = np.array(df["points"])
points

array([100,  81,  77,  75,  70,  63,  54,  49,  47,  44,  44,  44,  42,
        41,  40,  37,  36,  33,  33,  31])

In [43]:
data1, data2 = np.corrcoef(gf, points)[0, 1] ** 2, np.corrcoef(ga, points)[0, 1] ** 2
data1, data2

(0.8683266496886471, 0.757933920368845)

In [44]:
round(data1, 2), round(data2, 2)

(0.87, 0.76)