### 상관계수 ( Correlation Coefficient )
- numpy를 이용하여 데이터의 상관계수를 구합니다.
- python 코드와 numpy의 함수의 속도차이를 비교합니다.

#### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 프리미어리그 데이터 상관계수 분석

In [1]:
import numpy as np

샘플 데이터 생성

In [2]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

#### 1. 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [7]:
# variance code
avg = np.average(data1)
c = 0
def variance(data):
    for i in data1:
        (i - avg)**2

In [16]:
def variance(datas):
    var = 0
    x_ = np.average(datas)
    for data in datas:
        var += (data - x_) **2
    return var/len(datas)

In [18]:
variance(data1)**0.5,variance(data2)**0.5

(7.0710678118654755, 11.224972160321824)

In [20]:
np.var(data1),np.var(data2),np.std(data1),np.std(data2),

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

In [22]:
p_data1 = np.random.randint(60,100,int(1E5))   # 1E5 : 10의 5승
p_data2 = np.random.randint(60,100,int(1E5))   # 1E5 : 10의 5승

In [24]:
%%time
variance(p_data1),variance(p_data2)

CPU times: user 558 ms, sys: 4 ms, total: 562 ms
Wall time: 562 ms


(133.4082933319165, 133.45788041439823)

In [25]:
%%time
np.var(p_data1),np.var(p_data2)

CPU times: user 1.47 ms, sys: 984 µs, total: 2.45 ms
Wall time: 1.23 ms


(133.40829333189998, 133.4578804144)

일반 함수와 numpy 함수의 퍼포먼스 비교

#### 2. 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다 (강도 : 어느정도로 닮고 다른지)
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n-1}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [11]:
# covariance function

In [33]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
data3 = np.array([100, 90, 70, 90, 80])

In [34]:
np.cov(data1,data2)[0,1],np.cov(data1,data3)[0,1]

(93.75, -87.5)

In [35]:
data4 = data1 *10
data5 = data3 *10
data4, data5

(array([ 800,  850, 1000,  900,  950]), array([1000,  900,  700,  900,  800]))

In [37]:
np.cov(data4,data5)[0,1]

-8750.0

#### 3. 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [39]:
np.corrcoef(data1,data3)[0,1],np.corrcoef(data4,data5)[0,1]

(-0.970725343394151, -0.970725343394151)

In [40]:
2**7
1 2 3 4 5 6 7


128

#### 4. 결정계수(cofficient of determination: R-squared) : 상관계수를 제곱 for -를 제거하기 위해
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확
- 회귀분석에서 자주 사용됨

In [43]:
np.corrcoef(data1,data2)[0,1]**2,np.corrcoef(data1,data3)[0,1]**2

(0.892857142857143, 0.9423076923076923)

#### 5. 프리미어리그 데이터 상관계수 분석
- 2016년 프리미어리그 성적에서 득점과 실점 데이터중에 승점에 영향을 더 많이 준 데이터는?

In [44]:
import pickle

In [46]:
%ls datas

[34marticles[m[m/


In [47]:
with open('datas2/premierleague.pkl',"rb") as file:
    datas = pickle.load(file)

In [52]:
datas
gf = datas[:,1].astype(np.int)

In [53]:
datas

array([['Manchester City', 106, 27, 100],
       ['Manchester United', 68, 28, 81],
       ['Tottenham Hotspur', 74, 36, 77],
       ['Liverpool', 84, 38, 75],
       ['Chelsea', 62, 38, 70],
       ['Arsenal', 74, 51, 63],
       ['Burnley', 36, 39, 54],
       ['Everton', 44, 58, 49],
       ['Leicester City', 56, 60, 47],
       ['Newcastle United', 39, 47, 44],
       ['Crystal Palace', 45, 55, 44],
       ['Bournemouth', 45, 61, 44],
       ['West Ham United', 48, 68, 42],
       ['Watford', 44, 64, 41],
       ['Brighton and Hove Albion', 34, 54, 40],
       ['Huddersfield Town', 28, 58, 37],
       ['Southampton', 37, 56, 36],
       ['Swansea City', 28, 56, 33],
       ['Stoke City', 35, 68, 33],
       ['West Bromwich Albion', 31, 56, 31]], dtype=object)

In [55]:
ga = datas[:,2].astype(np.int)

In [56]:
point = datas[:,3].astype(np.int)

In [57]:
gf,ga,point

(array([106,  68,  74,  84,  62,  74,  36,  44,  56,  39,  45,  45,  48,
         44,  34,  28,  37,  28,  35,  31]),
 array([27, 28, 36, 38, 38, 51, 39, 58, 60, 47, 55, 61, 68, 64, 54, 58, 56,
        56, 68, 56]),
 array([100,  81,  77,  75,  70,  63,  54,  49,  47,  44,  44,  44,  42,
         41,  40,  37,  36,  33,  33,  31]))

In [61]:
np.corrcoef(gf,point)[0,1]**2,np.corrcoef(ga,point)[0,1]**2

(0.8683266496886471, 0.757933920368845)