# 상관계수 ( Correlation Coefficient )

### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 프리미어리그 데이터 상관계수 분석

샘플 데이터 생성

In [0]:
import numpy as np

In [0]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

### 2. 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [0]:
# 분산 함수
def variance(data):

    avg = np.average(data)
    var = 0
    for num in data:
        var += (num - avg) ** 2
    return var / len(data)


# test code (분산, 표준편차)
print("variance :", variance(data1), variance(data2))
print("standard deviation :", variance(data1)**0.5, variance(data2)**0.5)

variance : 50.0 126.0
standard deviation : 7.0710678118654755 11.224972160321824


In [0]:
# numpy 함수
print("variance :", np.var(data1), np.var(data2))
print("standard deviation :", np.std(data1), np.std(data2))

variance : 50.0 126.0
standard deviation : 7.0710678118654755 11.224972160321824


일반 함수와 numpy 함수의 퍼포먼스 비교

In [0]:
# 데이터 생성
p_data1 = np.random.randint(60, 100, int(10E4))
p_data2 = np.random.randint(60, 100, int(10E4))

In [0]:
%%time
# 일반 함수
print("variance :", variance(p_data1), variance(p_data2))
print("standard deviation :", variance(p_data1)**0.5, variance(p_data2)**0.5)

variance : 133.41330668641837 133.11719013992442
standard deviation : 11.550467812448913 11.537642312878504
CPU times: user 1.01 s, sys: 8.28 ms, total: 1.02 s
Wall time: 1.08 s


In [0]:
%%time
# numpy 함수
print("variance :", np.var(p_data1), np.var(p_data2))
print("standard deviation :", np.std(p_data1), np.std(p_data2))

variance : 133.41330668639998 133.11719013989998
standard deviation : 11.550467812448117 11.537642312877445
CPU times: user 3.11 ms, sys: 872 µs, total: 3.98 ms
Wall time: 3.9 ms


### 3. 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있다
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [0]:
# 표본상관계수를 사용 (모상관계수를 사용하면 -1을 제거)
def covariance(data1, data2):

    x_ = np.average(data1)
    y_ = np.average(data2)

    cov = 0
    for idx in range(len(data1)):
        cov += (data1[idx] - x_) * (data2[idx] - y_)
    return cov / (len(data1) - 1)

In [0]:
# teat code 1
# data1이 커짐으로 data2도 커진다.
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
covariance(data1, data2)

93.75

In [0]:
# test code 2
# data3는 커지지만 data4는 작아진다.
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
covariance(data3, data4)

-87.5

In [0]:
# test code 3
# 표본데이터의 크기가 커지면 공분산 값도 커진다.
# 두 데이터의 상관정도의 강도를 나타내는데 무리가 있다.
data5 = np.array([800, 850, 1000, 900, 950])
data6 = np.array([1000, 900, 700, 900, 800])
covariance(data5, data6)

-8750.0

In [0]:
# numpy 사용
print(np.cov(data1, data2)[0][1])
print(np.cov(data3, data4)[0][1])
print(np.cov(data5, data6)[0][1])

93.75
-87.5
-8750.0


### 4. 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [0]:
# 상관계수 함수
def cc(data1, data2):

    x_ = np.average(data1)
    y_ = np.average(data2)

    cov, xv, yv = 0, 0, 0

    for idx in range(len(data1)):
        cov += (data1[idx] - x_) * (data2[idx] - y_)
        xv += (data1[idx] - x_) ** 2
        yv += (data2[idx] - y_) ** 2

    return cov / ((xv*yv) ** 0.5)

In [0]:
# teat code 1
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
cc(data1, data2)

0.944911182523068

In [0]:
# teat code 2
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
cc(data3, data4)

-0.970725343394151

In [0]:
# teat code 3
data5 = np.array([800, 850, 1000, 900, 950])
data6 = np.array([1000, 900, 700, 900, 800])
cc(data5, data6)

-0.970725343394151

In [0]:
# numpy
print(np.corrcoef(data1, data2)[0][1])
print(np.corrcoef(data3, data4)[0][1])
print(np.corrcoef(data5, data6)[0][1])

0.9449111825230682
-0.970725343394151
-0.970725343394151


### 5. 결정계수(cofficient of determination: R-squared)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확

In [0]:
print(data1, data2, data4, sep="\n")
print("\ncorrcoef")
print("data1, data2 :", np.corrcoef(data1, data2)[0][1])
print("data1, data4 :", np.corrcoef(data1, data4)[0][1])
print("\nR-squred")
print("data1, data2 :", np.corrcoef(data1, data2)[0][1]**2)
print("data1, data4 :", np.corrcoef(data1, data4)[0][1]**2)

[ 80  85 100  90  95]
[ 70  80 100  95  95]
[100  90  70  90  80]

corrcoef
data1, data2 : 0.9449111825230682
data1, data4 : -0.970725343394151

R-squred
data1, data2 : 0.892857142857143
data1, data4 : 0.9423076923076923


### 6. 프리미어리그 데이터 상관계수 분석
- 2016년 프리미어리그 성적에서 득점과 실점 데이터중에 승점에 영향을 더 많이 준 데이터는?

In [0]:
import pandas as pd

In [0]:
p_df = pd.read_csv("datas/premierleague.csv")
p_df = p_df.rename(
    columns={"name": "팀 이름", "gf": "득점", "ga": "실점", "points": "승점"})
p_df.head()

Unnamed: 0,팀 이름,득점,실점,승점
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


In [0]:
# 승점과 득점의 상관계수
gf_cc = np.corrcoef(p_df["승점"], p_df["득점"])[0][1]
gf_cc

0.9318404636463515

In [0]:
# 승점과 실점의 상관계수
ga_cc = np.corrcoef(p_df["승점"], p_df["실점"])[0][1]
ga_cc

-0.8705940043262675

In [0]:
np.absolute(gf_cc), np.absolute(ga_cc)

(0.9318404636463515, 0.8705940043262675)

In [0]:
# 결론
print("승점에 득점이 더 영향을 많이 준다.") if np.absolute(gf_cc) > np.absolute(ga_cc) else print("승점에 실점이 더 영향을 많이 준다.")

승점에 득점이 더 영향을 많이 준다.
