# 상관계수 ( Correlation Coefficient )
- numpy를 이용하여 데이터의 상관계수를 구합니다.
- python 코드와 numpy의 함수의 속도차이를 비교합니다.

### Index

1. 분산
1. 공분산
1. 상관계수
1. 결정계수
1. 프리미어리그 상관계수 분석
1. 광고효과 상관계수 분석
1. 광고효과 회귀분석

In [None]:
import numpy as np

샘플 데이터 생성

In [None]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

### 2. 분산(variance)
- 1개의 이산정도를 나타냅니다.
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [None]:
# variance code
def variance(data):

    avg = np.average(data)
    var = 0
    for num in data:
        var += (num - avg) ** 2
    return var / len(data)


# test code (분산, 표준편차)
print("variance :", variance(data1), variance(data2))
print("standard deviation :", variance(data1)**0.5, variance(data2)**0.5)

In [None]:
variance(data1), variance(data2), variance(data1) ** 0.5, variance(data2) ** 0.5

In [None]:
np.var(data1), np.var(data2), np.std(data1), np.std(data2)

일반 함수와 numpy 함수의 퍼포먼스 비교

In [None]:
p_data1 = np.random.randint(60, 100, int(1E5))
p_data2 = np.random.randint(60, 100, int(1E5))

In [None]:
# 일반함수

In [None]:
%%time
variance(p_data1), variance(p_data2)

In [None]:
# numpy

In [None]:
%%time
np.var(p_data1), np.var(p_data2)

### 3. 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냅니다.
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있습니다.
    - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있습니다.

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [None]:
# covariance function
# 표본상관계수를 사용 (모상관계수를 사용하면 -1을 제거)
def covariance(data1, data2):

    x_ = np.average(data1)
    y_ = np.average(data2)

    cov = 0
    for idx in range(len(data1)):
        cov += (data1[idx] - x_) * (data2[idx] - y_)
    return cov / (len(data1) - 1)

In [None]:
# teat code 1
# data1이 커짐으로 data2도 커진다.
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
covariance(data1, data2)

In [None]:
# test code 2
# data3는 커지지만 data4는 작아진다.
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
covariance(data3, data4)

In [None]:
# test code 3
# 표본데이터의 크기가 커지면 공분산 값도 커진다.
# 두 데이터의 상관정도의 강도를 나타내는데 무리가 있다.
data5 = np.array([800, 850, 1000, 900, 950])
data6 = np.array([1000, 900, 700, 900, 800])
covariance(data5, data6)

### 4. 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어집니다.
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미합니다.
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워집니다.
- https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.corrcoef.html

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

- 최종 상관계수

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [None]:
# 상관계수 함수
def cc(data1, data2):

    x_ = np.average(data1)
    y_ = np.average(data2)

    cov, xv, yv = 0, 0, 0

    for idx in range(len(data1)):
        cov += (data1[idx] - x_) * (data2[idx] - y_)
        xv += (data1[idx] - x_) ** 2
        yv += (data2[idx] - y_) ** 2

    return cov / ((xv*yv) ** 0.5)

In [None]:
# teat code 1
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
cc(data1, data2)

In [None]:
# teat code 2
data3 = np.array([80, 85, 100, 90, 95])
data4 = np.array([100, 90, 70, 90, 80])
cc(data3, data4)

In [None]:
# teat code 3
data5 = np.array([800, 850, 1000, 900, 950])
data6 = np.array([1000, 900, 700, 900, 800])
cc(data5, data6)

In [None]:
# numpy
print(np.corrcoef(data1, data2)[0][1])
print(np.corrcoef(data3, data4)[0][1])
print(np.corrcoef(data5, data6)[0][1])

### 5. 결정계수(cofficient of determination: R-squared)
- x로부터 y를 예측할수 있는 정도
- 상관계수의 제곱 (상관계수를 양수화)
- 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확

In [None]:
print(data1, data2, data4, sep="\n")
print("\ncorrcoef")
print("data1, data2 :", np.corrcoef(data1, data2)[0][1])
print("data1, data4 :", np.corrcoef(data1, data4)[0][1])
print("\nR-squred")
print("data1, data2 :", np.corrcoef(data1, data2)[0][1]**2)
print("data1, data4 :", np.corrcoef(data1, data4)[0][1]**2)

### 6. 프리미어리그 데이터 상관계수 분석
- 2016/2017시즌의 프리미어리그 성적에서 득점과 실점 데이터중에 승점에 영향을 더 많이 준 데이터는?

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("./data/premierleague.csv")
df.head(2)

In [None]:
datas = df.values

- pandas dataframe의 데이터를 pickle 파일로 저장하기

In [None]:
import pickle

In [None]:
with open("./data/premierleague.pkl", "wb") as f:
    pickle.dump(datas, f)

In [None]:
%ls datas

In [None]:
with open("./data/premierleague.pkl", "rb") as f:
    datas = pickle.load(f)

In [None]:
# 데이터 확인
datas[:3]

In [None]:
# 득점
gf = datas[:, 1].astype(np.int)
gf

In [None]:
# 실점
ga = datas[:, 2].astype(np.int)
ga

In [None]:
# 승점
points = datas[:, -1].astype(np.int)
points

In [None]:
# 득점과 승점의 상관계수 출력
corr_gf = np.corrcoef(gf, points)[0, 1]
corr_gf

In [None]:
# 실점과 승점의 상관계수 출력

In [None]:
corr_ga = np.corrcoef(ga, points)[0, 1]
corr_ga

In [None]:
# 결정계수 : coefficient of determination

In [None]:
deter = {key: np.round(value ** 2, 2) for key, value in zip(["gf", "ga"], [corr_gf, corr_ga])}
deter

In [None]:
# 득점의 결정계수가 실점의 결정계수보다 더 높음
# 승점을 예측할때 실점보다는 득점이 더 잘 예측함 (전체 데이터를 더 잘 설명함)
# 승점의 상관계수가 득점이 더 높으므로 득점이 승점에 더 많은 영향을 줌