# 상관계수 (Correlation Coefficient)


**[주요개념]**
1. 분산 (variance)
2. 공분산 (co-variance)
3. 상관계수
4. 결정계수

In [None]:
import pandas as pd
import numpy as np

#### 1. 분산 (variance)
- 집합 A에서 각 항들에 평균값을 빼준 후 이를 모두 더한 후 제곱한 값.(-부호를 없애기 위해)

```python
def variance(df)->int:
    avg = df.values - df.mean()
    return np.square(avg).sum() / len(df)

print("variance : >> ", variance(df['points']))
print(np.var(df['points']))
```

In [25]:
# 일반 함수와 numpy 함수의 퍼포먼스 비교
df1 = pd.Series(np.random.randint(60, 100, int(1E5))) # 60에서 100사이 수로 1E5 개 생성
df2 = pd.Series(np.random.randint(60, 100, int(1E5))) # 60에서 100사이 수로 1E5 개 생성

In [26]:
%%time
variance(df1), variance(df2)

Wall time: 3 ms


(132.9576399991, 133.53291518560002)

In [27]:
%time
np.var(df1), np.var(df2)

Wall time: 0 ns


(132.9576399991178, 133.53291518562844)

#### 2. 표준편차 (standard deviation)
- 분산에 루트를 씌워 스케일을 조정 한 값

```python
def standard(df)->int:
    return np.sqrt(variance(df))

print("standard deviation : >> ", standard(df['points']))
print(np.std(df['points']))
```

#### 3. 공분산 (covariance)
두 집합 A, B 에서 A를 기준으로 A의 평균 값과 그 각 개별 값들의 차(분산)을 집합 B의 각 개별값과의 차를 모두 더하여 나타낸 값. 양의 값인 경우 양의 상관관계를. 음의 값인 경우 음의 상관관계를 나타낸다.(평균편차곱)



In [36]:
# 공분산
arr1 = np.array([20, 20, 30, 40, 20])
arr2 = np.array([30, 30, 60, 90, 35])

print(np.cov(arr1, arr2))
# arr1 vs arr1, arr1 vs arr2
# arr2v s arr2, arr2 vs arr2

arr3 = np.array([20, 20, 30, 40, 20])
arr4 = np.array([70, 70, 50, 35, 75])
print(np.cov(arr3, arr4))

[[ 80.  232.5]
 [232.5 680. ]]
[[  80.  -150. ]
 [-150.   287.5]]


#### 4. 상관계수 (correlation coefficient)
- 두 집합간의 상관 정도를 파악하는데 공분산이 가지는 스케일 문제를 해결 한 상관지표.

- **피어슨** : 연속형 데이터중 수치형 데이터의 상관도를 표준스케일로 계산한 상관계수
- **스피어만** : 연속형 데이터중 순위형 데이터의 상관도를 표준스케일로 계산한 상관계수

```python
np.corrcoef(arr1, arr2)[0, 1],\
np.corrcoef(arr3, arr4)[0, 1]
```

In [40]:
# 상관계수는 -1 ~ 0 ~ 1 사이의 값을 가진다.
np.corrcoef(arr1, arr2)[0, 1],\
np.corrcoef(arr3, arr4)[0, 1]

(0.9968355261408325, -0.9890707100936804)

#### 5. 결정계수 (coefficient of determination:R-Squared)
- X로부터 y를 예측할 수 있는 정도
- **상관계수의 제곱 값**(상관계수 양수화)
- 수치가 높을수록 회귀분석의 예측력이 높다는 의미.


In [41]:
np.corrcoef(arr1, arr2)[0, 1]**2,\
np.corrcoef(arr3, arr4)[0, 1]**2

(0.9936810661764703, 0.9782608695652172)

In [2]:
import pandas as pd
df = pd.read_csv('./extrafiles/premierleague.csv')

In [3]:
df

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70
5,Arsenal,74,51,63
6,Burnley,36,39,54
7,Everton,44,58,49
8,Leicester City,56,60,47
9,Newcastle United,39,47,44


In [66]:
# 데이터 프레임에서 데이터를 nparray 형태로 추출
gf = np.array(df['gf']) # 득점
ga = np.array(df['ga']) # 실점
points = np.array(df['points']) # 승점
gf, ga, points

# 각 상관계수를 확인 (득점과 승점의 상관관계 vs 실점과 승점의 상관관계)
print("상관계수 (correlation coefficient) : ", np.corrcoef(gf, points)[0, 1], np.corrcoef(ga, points)[0, 1])

# 각 결정계수(R-square)를 확인
rs1, rs2 = np.corrcoef(gf, points)[0, 1]**2, np.corrcoef(ga, points)[0, 1]**2
# print(rs1, rs2)

# 결정계수 소수점 2자리 까지 출력이후 반올림
print("결정계수 (coefficient of determination : R-square) : ", round(rs1, 2), ",", round(rs2, 2))

# 결론 : 득점이 승리로 이어지는데 조금 더 상관관계가 높다.

상관계수 (correlation coefficient) :  0.9318404636463514 -0.8705940043262674
결정계수 (coefficient of determination : R-square) :  0.87 , 0.76
