# 상관계수 (Correlation Coefficient)


## 1. 분산
- 1개의 이산 정도를 나타낸다.
- 편차 제곱의 평균

In [1]:
import numpy as np

data1 = np.array([3, 4, 5, 6, 7])
data2 = np.array([1, 3, 5, 7, 9])

np.mean(data1), np.mean(data2)

(5.0, 5.0)

In [2]:
np.var(data1), np.var(data2)

(2.0, 8.0)

In [3]:
np.std(data1), np.std(data2)

(1.4142135623730951, 2.8284271247461903)

## 2. 공분산 (covariance)

- 두 집단 간의 상관정도를 나타낸다.
- 평균 편차곱
- **방향성**은 보여 줄 수 있으나, 강도를 나타내는데 한계가 있다.
  - 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있다.

$$ \text{cov} = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n-1}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $$

In [4]:
def covariance(data1, data2):
  x_ = np.mean(data1)
  y_ = np.mean(data2)

  cov = (data1-x_)*(data2-y_)
  cov = np.sum(cov)

  return cov/(len(data1)-1)

In [5]:
data1=np.array([80, 85, 100, 90, 95])
data2=np.array([70, 80, 100, 95, 95])

covariance(data1, data2)

93.75

In [6]:
data3 = np.array([80, 85, 100, 90, 95])
data4= np.array([100, 90, 70, 90, 85])

covariance(data3, data4)

-81.25

In [7]:
data5=np.array([800, 850, 1000, 900, 950])
data6=np.array([1000, 900, 700, 900, 800])

covariance(data5, data6)

-8750.0

In [8]:
print(np.cov(data1, data2)[0, 1])
print(np.cov(data3, data4)[0, 1])
print(np.cov(data5, data6)[0, 1])

93.75
-81.25
-8750.0


## 3.상관계수

- 공분산의 한계를 극복하기 위해서 만들어짐
  - 공분산은 데이터의 방향성만이 판단이 가능 (증가, 감소)
  - `-1~1`까지의 실수를 가지며, 0과 가까울수록 상관도가 적다는 것을 의미
  - x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠 주면 된다.


$$
 \text{correlation-coefficient} = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}}
$$

In [9]:
# 상관계수 구현하기

def corrcoef(data1, data2):
  x_ = np.mean(data1)
  y_ = np.mean(data2)

  x_y_var = np.sum((data1-x_)**2)*np.sum((data2-y_)**2)
  cov=np.sum((data1-x_)*(data2-y_))

  return cov/np.sqrt(x_y_var)

In [10]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])

corrcoef(data1, data2)

0.944911182523068

## 4. 결정계수 (R-squared)

- x로부터 y를 예측할 수 있는 정도
- 머신러닝 회귀모델의 성능
- 수치가 클수록 회귀분석을 통해 예측할 수 있는 수치의 정도가 정확
- 상관계수의 제곱 (상관계수를 양수화)

In [11]:
data1 = np.array([80, 85, 100, 90, 95])
data2 = np.array([70, 80, 100, 95, 95])
data4 = np.array([100, 90, 70, 90, 80])

In [12]:
print(data1, data2, data4, sep="\n")

print("\ncorrcoef")
print("data1, data2:", np.corrcoef(data1, data2)[0, 1])
print("data1, data4:", np.corrcoef(data1, data4)[0, 1])

print("\nR-squared")
print("data1, data2:", np.corrcoef(data1, data2)[0, 1]**2)
print("data1, data4:", np.corrcoef(data1, data4)[0, 1]**2)

[ 80  85 100  90  95]
[ 70  80 100  95  95]
[100  90  70  90  80]

corrcoef
data1, data2: 0.9449111825230682
data1, data4: -0.970725343394151

R-squared
data1, data2: 0.892857142857143
data1, data4: 0.9423076923076923


# 프리미엄리그 데이터 상관계수 분석

In [13]:
import pandas as pd

In [14]:
p_df = pd.read_csv("premierleague.csv")
p_df.head()

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


In [15]:
p_df.columns = ["팀명", "득점", "실점", "승점"]
p_df.head()

Unnamed: 0,팀명,득점,실점,승점
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


In [16]:
gf_corrcoef= np.corrcoef(p_df["승점"], p_df["득점"])[0, 1]
gf_corrcoef

0.9318404636463515

In [17]:
gf_corrcoef= np.corrcoef(p_df["승점"], p_df["실점"])[0, 1]
gf_corrcoef

-0.8705940043262675

득점을 하는 것이 실점을 적게 하는 것보다 승점에 영향을 많이 미친다.