In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 공분산 (Covariance)

우리는 분산(variance)(평균으로부터의 평균 제곱 편차)에 대해 이야기했습니다. **공분산(Covariance)**은 짐작하셨듯이 이와 유사합니다.$i$개의 지점을 가지는 데이터 벡터 $x^a$가 있다고 해봅시다. $x_i^a$는 그 데이터 벡터의 $i$번째 요소입니다. 이전 섹션에서 우리는 다음을 얻을 수 있습니다.$$Var^{a,a} = \frac{1}{N-1} \sum_{i=1}^N (x_i^a - \mu^a)(x_i^a - \mu^a),$$이것은 지난 섹션과 비슷해 보일 것입니다. 단지 제가 몇 군데 $a$를 붙여 놓았을 뿐입니다. 이것을 다르게 표현하는 방법은 이 식이 벡터 $x^a$와 그 자신 사이의 공분산이라는 것입니다. 괄호가 두 쌍 있으며, 둘 다 데이터 벡터 $x^a$를 사용한다는 점에 주목하십시오.공분산은 괄호 안의 문자 중 하나를 다른 것으로 바꿀 때 얻게 되는 것입니다. 다음과 같이 말이죠.$$Var^{a,b} = \frac{1}{N-1} \sum_{i=1}^N (x_i^a - \mu^a)(x_i^b - \mu^b),$$쉽죠! 우리가 한 것은 괄호 중 한 세트가 다른 데이터 벡터에 대해 반복하도록 바꾼 것뿐입니다.목표는 가지고 있는 각기 다른 벡터들에 대해 이 작업을 수행하여 행렬을 만드는 것입니다. 만약 두 개의 벡터만 있다면, 우리의 행렬은 다음과 같습니다.$$Cov = \begin{pmatrix} Var^{a,a} & Var^{a,b} \\ Var^{b,a} & Var^{b,b} \\ \end{pmatrix}$$이것이 대칭적이라는 점에 주목하십시오. $Var^{a,b} = Var^{b,a}$ 입니다. 그리고 대각선 요소는 각 데이터 벡터의 분산입니다. 대각선이 아닌 요소(비대각 요소)는 두 벡터 사이의 **결합된 퍼짐 정도(joint spread)**를 측정합니다. 개념이 아직 완벽하지 않더라도 걱정하지 마십시오. 예시가 모든 것을 명확하게 해 줄 것입니다.우리는 np.cov(문서 여기) 또는 pd.DataFrame.cov(문서 여기)를 사용하여 공분산을 계산할 수 있습니다.

In [5]:
dataset = pd.read_csv("height_weight.csv")[["height", "weight"]]
dataset.head()

Unnamed: 0,height,weight
0,71.74,259.88
1,71.0,186.73
2,63.83,172.17
3,67.74,174.66
4,67.28,169.2


In [14]:
covariance = np.cov(dataset, rowvar=False)
print(covariance)

[[  18.60200779   78.50218098]
 [  78.50218098 1512.91208783]]


In [17]:
covariance = dataset.cov()
print(covariance)

           height       weight
height  18.602008    78.502181
weight  78.502181  1512.912088


### 상관관계 (Correlation)

상관관계와 공분산은 쉽게 연결됩니다. 위에서 분산으로 작성된 2차원 공분산 행렬을 표준 편차 $\sigma$를 사용하여 $Var = \sigma^2$로 다시 작성할 수 있습니다.$$Cov = \begin{pmatrix} \sigma^2_{a,a} & \sigma^2_{a,b} \\ \sigma^2_{b,a} & \sigma^2_{b,b} \\ \end{pmatrix}$$좋습니다. 그리고 여기에 상관관계 행렬이 있습니다.$$Corr = \begin{pmatrix} \sigma^2_{a,a}/\sigma^2_{a,a} & \sigma^2_{a,b}/(\sigma_{a,a}\sigma_{b,b}) \\ \sigma^2_{b,a}/(\sigma_{a,a}\sigma_{b,b}) & \sigma^2_{b,b}/\sigma^2_{b,b} \\ \end{pmatrix}$$이는 다음 행렬과 같습니다.$$Corr = \begin{pmatrix} 1 & \rho_{a,b} \\ \rho_{b,a} & 1 \\ \end{pmatrix},$$여기서 $\rho_{a,b} = \sigma^2_{a,b}/(\sigma_{a,a}\sigma_{b,b})$ 입니다. 이를 다르게 생각하는 방법은 다음과 같습니다.$$Corr_{a,b} = \frac{Cov_{a,b}}{\sigma_a \sigma_b}$$이것은 각 독립 변수의 변동성으로 **공동 변동성(joint variability)**을 정규화한 것입니다.하지만 이것은 여전히 저에게는 너무 수학적입니다. 코드로 다시 돌아갑시다. 우리는 np.corrcoef(문서 여기) 또는 pd.DataFrame.corr(문서 여기)를 사용하여 상관관계 행렬을 계산할 수 있습니다

In [20]:
corr = np.corrcoef(dataset.T)
print(corr)

[[1.         0.46794517]
 [0.46794517 1.        ]]


In [21]:
corr = dataset.corr()
corr

Unnamed: 0,height,weight
height,1.0,0.467945
weight,0.467945,1.0


그렇다면 이것이 무엇을 의미할까요? 가장 간단하게 말씀드리자면, 신장-체중 상관관계에서 양수 값이 나왔다는 사실은, 평균적으로 키가 큰 사람은 (키가 작은 사람보다) 체중이 더 나갈 가능성이 높다는 것을 의미합니다. 평균적으로 키가 작은 사람은 키가 큰 사람보다 체중이 덜 나갈 가능성이 높습니다.

만약 이 숫자가 음수였다면, 그 반대를 의미했을 것입니다. 즉, 키가 큰 사람이 보통 키가 작은 사람보다 체중이 덜 나간다는 뜻이죠.

값이 **$0.468$**이 아니라 **$1$**이었다면, 이는 완벽한 양의 상관관계를 의미하며, 키가 큰 사람이 키가 작은 사람보다 항상 체중이 더 나간다는 뜻입니다. (절댓값으로) 숫자가 클수록 그러한 상관관계를 발견할 가능성이 더 높습니다.

다른 예시:

* 나이 대 임신 횟수: 양의 상관관계 (Positive correlation)
* 섭씨 온도 대 켈빈 온도: 완벽한 양의 상관관계 ($1.0$) (Total positive correlation)
* 흡연량 대 기대 수명: 음의 상관관계 (Negative correlation)
* 신장 대 비행기 좌석의 안락함: 음의 상관관계 (Negative correlation)
* 구매 단위 수 대 개별 단위 비용: 희망적으로는 음의 상관관계 (Hopefully a negative correlation!)

두 가지를 가져와서, 하나가 증가할 때 다른 하나도 증가할지, 감소할지, 아니면 변하지 않을지 스스로에게 질문해 보세요.

이것이 바로 상관관계입니다. 그리고 이제 여러분은 그것을 정량화할 수 있습니다.

또한, 우리가 이것을 EDA(탐색적 데이터 분석) 섹션에서 이미 했기 때문에, 여러분은 이것을 시각적으로 탐색하는 플롯(plot)도 만들 수 있습니다.