# 두 변수 사이의 상관 관계 분석

상관분석
1. 모수적 : 두 연속형 변수, 적어도 하나는 정규분포
  1. Pearson의 상관분석
1. 비모수적 : 정규성 만족 못하는 두 연속형 변수 혹은 순위변수
  1. Spearman의 상관분석
  1. Kendall's tau-b

# Pearson의 상관분석
- Pearson의 상관계수 r은 -1에서 1사이의 값을 가지며
- 양수는 양의 상관관계, 음수는 음의 상관관계를 의미한다.
- 상관계수 r이 1에 가까울수록 두 변수의 상관관계는 직선에 가깝고 
- 상관계수 r이 -1에 가까울수록 완전한 역상관 관계에 가까워진다. 
- 상관계수 r이 0에 가까운 값을 가진다면 두 변수의 관계는 전혀 선형적이지 못하다. 

** 설명력 r<sup>2</sup>**  
설명력은 상관계수(r)의 제곱으로 표현되며 두 변수 사이에 선형관계의 정도를 설명한다.  
두 변수 사이의 상관계수(r)가  
- 0.9라면 81% 만큼 설명이 가능
- 0.4라면 16% 만큼 설명이 가능
- -0.4라면 둘의 관계는 역의 관계이지만 16% 만큼 설명이 가능
- 0.0라면 두 변수는 서로 완전한 독립관계로 서로 전혀 설명하지 못함

상관계수(r) 1 혹은 -1 인 경우 두 변수는 완전한 선형의 관계를 갖기 때문에 한 변수를 알아 다른 변수값을 100% 정확하게 예측 가능하다. 

## 상관분석의 가설검정
귀무가설 H<sub>0</sub> : 두 변수는 선형의 상관관계가 없다(r=0)  
대립가설 H<sub>1</sub> : 두 변수는 선형의 상관관계가 있다(r!=0)

상관분석은 두 변수의 선형 관계의 분석일 뿐 인과관계를 의미하지 않는다. 예를 들어 체중과 혈압이 상관관계를 보인다고 해서 혈압이 높기 때문에 체중이 높다고 해석할 수도 없고, 역으로 체중이 높기 때문에 혈압이 높다고 말할 수도 없다. 


**가정**

- Observations in each sample are independent and identically distributed (iid).
- Observations in each sample are normally distributed.
- Observations in each sample have the same variance.


In [1]:
import scipy.stats as stats
import pandas as pd

df = pd.read_csv('data/6_correlation_and_regression.csv')
df.head()

Unnamed: 0,age,height,weight,waistline,BMI,SBP
0,57,164.0,62.0,85.0,23.1,147
1,25,172.0,54.0,65.0,18.3,116
2,57,157.0,59.0,83.0,23.9,122
3,43,170.0,87.8,104.0,30.4,130
4,52,155.0,50.0,83.0,20.8,120


In [2]:
corr, p = stats.pearsonr(df.BMI.values, df.waistline.values)

In [3]:
print('corr : {}, p-Value : {}'.format(corr, p))

corr : 0.8006600304146128, p-Value : 3.540002961020084e-73


허리둘레(weight)와 BMI의 상관계수 r=0.8로 유의수준 p < 0.001로 통계적으로 유의한 연관을 보인다. 

In [4]:
df.corr(method='pearson')

Unnamed: 0,age,height,weight,waistline,BMI,SBP
age,1.0,-0.473364,-0.340496,0.050031,-0.055819,0.186121
height,-0.473364,1.0,0.588588,0.169484,-0.034864,-0.164585
weight,-0.340496,0.588588,1.0,0.753247,0.783203,0.063434
waistline,0.050031,0.169484,0.753247,1.0,0.80066,0.205137
BMI,-0.055819,-0.034864,0.783203,0.80066,1.0,0.21025
SBP,0.186121,-0.164585,0.063434,0.205137,0.21025,1.0


In [5]:
import numpy as np

df_corr = pd.DataFrame() # Correlation matrix
df_p = pd.DataFrame()  # Matrix of p-values
for x in df.columns:
    for y in df.columns:
        corr = stats.pearsonr(df[x], df[y])
        df_corr.loc[x,y] = corr[0]
        df_p.loc[x,y] = corr[1]

print(df_corr)
print(df_p)

                age    height    weight  waistline       BMI       SBP
age        1.000000 -0.473364 -0.340496   0.050031 -0.055819  0.186121
height    -0.473364  1.000000  0.588588   0.169484 -0.034864 -0.164585
weight    -0.340496  0.588588  1.000000   0.753247  0.783203  0.063434
waistline  0.050031  0.169484  0.753247   1.000000  0.800660  0.205137
BMI       -0.055819 -0.034864  0.783203   0.800660  1.000000  0.210250
SBP        0.186121 -0.164585  0.063434   0.205137  0.210250  1.000000
                    age        height        weight     waistline  \
age        0.000000e+00  2.190828e-19  3.503089e-10  3.708665e-01   
height     2.190828e-19  0.000000e+00  2.102750e-31  2.276592e-03   
weight     3.503089e-10  2.102750e-31  0.000000e+00  3.531870e-60   
waistline  3.708665e-01  2.276592e-03  3.531870e-60  0.000000e+00   
BMI        3.180280e-01  5.330393e-01  5.187587e-68  3.540003e-73   
SBP        7.902188e-04  3.055337e-03  2.563784e-01  2.103623e-04   

                   

# Spearman의 상관분석

표본수가 적고 정규성을 만족하지 않는 두 연속성 변수 혹은 순위 척도 사이의 상관관계를 추정 및 검정하기 위해서는 Spearman, Kendall이 고안한 비모수적 방법인 순위상관분석을 사용 

귀무가설 H<sub>0</sub> : 두 변수는 선형의 상관관계가 없다  
대립가설 H<sub>1</sub> : 두 변수는 선형의 상관관계가 있다

가정

- Observations in each sample are independent and identically distributed (iid).
- Observations in each sample can be ranked.

In [6]:
df = pd.read_csv('data/6_spearman.csv')
df.head()

Unnamed: 0,Age,SBP
0,15,116
1,15,130
2,25,120
3,30,132
4,40,160


In [7]:
print(stats.spearmanr(df.Age.values, df.SBP.values))
print(stats.kendalltau(df.Age.values, df.SBP.values))

SpearmanrResult(correlation=0.8406680016960504, pvalue=0.03605757284515918)
KendalltauResult(correlation=0.6900655593423541, pvalue=0.05578260870684413)


Spearman의 상관계수는 rho는 0.841로 Age(나이)가 증가할수록 SBP(수축기 혈압)는 유의하게 증가하는 경향이 있다고 말할 수 있다. (p=0.036<0.05)  
그러나 또 다른 비모수적인 상관계수인 Kendall의 tau-b는 0.690으로 계산되었지만 통계적으로 유의성은 보여주지는 못했다. (p=0.056 > 0.05)