#### 상관계수 검정
- 두 변수 간의 선형적 관계를 확인하는 방법
- 두 변수 간의 연관성 정도를 파악 가능

In [17]:
# 가설 설정
    # 귀무가설: 두 변수는 선형적 관계가 없다.
    # 대립가설: 두 변수는 선형적 관계가 있다.
    
# 두 변수 간 피어슨 상관계수 계산
    # from scipy.stats import pearsonr
    # statistic, p_value = pearsonr(df['변수1'], df['변수2'])

# 두 변수 간 스피어맨 순위 상관계수 계산
    # from scipy.stats import spearmanr
    # statistic, p_value = spearmanr(df['변수1'], df['변수2'])

# 두 변수 간 켄달 타우 상관계수 계산
    # from scipy.stats import kendalltau
    # statistic, p_value = kendalltau(df['변수1'], df['변수2'])


In [3]:
import pandas as pd
# 주어진 데이터
data = {
    '키': [150, 160, 170, 175, 165],
    '몸무게': [42, 50, 70, 64, 56]
}
df = pd.DataFrame(data)

# 상관계수 계산
correlation = df.corr()
print(correlation)

            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000


In [5]:
correlation.iloc[0, 1]

0.9195090879163764

In [8]:
df['키'].corr(df['몸무게'])
df['몸무게'].corr(df['키'])

0.9195090879163765

In [13]:
# 상관계수 변경하기

# 1 피어슨 상관계수 (기본값)
print('---- 피어슨')
print(df.corr())

# 2 스피어맨 상관계수
print('----스피어맨')
print(df.corr(method='spearman'))

# 3 켄달타우 상관계수
print('----켄달타우')
print(df.corr(method='kendall'))

---- 피어슨
            키       몸무게
키    1.000000  0.919509
몸무게  0.919509  1.000000
----스피어맨
       키  몸무게
키    1.0  0.9
몸무게  0.9  1.0
----켄달타우
       키  몸무게
키    1.0  0.8
몸무게  0.8  1.0


In [16]:
# 각 방법에 대해서 p-value까지 확인하기
# from scipy.stats import pearsonr, spearmanr, kendalltau

from scipy.stats import pearsonr, spearmanr, kendalltau

print('---- 피어슨')
print(pearsonr(df['몸무게'], df['키']))

print('----스피어맨')
print(spearmanr(df['몸무게'], df['키']))

print('----켄달타우')
print(kendalltau(df['몸무게'], df['키']))


---- 피어슨
PearsonRResult(statistic=0.9195090879163765, pvalue=0.02707945689558949)
----스피어맨
SignificanceResult(statistic=0.8999999999999998, pvalue=0.03738607346849874)
----켄달타우
SignificanceResult(statistic=0.7999999999999999, pvalue=0.08333333333333333)
