In [23]:
import pandas as pd
import numpy as np

from sklearn.datasets import load_diabetes

from scipy.stats import pearsonr

#### 상관분석

In [24]:
diabetes = load_diabetes()

x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']

print(x.head())
print(y.head())

        age       sex       bmi        bp        s1        s2        s3  \
0  0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401   
1 -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412   
2  0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356   
3 -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038   
4  0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142   

         s4        s5        s6  
0 -0.002592  0.019907 -0.017646  
1 -0.039493 -0.068332 -0.092204  
2 -0.002592  0.002861 -0.025930  
3  0.034309  0.022688 -0.009362  
4 -0.002592 -0.031988 -0.046641  
   target
0   151.0
1    75.0
2   141.0
3   206.0
4   135.0


In [25]:
# 상관분석을 진행할 독립변수와 종속변수 선정
x = x['bmi']
y = y['target']

print(x.head())
print(y.head())

0    0.061696
1   -0.051474
2    0.044451
3   -0.011595
4   -0.036385
Name: bmi, dtype: float64
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [31]:
r, pvalue = pearsonr(x, y)

# 가설 설정
# 귀무가설(H0) : 두 변수 간의 선형관계가 존재하지 않는다 (p = 0)
# 대립가설(H1) : 두 변수 간의 선형관계가 존재한다 (p <> 0)

# 1. 상관계수
print(round(r,2))

# 2. p-value
print(round(pvalue,3))

if int(pvalue) > 0.05 :
  print('두 변수 간 선형관계가 존재하지 않는다')
else :
  print('두 변수 간 선형관계가 존재한다')

0.59
0.0
두 변수 간 선형관계가 존재한다


In [30]:
# 검정통계량
# 통계량은 별도로 구해야 한다! (T = r*root(n-2)/root(1-r^2))

n = len(x)
r2 = r**2

statistic = r*(n-2)**0.5 / (1-r2)**0.5

print(round(statistic,2))

# 통계량이 크면 p-value 값이 작아지므로 귀무가설 기각 -> 즉, 선형관계가 있다!

15.19
