# 파이썬 기반의 AI를 위한 기초수학, 확률및통계

In [1]:
## 강봉주 
## bonjour.kang@gmail.com
##
## 상관분석
##

In [2]:
# 필요한 패키지
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

import scipy.stats as ss

import seaborn as sns

# 한글출력
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

sns.__version__

'0.9.0'

In [3]:
# 데이터 구성: [HOUSING]

# 경로 정의
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data"
df = pd.read_csv(url, sep=r'\s+', header=None)

# 컬럼 정보 주기
df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX',
              'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
df.columns = df.columns.str.lower()

# 데이터 확인
df.shape

(506, 14)

In [4]:
# 표본 상관계수의 계산
xvars = ['rm', 'medv']
print(df[xvars].corr().round(3))

         rm   medv
rm    1.000  0.695
medv  0.695  1.000


In [5]:
# 표본 상관계수의 계산
vars = ['rm', 'age', 'dis', 'medv']
print(df[vars].corr().round(3))

         rm    age    dis   medv
rm    1.000 -0.240  0.205  0.695
age  -0.240  1.000 -0.748 -0.377
dis   0.205 -0.748  1.000  0.250
medv  0.695 -0.377  0.250  1.000


In [6]:
# 표본 상관계수의 추론
# 대상 변수 정의
vars = ['rm', 'medv']

# 표본 상관계수 계산
r = df[vars].corr().iloc[0, 1]
r.round(3)

0.695

In [7]:
# t 변환
n = len(df)
t = np.sqrt(n-2) * r / np.sqrt(1 - r**2)
t.round(3)

21.722

In [8]:
# p-value 계산
pvalue = 2 * (1-ss.t.cdf(t, df= n-2))
pvalue.round(5)

0.0

In [9]:
# 결과 확인
np.round(ss.pearsonr(df['rm'], df['medv']), 3)

array([0.695, 0.   ])

In [10]:
# 상관계수의 신뢰 구간 계산
alpha = 0.05
n = len(df)

# z 변환
z = 1/2*np.log((1+r)/(1-r))
z_lower = z - ss.norm.ppf(1-alpha/2)*np.sqrt(1/(n-3))
z_upper = z + ss.norm.ppf(1-alpha/2)*np.sqrt(1/(n-3))

# z의 역변환
np.round([np.tanh(z_lower), np.tanh(z_upper)], 3)

array([0.647, 0.738])