## 상관분석

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [2]:
import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
%matplotlib inline

In [3]:
# 한글 문제
# matplotlib의 기본 폰트에서 한글이 지원되지 않기 때문에
# matplotlib의 폰트 변경 필요
import platform

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

if platform.system() == 'Darwin':  # 맥OS 
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':  # 윈도우
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system...  sorry~~~')

In [4]:
df = pd.read_csv("./data/일별_금은달러.csv")
df

Unnamed: 0,일자,금값,은값,달러 환율
0,2020.08.07,78538.9,27.53,1188.5
1,2020.08.06,78009.22,28.39,1185.5
2,2020.08.05,77748.0,26.88,1188.0
3,2020.08.04,75873.57,26.01,1194.5
4,2020.08.03,75761.76,24.39,1195.7
5,2020.07.31,75628.9,24.19,1191.0
6,2020.07.30,75110.59,23.34,1196.0
7,2020.07.29,75110.45,24.3,1194.0
8,2020.07.28,74342.85,24.27,1199.5
9,2020.07.27,74332.14,24.48,1197.0


In [5]:
df.sort_values(by='일자', inplace=True)
df.head(2)

Unnamed: 0,일자,금값,은값,달러 환율
27,2020.06.30,68559.78,18.54,1203.0
26,2020.07.01,68941.28,18.13,1203.5


In [6]:
from scipy.stats import pearsonr

In [None]:
# H0 : 서로 독립적이다
# H1 : 서로 독립적이지 않고 상관관계가 존재함

In [7]:
# 피어슨 상관계수 

pearsonr(df['금값'], df['은값'])
pearsonr(df['금값'], df['달러 환율'])
pearsonr(df['은값'], df['달러 환율'])

# 모두 유의미한 상관관계가 있음

PearsonRResult(statistic=0.9718640116033497, pvalue=7.508878356556939e-18)

PearsonRResult(statistic=-0.6793266264341937, pvalue=7.033325258452261e-05)

PearsonRResult(statistic=-0.6954569556203561, pvalue=3.989042061957927e-05)

In [3]:
# 스피어만 상관계수


In [4]:
# 상관행렬 : pearson


In [5]:
# 상관행렬 : spearman


In [None]:
#####################################################################################

### 다중공선성 (Multicollinearity)
- 독립변수간 상관관계를 보이는 것 
- 회귀분석에서 다중공선성 존재 시 부정확한 회귀 결과 도출 가능성 높음 
- 다중공선성 확인 방법
    - (1) 시각화 : 산점도나 Heatmap 사용
    - (2) VIF(Variance Inflation Factors : 분산팽창요인) 사용
        - 보통 VIF가 10이 넘으면 다중공선성이 존재한다고 판단
- 다중공선성 해결 방법
    - (1) 정규화(표준화)  
    - (2) 상관관계가 높은 변수 삭제 
    - (3) PCA(Principal Component Analysis : 주성분분석) 방법

In [None]:
# 보스턴 주택 데이터셋 사용 

In [24]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

boston_df = df_pop = pd.read_csv('../data/boston_dataset.csv', index_col=0) 
boston_df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


### (1) 시각화 : 산점도나 Heatmap 사용

### (2) VIF(Variance Inflation Factors : 분산팽창요인) 사용
- 보통 VIF가 10이 넘으면 다중공선성이 존재한다고 판단

### 다중공선성 해결 방법

### (1) 정규화(표준화) 수행 

### (2) 상관관계가 높은 변수 삭제

### (3) PCA(Principal Component Analysis : 주성분분석) 방법
- PCA는 지난 노트 참고할 것 