In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

%precision 5
plt.rcParams["font.family"] = 'Malgun Gothic'

# 상관분석(Correlation Analysis)

- 목적 : 두 변수간에 선형 관계를 파악


- 산점도(scatterplot)로 시각화


- 상관계수 종류
    - 수치형 변수 : 피어슨(Pearson) 상관계수
    - 서열형 변수 : 스피어만(Spearman) 상관계수, 켄달(Kendall)의 Tau
    - 범주형 변수 : Phi 상관계수, Cramer's V 계수

## 두 변수의 선형관계 시각화

### 예제. iris datatset

### 1) 산점도(scatterplot)

### 2) 산점도 행렬(scatter plot matrix)

- 여러 개의 연속형 변수에 대해서 두 변수씩 쌍을 이루는 산점도를 그려 한꺼번에 변수 간 관계를 일목요연하게 볼 수 있음

###  ① seaborn.pairplot()

- 형식 : pairplot(data, hue=None, hue_order=None, palette=None, vars=None, x_vars=None, y_vars=None, kind='scatter', diag_kind='auto', markers=None, height=2.5, aspect=1, corner=False, dropna=False, plot_kws=None, diag_kws=None, grid_kws=None, size=None)


- https://seaborn.pydata.org/generated/seaborn.pairplot.html#seaborn.pairplot

#### pairplot()의 인수를 이용한 산점도 행렬1
- diag_kind='hist'를 설정하여 대각원소 자리에 각 변수별 히스토그램 그리기

#### pairplot()의 인수를 이용한 산점도 행렬2
- diag_kind='kde' : 각 변수별 커널밀도추정곡선 그림
- hue='species' : 'species'(setosa, versicolor, virginica) 별로 색깔을 다르게 표시
- 색깔은 palette 에 'bright', 'pastel', 'deep', 'muted', 'colorblind', 'dark' 중에서 가독성이 좋고 선호하는 색상으로 선택 

### ② pandas.plotting 의 scatter_matrix() 함수

- 형식 : scatter_matrix(frame, alpha=0.5, figsize=None, ax=None, grid=False, diagonal='hist', marker='.', density_kwds=None, hist_kwds=None, range_padding=0.05, **kwargs)


- https://pandas.pydata.org/docs/reference/api/pandas.plotting.scatter_matrix.html

-----------------------------------------

### 상관계수 계산 함수

#### ① pandas의  corr() 함수
- 형식 : DataFrame.corr(method='pearson', min_periods=1)
    - method : 'pearson', 'kendall', 'spearman'
        - pearson : standard correlation coefficient
        - kendall : Kendall Tau correlation coefficient
        - spearman : Spearman rank correlation
    - min_periods : Minimum number of observations(for Pearson and Spearman correlation)


- 반환값 : 상관계수 행렬(데이터프레임)


- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html

#### ② scipy.stats.pearsonr( )함수

- 두 변수의 피어슨 상관계수와 p값


- 형식 : pearsonr(x, y, *, alternative='two-sided')
    - x, y : 1차원
- 반환값 : (피어슨상관계수, p값)


- https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html

#### ③ scipy.stats.spearmanr( )함수

- Spearman 상관계수와 p값
    - 순서형 척도 간의 상관계수
    - 두 수치형 변수의 정규성 가정이 만족하지 않을 경우 상관계수

- 형식 : spearmanr(a, b=None, axis=0, nan_policy='propagate', alternative='two-sided')
    - a,b : 1차원 또는 2차원 배열
- 반환값 : (Spearman상관계수, p값)


- https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html

#### ④ scipy.stats.kendalltau( )함수

- 두 변수의 Kendall의 tau와 p값
    - 순서형 척도 간의 상관계수

- 형식 : kendalltau(x, y, **kargs, alternative='two-sided')
- 반환값 : (Kendall's tau, p값)


- https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html

### Pearson Correlation

- 가설
    - 귀무가설(H0): $ \rho = 0$ (두 변수 간에 선형적 상관관계가 없다)
    - 대립가설(H1): $ \rho \ne 0$ (두 변수 간에 선형적 상관관계가 있다)


- 가정 : 두 변수가 이변량 정규분포를 한다
    - 두 변수 중 적어도 하나의 변수는 정규분포일 것

- 상관계수: -1 ~ +1
    - 1에 가까울 수록 양의 상관관계가 강하다고 함
    - -1에 가까울수록 음의 상관관계가 강하다고 함
    - 0에 가까울수록 상관관계가 약하다고 함

-------------------------------

## 상관계수 행렬의 시각화

- 히트맵(heatmap)을 사용

### seaborn의 heatmap() 함수

- 범주형-범주형-수치형 자료의 시각화
    - X축과 Y축에 2개의 범주형 자료의 계급(class)별로 연속형 자료를 집계한 자료의 시각화
- 집계한 값에 비례하여 색깔을 다르게 해서 2차원으로 자료를 시각화


- 형식 : heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None, linewidths=0, linecolor='white', cbar=True, cbar_kws=None, cbar_ax=None, square=False, xticklabels='auto', yticklabels='auto', mask=None, ax=None, **kwargs)


- https://seaborn.pydata.org/generated/seaborn.heatmap.html#seaborn.heatmap

#### heatmap()의 annot, fmt 인수
- annot=True : 히트맵의 각 셀에 값 표시
- fmt='d' or 'f' : 히트맵에 표시하는 값의 서식(format) 지정 (정수, 실수)

#### sns.heatmap()함수의 cmap인수 사용하여 다른 color map 지정

- color maps in Matplotlib 링크 참고: 
- https://matplotlib.org/stable/tutorials/colors/colormaps.html

---------------------------------