#### 상관관계 분석
* 상관관계 분석의 종류
  |상관관계 분석|변수 특성|분석목적|
  |:---:|:---:|---|
  |피어슨 상관관계 분석|수치형 변수간의 개별 상관관계 파악|수치형 변수로 이루어진 두 변수간의 선형적 연관성 파악|
  |스피어만 서열 상관관계 분석|순서형 변수간의 개별 상관관계 파악|서열척도로 이루어진 두 변수간의 연관성 파악|
  |정준상관분석|변수 그룹간의 상관관계 파악|변수들의 군집 간 선형 상관관계 파악|
* 수치형 변수의 상관관계 분석
  - 주로 피어슨 상관관계 분석 활용
  - 분석대상 변수가 2개인 경우: 단순 상관관계 분석(simple correlation analysis)
  - 분석대상 변수가 3개 이상인 경우: 다중 상관관계 분석(multiple correlation analysis)
    + 다중상관분석에서 다른 변수들과의 관계는 고정되고 두 변수만의 순수한 상관관계에 대한 강도를 나타내는 것을 편 혹은 부분 상관관계 분석(partial correlation)이라 함
  - 수치형 변수간의 상관관계를 나타내는 지표는 공분산(covariance)과 상관계수(correlation coefficient)가 있음
    + 공분산: 각 변수의 편차곱 합계에 대한 평균값 (이 값이 양수일 경우 양의 선형관계, 음수일 경우 음의 선형관계 존재)
    + 상관계수
      * 공분산 값은 두 변수의 측정 단위에 의존적이기 때문에 상관관계의 방향성만 알 수 있을 뿐, 그 값의 크기로 선형관계의 정도를 파악하기 어려움
      * 상관계수는 이러한 공분산의 단점을 보완
      * 피어슨 상관계수: 공분산을 각 변수의 표준편차 곱으로 표준화해 준 값이기 때문에 측정 단위와는 무관하게 -1에서 1까지의 일정한 범위의 값을 가지며 선형관계에 대한 방향성뿐만 아니라 강도까지도 나타냄
      * 상관계수 > 0 $\rightarrow$ 양의 상관관계, 상관계수 < 0 $\rightarrow$ 음의 상관관계, 상관계수 = 0 $\rightarrow$ 선형적인 상관관계 없음
* 편(부분) 상관관계 분석
  - 일반적인 다중 상관관계 분석을 통한 변수간의 상관계수는 특정 두 변수간의 순수한 상관관계를 나타낸다고 할 수 없음
  - 또 다른 제3의 변수가 두 변수의 연관성 자체에 영향을 줄 수 있기 때문 $\rightarrow$ 특정 변수의 영향을 제거한 상태에서의 두 변수간의 순수한 상관관계를 파악하기 위해선 편(부분) 상관관계 분석이라는 기법을 사용해야 함

In [2]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from scipy import stats

df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')
df1 = df[['총_매출액','방문빈도','구매_카테고리_수']]

In [3]:
# 피어슨 상관계수 출력
print(stats.pearsonr(df1.총_매출액, df1.방문빈도)) # 상관계수와 유의확률의 쌍으로 출력
print(stats.pearsonr(df1.총_매출액, df1.구매_카테고리_수))
print(stats.pearsonr(df1.방문빈도, df1.구매_카테고리_수))

(0.6311706453193395, 3.051960449687332e-112)
(0.3083469132396712, 1.8121422756812584e-23)
(0.39586072218464485, 7.345432750388936e-39)


In [4]:
# 상관관계 테이블 출력
df1.corr(method = 'pearson') # 유의확률은 출력 X, 순서형 변수면 spearman 지정

Unnamed: 0,총_매출액,방문빈도,구매_카테고리_수
총_매출액,1.0,0.631171,0.308347
방문빈도,0.631171,1.0,0.395861
구매_카테고리_수,0.308347,0.395861,1.0
