# 7. 상관관계 분석
## 7.1 상관관계 분석 기초
### 1. 상관관계 분석의 개요
* 변수들간의 얼마나 밀접한 관계를 가지고 있는가를 분석하는 통계기법으로 분석에 활용되는 변수에 따라 상관관계 분석의 종류가 달라짐

상관관계 분석|변수 특성|분석 목적
---|---|---
피어슨 상관관계 분석|수치형 변수간의 개별 상관관계 파악|수치형 변수로 이루어진 두 변수간의 선형적 연관성 파악(예: 개인 소득수준과 외식 빈도간의 연관성)
스피어만 서열 상관관계 분석|순서형 변수간의 개별 상관관계 파악|서열척도로 이루어진 두 변수간의 연관성 파악(예: 입학 석차와 졸업 석차 간의 연관성)
정준상관분석|변수 그룹간의 상관관계 파악|변수들의 군집 간 선형 상관관계 파악(예: 다수의 변수로 이루어진 고객만족 수준과 다수의 변수로 이루어진 고객충성도 수준 간의 연관성)

* 두 변수 사이에 밀접한 관계가 있는 예
    * 방문횟수가 많으면 매출액은 증가할 것이다.
    * 기온이 높으면 높을수록 아이스크림 판매량은 증가할 것이다.
    * 소비자의 가격에 대한 인지와 품질 인지 사이에는 관계가 있을 것이다.

## 7.2 수치형 변수의 상관관계 분석
### 1. 수치형 변수의 상관관계 분석 개요
* 수치형 변수로 이루어진 두 변수간의 선형적 연관성을 계량적으로 파악하기 위한 통계기법, 피어슨 상관분석을 주로 이용
* 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정하는 단순상관분석(simple correlations analysis), 3개 이상의 변수들간의 관계에 대한 강도를 측정하는 다중상관분석(multiple correlation)이 있음.
* 다중상관분석에서 다른 변수들과의 관계는 고정되고 두 변수만의 순수한 상관관계에 대한 강도를 나타내는 것을 편(부분)상관관계(partial correlation)이라고 함.

![image.png](attachment:image.png)

### 2. 공분산과 상관계수
* 수치형 변수간의 상관관계를 나타내는 지표는 공분산과 상관계수가 있음.
* 공분산: 등간이나 비율척도로 측정된 **두 변수 간의 공통된 분포를 나타내는 분산**으로 두 변수 간의 선형적인 연관성 정도를 나타내는 대표적인 지표

![image-2.png](attachment:image-2.png)

* 피어슨 상관계수: 공분산을 각 변수의 표준편차의 곱으로 표준화한 값
* 범위: -1에서 1까지의 값을 가짐(+-1에 가까울수록 상관관계는 높아짐)

![image-3.png](attachment:image-3.png)

### 3. 수치형 변수의 상관관계 분석지표의 분석지표
* 수치형 변수의 상관관계 분석을 수행할 경우 결과 해석을 위해 학인해야 할 지표로는 피어슨 상관계수와 유의확률이 있음.

주요 지표|의미|예시
피어슨 상관계수|두 수치형 변수의 선형적 강도와 방향을 나타냄|Pearson=0.64 -> 거래기간과 교차구매지수의 상관계수는 0.64로 양의 상관관계를 가짐
Pr > |t|(유의확률)|귀무가설이 사실임에도 불구하고, 연구가설을 채택할 확률|Pr=0.00 -> 유의확률이 0.00이고, 이는 연구자가 지정한 유의수준 0.05보다 작기 때문에 귀무가설을 기각(거래기간과 교차구매지수는 선형적 관계를 가지고 있다고 할 수 있음).

### 수치형 변수의 상관관계 분석 실습

A쇼핑은 매출액과 높은 연관성을 지닌 고객 행태 변수가 무엇인지 파악하고자 하며,이를 위해 일차적으로 방문 빈도와 구매 카테고리 수라는 변수를 선별하였다. 상관관계 분석을 위한 귀무가설과 연구가설은 다음과 같다.

* H0 = 총 매출액과 방문빈도, 구매 카테고리수 간의 선형적인 관계가 존재하지 않는다.
* H1 = 총 매출액과 방문빈도, 구매 카테고리 수 간의 선형적인 관계가 존재한다.

In [9]:
import pandas as pd
from scipy import stats

df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')
df1 = df[['총_매출액', '방문빈도', '구매_카테고리_수']]

# 피어슨 상관계수 출력
print(f'상관계수, 유의확률: {stats.pearsonr(df1.총_매출액, df1.방문빈도)}')
print(f'상관계수, 유의확률: {stats.pearsonr(df1.총_매출액, df1.구매_카테고리_수)}')
print(f'상관계수, 유의확률: {stats.pearsonr(df1.방문빈도, df1.구매_카테고리_수)}')

상관계수, 유의확률: PearsonRResult(statistic=0.6311706453193395, pvalue=3.05196044968719e-112)
상관계수, 유의확률: PearsonRResult(statistic=0.30834691323967117, pvalue=1.812142275681251e-23)
상관계수, 유의확률: PearsonRResult(statistic=0.39586072218464485, pvalue=7.345432750388509e-39)


* 총매출액, 방문빈도의 상관계수: 0.63 -> 양의 상관계수
* 총매출액, 구매 카테고리수의 상관계수: 0.30 -> 낮은 상관계수
* 방문빈도, 구매 카테고리수의 상관계수: 0.40 -> 낮은 상관계수
* 유의확률은 모두 0.0001 이하

### 상관관게 테이블 출력력

In [10]:
df1.corr(method='pearson')

Unnamed: 0,총_매출액,방문빈도,구매_카테고리_수
총_매출액,1.0,0.631171,0.308347
방문빈도,0.631171,1.0,0.395861
구매_카테고리_수,0.308347,0.395861,1.0


## 7.3 편(부분)상관관계 분석
### 1. 편(부분) 상관관계 분석 개요
* 제 3의 변수를 등제하고 수치형 변수들 간의 상관관계를 검증하는 분석기법
* 앞서 설명한 수치형 변수의 상관관계 분석과 동일하게 수치형으로 이루어진 변수들간의 선형적인 상관관계를 검증하는 방법이지만 제 3의 변수를 통제한다는 점에서 차이가 있음

![image.png](attachment:image.png)

### 2. 편(부분) 상관계수 
* 수치형 변수의 상관관계 분석과 동일하게 수치형으로 이루어진 변수들간의 선형적인 상관관계를 검증하는 방법이지만 제 3의 변수를 통제한다는 점에서 차이가 있음.
* 특정 두 변수의 순수한 상관관계를 확인하고자 할 때 특정 두 변수에 영향을 미치는 변수를 제 3의 변수라고 하며 제 3의 변수를 통제하거나 효과를 제거한 후 특정 두 변수의 상관관계 분석을 수행

![image-2.png](attachment:image-2.png)

### 3. 편(부분)상관관계 분석의 분석지표
* 편(부분) 상관관계 분석을 수행할 경우 결과 해석을 위해 확인해야 할 지표로는 피어슨 상관계수와 유의확률이 있음.

![image-3.png](attachment:image-3.png)

### 편(부분) 상관관계 분석 실습습

In [11]:
from pingouin import partial_corr

# 편상관계수 출력
partial_corr(data=df1, x='총_매출액', y='방문빈도', covar='구매_카테고리_수')

Unnamed: 0,n,r,CI95%,p-val
pearson,1000,0.582794,"[0.54, 0.62]",6.223289e-92


* n: 데이터 개수, r: 상관계수, CI95%: 신뢰구간(0.56<x<0.62), p-val<=0.001

### 결과 해석
* 총 매출액과 방문빈도 간의 상관계수: 0.583 -> 총 매출액과 방문빈도간의 상관관계는 여전히 유의함, 구매카테고리 수를 통제하지 않은 상태에서의 총 매출액과 방문빈도와의 상관계수인 0.631보다는 상관계수가 약해짐짐

## 7.3. 순서형 변수의 상관관계 분석
### 1. 순서형 변수의 상관관계 분석 개요
* 순서형 변수의 상관관계 분석 이론
    * 서열 상관관계 분석이라고 하며 순서형 변수로 이루어진 두 변수간의 서열 상관관계를 검정하는 분석 방법
    * 피어슨 상관계수와 마찬가지로 -1값에서 1사이의 값을 가짐.
    * 서열 상관계수가 1이면 두 변수의 서열이 완벽히 일치한다는 의미이며, -1값을 가질 경우 두 변수의 서열이 완전히 반대임.

![image.png](attachment:image.png)

### 2. 순서형 변수의 상관관계 분석의 분석지표
* 순서형 변수의 상관관계 분석을 수행할 경우 결과 해석을 위해 확인해야 할 지표는 스피어만 상관계수와 유의확률이 있음

![image-2.png](attachment:image-2.png)

### 순서형 상관관계 분석 실습

A쇼핑은 고객들의 객단가 즉, 1회 평균매출액이 높은 고객 100명과 방문빈도가 높은 고객 100명을 선별하여 특별한 사은행사를 기획하고자 한다. 두 가지 변수를 기준으로 순위를 선정하였을 때 선별된 고객들이 동질적이라면 구태여 두 가지 기준으로 고객을 추출하지 않아도 될 것이다. 이를 위해 수립된 가설은 다음과 같다.

H0 = A쇼핑 고객들의 1회 평균 매출액 순위와 방문 빈도 순위는 연관성이 없다.
H1 = A쇼핑 고객들의 1회 평균 매출액 순위와 방문 빈도 순위는 연관성이 있다.

In [None]:
df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')
df1 = df[['1회_평균매출액', '방문빈도']]

# 스피어만 상관계수 출력
stats.spearmanr(df1['1회_평균매출액'], df1['방문빈도'])

SignificanceResult(statistic=-0.4988411248473936, pvalue=4.929293870381245e-64)

### 결과 해석

* 두 변수간의 상관관계는 -0.498(유의확률 0.001 이하)로 확인됨
* 즉, 두 서열변수간의 상관관계는 존재하지만, 상관관계의 방향이 음의 방향으로 결정됨
* 방문빈도가 높은 고객이 오히려 1회 평균 구매액 수준에서는 더 떨어지는 것으로 알 수 있음
* 따라서, 두 기준의 서열화된 고객목록이 상당히 달라질 것이므로, 캠페인 표적고객으로서 두 가지 기준을 각각 적용해보고, 중복된 고객목록을 제거한 후에 사은행사 초대권을 발송해야 할 것이다.

## 7.5 정준상관분석
### 1. 정준상관분석 개요
* 변량그룹 사이의 상관관계를 파악하고, 둘 사이에 상관성을 가장 잘 표현해주는 요인변수들의 선형 결합을 찾는 분석방법
* 사용되는 모든 변수들은 원칙적으로 연속형 이어야 하지만 범주형 변수일 경우 더미 변수화하여 분석에 사용할 수 있음

#### 정준 상관모형
* 가능한 모든 선형결합 중 두 변수 X, Y 간 상관계수를 최대화시키는 선형결합 X, Y를 찾음
* p, q개로 이루어진 두 변수 그룹 X와 Y가 있다고 할 때, X와 Y를 소속된 개별 변수들간의 선형결합으로 이루어진 정준변수라 함
* 정준변수 X와 Y사이의 상관변수 $\rho$: 정준상관계수
* 선형결합을 나타내는 개별 변수들의 계수: $\alpha_p$들과 $\beta_p$들: 정준계수
* 정준변수간 상관계수가 최대일 때 제1 정준상관계수, 이때 정준 변수를 제 1 정준변수라 함.

![image.png](attachment:image.png)

### 2. 정준상관분석의 분석지표
![image-2.png](attachment:image-2.png)

### 정준상관분석 실습

A쇼핑은 제품 만족도와 매장 만족도 사이에 연관이 있는지 알아보고 이를 마케팅 기획에 참고하고자 한다. 먼저, A쇼핑 마케팅 팀은 제품 만족도에 해당하는 가격, 디자인, 품질, 만족도와 매장 만족도에 해당하는 직원 서비스, 매장 시설, 고객관리 변수에 대한 만족도를 설문 조사한 후, 이 데이터를 바탕으로 제품 만족도 변수 그룹과 매장 만족도 변수 그룹으로 나눠 정준상관분석을 실시하고자 한다. 이를 위해 수립된 가설은 다음과 같다.

H0 = 제품 만족도는 매장 만족도와 연관성이 없다.
H1 = 제품 만족도는 매장 만족도와 유의한 상관관계를 가지고 있다. 

In [19]:
import numpy as np
from sklearn.cross_decomposition import CCA

df = pd.read_csv('CCA.csv', sep=',', encoding='CP949')
U = df[['품질', '가격', '디자인']]
V = df[['직원 서비스', '매장 시설', '고객관리']]
print("df:\n", df.head())

#정준 변수 구하기
cca = CCA(n_components=1).fit(U, V)
U_c, V_c = cca.transform(U, V)
U_c1 = pd.DataFrame(U_c)[0]
V_c1 = pd.DataFrame(V_c)[0]
print('U_c: ', U_c)
print('\nV_c: ', V_c)

df:
    품질  가격  디자인  직원 서비스  매장 시설  고객관리
0   8  10   71      72      9    27
1  83  21   94      63      7    77
2  81  62   74      96      7    32
3  75  74   98      96      3    55
4  34  76   98      84      6    95
U_c:  [[-0.55451512]
 [-0.12301628]
 [ 0.40708859]
 [ 1.4861872 ]
 [ 1.8393597 ]
 [-0.18638005]
 [-0.47604906]
 [-1.10459412]
 [-0.72231536]
 [ 0.02423555]
 [-0.69744765]
 [ 0.54958654]
 [-0.8098459 ]
 [ 0.36770595]]

V_c:  [[-0.29828858]
 [ 0.51338449]
 [ 0.95000731]
 [ 1.76514223]
 [ 1.81062484]
 [-0.74632557]
 [-1.67676657]
 [-1.00578133]
 [-1.40361614]
 [ 1.38766197]
 [-1.28827534]
 [-0.3120564 ]
 [ 0.23113188]
 [ 0.07315722]]


In [20]:
# 정준상관계수 구하기
CC1 = stats.pearsonr(U_c1, V_c1)
print('제1정준상관계수: ', CC1)

#4. 정준적재량, 교차적재량 구하기
print('제품 만족도 정준변수와 해당 변수들간 정준적재량:',np.corrcoef(U_c1.T, U.T)[0,1:4])
print('제품 만족도 정준변수와 매장 만족도 변수들간 교차적재량:',np.corrcoef(U_c1.T, V.T)[0,1:])
print('매장 만족도 정준변수와 해당 변수들간 정준적재량:',np.corrcoef(V_c1.T, V.T)[0,1:]) 
print('매장 만족도 정준변수와 제품 만족도 변수들간 교차적재량:',np.corrcoef(V_c1.T, U.T)[0,1:4])

제1정준상관계수:  PearsonRResult(statistic=0.7717687943183484, pvalue=0.0012226670192390233)
제품 만족도 정준변수와 해당 변수들간 정준적재량: [0.35045604 0.77461847 0.55191153]
제품 만족도 정준변수와 매장 만족도 변수들간 교차적재량: [ 0.70598452 -0.0438384   0.5889048 ]
매장 만족도 정준변수와 해당 변수들간 정준적재량: [ 0.91476168 -0.0568025   0.76305858]
매장 만족도 정준변수와 제품 만족도 변수들간 교차적재량: [0.27044132 0.5978383  0.42592516]


### 결과 해석
* 정준상관계수: 0.77, p-value: 0.00이하 -> 강한 양의 상관계수수