# 상관계수
상관계수는 두 변수 간의 선형적 관계의 강도와 방향을 나타내는 지표입니다. 가장 대표적인 상관계수는 ```피어슨 상관계수(Pearson correlation coefficient)```로, 두 변수의 공분산을 각 변수의 표준편차의 곱으로 나눈 값으로 정의됩니다.

In [25]:
import numpy as np

X = np.array([1, 2, 3, 4, 5])
Y = np.array([2, 4, 5, 4, 5])

mean_x = X.mean()
mean_y = Y.mean()

# 공분산
covariance = sum((X - mean_x) * (Y - mean_y)) / (5 - 1)
covariance

# 각각의 표준편차
std_x = np.sqrt(sum((X - mean_x) ** 2) / 4)
std_y = np.sqrt(sum((Y - mean_y) ** 2) / 4)

# ~1 ~ 1 상관계수
# 1에 가까울수록 강한 양의 상관관계
# -1에 가까울수록 강한 음의 상관관계 -> 하나는 올라가는데 하나는 떨어지는거
# 0에 가까울수록 상관 X

# 주로 0.3보다 크면 어느정도 관계가 있다, 0.7보다 크면 아주 강한 상관관계가 있다.
correlation = covariance / (std_x * std_y)
correlation

0.7745966692414834

In [33]:
from scipy.stats import pearsonr
pearsonr(X, Y)

# pvalue 값이 낮아야 신뢰도가 있다.
# 높으면 우연 일 수도 ...

PearsonRResult(statistic=0.7745966692414835, pvalue=0.12402706265755456)

## 피어슨 상관계수 (Pearson Correlation Coefficient)
* 선형 관계: 두 변수 간의 관계가 직선(linear) 형태일 때 사용합니다.
* 연속형 변수: 데이터가 연속형이며, 정규분포를 따르는 경우에 적합합니다.
* 등간척도: 변수들이 등간척도(interval scale)일 때 적합합니다.

In [4]:
import matplotlib.pyplot as plt
import koreanize_matplotlib
import scipy.stats as stats

X = np.array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ,
       0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606,
       0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215,
       0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443,
       0.63992102, 0.14335329, 0.94466892, 0.52184832, 0.41466194])

Y = np.array([1.18407063e+00, 1.35616223e+00, 1.43250221e+00, 9.44329799e-01,
       8.51885450e-01, 1.27306984e+00, 1.02845234e+00, 1.93048188e+00,
       1.94282026e+00, 8.04699290e-01, 1.49467150e+00, 8.59710193e-01,
       1.10129791e+00, 1.86682817e+00, 2.65101184e-01, 2.94496584e-01,
       1.70411314e-03, 1.63500942e+00, 1.45145821e+00, 1.59802250e+00,
       1.78660967e+00, 1.79339467e+00, 8.71993506e-01, 1.51725092e+00,
       1.11269316e-01, 1.35759108e+00, 1.25316790e-01, 1.86806381e+00,
       9.54149987e-01, 8.68014130e-01])

## 스피어만 상관계수 (Spearman Rank Correlation Coefficient)
* 순위 기반 관계: 데이터의 순위를 기반으로 두 변수 간의 단조(monotonic) 관계를 평가할 때 사용합니다.
* 비선형 관계: 관계가 반드시 선형적이지 않더라도 단조적인(즉, 증가하거나 감소하는) 경향이 있는 경우 적합합니다.
* 비정규분포: 데이터가 정규분포를 따르지 않거나 이상치(outlier)에 민감할 때도 사용됩니다.

In [5]:
from scipy.stats import spearmanr

X = np.array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30])

Y = np.array([0.17640523, 0.7331629 , 1.19648609, 1.61038368, 1.79619371,
       1.69403168, 2.04091899, 2.06430582, 2.18690269, 2.34364494,
       2.41229963, 2.630334  , 2.64105313, 2.65122483, 2.75243652,
       2.80595615, 2.98262125, 2.86985593, 2.97574575, 2.9103227 ,
       2.78922346, 3.15640431, 3.22193784, 3.10383733, 3.44585129,
       3.11265997, 3.30041272, 3.31348613, 3.52057375, 3.54813326])

## 켄달의 타우 (Kendall's Tau)
* 순위 일관성 평가: 두 변수 간 순위의 일관성을 평가할 때 사용합니다.
* 소규모 데이터: 샘플 크기가 작거나, 순위가 많이 겹치는(tied ranks) 경우에 적합합니다.
* 비모수적 방법: 데이터의 분포에 대한 가정 없이 순위 관계만 평가하므로 비모수적(non-parametric) 방법입니다.

In [11]:
from scipy.stats import kendalltau

* Pandas의 상관 계수 함수

In [12]:
import seaborn as sns

## 연습문제
1. 두 변수 X와 Y가 주어졌을 때, 피어슨 상관계수를 구하여 두 변수 간의 선형 관계의 강도와 방향을 해석하세요.

* X: [1, 2, 3, 4, 5]
* Y: [2, 4, 5, 4, 5]

2. 다음 데이터는 선형 관계는 아닐 수 있지만 단조(monotonic) 관계를 가집니다. 두 변수의 순위를 고려하여 스피어만 상관계수를 구하고, 그 결과를 해석하세요.

* X: [1, 2, 3, 4, 5]
* Y: [3, 1, 4, 2, 5]

3. 다음 데이터는 동점(같은 값)이 포함된 순위 데이터입니다. 켄달의 타우 상관계수를 구하여 두 변수 간의 순위 일관성을 평가하세요.

* X: [1, 2, 2, 3, 4, 5, 5]
* Y: [5, 3, 3, 4, 2, 1, 1]