# 상관분석

## 피어슨 상관계수 (Pearson Correlation Coefficient)

**연속형** 변수 간의 선형 관계를 측정한다.  두 변수의 공분산을 각 변수의 표준편차로 나누어 계산
즉, **두 변수가 얼마나 함께 변하는지를 표준편차를 통해 정규화한 값**

- 𝑟 = 1: 완전한 양의 상관관계
- 𝑟 = −1: 완전한 음의 상관관계
- 𝑟 = 0: 상관관계 없음

In [1]:
import pandas as pd
from scipy.stats import pearsonr

# 예시 데이터
data = {
    'height': [160, 165, 170, 175, 180],
    'weight': [50, 55, 65, 70, 80]
}
df = pd.DataFrame(data)

# 피어슨 상관계수 계산
corr, p_value = pearsonr(df['height'], df['weight'])

print(f"피어슨 상관계수: {corr:.2f}")
print(f"p-값: {p_value:.4f}")


피어슨 상관계수: 0.99
p-값: 0.0006


## 스피어만 상관계수 (Spearman's Rank Correlation Coefficient)

**순위형** 변수 간의 관계 측정한다. 비선형 관계일 경우에도 사용 가능하다.
각 변수의 순위를 매긴 후, 그 순위들 간의 상관계수를 계산 한다.

- 𝑟𝑠 = 1: 완전한 양의 상관관계
- 𝑟𝑠 = −1: 완전한 음의 상관관계
- 𝑟𝑠 = 0: 상관관계 없음

비선형 관계와 이상치에 민감하지 않지만, 데이터의 순위 정보만 사용하여 정보 손실이 발생할 수 있음 (원래 데이터의 크기 정보 등)

예시: 학생 성적 순위와 스포츠 성적 순위 간의 관계.

In [2]:
import pandas as pd
from scipy.stats import spearmanr

# 데이터프레임 구성
data = {
    'student': ['A', 'B', 'C', 'D', 'E'],
    'academic_rank': [1, 2, 3, 4, 5],
    'sports_rank': [4, 2, 1, 3, 5]
}
df = pd.DataFrame(data)

# 스피어만 상관계수 계산
rho, pval = spearmanr(df['academic_rank'], df['sports_rank'])

print(f"스피어만 상관계수: {rho:.3f}")
print(f"p-value: {pval:.4f}")


스피어만 상관계수: 0.300
p-value: 0.6238
