#### 【 Contingency & Chramers Coefficient 】
- 범주형 ↔ 범주형 관계성 계산
- 카이제곱기반 통계량
- Chremers가 표준으로 사용됨

In [3]:
## ======================================================
## 모듈 로딩
## ======================================================
import numpy as np
import pandas as pd
from scipy.stats import chi2_contingency

In [4]:
## ======================================================
## 함수이름 : cramers_v
## 매개변수 : confusion_matrix
## 반환결과 : 연관성 강도를 0~1 사이 반환
## ======================================================
def cramers_v(confusion_matrix):
    # 카이제곱 계산
    chi2, _, _, _ = chi2_contingency(confusion_matrix)
    n = confusion_matrix.sum()
    k = min(confusion_matrix.shape)
    return np.sqrt(chi2 / (n* (k-1)))

## ======================================================
## 함수이름 : contingency_coefficient
## 매개변수 : confusion_matrix
## 반환결과 : 0 ~ C_max. C_max는 1보다 작고 테이블 크기에 따라 달라짐
## ======================================================
def contingency_coefficient(confusion_matrix):
    chi2, _, _, _ = chi2_contingency(confusion_matrix)
    n = confusion_matrix.sum()
    return np.sqrt(chi2 / (chi2 + n))


In [5]:
# 테스트용 교차표 (성별 ↔ 구매 여부)
data = np.array([
    [30,20],    # 남 : 구매 / 미구매
    [50,40]     # 여 : 구매 / 미구매
])

print("Cramer's    V :", cramers_v(data))
print("Contingency C :", contingency_coefficient(data))

Cramer's    V : 0.02797154638927578
Contingency C : 0.027960610233708567


In [None]:
## ======================================================
## 둘 다 거의 0에 매우 가깝다
## 즉, 이 예시 데이터에서는
##      → 성별과 구매 여부의 연관성이 거의 없다.
##      → 성별에 따라 구매율이 크게 달라진다고 보기 어렵다는 의미
## ======================================================