In [None]:
# 두 범주형 변수의 독립성 검정

In [12]:
import pandas as pd

# 범주형 데이터 예시
data = {
    'Sex': ['Male', 'Male', 'Male', 'Female', 'Female', 'Female',
            'Male', 'Female', 'Female', 'Male', 'Female', 'Male',
            'Male', 'Female', 'Female', 'Male', 'Female', 'Female'],
    'Preference': ['A', 'B', 'A', 'A', 'C', 'C',
                   'B', 'B', 'A', 'C', 'B', 'B',
                   'A', 'C', 'A', 'C', 'B', 'A']
}

df = pd.DataFrame(data)
df

Unnamed: 0,Sex,Preference
0,Male,A
1,Male,B
2,Male,A
3,Female,A
4,Female,C
5,Female,C
6,Male,B
7,Female,B
8,Female,A
9,Male,C


In [15]:
((df['Sex'] == 'Female') & (df['Preference'] == 'A')).sum()

4

In [10]:
# 카이제곱 검정은 2차원 행렬(교차표)을 입력으로 받는다.
# 2차원 빈도 행렬로 변경
contingency_table = pd.crosstab(df['Sex'], df['Preference'])
print(contingency_table)

Preference  A  B  C
Sex                
Female      4  3  3
Male        3  3  2


In [16]:
from scipy.stats import chi2_contingency # 데이터가 특정한 분포(예: 정규분포)를 따른다는 가정이 필요 없음.

# correction=False : 보정 없이 순수한 Pearson 카이제곱 통계량으로 검정 수행
chi2, p, dof, expected = chi2_contingency(contingency_table, correction=False)

print(f"Chi-squared Statistic: {chi2:.4f}")
print(f"p-value: {p:.4f}") # p-value ≥ 0.05 → 성별과 선호도는 독립적이다 (관련 없다)
print(f"Degrees of Freedom: {dof}")

# expected : 두 범주형 변수가 서로 독립적이라고 가정했을 때, 각 셀에서 기대되는 빈도수
# "두 변수가 아무 관계도 없다면 이 셀에 이 정도의 빈도수가 나올 것으로 기대된다"
print("Expected Frequencies:")
print(expected)

Chi-squared Statistic: 0.1221
p-value: 0.9408
Degrees of Freedom: 2
Expected Frequencies:
[[3.88888889 3.33333333 2.77777778]
 [3.11111111 2.66666667 2.22222222]]
