In [1]:
import numpy as np
import pandas as pd
from scipy import stats

## 🔹 [피셔의 정확 검정 실전 문제]

### 📝 문제:

한 병원에서 **신약 투여 여부와 부작용 발생 사이의 관계**를 조사하였다.  
다음은 신약을 투여한 그룹과 투여하지 않은 그룹 각각에서 부작용이 발생한 횟수이다:

| 그룹 | 부작용 발생 | 부작용 없음 | 합계 |
|------|-------------|--------------|------|
| 신약 투여 | 1           | 9            | 10   |
| 투여 안 함 | 8           | 2            | 10   |

→ **신약 투여와 부작용 발생은 관련이 있는가?** (유의수준 0.05)

In [2]:
df = pd.DataFrame(
    [
        [1, 9],
        [8, 2]
    ],
    columns=['부작용발생', '부작용없음'],
    index=['투여함', '투여안함']
)
df

Unnamed: 0,부작용발생,부작용없음
투여함,1,9
투여안함,8,2


In [None]:
H0 = '신약 투여와 부작용 발생은 관련이 없다 (독립적이다)'
H1 = '신약 투여와 부작용 발생은 관련이 있다 (독립적이지 않다)'

In [4]:
oddsratio, p_value = stats.fisher_exact(df, alternative='two-sided')
print(f"p-value: {p_value:.4f}")
if p_value < 0.05:
    print(f"→ {H1}")
else:
    print(f"→ {H0}")

p-value: 0.0055
→ 신약 투여와 부작용 발생은 관련이 있다 (독립적이지 않다)


## 🔹 [카이제곱 독립성 검정 실전 문제]

### 📝 문제:

한 리서치 회사는 **성별에 따라 음료 선호도에 차이가 있는지**를 조사했다.  
총 200명을 대상으로 다음과 같은 결과가 나왔다:

| 성별 | 커피 | 탄산음료 | 주스 | 계 |
|------|------|-----------|------|----|
| 남성 | 40   | 30        | 20   | 90 |
| 여성 | 25   | 45        | 40   |110 |
| 계   | 65   | 75        | 60   |200 |

In [5]:
columns = ['커피', '탄산음료', '주스']
index = ['남성', '여성']
data = [
    [40, 30, 20],
    [25, 45, 40],
]
df = pd.DataFrame(
    data=data, columns=columns, index=index,
)
df

Unnamed: 0,커피,탄산음료,주스
남성,40,30,20
여성,25,45,40


In [6]:
H0 = '성별과 음료 선호간 유의미한 차이가 없다.'
H1 = '성별과 음료 선호간 유의미한 차이가 있다.'

In [7]:
chi_statistic, p_value, dof, expected = stats.chi2_contingency(df)

In [8]:
# 통계값 검정
chi_critical = stats.chi2.ppf(1 - 0.05, df=dof)

print(f'chi_statistic   : {chi_statistic}')
print(f'chi_critical    : {chi_critical}')

if chi_statistic < chi_critical:
    print(H0)
else:
    print(H1)

chi_statistic   : 11.240611240611242
chi_critical    : 5.99146454710798
성별과 음료 선호간 유의미한 차이가 있다.


In [9]:
# p_value 검정
chi_critical = stats.chi2.ppf(1 - 0.05, df=dof)

print(f'p_value   : {p_value}')

if 0.05 < p_value:
    print(H0)
else:
    print(H1)

p_value   : 0.0036235335143025974
성별과 음료 선호간 유의미한 차이가 있다.


In [10]:
# Ev_table
print('Observed Table')
display(df)
print('EV Table')
display(pd.DataFrame(expected, columns=df.columns, index=df.index))

Observed Table


Unnamed: 0,커피,탄산음료,주스
남성,40,30,20
여성,25,45,40


EV Table


Unnamed: 0,커피,탄산음료,주스
남성,29.25,33.75,27.0
여성,35.75,41.25,33.0


In [11]:
# 표준화 잔차
residuals = (df - expected) / np.sqrt(expected)
print("Standardized Residuals")
display(pd.DataFrame(residuals, columns=df.columns, index=df.index))

Standardized Residuals


Unnamed: 0,커피,탄산음료,주스
남성,1.987676,-0.645497,-1.347151
여성,-1.79792,0.583874,1.218544
