# 적합도 검정
적합도 검정(goodness-of-fit test)은 관측된 데이터가 특정 분포(또는 기대하는 분포)와 얼마나 일치하는지를 평가하는 통계적 방법입니다.
가장 많이 사용되는 적합도 검정 중 하나는 ```카이제곱 적합도 검정(chi-square goodness-of-fit test)```입니다.

In [11]:
import numpy as np
from scipy import stats

# 관측된 빈도
observed = np.array([8, 9, 10, 12, 11, 10])

# 기대 빈도 (공정한 주사위라면 각 면의 기대 빈도는 동일)
expected = np.array([10, 10, 10, 10, 10, 10])  # 각 범주의 기대 빈도

# 카이제곱 검정 통계량
sum((observed - expected) ** 2 / expected)

1.0

In [12]:
# 귀무가설: 주사위가 공정하다. 즉, 각 면이 동일한 확률(1/6)을 가지고 나타나므로 관측된 빈도는 기대 빈도(각 면 10)에 근접하다.
# 대립가설: 주사위가 공정하지 않다. 즉, 적어도 한 면에서 관측된 빈도가 기대 빈도와 유의하게 다르다.

# 카이제곱 검정 수행
chi2_statistic, p_value = stats.chisquare(f_obs=observed, f_exp=expected)

print("카이제곱 통계량:", chi2_statistic)
print("p-value:", p_value)

카이제곱 통계량: 1.0
p-value: 0.9625657732472964


In [5]:
from scipy import stats

# 이 도시에서 조사된 아이스크림 맛 선호도는 바닐라 150명, 초코 120명, 딸기 30명으로 조사되었다.
# 전국적인 아이스크림 맛 선호도는 바닐라 50%, 초코 35%, 딸기 15%로 알려져 있다.
# 유의수준 0.05 에서 아이스크림 맛 선호도는 전국적인 맛 선호도와 차이가 있는가?

# 귀무가설: 이 도시의 아이스크림 맛 선호도는 전국적인 선호도와 동일하다.
# 대립가설: 이 도시의 아이스크림 맛 선호도는 전국적인 선호도와 다르다.

observed = [150, 120, 30]
expected = [0.5*300, 0.35*300, 0.15*300]

stats.chisquare(observed, expected)

Power_divergenceResult(statistic=7.142857142857142, pvalue=0.028115659748972056)

## 연습문제
1. 어떤 6면체 주사위를 120번 던진 결과, 각 면이 나온 횟수가 아래와 같이 관측되었습니다.  
관측 빈도: [15, 25, 20, 22, 18, 20]

이 주사위가 공정하여 모든 면이 동일한 확률(1/6)로 나올 것이라는 귀무가설(H₀)을 세우고, 카이제곱 적합도 검정을 실시하여 주사위가 공정한지 판단하시오.

2. 멘델의 단순 유전 실험에서는 한 대립형질이 우성일 때, 이형접합 교배 결과 자손의 표현형 비율이 3:1이 될 것으로 기대합니다.
어느 실험에서 100개의 자손을 관측한 결과, 우성형질을 가진 자손이 70명, 열성형질을 가진 자손이 30명이 나왔습니다.

귀무가설(H₀)을 "실제 비율은 3:1이다"로 설정하고, 카이제곱 적합도 검정을 통해 관측된 결과가 기대 비율(3:1)과 유의하게 차이가 있는지 검정하시오.