In [1]:
import numpy as np
from scipy import stats

### 🔹 1. **적합도 검정 (카이제곱)**

**문제:**

한 마트에서는 요일별 방문자 수가 **모두 동일**하다고 주장한다.  
이를 검증하기 위해 일주일 동안 방문자 수를 조사한 결과는 다음과 같다:

| 요일 | 월 | 화 | 수 | 목 | 금 | 토 | 일 |
|------|----|----|----|----|----|----|----|
| 방문자 수 | 120 | 110 | 130 | 115 | 125 | 140 | 160 |

- 유의수준: 0.05  
- 각 요일의 **기대 비율은 동일**하다고 가정

→ 마트의 주장은 **통계적으로 타당한가?**

In [2]:
data = [120, 110, 130, 115, 125, 140, 160]

n = len(data)
ev_val = np.mean(data)

H0 = '요일별 방문자 수가 동일하다.'
H1 = '요일별 방문자 수가 동일하지 않다.'

In [3]:
# 통계값으로 검정
chi_statistic = sum(((np.array(data) - ev_val)**2) / ev_val)
chi_critical = stats.chi2.ppf(q=1 - 0.05, df=n - 1)

print(f'chi_statistic   : {chi_statistic}')
print(f'chi_critical    : {chi_critical}')
if chi_critical < chi_statistic:
    print(H1)
else:
    print(H0)

chi_statistic   : 13.5
chi_critical    : 12.591587243743977
요일별 방문자 수가 동일하지 않다.


In [4]:
# p_value로 검정
chi_statistic = sum(((np.array(data) - ev_val)**2) / ev_val)

p_value = 1 - stats.chi2.cdf(chi_statistic, df=n - 1)

print(f"p_value : {p_value}")
if p_value < 0.05:
    print(H1)
else:
    print(H0)

p_value : 0.0357484184222806
요일별 방문자 수가 동일하지 않다.


In [5]:
statistic, p_value = stats.chisquare(data)
statistic, p_value

(13.5, 0.035748418422280555)

### 🔹 1. **적합도 검정 (비균등 기대분포)**

**문제:**

한 방송사는 **연령대별 시청률 비율**을 다음과 같이 예상하고 있다:

| 연령대 | 10대 | 20대 | 30대 | 40대 | 50대 이상 |
|--------|------|------|------|------|------------|
| 기대 비율(%) | 10% | 25% | 30% | 20% | 15% |

최근 한 드라마의 시청자 **총 200명**을 조사한 결과는 다음과 같았다:

| 연령대 | 10대 | 20대 | 30대 | 40대 | 50대 이상 |
|--------|------|------|------|------|------------|
| 관측도수(O) | 18 | 52 | 61 | 41 | 28 |

- 유의수준: 0.05

→ 실제 시청률 분포는 방송사의 예상과 **일치한다고 볼 수 있는가?**


In [7]:
ev_probs = np.array([10, 25, 30, 20, 15])

os_vals = np.array([18, 52, 61, 41, 28])
ev_vals = (ev_probs / np.sum(ev_probs)) * np.sum(os_vals)

n = len(os_vals)

In [8]:
H0 = '연령대별 시청률 비율이 예상과 같다.'
H1 = '연령대별 시청률 비율이 예상과 같지 않다.'

In [9]:
# 통계량으로 검정

chi_statistic = sum((os_vals - ev_vals)**2 / ev_vals)
chi_critical = stats.chi2.ppf(1 - 0.05, df=len(os_vals) - 1)

print(f'chi_statistic   : {chi_statistic}')
print(f'chi_critical    : {chi_critical}')
if chi_critical < chi_statistic:
    print(H1)
else:
    print(H0)

chi_statistic   : 0.45500000000000007
chi_critical    : 9.487729036781154
연령대별 시청률 비율이 예상과 같다.


In [10]:
# p_value로 검정
chi_statistic = sum((os_vals - ev_vals)**2 / ev_vals)
p_value = 1 - stats.chi2.cdf(chi_statistic, df=len(os_vals) - 1)


print(f'p_value    : {p_value}')
if p_value < 0.05:
    print(H1)
else:
    print(H0)

p_value    : 0.9777312723881714
연령대별 시청률 비율이 예상과 같다.


In [None]:
statistic, p_value = stats.chisquare(f_obs=os_vals, f_exp=ev_vals)
statistic, p_value

(0.45500000000000007, 0.9777312723881714)