# 가설검정

## 이론

다음과 같은 두 가지 가설을 생각한다.

- 귀무가설 (null hypothesis) $\text{H}_0$ : 모집단에 대하여 기존에 사실이라고 알려져 있거나 처음부터 주장하는 가설

- 대립가설 (alternative hypothesis) $\text{H}_1$ : 귀무가설에 대립되어 만들어지는 가설로 모집단에 대한 주장을 담고 있으며 실험이나 조사를 통해 입증하고 싶은 가설

가설검정은 조사된 데이터의 통계량(표본평균, 표본분산 등)을 통하여 귀무가설을 기각하고 대립가설을 채택할 충분한 증거가 있는지 확인하는 과정으로 다음과 같은 두 가지의 오류를 생각할 수 있다.

  제 1종 오류: 귀무가설이 참인데 귀무가설을 기각할 오류. 제1종 오류를 범할 확률은 보통 $\alpha$로 나타내고 이를 유의수준 (Significance Level)이라 한다.  

  제 2종 오류: 귀무가설이 거짓인데 귀무가설을 채택할 오류. 제2종 오류를 범할 확률은 보통 $\beta$로 나타내는데 제 1종 오류를 범할 확률 $\alpha$를 높이면 $\beta$는 낮아지는 경향이 있다.

- 제 1종 오류를 허용할 한계인 유의수준 $\alpha$ 만을 다루기로 한다. 유의수준은 연구자가 설정하는 값으로, 일반적으로 0.05 (5%) 또는 0.01(1%)를 많이 사용한다.  유의수준이 낮을수록 제1종 오류를 범할 확률이 줄어든다.

**기각역과 가설검정의 종류**

유의수준($\alpha$)과 대립가설의 성격에 따라 귀무가설을 기각하는 영역(기각역)이 정해지며 이에 따라 다음과 같은 종류의 가설검정을 생각할 수 있다.
*   **양측검정 (Two-tailed test)**: 대립가설이 '차이가 있다' ($\textbf{H}_1: \mu \ne \mu_0$) 와 같이 특정 값과 다르다는 형태일 때 사용한다.  이때는 분포의 양쪽 꼬리 부분에 기각역이 설정되며, 유의수준 $\alpha$는 양쪽 꼬리에 $\alpha/2$씩 나누어진다.
*   **단측검정 (One-tailed test)**: 대립가설이 '더 크다' ($\textbf{H}_1: \mu > \mu_0$) 또는 '더 작다' ($\textbf{H}_1: \mu < \mu_0$) 와 같이 특정 방향의 차이를 주장할 때 사용한다. 이때는 분포의 한쪽 꼬리에만 기각역이 설정되며, 유의수준 $\alpha$ 전체가 해당 꼬리 부분에 위치한다.

**유의수준과 임계값(critical value)**

표준정규분포 $N(0, 1^2)$을 따르는 확률변수 $Z$에 대하여

$$P(Z\ge z_{\alpha})=\alpha $$

라 하면 확률 $\alpha$에 따른 변수 $z_{\alpha}$가 정해진다.

이때 주어진 유의수준 $\alpha$에 대한 가설검정의 기각역은 양측검정의 경우

$$\alpha = P(|Z| \ge z_{\alpha/2}) = P(Z\le -z_{\alpha/2}, Z \ge z_{\alpha/2})$$

단측검정의 경우

$$\alpha = P(Z\le -z_{\alpha}) \,\,또는 \,\,\alpha = P(Z\ge z_{\alpha})$$

이다.

- 여기서 유의수준 $\alpha$의 중요한 기준이 되는 임계값을 생각할 수 있는데  양측검정의 경우 두 개의 임계값 $-z_{\alpha/2}, z_{\alpha/2}$, 단측검정의 경우 한 개의 임계값 $-z_{\alpha}$ 또는 $z_{\alpha}$이 있다.
                 







**표본평균 분포**

확률 변수 $X$로 나타내어지는 모집단의 평균을 $\mu$ 분산을 $\sigma^2$이라 하자. 이때, 충분히 큰 크기 $n$인 표본의 표본평균 $\overline{X}$는 중심극한정리에 의하여 정규분포 $N(\mu, \sigma^2/n)$을 따른다. 즉,

$$\overline{X} \sim N(\mu, \sigma^2/n)$$

이라 표현한다. 또한, 정규분포 성질에 의하여

$$Z = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\sim N(0, 1^2)$$

이다.
- 따라서 충분히 큰 표본으로부터의 모평균 관련한 추정과 검정은 표준정규분포를 사용한다.





**검정통계량과 $p$-값**

충분히 큰 크기 $n$의 표본 데이터를 가지고 모평균에 대한 가설검정을 하려 하며 표준정규분포를 사용한다.

귀무가설 $\text{H}_0$ : 모평균은 $\mu_0$이다.

- 검정통계량(Test Statistic):  표본 데이터로부터 계산되는 값으로 가설검정을 수행하는 기준이 된다. 이 경우 조사된 표본의 평균값을 $X_0$라 하면  

$$z_0= \frac{X_0 - \mu_0}{\sigma/\sqrt{n}}$$

이 검정통계량이 된다. (여기서 모분산이 알려지지 않은 경우 포본의 불편분산을 사용하기도 한다.)

- $p$-값($p$-value): 귀무가설 하에서 현재 검정통계량 값 또는 그보다 더 극단적인 값이 나타날 확률로

$$ P(z\le z_0) 또는  P(z\ge z_0)$$

인데 이 경우 표준정규분포를 이용하여 계산하고 대립가설 $\text{H}_1$에 따라 선택한다.

**귀무가설 기각**

유의수준 $\alpha$/임계값 그리고 조사된 데이터로부터의 $p$-값/검정추정량을 비교하여 가설검정을 진행한다.

방법 1. 임계값과 검정추정량 비교

- 검정통계량이 기각역에 속하면 귀무가설을 기각한다.
- 검정통계량이 기각역에 속하지 않으면 귀무가설을 기각할 수 없다.

방법 2. 유의수준과 $p$-값 비교

- 단측검정에서는 $p$-값이 유의수준 $\alpha$보다 작은 경우, 양측검정에서는 $p$-값이 $\alpha/2$보다 작은 경우 귀무가설을 기각한다.
- 그렇지 않으면 귀무가설을 기각할 수 없다.  

**가설검정 절차**

- 귀무가설 $\text{H}_0$, 대립가설 $\text{H}_1$ 설정
- 분포 결정
- 유의수준/임계값
- $p$-값/검정추정량 (표본 데이터로 부터 계산한다)
- 귀무가설을 기각할 지를 결정한다.

**예제 (단측 검정)**

어떤 회사는 자사 제품의 평균 사용 시간이 100시간이라고 주장합니다.  새로운 공정으로 생산된 제품의 평균 사용 시간이 100시간보다 짧은지 유의수준 5%에서 검정해 봅시다.

30개의 표본을 추출하였더니 평균은 98이 왔음.

모분산을 $10^2$이라 가정합니다.

- **귀무가설 $\text{H}_0$**: 새로운 공정으로 생산된 제품의 평균 사용 시간은 100시간이다 ($\mu = 100$).
- **대립가설 $\text{H}_1$**: 새로운 공정으로 생산된 제품의 평균 사용 시간은 100시간보다 짧다 ($\mu < 100$).

이것은 단측 검정(왼쪽 꼬리)입니다.


**가설 검정 절차:**

1.  **귀무가설 $\text{H}_0$, 대립가설 $\text{H}_1$ 설정**:
    *   $\text{H}_0: \mu = 100$
    *   $\text{H}_1: \mu < 100$

2.  **분포 결정**: 모분산이 알려져 있고 표본 크기가 충분히 크므로 표준정규분포 $N(0, 1^2)$을 사용합니다.

3.  **유의수준/임계값**:
    *   유의수준 $\alpha = 0.05$ 입니다.
    *   단측 검정(왼쪽 꼬리)이므로, 표준정규분포에서 왼쪽 꼬리 확률이 0.05가 되는 z-값을 찾습니다.
    *   표준정규분포표 또는 계산기를 찾아보면, 누적 확률이 0.05가 되는 z-값은 약 -1.645 입니다.
    *   따라서 임계값은 $-z_{0.05} \approx -1.645$ 입니다.
    *   기각역은 $Z \le -1.645$ 입니다.

4.  **$p$-값/검정통계량 (표본 데이터로 부터 계산한다)**:
    *   주어진 정보: 표본평균 $X_0 = 98$, 모평균 (귀무가설 하) $\mu_0 = 100$, 모표준편차 $\sigma = 10$, 표본 크기 $n = 30$.
    *   검정통계량 $z_0$를 계산합니다.
        $$z_0= \frac{X_0 - \mu_0}{\sigma/\sqrt{n}} = \frac{98 - 100}{10/\sqrt{30}}$$
    *   $\sqrt{30} \approx 5.477$ 이므로
        $$z_0 \approx \frac{-2}{10/5.477} = \frac{-2}{1.826} \approx -1.095$$
    *   검정통계량은 약 -1.095 입니다.

    *   p-값을 계산합니다. 대립가설이 $\mu < 100$이므로, 귀무가설 하에서 검정통계량이 -1.095보다 작거나 같을 확률을 계산합니다.
        $$p\text{-값} = P(Z \le z_0) = P(Z \le -1.095)$$
    *   표준정규분포표 또는 계산기를 사용하면, $P(Z \le -1.095)$는 약 0.1367 입니다.

5.  **귀무가설을 기각할 지를 결정한다**:

    *   **방법 1. 임계값과 검정통계량 비교**:
        *   검정통계량 $z_0 \approx -1.095$ 입니다.
        *   임계값은 약 -1.645 입니다.
        *   검정통계량 $(-1.095)$은 임계값 $(-1.645)$보다 크므로 기각역($Z \le -1.645$)에 속하지 않습니다.
        *   따라서 귀무가설을 기각할 수 없습니다.

    *   **방법 2. 유의수준과 $p$-값 비교**:
        *   유의수준 $\alpha = 0.05$ 입니다.
        *   p-값 $\approx 0.1367$ 입니다.
        *   p-값 $(0.1367)$은 유의수준 $(0.05)$보다 크므로 귀무가설을 기각할 수 없습니다.

**결론**: 유의수준 5% 하에서 새로운 공정으로 생산된 제품의 평균 사용 시간이 100시간보다 짧다고 할 충분한 증거가 없습니다.

## 예제

In [1]:
import numpy as np
import pandas as pd

In [2]:
pd.options.mode.copy_on_write = True

In [3]:
%precision 6

'%.6f'

In [4]:
pd.set_option('display.precision', 6)

In [5]:
import matplotlib.pyplot as plt

In [6]:
data_url = 'https://raw.githubusercontent.com/codingalzi/DataSci/refs/heads/master/data/'

In [7]:
housing = pd.read_csv(data_url+"california_housing.csv")
housing

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


In [8]:
housing = housing.loc[:, ['median_income', 'median_house_value']]
housing

Unnamed: 0,median_income,median_house_value
0,8.3252,452600.0
1,8.3014,358500.0
2,7.2574,352100.0
3,5.6431,341300.0
4,3.8462,342200.0
...,...,...
20635,1.5603,78100.0
20636,2.5568,77100.0
20637,1.7000,92300.0
20638,1.8672,84700.0


In [9]:
house_value_max = housing['median_house_value'].max() # 500,001

mask = housing['median_house_value'] >= house_value_max

In [10]:
housing = housing[~mask]
housing.shape

(19675, 2)

In [11]:
housing = housing.reset_index(drop=True)
housing.index.name = 'district'
housing

Unnamed: 0_level_0,median_income,median_house_value
district,Unnamed: 1_level_1,Unnamed: 2_level_1
0,8.3252,452600.0
1,8.3014,358500.0
2,7.2574,352100.0
3,5.6431,341300.0
4,3.8462,342200.0
...,...,...
19670,1.5603,78100.0
19671,2.5568,77100.0
19672,1.7000,92300.0
19673,1.8672,84700.0


In [12]:
housing["income_cat"] = pd.cut(housing["median_income"],
                               bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1, 2, 3, 4, 5])

housing

Unnamed: 0_level_0,median_income,median_house_value,income_cat
district,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,8.3252,452600.0,5
1,8.3014,358500.0,5
2,7.2574,352100.0,5
3,5.6431,341300.0,4
4,3.8462,342200.0,3
...,...,...,...
19670,1.5603,78100.0,2
19671,2.5568,77100.0,2
19672,1.7000,92300.0,2
19673,1.8672,84700.0,2


위 자료 housing에서 집값의 평균값과 표준편차는 다음과 같다.

- 평균값

In [13]:
house_value_mean = housing['median_house_value'].mean()
house_value_mean

192477.921017

- 표준편차

In [14]:
house_value_std = housing.median_house_value.std(ddof=0)
house_value_std

97709.026443

**집값 대상 가설검정**

아래 `testStatistic()`는 모평균과 모분산이 알려져 있는 경우에 주어진 표본의 
평균값에 대한 검정통계량과 p-값을 계산한다.

- `sample`: 표본
- `mu_p`: 모평균
- `sigma_p`: 모분산
- `alpha=0.05`: 유의수준. 기본값은 5%
- `oneTailed=False`: 단측검정 여부. 기본값은 `False`, 즉 양측검정 실행이 기본값.
- `lessThan=None`: 단측검정의 경우 검정통계량보다 작은 값이 나올 확률을 p-값으로 계산할지 여부.
    즉, `True`이면 왼쪽 꼬리검정 진행, `False`이면 오른쪽 꼬리검정 진행.

In [15]:
from scipy.stats import norm

def testStatistic(sample, mu_p, sigma_p, alpha=0.05, oneTailed=False, lessThan=None):

    mu_sample = sample.mean()
    n_sample = len(sample)
    
    z0 = (mu_sample - mu_p) / (sigma_p/np.sqrt(n_sample))
    
    if oneTailed and lessThan:
        p_value = norm.cdf(z0)
    elif oneTailed and not lessThan:
        p_value = 1 - norm.cdf(z0)
    elif not oneTailed and z0 <= 0:
        p_value = norm.cdf(z0) * 2
    elif not oneTailed and z0 > 0:
        p_value = (1 - norm.cdf(z0)) * 2
        
    return z0, p_value

**예제 1: 소득 3구간에서만 표본을 선택하는 경우 (양측검정)**

소득 3구간의 중위주택가격과 전체 구역의 중위주택가격이 유사하다.

- 전체 구역의 중위주택가격

In [16]:
housing.median_house_value.median()

173800.000000

- 소득 3구간 구역의 기초 통계

In [17]:
mask = housing['income_cat'] == 3
housing_3Cat = housing.median_house_value[mask]
housing_3Cat.describe()

count      7103.000000
mean     193988.680698
std       81583.050538
min       14999.000000
25%      137150.000000
50%      178500.000000
75%      233800.000000
max      500000.000000
Name: median_house_value, dtype: float64

질문: 소득 3구간에서 1%의 표본을 선택하여 계산된 평균값이 모평균과 다른가?

위 질문에 답하기 위해 먼저 소득 3구간에서 1%의 표본을 무작위로 선택한다.

In [18]:
sample_3Cat = housing_3Cat.sample(frac=0.01, random_state=43)

양측검정을 위해 귀무가설과 대립가설을 다음과 같이 설정한다.

- 귀무가설 $\text{H}_0$: `sample_3Cat`에 속한 구역들의 평균 집값이 `house_value_mean`와 같다.
- 대립가설 $\text{H}_0$: `sample_3Cat`에 속한 구역들의 평균 집값이 `house_value_mean` 다르다.

우선 귀무가설이 참이라고 가정한다.
그러면 다음이 성립한다.

$$\overline{X} \sim N(\mu, \sigma^2/n)$$

$$Z = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\sim N(0, 1^2)$$

따라서 표본 `sample_3Cat`에 속한 구역의 평균 집값의 검정통계량 $z_0$와 $p$-값은 다음과 같다.

In [19]:
z0, p_value = testStatistic(sample_3Cat, house_value_mean, house_value_std)

print(f"검정통계량: {z0:.6f}")
print(f"p-값: {p_value:14.6f}")

검정통계량: 0.417664
p-값:       0.676193


검정통계량이 0.417664이다.
반면에 유의수준 5%의 상위 임계값은 1.959964이다.
즉 계산된 검정통계량보다 크다.

In [20]:
z_25p = norm.ppf(0.975)
z_25p

1.959964

또한 $p$-값이 0.05보다 크다.

결론:

- 양측검정의 기각역은 $\{ z \mid z \le -1.959964 \; \text{또는} \; z \ge 1.959964 \}$
- 검정통계량 $-1.959964 < z_0 = 0.417664 < 1.959964$ 이므로 기각역에 속하지 않는다.  
- 따라서 귀무가설을 기각하지 않는다.
- 즉, 소득3분위에 속한 사람들이 산 집값이 평균과 다르다고 볼 수 없다.

**예제 2: 소득 2구간에서만 표본을 선택하는 경우 (단측검정)**

소득 2구간의 중위주택가격은 전체 구역의 중위주택가격보다 훨씬 작다.

- 소득 2구간 구역의 기초 통계

In [21]:
mask = housing['income_cat'] == 2
housing_2Cat = housing.median_house_value[mask]
housing_2Cat.describe()

count      6552.000000
mean     134935.408730
std       69001.703453
min       14999.000000
25%       85675.000000
50%      118800.000000
75%      166100.000000
max      500000.000000
Name: median_house_value, dtype: float64

질문: 소득 2구간에서 1%의 표본을 선택하여 계산된 평균값이 모평균 보다 작은가?

먼저 소득 2구간에서 1%의 표본을 무작위로 선택한다.

In [22]:
sample_2Cat = housing_2Cat.sample(frac=0.01, random_state=43)

단측검정을 위해 귀무가설과 대립가설을 다음과 같이 설정한다.

- 귀무가설 $\text{H}_0$: `sample_2Cat`에 속한 구역들의 평균 집값이 `house_value_mean`와 같다.
- 대립가설 $\text{H}_0$: `sample_2Cat`에 속한 구역들의 평균 집값이 `house_value_mean` 보다 작다.

우선 귀무가설이 참이라고 가정한다.
그러면 다음이 성립한다.

$$\overline{X} \sim N(\mu, \sigma^2/n)$$

$$Z = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\sim N(0, 1^2)$$

따라서 표본 `sample_2Cat`에 속한 구역의 평균 집값의 검정통계량 $z_0$와 $p$-값은 다음과 같다.

In [23]:
z0, p_value = testStatistic(sample_2Cat, house_value_mean, house_value_std, oneTailed=True, lessThan=True)

print(f"검정통계량: {z0:.6f}")
print(f"p-값: {p_value:14.6f}")

검정통계량: -4.712372
p-값:       0.000001


검정통계량이 -4.712372이다.
반면에 유의수준 5% 임계값은 -1.644854이다.
즉 계산된 검정통계량보다 작다.

In [24]:
z_m5p = norm.ppf(0.05)
z_m5p

-1.644854

또한 $p$-값이 0.05보다 작다.

결론:

- 왼쪽 꼬리 단측검정의 기각역은 $\{ z \mid z \le -1.644854 \}$
- 검정통계량 $z_0 = -4.712372 < -1.644854$ 이므로 기각역에 속한다.  
- 따라서 귀무가설을 기각한다.
- 즉, 소득 2구간에 속한 사람들이 산 집값이 평균과 다르다고 볼 수 있다.

**예제 3: 선택 편향 방지**

표본을 선택할 때 특정 소득 구간에 속하는 데이터만을 대상으로 하는 경우
가설검정 결과가 상이하게 나올 수 있음을 이전 두 예제가 보여줬다.
이는 표본 선택에 오류가 있음을 의미하며,
이런 오류를 **선택 편향**<font size='2'>selection bias</font>라 한다.
선택 편향이 발생하지 않도록 표본을 선택하는 일이 매우 중요하다.

선택 편향을 피하기 위해 일반적으로 모집단에서 무작위로 샘플을 선택한다.
아래 코드는 전체 데이터셋에서 1% 크기의 표본을 무작위로 선택한다.

In [25]:
sample_general = housing.median_house_value.sample(frac=0.01, random_state=43)

표본의 중위주택가격 전체 구역의 중위주택가격 보다 조금 크다.

In [26]:
sample_general.describe()

count       197.000000
mean     201719.796954
std       97015.201123
min       36600.000000
25%      126100.000000
50%      180400.000000
75%      266500.000000
max      455300.000000
Name: median_house_value, dtype: float64

오른쪽 꼬리 단측검정을 위해 귀무가설과 대립가설을 다음과 같이 설정한다.

- 귀무가설 $\text{H}_0$: `sample_2Cat`에 속한 구역들의 평균 집값이 `house_value_mean`와 같다.
- 대립가설 $\text{H}_0$: `sample_2Cat`에 속한 구역들의 평균 집값이 `house_value_mean` 보다 크다.

우선 귀무가설이 참이라고 가정한다.
그러면 다음이 성립한다.

$$\overline{X} \sim N(\mu, \sigma^2/n)$$

$$Z = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\sim N(0, 1^2)$$

따라서 표본 `sample_general`에 속한 구역의 평균 집값의 검정통계량 $z_0$와 $p$-값은 다음과 같다.

In [27]:
z0, p_value = testStatistic(sample_general, house_value_mean, house_value_std, oneTailed=True, lessThan=False)

print(f"검정통계량: {z0:.6f}")
print(f"p-값: {p_value:14.6f}")

검정통계량: 1.327573
p-값:       0.092160


검정통계량이 1.327573이다.
반면에 유의수준 5% 임계값은 1.644854이다.
즉 계산된 검정통계량보다 작다.

In [28]:
z_5p = norm.ppf(0.95)
z_5p

1.644854

또한 $p$-값이 0.05보다 크다.

결론:

- 오른쪽 꼬리검정의 기각역은 $\{ z \mid z \ge 1.644854 \}$
- 검정통계량 $z_0 = 1.327573 < 1.644854$ 이므로 기각역에 속하지 않는다.  
- 따라서 귀무가설을 기각할 수 없다.
- 즉, 표본 평균이 전체 평균 집값 보다 크다고 볼 수 있다.

**예제 4: 층화표집 활용**

선택 편향의 위험성을 보다 줄이기 위해 층화표집을 활용한다.
아래 코드는 전체 데이터셋에서 1% 크기의 표본을 층화표집 기법으로 선택한다.


In [29]:
stratification = housing.groupby('income_cat', observed=True, group_keys=True)
stratified_sampling = stratification.apply(lambda y:y.sample(frac=0.01, random_state=42), include_groups=False)
stratified_sampling = stratified_sampling.reset_index(level=0)
stratified_sampling

Unnamed: 0_level_0,income_cat,median_income,median_house_value
district,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4388,1,1.1868,93800.0
13310,1,1.3811,51300.0
3262,1,1.1650,53300.0
4752,1,0.9234,187500.0
12210,1,1.4861,63100.0
...,...,...,...
1334,5,6.0497,177500.0
10235,5,7.8496,490800.0
3986,5,6.1274,315900.0
8559,5,6.4310,492500.0


In [30]:
sample_stratified = stratified_sampling.median_house_value

표본의 중위주택가격이 전체 구역의 중위주택가격 보다 조금 작다.

In [31]:
sample_stratified.describe()

count       197.000000
mean     186095.939086
std       97399.417945
min       40000.000000
25%      115800.000000
50%      162200.000000
75%      234800.000000
max      496000.000000
Name: median_house_value, dtype: float64

왼쪽 꼬리 단측검정을 위해 귀무가설과 대립가설을 다음과 같이 설정한다.

- 귀무가설 $\text{H}_0$: `sample_2Cat`에 속한 구역들의 평균 집값이 `house_value_mean`와 같다.
- 대립가설 $\text{H}_0$: `sample_2Cat`에 속한 구역들의 평균 집값이 `house_value_mean` 보다 작다.

우선 귀무가설이 참이라고 가정한다.
그러면 다음이 성립한다.

$$\overline{X} \sim N(\mu, \sigma^2/n)$$

$$Z = \frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\sim N(0, 1^2)$$

따라서 표본 `sample_general`에 속한 구역의 평균 집값의 검정통계량 $z_0$와 $p$-값은 다음과 같다.

In [32]:
z0, p_value = testStatistic(sample_stratified, house_value_mean, house_value_std, oneTailed=True, lessThan=True)

print(f"검정통계량: {z0:.6f}")
print(f"p-값: {p_value:14.6f}")

검정통계량: -0.916756
p-값:       0.179635


검정통계량이 -0.916756이다.
반면에 유의수준 5% 임계값은 -1.644854이다.
즉 계산된 검정통계량보다 크다.

In [33]:
z_5p = norm.ppf(0.05)
z_5p

-1.644854

또한 $p$-값이 0.05보다 크다.

결론:

- 왼쪽 꼬리검정의 기각역은 $\{ z \mid z \le -1.644854 \}$
- 검정통계량 $z_0 = -0.916756 > -1.644854$ 이므로 기각역에 속하지 않는다.  
- 따라서 귀무가설을 기각할 수 없다.
- 즉, 표본 평균이 전체 평균 집값 보다 작다고 볼 수 있다.