# 추정과 검정
- `scipy` 라이브러리에서 적용이 가능

# 추정 (Estimation)

## 1. 점추정

평균이 3이고 분산이 4인 정규분포에서 30개 표본 추출

In [8]:
import numpy as np

# 데이터 생성
np.random.seed(1000)
x = np.random.normal(3, 2, 30)
x

array([ 1.39108339,  3.64186309,  2.94903424,  4.28864766,  2.39840665,
        3.77894911,  2.7851254 ,  2.04003385,  4.190071  ,  2.07066495,
        4.33456261,  1.38776878,  0.60786033,  2.18807968,  2.63524532,
        3.20638579,  2.72315602,  4.41138475,  5.54359055,  1.02650534,
        2.33032909,  2.8010366 ,  3.8143842 ,  4.83877508,  3.62423602,
        6.06632213,  1.89965227,  2.23370518,  1.35411807,  6.20016674,
        2.8614374 ,  3.16641898,  2.34615065,  2.90840562,  2.39107988,
        6.84602026,  2.84268199,  1.83586855, -0.23596447,  4.73452163,
        0.91912583,  4.30084285,  8.39929171,  4.60404903,  0.80615748,
        2.64389111,  2.15425904,  2.3391989 ,  0.77767444,  1.5159885 ,
        8.14951839,  5.14642665, -0.73226901,  1.70564615,  5.16448161,
        3.35334063,  1.32934353, -0.38999663,  5.26683446,  5.09706145,
       -1.25665074,  0.12572121,  3.35587421,  5.78884549,  3.58264037,
        2.83598761,  4.28848522,  3.6561599 ,  4.7148655 ,  1.12

### 평균 $\mu$의 추정량 : 표본평균 ($\bar X$)
- `np.mean(데이터)`

$\bar X = \frac{1}{n} \sum_{i=1}^n X_i$

In [9]:
mu_hat = np.mean(x)
mu_hat

3.1138792113399565

### 분산 $\sigma^2$의 추정량 : 표본분산 ($S^2$)
- `np.var(data, ddof = 1)`
- `ddof = 1` 옵션은 분모에 $n-1$로 나누는 부분을 위해 필요

$S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)^2$

In [10]:
sigma2_hat = np.var(x, ddof = 1)
sigma2_hat

4.474131262830899

### 표준편차 $\sigma$의 추정량 : 표본표준편차 ($S$)
- `np.std(data, ddof = 1)`

In [11]:
sigma_hat = np.std(x, ddof = 1)
sigma_hat

2.11521423568179

In [12]:
np.sqrt(sigma2_hat)

2.11521423568179

## 2. 구간추정

### 모평균 $\mu$에 대한 95% 신뢰구간
$ \bar X \pm z_{0.025} \frac{\sigma}{\sqrt{n}} = \bar X \pm 1.96\frac{\sigma}{\sqrt{n}} $

In [14]:
from scipy import stats

z = stats.norm(0, 1).ppf([0.025, 1-0.025])
n = len(x)

z

array([-1.95996398,  1.95996398])

In [15]:
mu_hat + z*sigma_hat/np.sqrt(n)

array([2.69930484, 3.52845358])

# 검정 (Test)

## 1. 일표본 t-검정 (1 sample t-test)
전체 학생 중 10명을 뽑아 키를 재고, 전체 학생들의 평균 키가 175cm인지 아닌지 알고 싶다.
- 가설
    - $H_0$: 학생들의 평균 키는 175cm이다.
    - $H_1$: 학생들의 평균 키는 175cm가 아니다.
- 사용함수
```python
stats.ttest_1samp(데이터, 비교할_평균)
```

In [16]:
# 라이브러리 불러오기
from scipy import stats

In [17]:
# 데이터 생성
data = [177.3, 182.7, 169.6, 176.3, 180.3, 179.4, 178.5, 177.2, 181.8, 176.5]

In [18]:
stats.ttest_1samp(data, 175)

Ttest_1sampResult(statistic=2.5544677238820483, pvalue=0.030966923171410254)

In [19]:
# t-test
t_stat, p_value = stats.ttest_1samp(data, 175)

print("======= t-test 결과 =======")
print("t-test의 검정통계량: {}".format(round(t_stat, 3)))
print("t-test의 p-value: {}".format(round(p_value, 3)))

t-test의 검정통계량: 2.554
t-test의 p-value: 0.031


p-value = 0.031 < 0.05이므로 유의수준 0.05하에서 귀무가설을 기각한다.
따라서, 학생들의 평균 키는 175cm가 아니다.

## 2. 이표본 t-검정 (독립비교 - 공통분산)
새로운 포장 디자인이 판매량을 증가시키는지 여부 조사 (정규분포를 따른다고 가정)
- 가설
    - $H_0$: 기존과 새로운 포장 디자인에 대한 판매량에 차이가 없다.
    - $H_1$: 기존과 새로운 포장 디자인에 대한 판매량에 차이가 있다. (새로운 포장 디자인이 판매량을 증가시킨다)
- 사용함수
```python
stats.ttest_ind(데이터_1, 데이터_2, equal_var = True)
```

In [20]:
# 데이터 생성
x = [12, 18, 16, 22, 23, 19, 20, 22, 25, 20]
y = [15, 17, 19, 16, 13, 19, 18, 16, 12, 18]

In [21]:
# t-test (양측검정)
t_stat, p_value = stats.ttest_ind(x, y, 
                                  equal_var = True)

print("======= t-test 결과 =======")
print("t-test의 검정통계량: {}".format(round(t_stat, 3)))
print("t-test의 p-value: {}".format(round(p_value, 3)))

t-test의 검정통계량: 2.416
t-test의 p-value: 0.027


#### `stats.ttest_ind()` 함수의 기본 옵션은 양측검정이며, p-value 또한 양측검정인 경우를 보여줌
#### 단측검정을 할 경우에는, p-value 결과를 2로 나눈 값을 사용하거나 다음의 옵션을 추가하여 사용하면 됨

In [22]:
# t-test (단측검정))
t_stat, p_value = stats.ttest_ind(x, y, 
                                  equal_var = True, 
                                  alternative = "greater")

print("======= t-test 결과 =======")
print("t-test의 검정통계량: {}".format(round(t_stat, 3)))
print("t-test의 p-value: {}".format(round(p_value, 3)))

t-test의 검정통계량: 2.416
t-test의 p-value: 0.013


p-value = 0.013 < 0.05이므로 유의수준 0.05하에서 귀무가설을 기각한다.
따라서, 새로운 포장 디자인이 판매량을 증가시킨다.

### 검정통계량 직접 계산
$ T = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} $

In [23]:
# 표본 크기
n_1 = len(x)
n_2 = len(y)
n_1, n_2

(10, 10)

In [24]:
# 평균 계산
xbar_1 = np.mean(x)
xbar_2 = np.mean(y)
xbar_1, xbar_2

(19.7, 16.3)

In [26]:
# 표본분산 계산 - ddof는 표본분산에서 분모가 n-1 꼴이기 떄문에 필요
s2_1 = np.var(x, ddof = 1)
s2_2 = np.var(y, ddof = 1)
s2_1, s2_2

(14.011111111111113, 5.788888888888889)

In [27]:
# 합동표본분산 (pooleld sample variance)
s_p2 = ((n_1-1)*s2_1 + (n_2-1)*s2_2) / (n_1+n_2-2)
s_p2

9.9

In [28]:
# 검정통계량 계산
t = (xbar_1 - xbar_2) / (np.sqrt(s_p2)*np.sqrt(1/n_1 + 1/n_2))
t

2.416274785363584

In [29]:
# 기각치
stats.t.ppf(1-0.05, n_1+n_2-2)

1.7340636066175354

검정통계량 = 3.127 > 1.734 = 기각역
=> 귀무가설 $H_0$를 기각

## 3. 이표본 t-검정 (두 모집단의 분산이 다를 때) 
- Satterwaite의 근사식 이용

신입사원(x)보다 경력사원(y)의 판매실적이 높다고 할 수 있는가?
- 가설
    - $H_0$: 신입사원(x)과 경력사원(y)간 판매실적에 차이가 없다.
    - $H_1$: 신입사원(x)보다 경력사원(y)의 판매실적이 높다.
- 사용함수
```python
stats.ttest_ind(데이터_1, 데이터_2, equal_var = False)
```

In [30]:
# 데이터 생성
x = [12, 23, 18, 36, 20, 17]
y = [15, 58, 36, 84, 24, 17]

In [31]:
# t-test
t_stat, p_value = stats.ttest_ind(x, y,
                                  equal_var = False,  
                                  alternative = "less")

print("======= t-test 결과 =======")
print("t-test의 검정통계량: {}".format(round(t_stat, 3)))
print("t-test의 p-value: {}".format(round(p_value, 3)))

t-test의 검정통계량: -1.556
t-test의 p-value: 0.086


p-value = 0.086 > 0.05이므로 유의수준 0.05하에서 귀무가설을 기각할 수 없다. 
따라서, 경력사원이 신입사원보다 판매실적이 높다고 할 수 없다.

## 참고) 가정을 고려하지 않았을 때

In [32]:
# 데이터 생성
import numpy as np

np.random.seed(1000)
x = 1200 + np.random.normal(0, 300, 5)
y = 1400 + np.random.normal(0, 100, 10)

### 등분산 검정

In [33]:
# 등분산성 검정 (정규성 가정 만족할 떼)
stats.bartlett(x, y)

BartlettResult(statistic=5.826944787892073, pvalue=0.015782510057797232)

In [34]:
# 또는 (정규성과 상관없이)
stats.levene(x, y)

LeveneResult(statistic=5.474640653481308, pvalue=0.03590224842873345)

등분산 검정에서 p-value가 0.05보다 작기 때문에, 귀무가설(두 집단의 분산은 같다)을 기각한다.
따라서 두 집단의 분산은 다르다고 할 수 있다.

In [35]:
# t-test (등분산 가정 X)
t_stat, p_value = stats.ttest_ind(x, y, equal_var = False)

print("======= t-test 결과 =======")
print("t-test의 검정통계량: {}".format(round(t_stat, 3)))
print("t-test의 p-value: {}".format(round(p_value, 3)))

t-test의 검정통계량: -2.454
t-test의 p-value: 0.063


In [36]:
# t-test (등분산 가정 O) => 잘못된 방법
t_stat, p_value = stats.ttest_ind(x, y, equal_var = True)

print("======= t-test 결과 =======")
print("t-test의 검정통계량: {}".format(round(t_stat, 3)))
print("t-test의 p-value: {}".format(round(p_value, 3)))

t-test의 검정통계량: -3.279
t-test의 p-value: 0.006


등분산을 가정하지 않았을 때에는 p-value = 0.063으로 유의수준 0.05 하에서 귀무가설을 기각하지 못한다.

반면, 등분산을 가정했을 때에는 p-value = 0.006으로 유의수준 0.05 하에서 귀무가설을 기각한다.

등분산 가정 여부에 따라 결과가 달라지는 것을 알 수 있다.

## 4. 대응표본 t-검정 (paired t-test)
다이어트 약의 복용 전/후의 체중에 차이가 있는지 알고 싶다.
- 가설
    - $H_0$: 복용 전후의 체중 차이가 없다.
    - $H_1$: 복용 전후의 체중 차이가 있다.
- 사용함수
```python
stats.ttest_rel(데이터_1, 데이터_2)
```

In [37]:
before = [67.2, 67.4, 71.5, 77.6, 86.0, 89.1, 59.5, 81.9, 105.5]
after = [62.4, 64.6, 70.4, 62.6, 80.1, 73.2, 58.2, 71.0, 101.0]

In [38]:
# t-test
t_stat, p_value = stats.ttest_rel(before, after)

print("======= t-test 결과 =======")
print("t-test의 검정통계량: {}".format(round(t_stat, 3)))
print("t-test의 p-value: {}".format(round(p_value, 3)))

t-test의 검정통계량: 3.668
t-test의 p-value: 0.006


# 실제 데이터 적용
### 한 식당의 점심과 저녁의 매출에 차이가 있는지 알고 싶다.

## 1. 데이터 불러오기

In [39]:
import seaborn as sns
tips = sns.load_dataset("tips")
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [40]:
tips.time.unique()

['Dinner', 'Lunch']
Categories (2, object): ['Dinner', 'Lunch']

In [41]:
# 점심과 저녁 데이터로 분리
dinner = tips.total_bill[tips.time == "Dinner"]
lunch = tips.total_bill[tips.time == "Lunch"]
len(dinner), len(lunch)

(176, 68)

## 2. 등분산 가정 검정

In [42]:
stats.levene(dinner, lunch)

LeveneResult(statistic=2.6906995489829337, pvalue=0.1022346107726258)

p-value = 0.102로 유의수준 0.05하에서 두 분산은 같다고 할 수 있다.

## 3. 등분산 가정을 고려하여 t-test

In [43]:
# t-test (등분산 가정 O)
t_stat, p_value = stats.ttest_ind(dinner, lunch, equal_var = True)

print("======= t-test 결과 =======")
print("t-test의 검정통계량: {}".format(round(t_stat, 3)))
print("t-test의 p-value: {}".format(round(p_value, 3)))

t-test의 검정통계량: 2.898
t-test의 p-value: 0.004


p-value = 0.004 < 0.05 이므로 유의수준 0.05 하에서 귀무가설을 기각한다.
따라서 점심과 저녁의 매출 사이에 차이가 있다.