# 평균검정 
1. 단일표본검정
2. 두 독립표본의 검정
3. 짝지어진 표본의 검정  

## 단일표본 평균 검정(One sample T-test)
25마리 게의 체온을 측정한 데이터가 아래와 같을 때, 게의 평균 체온이 24.3도 라고 할 수 있는지 검정해보자
- 귀무가설 : 게의 평균 체온은 24.3도이다.
- 대립가설 : 게의 평균 체온은 24.3도가 아니다.

In [3]:
crab = [25.8, 24.6, 26.1, 22.9, 25.1, 27.3, 24.0, 24.5, 23.9, 26.2,
       24.3, 24.6, 23.3, 25.5, 28.1, 24.8, 23.5, 26.3, 25.4, 25.5,
       23.9, 27.0, 24.8, 22.9, 25.4]

In [3]:
import pandas as pd

In [5]:
crab_df = pd.DataFrame(crab)

crab_df.head()

Unnamed: 0,0
0,25.8
1,24.6
2,26.1
3,22.9
4,25.1


In [6]:
from scipy import stats
crab_test = stats.ttest_1samp(crab, 24.3)
print("T-value = %.3f, p-value = %.3f" % crab_test)

T-value = 2.713, p-value = 0.012


p-value가 0.012로 0.05보다 작기 떄문에 귀무가설을 기각합니다.  
즉, 게의 평균 체온이 24.3도라고 할 수 없습니다.

## 두 독립표본 평균 검정

독립된 두 표본에서 추출한 그룹의 평균 차이를 검정하려면 두 그룹의 분산이 동일하다는 가설을  
검정한 이후에 검정 결과에 따라 다르게 독립표본 t검정을 시행합니다.

### 문제

13명의 실험 참여자들을 대상으로 B와 G 두종류의 지혈제 효과를 측정한 자료이다.  
이때 두 지혈제간의 지혈효과 차이가 있는지 검정해보자.

In [4]:
group = ["b","b","b","b","b","b","g","g","g","g","g","g","g",]
time = [8.8,8.4,7.9,8.7,9.1,9.6,9.9,9.0,11.1,9.6,8.7,10.4,9.5]

In [5]:
drug_df = pd.DataFrame(zip(group, time), columns=["group", "time"])
drug_df.head()

Unnamed: 0,group,time
0,b,8.8
1,b,8.4
2,b,7.9
3,b,8.7
4,b,9.1


In [26]:
g = drug_df[drug_df["time"]==0]["group"]
g

Series([], Name: group, dtype: object)

In [27]:
g.shape

(0,)

In [29]:
g.shape[0] == 0

True

In [20]:
type(g)

pandas.core.series.Series

In [21]:
if g.empty:
    print(g)

Series([], Name: group, dtype: object)


In [None]:
from scipy import stats

drugB = drug_df.loc[drug_df["group"] == "b", "time"]
drugG = drug_df.loc[drug_df["group"] == "g", "time"]
                    
levene = stats.levene(drugB, drugG)

print("LeveneResult(statisstic = %.3f, p-value = %.3f" % levene)

p 값이 통상적인 기준인 0.1보다 크므로 두 그룹의 분산이 동일하다는 가정을 받아들입니다.

In [16]:
drug_ttest = stats.ttest_ind(drugB, drugG, equal_var = True)

print("Assuming equal variances : t-value = %.3f, p-value = %.3f" % drug_ttest)

Assuming equal variances : t-value = -2.476, p-value = 0.031


p-value의 값이 유의수준 0.05보다 작으므로 두 지혈제 간의 효과 차이가 없다는 귀무가설을 기각합니다.  
즉, "두 지혈제 간의 효과에는 유의한 차이가 있다" 라고 해석 할 수 있습니다.

## 짝지어진 표본 평균 검정(Paired T-test)

아래는 10명의 고혈압 환자에게 혈압 강하제 투여전 후의 혈압을 측정한 자료이다.  
혈압 강하제의 효과가 있었는지를 검정해보자

In [17]:
before = [142,140,144,144,142,146,149,150,142,148]
after = [138,136,147,139,143,141,143,145,136,146]

In [18]:
pres_df = pd.DataFrame(zip(before, after), columns=["before", "after"])
pres_df.head()

Unnamed: 0,before,after
0,142,138
1,140,136
2,144,147
3,144,139
4,142,143


In [20]:
from scipy import stats
pres_pttest = stats.ttest_rel(pres_df.before, pres_df.after)
print("T-value = %.3f, p-value = %.3f" %pres_pttest)

T-value = 3.414, p-value = 0.008


p-value가 0.008로 유의수준 0.05보다 낮으므로 혈압 강하제의 효가가 없다는 귀무가설을 기각합니다.  
즉, "혈압 강하제는 혈압을 낮추는데  효과가 있다" 라고 해석할 수 있습니다.