## 독립표본 T-검정
- 주어진 데이터(toothgrowth.csv)에는 기니피그 60마리의 치아 길이, 투여한 비타민 C 종류, 투여량이 저장되어 있다

- 데이터의 변수
    + len : 치아의 길이
    + supp : 투여한 약제(VC: 아스코르브산, OJ: 오렌지주스)
    + does : 투여량
- 오렌지주스를 투여받은 기니피그의 치아 길이 평균이 아스코르브산을 투여받은 기니피그의 치아 길이 평균과 일치하는지 t-검정(Two Sample t-test)를 통해 답하고자 한다

### 데이터 불러오기

In [None]:
import pandas as pd
df = pd.read_csv('toothgrowth.csv')

In [None]:
df.head()

Unnamed: 0,len,supp,dose
0,4.2,VC,0.5
1,11.5,VC,0.5
2,7.3,VC,0.5
3,5.8,VC,0.5
4,6.4,VC,0.5


In [None]:
df.groupby('supp')['len'].agg(['mean', 'std', 'count']).reset_index()

Unnamed: 0,supp,mean,std,count
0,OJ,20.663333,6.605561,30
1,VC,16.963333,8.266029,30


### 가설설정
- 귀무가설 : 투여한 약제별로 평균 치아 길이는 같다
- 대립가설 : 투여한 약제별 평균 치아 길이는 같지 않다(차이가 있다)

### 정규성 검정, 등분산성 검정

In [None]:
#정규성
from scipy import stats

data_oj = df[df['supp'] == 'OJ']['len']
data_vc = df.loc[df['supp']=='VC', 'len']
statistic, p_value = stats.normaltest(data_oj)
statistic, p_value


(3.4549967125506016, 0.17772846760698235)

In [None]:
statistic, p_value = stats.normaltest(data_vc)
statistic, p_value

(1.4391642417300032, 0.48695570207663397)

In [None]:
#등분산성
from scipy import stats
stats.levene(df.loc[df['supp'] == 'VC', 'len'], df.loc[df['supp'] == 'OJ', 'len'])

LeveneResult(statistic=1.2135720656945064, pvalue=0.2751764616144053)

- 0.27
- 귀무가설 : 두 그룹 분산차이 없음 => 분산의 동질성 만족

In [None]:
from scipy.stats import stats

t_score, p_value = stats.ttest_ind(df.loc[df['supp'] == 'VC', 'len'],
                                   df.loc[df['supp'] == 'OJ', 'len'],
                                   equal_var = True)

  t_score, p_value = stats.ttest_ind(df.loc[df['supp'] == 'VC', 'len'],


In [None]:
t_score, p_value

(-1.91526826869527, 0.06039337122412849)

- -1.91 : 귀무가설 채택 => 통계적으로 유의하게 두 그룹 평균차이 없음
- p-value를 먼저 확인하여 통계적 유의성 여부를 판단한 다음, 검정 통계량을 이용하여 평균 차이의 크기를 파악
    - 만약 p-value가 유의수준보다 크다면, 두 그룹 간에는 통계적으로 유의미한 차이가 없다고 해석
- 검정 통계량의 절댓값이 클수록 두 그룹의 평균 차이가 크다
    - -1.91526826869527로, 검정 통계량의 절댓값이 비교적 작음. 이는 두 그룹 간의 평균 차이가 크지 않다는 것을 의미