<a href="https://colab.research.google.com/github/yunseo4401/statistical-analysis/blob/main/t_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#t-test
-검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정 방법 
(주장하고자 하는 가설이 대립가설, 이와 반대 가설이 귀무가설 > 귀무가설이 틀렸음을 증명하여 대립가설을 입증하는 방법 ) 
- 어느 특정 집단의 평균 값을 추정하거나 차이를 검정할 때 사용가능 
- 종속변수는 평균값을 가질 수 있는 연속형 변수, 독립변수는 범주형 변수여야 함


#일표본 t-검정 (one sample t-test)
- 단일모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교 
- 종속변수는 연속형이며, 검증하고자하는 기준값있어야 함요 
- 귀무가설 : 모평균의 값은 () 이다 
- 대립가설 : 모평균의 값은 ()이 아니다. 

In [1]:
#고양이들의 평균몸무게가 2.6kg인지 아닌지 통계적 검증해보자. 
import pandas as pd
cats=pd.read_csv('cats.txt',sep=',')
cats

Unnamed: 0,Sex,Bwt,Hwt
0,F,2.0,7.0
1,F,2.0,7.4
2,F,2.0,9.5
3,F,2.1,7.2
4,F,2.1,7.3
...,...,...,...
139,M,3.7,11.0
140,M,3.8,14.8
141,M,3.8,16.8
142,M,3.9,14.4


In [2]:
cats.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144 entries, 0 to 143
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Sex     144 non-null    object 
 1   Bwt     144 non-null    float64
 2   Hwt     144 non-null    float64
dtypes: float64(2), object(1)
memory usage: 3.5+ KB


In [3]:
#고양이의 몸무게만 추출하여 shapiro test를 통해 정규성을 검정함 
import scipy.stats as stats
from scipy.stats import shapiro
mu=2.6 #2.6kg인지 검증하는 것이므로 
shapiro(cats['Bwt'])

ShapiroResult(statistic=0.9518786668777466, pvalue=6.730248423991725e-05)

In [4]:
#첫번째 값= 검정통계치 = 0.95187
#두번째 값 = p-value = 6.730e-05
#유의수준(0.05) 보다 작으므로 '데이터가 정규분포를 따른다'라는 귀무가설을 기각함
#고양이의 몸무게는 정규분포를 띠지 않음 
#정규분포가 아니면 > wilcoxontest로 검정 
#정규분포이면 stats,ttest_1samp(cats.Bwt,popmean=mu)사용 

stats.wilcoxon(cats.Bwt-mu,alternative='two-sided')

WilcoxonResult(statistic=3573.0, pvalue=0.02524520294814093)

In [5]:
#유의수준 0.05보다 작으므로 귀무가설 기각 
#유의수준 0.05하에 고양이의 평균 몸무게는 2.6kg라고 할 수 없다. 

#대응표본 t 검정 
- 단일모집단에 대해 어떠한 처리를 가했을 때, 처리전후에 따른 평균의 차이 비교
- 표본 내 개체들에 대해 두 번의 측정을 함 
- 모집단의 관측값이 정규성을 만족해야한다는 가정이 있음 
- 귀무가설 : 두 모평균 사이의 차이는 없다 
- 대립가설 : 두 모평균 사이의 차이는 있다. 

In [6]:
#10명의 환자 대상 수면영양제 복용 전과 후의 수면시간 측정 
#영양제의 효과가 있는지를 판단해보자
#정규성 만족 가정이 있으므로 ttest_1samp
import pandas as pd
data={'before':[7,3,4,5,2,1,6,6,5,4],'after':[8,4,5,6,2,3,6,8,6,5]}
data=pd.DataFrame(data)
data

Unnamed: 0,before,after
0,7,8
1,3,4
2,4,5
3,5,6
4,2,2
5,1,3
6,6,6
7,6,8
8,5,6
9,4,5


In [8]:
stats.ttest_rel(data['after'],data['before'],alternative='greater')
#유의수준보다 작으므로 귀무가설 기각 
#두 영양제 복용 전과 후의 수면시간 차이는 있음 

Ttest_relResult(statistic=4.743416490252569, pvalue=0.0005269356285082764)

#독립표본 t-test
- 두개의 독립된 모집단의 평균비교시 사용 
- 모집단, 모수, 표본이 모두 두개씩 존재함
- 두 모집단은 정규성을 만족한다는 가정 
- 두 모집단의 분산이 서로 같아야 한다는 가정(등분산성)
- 귀무가설 : 두 집단의 모평균 차이는 없다 
- 대립가설 : 두 모평균 사이의 차이는 있다. 

In [9]:
#성별이 다른 고양이의 몸무게 차이를 비교해보자 
female=cats.loc[cats.Sex=='F','Bwt']
male=cats.loc[cats.Sex=='M','Bwt']
stats.levene(female,male) #levene-test : 등분산성 검정.등분산 검정에 들어가는 값은 시리즈로 데이터 길이가 같아야 함

LeveneResult(statistic=19.43101190877999, pvalue=2.0435285255189404e-05)

In [10]:
#등분산성을 만족하지 않으므로 equal_var=False로 독립 t-test를 진행한다. 
stats.ttest_ind(female,male,equal_var=False)

Ttest_indResult(statistic=-8.70948849909559, pvalue=8.831034455859356e-15)

In [11]:
#귀무가설 기각으로 암컷과 수컷의 몸무게 차이는 존재함 