### T-test 개요 (모평균 비교에 관한 가설 검정)

1. 단일 표본 t검정 (One Sample t-test)
- 단일 모집단에서 추출된 하나의 표본이 대상
- 모평균 과 표본 평균 차이를 검정<br>

2. 대응 표본 t검정 (Paired Sample t-test)
- 표본이 정규정을 만족하지 못하는 경우 Wilcoxon rank sum test 사용
- 예시: 동일 시간 대의 매장 매출 비교, 약물 처리 전-후, 주사 처치 전-후 비교

3. 독립 2표본 t-검정: 독립 표본 t-검정
- 등분산, 정규성 확인 필요 (정규성 없을 경우 위와 같이 윌콕슨 순위합 테스트)
- 독립된 두 표본 집단을 대상
- 등분산 여부에 따라 검정 통계량 계식이 다름


In [1]:
import pandas as pd
from scipy.stats import ttest_1samp
from scipy.stats import ttest_rel
from scipy.stats import ttest_ind

df = pd.read_csv("C:/Users/Data/iris.csv")
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [2]:
ttest_1samp(df['Sepal.Length'], popmean = 4)

Ttest_1sampResult(statistic=27.263680640799215, pvalue=8.764592435410748e-60)

In [3]:
result=  ttest_1samp(df['Sepal.Length'], popmean = 4)
result

Ttest_1sampResult(statistic=27.263680640799215, pvalue=8.764592435410748e-60)

In [4]:
df['Sepal.Length'].mean()

5.843333333333335

In [5]:
stat, p = ttest_1samp(df['Sepal.Length'], popmean = 5.75)
print(round(stat, 2)) # 검정통계량
print(round(p, 2)) # p_value

1.38
0.17


In [6]:
stat, p = ttest_rel(df['Sepal.Length'],df["Sepal.Width"]) # 대응표본 검증
print(round(stat, 2))
print(round(p, 2))

34.82
0.0


In [7]:
df['Species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [19]:
stat, p = ttest_ind(df.loc[df['Species'] == 'setosa', 'Petal.Length']
                    , df.loc[df['Species'] == 'versicola', 'Petal.Length']) # 독립표본 검증
print(round(stat, 3))
print(round(p, 3))

nan
nan


In [20]:
df = pd.read_csv("C:/Users/Data/bike.csv")
df.head(5)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0,0,1,1


In [21]:
stat, p = ttest_1samp(df['temp'], popmean = 20)
print(round(stat, 3)) # 검정통계량
print(round(p, 3)) # p_value

3.091
0.002


In [23]:
df['datetime'] = pd.to_datetime(df['datetime'])
df['year'] = df['datetime'].dt.year
df['month'] = df['datetime'].dt.month
df.head(3)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count,year,month
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16,2011,1
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40,2011,1
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32,2011,1


In [24]:
df_sub = df[(df['year'] == 2011) & (df['month'] == 1)]
len(df_sub)

431

In [27]:
stat, p = ttest_rel(df_sub['casual'], df_sub['registered'])
print(round(abs(stat), 3))
print(round(p, 3))

21.41
0.0


In [29]:
df['wday'] = df['datetime'].dt.weekday
df['wend'] = (df['wday']>=5) + 0
df.head(2)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count,year,month,wday,wend
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16,2011,1,5,1
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40,2011,1,5,1


In [31]:
stat, p = ttest_ind(df.loc[df['wend'] == 1, 'registered'],
                    df.loc[df['wend'] == 0, 'registered'])
print(round(abs(stat), 3))
print(round(p, 3))

12.073
0.0


## 일원 분산분석 (One-way ANOVA)

- H0 (귀무): 집단 간 평균이 같음
- H1 (대립): 평균이 같지 않은 집단이 한 쌍 이상 존재
 -  귀무가설을 기각하는 경우 사후 분석 실시 (post-hoc test)
 - `Tukey's HSD`, `Duncan's MRT`, `Scheffe's test`가 있으나 Tukey가 가장 많이 쓰임

- 특징: 수치형 종속변수와 명목형 독립변수가 각각 1개씩 실시하는 분석
 - 종속 변수로 나눠지는 그룹이 2개 이상 일때 사용 
  - **2개 집단의 평균 분석일 경우 독립 t-test으로 분석할 것을 추천**

- 메소드: scipy의 `f_oneway` (입력: pandas의 Series 권장)


In [1]:
import numpy as np
import pandas as pd
from scipy.stats import f_oneway
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd


In [4]:
df = pd.read_csv("C:/Users/Data/diamonds.csv")

In [5]:
df.head(5)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [6]:
df['color'].unique()

array(['E', 'I', 'J', 'H', 'F', 'G', 'D'], dtype=object)

In [7]:
stat, p = f_oneway(df.loc[df['color'] == 'E', 'price'],
                   df.loc[df['color'] == 'I', 'price'],
                   df.loc[df['color'] == 'J', 'price'])
print(round(stat, 3)) 
print(round(p, 3)) # 각각의 집단 간 평균은 유의미하게 차이가 난다.

621.846
0.0


In [9]:
df.groupby('color')['price'].mean().reset_index() # 대략적 집단 간 평균 차이 확인 가능

Unnamed: 0,color,price
0,D,3169.954096
1,E,3076.752475
2,F,3724.886397
3,G,3999.135671
4,H,4486.669196
5,I,5091.874954
6,J,5323.81802


### ols(), anova_lm()
- statsmodels의 일원 분산 분석을 수행하는 함수
- ols(): 모델을 생성하고 적합
- anova_lm : 적합한 모델정보를 기반으로 일원분산 분석표를 보여줌
- ols() 함수에 수식 입력시, 독립변수에 c() 함수 사용 권장

In [12]:
bike = pd.read_csv("C:/Users/Data/bike.csv")
bike

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129


In [14]:
model = ols(formula = "temp ~C(season)", data = bike).fit() # 독립변수 (명목형_Categorical)
anova_lm(model) # F검정 통게량 확인 가능

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(season),3.0,412885.270005,137628.423335,6040.687453,0.0
Residual,10882.0,247930.804947,22.78357,,


**사후검정: `pairwise_tukey_hsd()`**
- statsmodel의 Tukey 사후 검정을 실시하는 함수
- 함수 내 종속변수와 독립변수를 차례대로 선언
- **결과를 출력하기 위해서 print함수를 반드시 사용!!!**
- reject변수의 True: 귀무가설 ('두 집단 평균 차이가 유의미하게 나지 않음)을 기각하는 것 
 - 유의미하게 다르다

In [16]:
result = pairwise_tukeyhsd(bike['temp'], bike['season'])
print(result)

 Multiple Comparison of Means - Tukey HSD, FWER=0.05 
group1 group2 meandiff p-adj  lower    upper   reject
-----------------------------------------------------
     1      2   10.293 0.001   9.9598  10.6262   True
     1      3  16.2586 0.001  15.9254  16.5918   True
     1      4   4.1187 0.001   3.7856   4.4519   True
     2      3   5.9656 0.001   5.6339   6.2974   True
     2      4  -6.1742 0.001   -6.506  -5.8425   True
     3      4 -12.1399 0.001 -12.4716 -11.8081   True
-----------------------------------------------------


In [24]:
bike['datetime'] = pd.to_datetime(bike['datetime'])
bike['wday'] = bike['datetime'].dt.weekday

In [29]:
print(pairwise_tukeyhsd(bike['wday'], bike['registered']))

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



### 이원 분산분석 (Two-way ANOVA)¶

- 특징: 수치형 종속변수 1개와 명목형 독립변수가 2개일 때 실시하는 분석
- 2개의 요인이 서로 상호간 영향을 주고 받으면서 나타나는 교호작용 효과(interaction-effect) 확인가능

#### 가설 (주요 효과,  일원 분산 분석 가설과 동일)
- H0 (귀무): 집단 간 평균이 같음
- H1 (대립): 평균이 같지 않은 집단이 한 쌍 이상 존재

#### 가설 (교호작용 검정)
- H0 (귀무): 변수 간 교호작용이 없다
- H1 (대립): 변수 간 교호작용이 있다

In [31]:
df = pd.read_csv("C:/Users/Data/diamonds.csv")

In [33]:
formula = "price ~ cut + color + cut:color" # 주 작용, 교호작용 둘 다 볼 때
model = ols(formula, data = df).fit()
anova_lm(model)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
cut,4.0,11041750000.0,2760436000.0,181.405097,1.095733e-154
color,6.0,25507040000.0,4251174000.0,279.370558,0.0
cut:color,24.0,1653455000.0,68893960.0,4.527442,1.00078e-12
Residual,53905.0,820270900000.0,15216970.0,,


In [36]:
# bike 데이터셋: 종속변수를 registered, 독립변수를 season, holiday로 지정했을 때 결과 분석으로 틀린것?
# 두 변수간 교호작용은 없다가 맞음
formula2 = 'registered ~ C(season) + C(holiday) + C(season): C(holiday)'
model2 = ols(formula2, data = bike).fit()
anova_lm(model2)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(season),3.0,10990190.0,3663398.0,168.072567,1.646504e-106
C(holiday),1.0,137039.0,137039.0,6.287195,0.01217579
C(season):C(holiday),3.0,87364.84,29121.61,1.336067,0.2606397
Residual,10878.0,237102600.0,21796.53,,


In [38]:
# bike 데이터셋: 종속변수를 registered, 독립변수를 season, weather로 지정했을 때 결과 분석으로 틀린것?
# 두 변수간 교호작용은 없다가 맞음
formula3 = 'registered ~ C(season) + C(weather) + C(season): C(weather)'
model3 = ols(formula3, data = bike).fit()
anova_lm(model3).round(5)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(season),3.0,10990190.0,3663398.0,170.41388,0.0
C(weather),3.0,3216611.0,1072204.0,49.87675,0.0
C(season):C(weather),9.0,376518.4,41835.37,1.9461,0.04135
Residual,10873.0,233737600.0,21497.07,,
