# 01 t-test 개요
## 단일 표본 t-검정(One Sample t-test)
- 단일 모집단에서 추출된 하나의 표본이 대상
- 모평균과 표본 평균의 차이를 검정
- __scipy-ttest_1samp()__

## 대응 표본 t-검정(Paired Sample t-test)
- 동일한 모집단으로부터 추출된 두 표본 집단을 대상
- 표본이 정규성을 만족하지 못하면 => Wilcoxon rank sum test 사용
- ex) 의학 통계에서 많이 쓰임, 동일 시간대 다른 매장 매출 비교 등
- __scipy-ttest_rel()__

## 독립 2표본 t-검정(Independent 2 Sample t-test)
- 독립된 두 표본집단을 대상
- **등분산** 여부에 따라 검정통계량 계산식이 다름
- 표본이 정규성을 만족하지 못하면 => Wilcoxon rank sum test 사용
- __scipy-ttest_ind()__

## 가설
- 귀무가설(H0): 두 집단 간 평균이 같다.
- 대립가설(H1): 두 집단 간 평균이 같지 않다.

In [2]:
import pandas as pd
from scipy.stats import ttest_1samp
from scipy.stats import ttest_rel
from scipy.stats import ttest_ind

In [3]:
df = pd.read_csv("Data/iris.csv")
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [4]:
ttest_1samp(df["Sepal.Length"], popmean=4)

Ttest_1sampResult(statistic=27.263680640799215, pvalue=8.764592435410748e-60)

In [5]:
result = ttest_1samp(df["Sepal.Length"], popmean=4)
result

Ttest_1sampResult(statistic=27.263680640799215, pvalue=8.764592435410748e-60)

In [6]:
result[0]

27.263680640799215

In [8]:
round(result[0], 3)

27.264

In [10]:
stat, p = ttest_1samp(df["Sepal.Length"], popmean=4)
print(stat)
print(p)

27.263680640799215
8.764592435410748e-60


In [11]:
stat, p = ttest_1samp(df["Sepal.Length"], popmean=4)
print(round(stat, 2))
print(round(p, 2))

27.26
0.0


In [12]:
df['Sepal.Length'].mean()

5.843333333333335

In [17]:
stat, p = ttest_1samp(df["Sepal.Length"], popmean=5.8)
print(round(stat, 2))
print(round(p, 2))
# p-value가 1에 가까워지면 t는 0에 가까워진다.

0.64
0.52


In [19]:
# 대응표본 t-검정
stat, p = ttest_rel(df["Sepal.Length"], df["Sepal.Width"])
print(round(stat, 3))
print(round(p, 3))
# 귀무가설 기각, 대립가설 채택

34.815
0.0


In [20]:
df["Species"].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [21]:
stat, p = ttest_ind(df.loc[df["Species"] == "setosa", "Petal.Length"],
                   df.loc[df["Species"] == "versicolor", "Petal.Length"])
print(round(stat, 3))
print(round(p, 3))

-39.493
0.0


# 문제

In [22]:
# ===================================================
# 1. 자료가 수집된 지역의 평균 온도는 20도라고 한다.
# 수집된 데이터를 사용하여 양측 검정을 실시했을 때 p-value는?
#
# bike.csv 파일
#
# 정답: 0.002
# ===================================================
df = pd.read_csv("Data/bike.csv")
df.head(2)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40


In [23]:
stat, p = ttest_1samp(df["temp"], popmean=20)
print(round(stat, 3))
print(round(p, 3))

3.091
0.002


In [24]:
# ===================================================
# 2. 2011년 1월의 데이터를 대상으로 동 시간대의 casual과
# registered의 평균 차이 검정 시 검정통계량은?
# -양측 검정을 실시하고 검정통계량 절대값의 정수부분을 확인
# 
# bike.csv 파일
#
# 정답: 21
# ===================================================
df = pd.read_csv("Data/bike.csv")
df.head(2)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40


In [25]:
df["datetime"] = pd.to_datetime(df["datetime"])
df["year"] = df["datetime"].dt.year
df["month"] = df["datetime"].dt.month
df.head(2)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count,year,month
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16,2011,1
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40,2011,1


In [26]:
df_sub = df.loc[(df["year"] == 2011) & (df["month"] == 1),]
len(df_sub)

431

In [28]:
stat, p = ttest_rel(df_sub["casual"], df_sub["registered"])
print(round(abs(stat), 3))
print(round(p, 3))

21.41
0.0


In [29]:
# ===================================================
# 3. 주중과 주말의 registered 평균 검정 시 검정통계량은?
# -양측 검정을 실시하고 검정통계량 절대값의 정수부분 확인
#
# 정답: 12
# ===================================================
df = pd.read_csv("Data/bike.csv")
df.head(2)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40


In [30]:
df["datetime"] = pd.to_datetime(df["datetime"])
df["wday"] = df["datetime"].dt.weekday
df["wend"] = (df["wday"] >= 5) + 0
df.head(2)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count,wday,wend
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16,5,1
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40,5,1


In [31]:
stat, p = ttest_ind(df.loc[df["wend"] == 1, "registered"],
                    df.loc[df["wend"] == 0, "registered"])
print(round(abs(stat), 3))
print(round(p, 3))

12.073
0.0
