## **1. 1-Sample T-tests 연습**

서울시 가로수 데이터셋을 활용해, 1-Sample T-Tests를 활용해보겠습니다.

(사실 이 데이터는 T-test를 연습하기에 최적인 데이터셋이 아닙니다, python에서 어떻게 T-test를 구현하는지 시도해보기 위한 과정이오니 이점 유의 부탁드립니다. )

In [None]:
# 필요한 lib Import, 데이터셋을 Load 합니다.

import pandas as pd
import numpy as np
from scipy import stats

trees=pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/seoul_tree/seoul_tree.txt', sep='\t', skiprows=1)
trees

Unnamed: 0,기간,자치구,노선수,수량,은행나무,양버즘나무,느티나무,왕벚나무,은단풍나무,메타세콰이어,회화나무,가죽나무,감나무,수양버들,튜울립나무,칠엽수,포플러,느릅나무,살구나무,무궁화,소나무,목련,이팝나무,기타
0,2019,서울시,1412,307351,108050,62474,37473,34150,545,5171,7816,52,871,32,948,1533,7,504,234,2374,4539,378,20088,20112
1,2019,종로구,70,7329,4072,1071,619,421,-,1,140,1,-,8,-,17,-,-,-,-,239,-,711,29
2,2019,중구,48,8250,3640,162,460,289,-,-,176,-,-,-,7,-,-,-,21,46,2162,-,470,817
3,2019,용산구,39,7835,4444,1422,373,262,-,-,37,-,74,-,13,16,-,-,39,-,51,126,198,780
4,2019,성동구,38,8120,1090,2401,1975,602,29,48,325,33,146,-,-,1,3,59,-,-,53,-,709,646
5,2019,광진구,28,7223,1247,2306,1057,940,-,-,153,-,25,-,58,101,-,-,-,-,20,113,760,443
6,2019,동대문구,43,10664,3749,3342,855,747,-,60,143,7,38,7,37,19,-,1,26,1,-,-,1176,456
7,2019,중랑구,57,8365,2774,2759,471,354,-,74,-,-,52,-,-,-,-,-,-,212,64,-,449,1156
8,2019,성북구,78,8449,2722,1282,1014,1656,66,65,38,-,91,-,4,-,-,-,9,5,97,-,853,547
9,2019,강북구,31,7789,3510,934,324,497,284,-,103,-,-,-,5,-,-,140,-,-,1007,-,575,410


In [None]:
# 데이터셋(trees)의 타입을 살펴봅니다.

trees.dtypes

기간         int64
자치구       object
노선수       object
수량        object
은행나무      object
양버즘나무     object
느티나무      object
왕벚나무      object
은단풍나무     object
메타세콰이어    object
회화나무      object
가죽나무      object
감나무       object
수양버들      object
튜울립나무     object
칠엽수       object
포플러       object
느릅나무      object
살구나무      object
무궁화       object
소나무       object
목련        object
이팝나무      object
기타        object
dtype: object

In [None]:
# 데이터 분석을 할 수 있도록, 전처리를 간단히 진행합니다.

trees=trees.replace({'-':'0'})
num= np.arange(2,len(trees.columns))

for i in num:
  trees.iloc[:,i]=pd.to_numeric(trees.iloc[:,i].str.replace(',',''))


### **가설검정**

**서울시에는 구별로 평균적으로 약 400 그루 정도의 `이팝나무`가 있다** 라는 가설에 대해 가설검정을 시행해보겠습니다.

단, `서울시`, `공원녹지사업소`, `시설관리공단` 부분의 데이터는 제외합니다.

In [None]:
# 데이터셋에서, '서울시, 공원녹지사업소, 시설관리공단'은 필요치 않으므로 제거합니다.

trees = trees[trees.자치구.isin(['서울시','공원녹지사업소','시설관리공단'])==False]

In [None]:
# 데이터셋의 타입을 살펴봅니다.

trees.dtypes

기간         int64
자치구       object
노선수        int64
수량         int64
은행나무       int64
양버즘나무      int64
느티나무       int64
왕벚나무       int64
은단풍나무      int64
메타세콰이어     int64
회화나무       int64
가죽나무       int64
감나무        int64
수양버들       int64
튜울립나무      int64
칠엽수        int64
포플러        int64
느릅나무       int64
살구나무       int64
무궁화        int64
소나무        int64
목련         int64
이팝나무       int64
기타         int64
dtype: object

In [None]:
# 가설에 대한 1-Sample T-test를 시행합니다.

stats.ttest_1samp(trees['이팝나무'],400)

Ttest_1sampResult(statistic=3.3809205562101288, pvalue=0.002470712850935819)

위의 셀의 결과에 따르면, **pvalue가 0.05보다 작으므로 귀무가설을 기각할 수 있습니다.** 따라서, 구 별로 평균 400그루의 이팝나무가 있지 **않다고 볼 수 있습니다.**

### **샘플링 후 분석**

이번에는 10개의 구를 샘플링하여, 위에 대한 가설검정을 다시 한번 시행해보겠습니다.

이때, Sample Seed 는 123으로 설정하겠습니다.

In [None]:
# 자치구 중 10개의 구를 랜덤샘플링하여 데이터셋을 구성합니다.

np.random.seed(123)
seoul = np.random.choice(trees['자치구'], size = 10)

sample = trees[trees.자치구.isin(seoul)]
sample

Unnamed: 0,기간,자치구,노선수,수량,은행나무,양버즘나무,느티나무,왕벚나무,은단풍나무,메타세콰이어,회화나무,가죽나무,감나무,수양버들,튜울립나무,칠엽수,포플러,느릅나무,살구나무,무궁화,소나무,목련,이팝나무,기타
1,2019,종로구,70,7329,4072,1071,619,421,0,1,140,1,0,8,0,17,0,0,0,0,239,0,711,29
2,2019,중구,48,8250,3640,162,460,289,0,0,176,0,0,0,7,0,0,0,21,46,2162,0,470,817
3,2019,용산구,39,7835,4444,1422,373,262,0,0,37,0,74,0,13,16,0,0,39,0,51,126,198,780
7,2019,중랑구,57,8365,2774,2759,471,354,0,74,0,0,52,0,0,0,0,0,0,212,64,0,449,1156
11,2019,노원구,50,14489,6505,3336,1165,1612,0,285,41,0,1,0,0,0,0,26,58,150,32,1,142,1135
14,2019,마포구,92,14538,3353,3581,3056,1096,0,474,967,0,102,0,0,0,0,0,64,0,124,93,1280,348
18,2019,금천구,30,6603,3545,1024,407,1123,0,35,177,0,27,0,0,7,0,0,0,0,5,0,184,69
20,2019,동작구,29,7083,2178,829,1421,1127,0,116,8,0,0,0,0,0,0,0,0,206,7,0,397,794
23,2019,강남구,60,23349,7210,7559,2991,2455,0,864,524,0,0,0,65,0,0,0,0,0,0,0,768,913


In [None]:
# 어떤 구가 샘플링되었는지 확인해봅니다.
seoul

array(['마포구', '용산구', '용산구', '중랑구', '금천구', '동작구', '노원구', '강남구', '중구',
       '종로구'], dtype=object)

In [None]:
# 1-Sample T-test를 재시행합니다.

stats.ttest_1samp(sample['이팝나무'],400)

Ttest_1sampResult(statistic=0.9161230024114426, pvalue=0.38638498922886266)

위의 셀의 결과에 따르면, **pvalue가 0.05보다 크므로 귀무가설을 기각할 수 없습니다.** 따라서, **해당 구들의 이팝나무 평균은 400과 유의미한 차이가 없다고 볼 수 있습니다.**


왜 두 t-test의 결론이, 동일한 데이터셋임에도 불구하고 다른 결론이 나왔냐면,
**표본집단이 다르기 때문입니다.**

## **2. 2-Sample T-tests 연습**

**서울시의 구별 평균 느티나무수와 왕벚나무의 수는 차이가 없다** 라는 가설에 대해 가설검정을 시행해보겠습니다.

단, `서울시`, `공원녹지사업소`, `시설관리공단` 부분의 데이터는 이전처럼 제외해보겠습니다. (아까 trees 데이터셋에서 상기 세 부분의 데이터는 삭제했으므로, 그대로 진행합니다.)

In [None]:
# 느티나무와 왕벚나무를 비교하는 2-Sample T-test를 시행합니다.

stats.ttest_ind(trees['느티나무'],trees['왕벚나무'])

Ttest_indResult(statistic=0.4629256014492562, pvalue=0.6455096880085703)

pvalue값이 0.05보다 크므로 귀무가설을 기각할 수 없습니다. 따라서 **서울시 구별 느티나무와 왕벚나무 수의 평균은 유의미한 차이가 있다고 볼 수 있습니다.**

### **가설검정**
**One-tailed test**를 사용하여 평균 느티나무수가 왕벚나무 수보다 크다라는 가설에 대한 가설검정을 시행해보겠습니다.

In [None]:
# One-tailed test
t, p = stats.ttest_ind(trees['느티나무'], trees['왕벚나무'])
print('T는'+str(t)+'이며 양수이므로, 평균 느티나무수가 평균 왕벚나무 수보다 더 크다. 검증 결과는 다음과 같다.')



# One-tailed test 값이 맞는지 실제 평균값 비교
tr_1=trees['느티나무'].mean()
tr_2=trees['왕벚나무'].mean()

print('느티나무의 평균 수: ', tr_1, '     왕벚나무의 평균 수: ', tr_2)

T는0.4629256014492562이며 양수이므로, 평균 느티나무수가 평균 왕벚나무 수보다 더 크다. 검증 결과는 다음과 같다.
느티나무의 평균 수:  1415.12      왕벚나무의 평균 수:  1292.0


### **2-Sample T-test 반복**
함수와 반복문을 사용하여 (for loop, .apply(), list 등등) 종로구 vs 다른 모든 자치구에 대해서 two-sample t-test를 시행해보겠습니다.

In [None]:
seoul = [i for i in trees['자치구'].unique() if i != '종로구']

In [None]:
for i in seoul:
  print(i,'와 종로구를 비교한 결과: ',stats.ttest_ind(trees[trees['자치구']=='종로구'].iloc[:,4:].mean(),trees[trees['자치구']==i].iloc[:,4:].mean()))

중구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.15881196852153073, pvalue=0.8746580619933407)
용산구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.0824608199206831, pvalue=0.9347131125660982)
성동구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.15369395121767837, pvalue=0.878664376595988)
광진구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=0.02141483026380996, pvalue=0.9830267987603676)
동대문구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.5229772758177852, pvalue=0.6040263502895651)
중랑구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.18455093050321267, pvalue=0.8545626866809344)
성북구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.21207882418296745, pvalue=0.83317901077002)
강북구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.08424906654908992, pvalue=0.9333006978467071)
도봉구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.33713459222284886, pvalue=0.7378705243822862)
노원구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.8688941339013617, pvalue=0.3903600476232031)
은평구 와 종로구를 비교한 결과:  Ttest_indResult(statistic=-0.40894897