<img src='https://i.imgur.com/RDAD11M.png' width = '200' align = 'right'>

## *DATA SCIENCE / SECTION 1 / SPRINT 2 / NOTE 1*

---

# T-tests 

## 🏆 학습 목표 

- T-test의 목적과 사용예시를 설명 할 수 있다.
- One-sample t-test를 시행 할 수 있다.
- Two-sample t-test를 시행 할 수 있다.
- p-value를 사용하여 주어진 가설에 대한 결론을 내릴 수 있다. 

## ❓ 시작하기전에

- 1000마리의 고양이와 800마리의 강아지의 몸무게 데이터가 있을때..
- 고양이와 강아지의 평균 몸무게는 같은지 혹은 다른지 어떻게 정할 수 있을까요?

---

## 기술 통계치(Descriptive Statistics)란?

<https://drhongdatanote.tistory.com/25>

- count, mean, standard dev, min, 1Q, median, 3Q, max 등의
- 데이터를 **설명** 하는 값(혹은 통계치)들

In [None]:
import pandas as pd
df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,4,6,8,10]})
df.head()

In [None]:
# 위 데이터에 대한 설명 통계치를 확인
df.describe()

## 추리 통계치(Inferetial Statistics)란?

<img src='https://user-images.githubusercontent.com/6457691/89746247-a9dd9280-daf3-11ea-86dd-e3b00781f148.png' width = '500'>

In [None]:
df['a'].hist()

## 가설 검정

<https://ko.wikipedia.org/wiki/%EA%B0%80%EC%84%A4_%EA%B2%80%EC%A0%95>

- 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정.
- 모집단의 실제 값에 대한 (예를 들면 평균) 표본의 정보를 사용해서 사실 여부를 판정함.
- ✅ 코드스테이츠 직원들의 평균 키는 180 cm 이다. ( 사실 여부 판정 가능 ) 
- 🚫 코드스테이츠의 DS 수강생은 Web 수강생들에 비해 귀엽다. ( 사실 여부 판정 불가 ) 

<img src='https://user-images.githubusercontent.com/6457691/89747064-fd51df80-daf7-11ea-8fdc-547b33e748c3.png' width = '400'>

In [None]:
import numpy as np

# 동전 던지기 

coinflips = np.random.binomial(n = 1, p = 0.5, size = 10)
print(coinflips)

df = pd.DataFrame({'coinflips': coinflips})
df['coinflips'].hist()

- ❓샘플링을 할 때마다, 결과값이 다른 이유

In [None]:
# 우연성에 따른 다른 결과

anotherCoin = np.random.binomial(n = 1, p = 0.5, size = 10)
anotherCoin2 = np.random.binomial(n = 1, p = 0.5, size = 10)
print( anotherCoin )
print( anotherCoin2 )

print(np.mean(anotherCoin))
print(np.mean(anotherCoin2))

- ❓샘플의 사이즈가 결과에 미치는 영향

In [None]:
# 더 많은 정보 -> 무작위성을 고려하더라도 더 높은 신뢰성

moreCoin = np.random.binomial(n = 1, p = 0.5, size = 100000)
print(np.mean(moreCoin))


### 표본 평균의 표준 오차 ( Standard Error of the Sample Mean )

<img src='https://user-images.githubusercontent.com/6457691/89747253-e2cc3600-daf8-11ea-8dec-4a540ffaf904.png' width = '400'>

![Standard Error of the Sample Mean](https://jungminded.weebly.com/uploads/1/3/5/8/13582285/7285766_orig.jpeg?160)

s (우측) = 표본의 표준편차 (sample standard deviation)

n = 표본의 수 (sample size)

**결론: 표본의 수가 더욱 많아질수록, 추측은 더 정확해지고 (평균) 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있도록 함**


## 단일 표본 T 검정 ( One Sample T-test )

예) 동전이 공정한지 확인하려고 할때 : $p(x = H)$ = 0.5 

- 모집단에 대한 정보와 표본의 데이터를 비교 

![One Sample T Statistic](https://www.statisticshowto.com/wp-content/uploads/2015/09/t-score.jpg)

<img src='https://user-images.githubusercontent.com/6457691/89747473-df857a00-daf9-11ea-8e0f-922b27061199.png' width ='400'>

In [None]:
coinflips = np.random.binomial(n = 1, p = 0.7, size = 10)
print(coinflips)

## The T-test Process:

1) 귀무 가설 (Null Hypothesis) 를 설정 (동전은 공정하다)

$H_0: \mu = \bar{x}$

$\mu =$ 모집단의 평균

$\bar{x} =$ 표본의 평균

2) 대안 가설 (Alternative Hypothesis) 를 설정 (동전은 공정하지 않다)

$H_1: \mu \neq \bar{x}$

3) 신뢰도를 설정 (Confidence Level) : 모수가 신뢰 구간 안에 포함될 확률 (보통 95, 99% 등을 사용)

신뢰도 95%의 의미 
= 모수가 신뢰 구간 안에 포함될 확률이 95%
= 귀무가설이 틀렸지만 우연히 성립할 확률이 5%

<img src='https://user-images.githubusercontent.com/6457691/89747624-92ee6e80-dafa-11ea-83a0-79a51f3baff4.png' width = '400'>

4) P-value를 확인

5) 가설에 대해 결론을 내림

In [None]:
from scipy import stats
# 파라미터 1) Sample 데이터, 2) 비교하려는 값
coinflips = np.random.binomial(n = 1, p = 0.5, size = 1000)
print(stats.ttest_1samp(coinflips, .5))

coinflips = np.random.binomial(n = 1, p = 0.8, size = 1000)
print(np.mean(coinflips))
print(stats.ttest_1samp(coinflips, .5))
print(stats.ttest_1samp(coinflips, .8))


**p-value가 (1-Confidence)보다 낮은 경우, 귀무가설을 기각하고 대안 가설을 채택함**

## 독립 표본 T 검정 ( Two Sample T-test )

2개의 그룹간의 평균이 같은지를 비교.

# 😺  🐶 

고양이와 강아지 중 누가 더 **뚱땡**할까요? 물론 냥바냥 멍바멍이겠지만, 이에 대한 **통계적** 주장을 하기 위해서 지나가는 고양이와 강아지의 몸무게를 측정해서 데이터를 수집했다고 하겠습니다, (샘플의 수는 고양이 1000마리 강아지 800마리). 

데이터는 각각 5 (편차 3.2), 7(2.1) kg라고 할 때 두 숫자는 다르지만, 고양이와 강아지의 몸무게가 통계적으로 유의한 차이가 있는지 없는지에 대하여 결론을 내려면 어떻게 해야 할까요?

<img src='https://user-images.githubusercontent.com/6457691/89747924-e1e8d380-dafb-11ea-9fc1-cc02214ccc8f.png' width = '400'>

1) 귀무가설 : 두 몸무게는 같다 (차이가 없다).

$H_0: \bar{x}_1 = \bar{x}_2$

2) 대안가설 : 같지 않다

$H_1: \bar{x}_1 \neq \bar{x}_2$

3) 신뢰도 : 95%



In [None]:
xbar1 = 5
s1 = 3.2

xbar2 = 7
s2 = 2.1

sample1 = np.random.normal(xbar1, s1, 1000) # mean, sd, size
sample2 = np.random.normal(xbar2, s2, 800) # mean, sd, size

stats.ttest_ind(sample1, sample2)

**결론 : 고양이와 강아지의 평균 몸무게는 ( 같다 / 같지 않다 )**

## T-test를 더 연습해보세요.

## 🌳 **서울시 가로수 현황 통계** 데이터셋을 사용해보도록 하겠습니다.

(과제에 쓰일 데이터를 바탕으로 연습해도 좋습니다)

<img src='https://user-images.githubusercontent.com/6457691/89749067-3e022680-db01-11ea-80e6-9ed0b644dc3b.png' width='600'>

원본 데이터는 아래의 

<https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/seoul_tree/seoul_tree.txt> 링크나

<https://data.seoul.go.kr/dataList/367/S/2/datasetView.do> 링크를 참조하여 다운로드 할 수 있습니다.



In [None]:
import pandas as pd

trees = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/seoul_tree/seoul_tree.txt', sep = '\t', skiprows = 1)

trees = trees.replace({'-':0})

print(trees.head())

In [None]:
tree1 = pd.to_numeric(trees['은행나무'].str.replace(',',''))
tree2 = pd.to_numeric(trees['느티나무'].str.replace(',',''))

print(tree1.head())
print(tree2.head())

## 1-sample t-test: 은행나무의 평균

1) 같다

2) 같지 않다

3) 95%

4), 5) 생략


In [None]:
print(np.mean(tree1))

print(stats.ttest_1samp(tree1, 20000))
print(stats.ttest_1samp(tree1, 8000))
print(stats.ttest_1samp(tree1, 7800))
print(stats.ttest_1samp(tree1, 5000))
print(stats.ttest_1samp(tree1, 4000))


## 2-sample t-test : 은행나무 VS 느티나무

In [None]:
print(stats.ttest_ind(tree1,tree2))

## ℹ️ Student's T Test 에 대한 TMI

> Assuming data come from a Normal distribution, the t test provides a way to test whether the sample mean (that is the mean calculated from the data) is a good estimate of the population mean. 

T-분포는 1908년에 기네스에서 일하던 William Gosset에 의해 처음으로 제시되었습니다. 하지만 소유권의 문제로 그는 가명을 써야 했고 그 결과 William 이 아닌 Student T-test가 되었습니다.

T-분포는 정규성을 갖는 데이터의 평균의 분포와 일치합니다. 즉, t-통계치를 사용하는 것으로 평균이 어느 정도 유의성을 가지고 있는지를 확인 할 수 있습니다.