# T-test & P-value

1. T-test
    - 두 집단 간의 평균의 차이가 유의미한 지 검증하는 통계방법
2. P-value(유의확률)
    - 귀무가설에서 주장한 바가 옳을 확률
    - 검정통계량을 객관적인 0~1사이 확률 값으로 보여주는 지표
        - 검정통계량은 귀무가설이 맞다는 전제 하에 얻은 통계량을 의미

<b>왜 T-test가 필요한가??</b>
* 단순 평균이 차이가 있는 것이 아닌 <u><b>통계적으로 차이가 있는가</b></u>를 보기 위함
* 우리는 항상 모집단이 아닌 표본 데이터를 사용하여 예측

<b>P-value에 관해<br></b>
1. 유의 수준(P<0.05, P<0.01, P<0.001)보다 높다 -> 기무가설 채택(대립가설 기각) -> 두 집단 간 차이가 없다(유의적)
2. 유의 수준보다 낮다 -> 기무가설 기각(대립가설 채택) -> 두 집단 간 차이가 있다(유의적)
    * 모델링이 유의미(머신러닝 관점)
    * 유의적: 독립변수가 종족변수에 영향을 준다

## 2sample T-test steps:
[참고사이트](https://towardsdatascience.com/inferential-statistics-series-t-test-using-numpy-2718f8f9bf2f)
1. Determine a null and alternate hypothesis
    - Null hypothesis(귀무(영)가설): a와 b는 같을 것이다(같은 집단이다)
    - Alternate hypothesis(대립가설): a와 b는 다를 것이다(다른 집단이다)
2. Collect sample data
3. Determine a confidence interval and degrees of freedom
    - df = n1 + n2 -2
4. Calculate the t-statistic([참고1](https://blog.naver.com/istech7/50151098832), [참고2](https://www.statsdirect.co.uk/help/parametric_methods/utt.htm))
5. Calcaulate the critical t-value from the t distribution(scipy사용)

In [1]:
# Import 라이브러르
import numpy as np
from scipy import stats

In [2]:
np.random.seed(1) # random seed 설정

1. 귀무가설: a와 b는 같은 집단일 것이다
2. collect sample data

In [3]:
#Sample Size
n1 = 10
n2 = 10

# mean = 2 and var = 1 인 집단 a
a = np.random.randn(n1) + 2
# mean = 0 and var = 1 인 집단 b
b = np.random.randn(n2)

3. Determain a confidence interval and degrees of freedom

In [4]:
df = n1 + n2 - 2 

4. Calculate the t-ststistic

In [5]:
std_a = a.std(ddof=1)
std_b = b.std(ddof=1)

In [6]:
np.sqrt(4)

2.0

In [7]:
s_ab = np.sqrt(
    ((n1-1)*std_a**2 + (n2-1)*std_b**2) / (n1+n2 - 2)
)

In [8]:
s_ab

1.158667764517823

In [9]:
t = (a.mean() - b.mean())/(s_ab*np.sqrt(1/n1 + 1/n2))

In [10]:
p = 1 - stats.t.cdf(t,df=df)

p-value가 0.05 이하이므로 통계적으로 두 집단의 평균은 다르다고 말할 수 있음

In [11]:
print("t = " + str(t))
print("p = " + str(2*p)) 

t = 3.999536029463021
p = 0.0008406976098074281


 ## scipy function을 사용한 계산

In [12]:
t2, p2 = stats.ttest_ind(a,b)
print("t = " + str(t2))
print("p = " + str(p2))

t = 3.99953602946302
p = 0.0008406976098075643
