# 단일 표본 t 검정
---

- 단일 표본 t-검정의 목적 : 그룹의 평균이 기준값과 차이가 있는지 확인하기 위함<br><br>
    - 기초적인 A/B 테스트할때 사용된다. (데이터가 수치형이어야 함)<br><br>
   
## 영 가설과 대립가설

- 영 가설 : 데이터(그룹)가 갖고 있는 값의 평균이 기준값과 같다.<br><br>
    - $H_0 : \bar{x} = \mu $ ($\bar{x}: 표본평균, \mu : 기준 값$)<br><br>
- 대립 가설 : <br><br>
    - $H_1 : \bar{x} > \mu$ : 데이터(그룹)가 갖고 있는 값의 평균이 기준값보다 크다.<br><br>
    - $H_1 : \bar{x} < \mu$ : 데이터(그룹)가 갖고 있는 값의 평균이 기준값보다 작다.<br><br>
    
<t-검정 영가설 설정의 예시><br><br>
- 회사에서 운영중인 웹사이트에서 고객이 웹사이트에 체류하는 시간의 평균이 10분인지 확인하고 싶다.<br><br>
    - 영 가설 : $H_0 : \bar{x} = 10$<br><br>
    - 대립 가설 : $H_0 : \bar{x} \neq 10$<br><br>
    
---

# 단일 표본 t-검정의 선행 조건
---

- (데이터가) 정규분포를 따라야 한다.<br><br>
- KS(Kolmogorov-Smornov) 테스트 혹은 SW(Shapiro-Wilk)테스트를 통한 정규성 검정이 선행되어야 한다.<br><br>

- 일반적으론 샘플수가 많을 수록 정규성을 띌 가능성이 높다. (보통 30개 이상을 기준으로 삼음)<br><br>

- 따라서 샘플 수가 부족한 경우만 정규성 검정을 시행한다.<br><br>

    - 해당 데이터가 정규성을 띄지 않을 경우<br><br>

    - 부호검정(sing test) 나 윌콕슨 부호 - 순위 검정을 수행해야 한다. <br><br>

- python에서 해당 검증을 구현하는 방식은 아래에 설명

# 단일 표본 t-검정 통계량
---

- 검정 통계량 : 영 가설을 세운 관심 부분에 대한 차이 또는 효과를 측정하기 위한 지표<br><br>

- 단일 표본 t-검정 공식

# $t = \bar{x} - \mu \over s/  \sqrt{n}$


$\bar{x} : 표본 평균, \mu : 기준값, n : 표본 수, s : 표본 표준 편차$


- t-검정 통계량(의 절대값) 이 커질 수록 유의확률(p-value)이 줄어든다.<br><br>
    - 표본 평균과 기준값의 차이가 클수록 t-검정 통계량(의 절대값)이 커진다.<br><br>
    - s 가 커질 수록 t-검정 통계량의 절대값이 작아진다.<br><br>
    - n 가 커질 수록 t-검정 통계량의 절대값이 커진다.<br><br>
    
- 즉,
    - 표본 평균과 기준값의 차이가 크면 클수록 <br><br>
    - 표본 표준 편차(s)가 작으면 작을 수록<br><br>
    - 표본 수(데이터의 수, 보통 30이상이면 충분하다 간주) 가 많으면 많을 수록<br><br>
- **t-검정 통계량의 영 가설이 기각될 가능성이 높아진다.**<br><br>

# 단일 표본 t-검정 (시각화)
---

- 위의 t-검정 통계량을 t분포를 시각화한 그래프에 위치시켜 봄으로서 p-value를 계산할 수 있다.


$H_1 : \bar{x} > \mu$
![image](https://user-images.githubusercontent.com/74717033/134505498-9d703b96-4686-4395-a77e-32fbf423b16b.png)

---
$H_1 : \bar{x} < \mu$
![image](https://user-images.githubusercontent.com/74717033/134505533-be470078-a972-457e-a69c-acef111152e2.png)

---
$H_1 : \bar{x} \neq \mu$
![image](https://user-images.githubusercontent.com/74717033/134503350-42f1db60-021b-4329-b605-e14c7b7cde45.png)

- 양측 검정의 경우 2가지 경우를 모두 포함하기에 p-value를 2로 나눈값으로 p-value를 확인한다.

# 단일 표본 t-검정 코드 구현

- 정규성 검정은 일반적으로 Kolmogorov-Smornov test ( KS test) 라고 부른다.
- 엄밀히 말해 KS test는 샘플들이 '특정분포'를 따르는 지 확인하는 것이 목적이다.
    - 이를 활용해 그 '특정 분포' 를 '정규 분포' 로 지정할 뿐이다.
- 즉, 특정 분포를 따르면 나올 것이라 예상되는 값과 실제 관측한 샘플 값의 차이가 유의한가를 검증하는 것
---

- 기본적인 검증 과정은
    - 1) 데이터가 정규 분포를 따르는지 확인

## 정규성 검정 (KS test)
- scipy.stats.kstest(x,'norm')
    - 'norm'이 정규분포를 의미
- 결과는 result = (statistics, pvalue) 형태로 출력된다.
    - pvalue값이 특정 수치(보통 0.005, 0.001) 미만 이면 정규성을 따른다고 판단한다.
---

In [1]:
# 파일 로드위한 directory 확인 및 현재 경로로 설정
import os
a = os.getcwd()
os.chdir(a)

with open("성인여성_키_데이터.txt", "r") as f:
    data = f.read().split('\n') # string 형태
    data = list(map(float, data)) # map으로 각 string을 float으로 변경

In [2]:
# 데이터 살펴 보기
data[:3]

[150.27, 142.94, 160.99]

In [3]:
# 정규성 검정 (데이터가 정규 분포를 띄는가?!)
from scipy.stats import *
# from scipy.stats import kstest

kstest(data, 'norm')

KstestResult(statistic=1.0, pvalue=0.0)

 **p-value가 0.0 < 0.05 이므로 정규성을 띈다고 판단.**

## 단일 표본 t검정

- scipy.stats.ttest_1samp(x, popmean)
- popmean은 기준값 ($\mu$)
- result = (statistics, pvalue) 로 출력된다.
    - statistics 가 양수 : x의 평균이 popmean보다 큰것
    - statistics 가 음수 : x의 평균이 popmean보다 작은 것
    - pvalue가 특정수치 미만이면 x는 popmean과 같지 않다고 판단한다.

In [4]:
# 단일 표본 t 검정 수행
print(ttest_1samp(data, 163)) 

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.006510445335847954)


- pvalue가 0.05 미만이므로 영가설 (data의 평균 == 163)을 기각한다.
- 통계량이 음수이므로 data의 평균 < 163임을 알 수 있다.

## 윌콕슨 부호-순위 검정

- 단일 표본 t-검정을 하지 못하는 경우 (= 데이터가 정규분포를 띄지 않을때)에 사용
- scipy.stats.wilcoxon(x)
    - t-test 함수와 달리 popmean을 설정할 수 없다. 
    - popmean은 자동으로 '중위값' 으로 설정된다.
    - mean값이 설정되지 않는 이유는 t-검정 공식에서 알 수 있다.
    - $t = \bar{x} - \mu \over s/  \sqrt{n}$ 에서 알 수 있듯이 popmean을 데이터의 평균으로 하면 분자값이 0이되어 검정을 할 수가 없다.

# 독립 표본 t 검정
---

- 목적 : 서로 다른 두 그룹의 데이터 평균을 비교하기 위함
- 단일 표본 t검정에 비해 훨씬 많이 사용된다. 

# 영 가설과 대립 가설

영 가설
$H_0 : \mu_a = \mu_b$

- $\mu_a : 그룹 a의 표본 평균, \mu_b : 그룹 b의 표본 평균$

대립 가설
$H_1 : \mu_a > \mu_b$ or $H_1 : \mu_a < \mu_b$

<독립 표본 t검정 예시>

- 2020년 7월 한달간 A 매장의 일별 판매량과 B매장의 일별 판매량에 대한 데이터다 있다. 이때 A매장과 B매장의 7월 판매량 간에 유의미한 차이가 있을까?

# 독립 표본 t-검정의 선행 조건
---

- 독립성 : 두 그룹이 서로 독립적이어야 한다. (서로의 데이터 관측에 영향을 주지 않아야 한다.)<br><br>
---
- 정규성 : 데이터는 정규분포를 따라야 한다. (A, B 전체 데이터 기준)<br><br>
    - 정규성을 따르지 않을 경우 비모수 검정인 Mann-Whitney검정을 수행한다.<br><br>
---    
<br><br>
- 등분산성 : 두 그룹의 데이터에 대한 '분산이 같아야 한다.'<br><br>
    - Levene의 등분산 검정으로 확인한다.<br><br>
    - p-value가 0.05미만 이면 두 그룹의 분산이 서로 다르다고 판단한다.<br><br>
    - 분산이 같은지 다른지에 따라 사용하는 통계량이 달라진다.<br><br>
    - 파이썬 함수에서는 옵션만 바꿔주면 된다.<br><br>
- 왜 두 그룹간의 분산이 같아야 할까?<br><br>
    - 두 그룹의 분산이 다르면<br><br>
    - 두 그룹의 평균이 다르다. 혹은 같다. 라는 결과가 나왔을때 분산에 영향을 받았을 것을 간과 할 수 없기 때문.<br><br>
    - e.g) A그룹의 분산이 매우 크고, B그룹의 분산이 매우 작을 때 이를 t-검정 했다. 이때, 두 그룹의 차이가 유의하지 않다고 나온다면 ? (= 평균이 비슷하다면?)<br><br>
   - 이는 단순히 한쪽의 분산이 커서 그런 결과가 나올 가능성이 존재하기 때문에 해당 결과를 신뢰하기 어렵다.<br><br>

# 독립 표본 t-검정통계량 구하기
---

## 두 그룹의 분산이 같은 경우

# t = $\bar{x}_a - \bar{x}_b \over s/ \sqrt{1\over n_a} + \sqrt{1\over n_b}$

- $x_a :그룹 A의 표본 평균, n_a : 그룹 A의 샘플 수$
- $x_b : 그룹 B의 표본 평균, n_b : 그룹 B의 샘플 수, s : 통합 분산$
---

- 두 그룹의 표본 평균 차이가 0이면 t의 절대값은 0이 된다.
- 두 그룹의 표본 평균 차이가 크면 클 수록 t의 절대값이 커진다.

# s = $ \sqrt{(n_a -1) \times s^2_a + (n_b -1)s^2_b \over n_a + n_b -2 )}$

- $s_a : 그룹 A의 표준 편차, s_b : 그룹 B의 표준 편차$

## 두 그룹의 분산이 다른 경우

# $t = \bar{x}_a - \bar{x}_b \over s$

# s = $\sqrt{s^2_a\over n_a} + \sqrt{s^2_b\over n_b}$

두 경우 구조는 동일하다. 다만 분모에 들어가는 S의 값이 다르다.

# 독립 표본 t-검정 코드 구현
- A, B 두 반 사이에 점수차이가 있는지를 실습
- type 1과 type2 의 데이터 유형이 존재 각 유형별로 전처리 과정이 다름.

In [20]:
import pandas as pd
df1 = pd.read_csv("반별_점수_type1.csv", encoding='cp949')
df1

Unnamed: 0,반,점수
0,A,73
1,A,69
2,A,71
3,A,71
4,A,73
5,A,67
6,A,73
7,A,69
8,A,62
9,A,74


위와 같이 두 그룹의 데이터가 categorical로 하나의 컬럼에 입력되어 있는 경우를 type1 이라 한다.

In [10]:
# 그룹 기준으로 데이터 나눠 담기
# df1['점수'].loc[df1['반'] == 'A'] 까지하면 Series
# scipy에서는 Series보다는 np.array형태가 더 적합
group_A = df1['점수'].loc[df1['반'] == 'A'].values #np.array로 변형
group_B = df1['점수'].loc[df1['반'] == 'B'].values

print(group_A)
print(group_B)

[73 69 71 71 73 67 73 69 62 74 68 66 70 82 70 65 76 73 58 81]
[63 56 73 61 55 77 75 65 61 55]


## 정규성 검정 (KS test)
- scipy.stats.ktest(x, 'norm') <- 단일 표본 t검정과 동일
- pvalue가 특정 수치 미만이면 정규성을 따른다고 판단한다.

In [11]:
# kstest를 이용한 정규성 검정: 모두 정규 분포를 띔을 확인
print(kstest(group_A, 'norm'))
print(kstest(group_B, 'norm'))

KstestResult(statistic=1.0, pvalue=0.0)
KstestResult(statistic=1.0, pvalue=0.0)


- 둘다 pvalue가 0.0이다. 
- kstest에서 pvalue가 특정 수치( 0.05, 0.01) 미만이면 정규성을 따른다고 판단한다.
- 그러므로, 두 그룹 모두 정규분포를 따르고 있다.

## 등분산성 검정
- scipy.stats.levene(s1, s2, s3...)
    - s1, s2...는 샘플을 배열 한 것 
    - 실질적으로 독립 표본 t-검정 에서는 A,B 두그룹만을 비교하기에 A,B 만 입력한다.
- pvalue가 특정 수치 미만이면 샘플간의 분산이 같지 않다고 판단 한다.

In [12]:
# 등분산 검정
levene(group_A, group_B)

LeveneResult(statistic=2.033067087400979, pvalue=0.164964086222101)

- pvalue가 0.16이다.
- 즉, pvalue가 특정 수치 이상 = 두 샘플간의 분산이 같다. = 등분산이다.

In [13]:
# 그룹 A의 분산
np.var(group_A, None, ddof=1)

32.26052631578948

## 독립 표본 t-검정
- scipy.stats.ttest_ind(a, b, equal_var)
    - a,b : 두 그룹의 데이터
    - equal_var : 등분산성 만족 여부 (bool)
    - 등분산성 검정에서 pvalue가 특정 수치 이상일 경우 True / 미만이면 False 입력
- stastistics  가 양수이면 A그룹의 평균이 더 크다고 판단. (음수 이면 B그룹의 평균이 더 크다고 판단.)
- pvalue가 특정 수치 미만이면 A와 B의 평균이 '같지 않다' 고 판단 한다.

In [14]:
print(ttest_ind(group_A, group_B, equal_var = True)) 

Ttest_indResult(statistic=2.5128526794964134, pvalue=0.01801095352893767)


- stastistics가 2.5 (양수) 이므로 A그룹의 평균이 B그룹 보다 더 크다.
- pvalue가 0.018 ( < 0.05) 이므로 A와 B의 평균은 '같지 않다' 

## Mann-Whitneyu 검정 
- KS 테스트(정규성 검정) 을 만족하지 못했을때 사용
- scipy.stats.mannwhitneyu(a,b)
    - a,b : 두 그룹의 데이터
    - result = (statistics, pvalue) 형태로 출력된다.
- pvalue가 특정 수치 미만이면 A와 B의 평균이 '같지 않다' 고 판단 한다. (독립 표본 t검정의 판단 기준과 동일)

### Type2 포맷의 데이터 처리

In [22]:
df2 = pd.read_csv("반별_점수_type2.csv", encoding='cp949')
df2.head()

Unnamed: 0,A반,B반
0,73,63.0
1,69,56.0
2,71,73.0
3,71,61.0
4,73,55.0


- 기존의 type1과 달리 컬럼별로 각 그룹의 데이터가 분류 되어 있다.
- 이러한 형태를 type2 라고 한다.
- 이 경우 길이가 달라서 결측이 발생할 수 있으므로, 결측을 제거한 뒤 각 컬럼을 group_A와 group_B에 저장하는 방식으로 그룹을 나눠 준다.

In [23]:
group_A = df2['A반'].dropna().values
group_B = df2['B반'].dropna().values

In [26]:
group_A[:5]

array([73, 69, 71, 71, 73], dtype=int64)

In [27]:
group_B[:5]

array([63., 56., 73., 61., 55.])