### 가설검정단계

- 가설을 세운다 -> 두 집단의 평균은 같다(귀무가설) 두 집단의 평균은 다르다(대립가설)
- 기준을 세운다 -> 검정통계량을 구한다(유의수준 5%)
- 결론을 내린다 -> p_value 참고

    - 기본 양측검정의 결과를 반환하므로 단측 검정으로 해석하려면 p-value/2 를 해서 해석
    - 통계량이 양수인지 음수인지에 따라서 해석이 달라진다.
    

![](pic/검정선택.png)


### p-value란?

- 귀무 가설이 참이라고 했을 때 표본 데이터가 수집될 확률
- P-value가 낮을 수록 대립가설 채택
- 통상적으로 p-value < 0.05 면 대립가설 채택
- 이때 0.05를 유의 수준이라고 하며 대게 0.05 또는 0.01 중 선택


## T 검정

![](pic/검정종류.png)

#### 단일표본 t 검정

- 목적 : 표본그룹의 평균이 기준값과 차이가 있는지를 확인
- 귀무가설 : 표본평균(sample의 평균)과 모집단의 평균은 같다.
- 대립가설 : 표본평균(sample의 평균)과 모집단의 평균은 다르다.

- 예시 ) 편의점에서 판매하는 감자튀김의 무게는 130g인지 아닌지를 판단

#### 선행조건

- 해당 변수(sample)은 정규분포를 따라야 함 : 정규성 검정이 선행되어야 함
    - 단, 샘플수가 많을수록 정규성을 뛸 가능성이 높아지므로 샘플수가 부족한 경우에만 정규성 검정을 수행
    - 만약, 정규성을 띄지 않으면 비모수적인 방법인 부호검정을 진행

#### t통계량

<img src = 'pic/t통계량.png' width=500 height=500>

#### 정규성 검정 방법 : Kolmogorov-Smornov 검정

- KS test라 함 
- 관측한 샘플들이 특정 분포를 따르는지 확인 하기 위한 검정 방법
- KS test는 특정 분포를 따른다면 나올 것이라 예상되는 값과 실제 값의 차이가 유의한지를 확인하는 방법
    - 관측한 샘플들이 특정 분포를 따르는지 확인하기 위한 검정방법임
        - 예상되는 값과 실제값의 차이가 클수록 분포를 따르지 않는다고 보며, 
        - 차이(pvalue)가 작을 수록 분포를 따른다고 봄
    - 해당분포를 정규분포로 설정하여 정규성 검정에도 사용


![](pic/단일표본t검정표.PNG)

In [2]:
import numpy as np
import pandas as pd
from scipy.stats import *

%precision 3
np.random.seed(1111)


In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"


- map은 리스트의 요소를 지정된 함수로 처리해주는 함수
    - map은 원본 리스트를 변경하지 않고 새 리스트를 생성


In [4]:
a = [1.2, 2.5, 3.7, 4.6]
a = list(map(int, a))
a


[1, 2, 3, 4]

In [7]:
# data 불러오기

import os

with open("../../data/data/성인여성_키_데이터.txt","r") as f :
    data = f.read().split('\n')
    print(type(data[0]))
    data = list(map(float,data))
    print(type(data[0]))

<class 'str'>
<class 'float'>


In [8]:
data[:3]
len(data)


[150.270, 142.940, 160.990]

25

In [9]:
# data

#### 수집한 데이터는 경기지역 성인 여성 25명의 키 데이터다. 경기지역 성인여성 키의 평균은 163이다
- 자료에 근거해서 수집한 sample로 경기지역 성인 여성 키의 평균이 163인지 검정통해서 확인

#### 데이터가 25개이고 표본이 하나이므로 단일표본 t 검정을 수행

- 정규성을 띄는지 확인
- 1개 표본 이므로 분산과는 상관이 없음
- ttest_1samp(집단, popmean=기준값)
- 귀무가설 : 집단의 평균은 모집단의 평균(기준값)과 같다


In [12]:
# 정규성 검정
# kstest() : 모든 분포에 대하여 검정할 수 있고, 정규분포는 'norm' 인수로 검정
# 통계량과 p-value를 반환

kstest(data,'norm') # p-value가 0.0 < 0.05으로 정규성을 띈다고 봅니다

KstestResult(statistic=1.0, pvalue=0.0)

In [16]:
ttest_1samp(data,163)

# 통계량 statistic=-2.979804412662668,
# pvalue=0.006510445335847954) 유의수준 0.05보다 작은 값이므로 귀무가설이 기각

# 통계량이 음수이므로 기준값 미만이다라는 해석을 할 수 있다.

# 평균은 < 163 미만으로 추정할 수 있다

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.006510445335847954)

- alternative = 'tow-sided' | 'less' | 'greater'
    - 기본값 : 'tow-sided'

In [17]:
ttest_1samp(data,163) # 기본 양측 검정을 진행

ttest_1samp(data,163, alternative = 'two-sided')
ttest_1samp(data,163, alternative = 'less') # 단측검정
ttest_1samp(data,163, alternative = 'greater')


Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.006510445335847954)

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.006510445335847954)

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.003255222667923977)

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.996744777332076)

#### 독립 표본 t 검정
- 목적 : 서로 다른 두 집단의 평균 비교

- 귀무가설 : 두 집단의 평균은 같다
- 대립가설 : 두 집단의 평균은 차이가 있다

- 예시. 중간고사 국어점수 A반과 B반의 평균을 비교했을 때 A반의 평균이 3점이 더 높았다. 이 두반은 국어 점수의 차이가 있 는지 확인해 보자

#### 선행조건

- 독립성 : 두 그룹은 독립적이어야 한다.

- 정규성 : 데이터는 정규분포를 따라야 한다.
    - 만약, 정규성을 띄지 않으면 비모수적인 방법인 부호검정 을 진행

- 등분산성 : 두 그룹의 데이터에 대한 분산이 같아야 함
    - Levene의 등분산 검정 : p-value가 0.05 미만이면 분산이 다르다고 판단
    
- 분산이 같은지 다른지에 따라 사용하는 통계량이 달라지므로 함수내에서 설정을 달리 한다


![](pic/독립t등분산.PNG)

![](pic/독립표본t이분산.PNG)

![](pic/검정종류.png)
- 두 반의 국어 공통 평가 점수가 있을 때, 두 반의 유의미한 평균 차이가 있는지 확인해보자 (절대적인 평균 점수차이가 아님)

In [36]:
# df1 = pd.read_csv("../../data/data/반별_점수_type1.csv", encoding='utf-8')
#  'utf-8' codec can't decode byte 0xb9 in position 0: invalid start byte
df1 = pd.read_csv("../../data/data/반별_점수_type1.csv", encoding='CP949')
df1.head()
df1.tail()

df1.info()

Unnamed: 0,반,점수
0,A,73
1,A,69
2,A,71
3,A,71
4,A,73


Unnamed: 0,반,점수
25,B,77
26,B,75
27,B,65
28,B,61
29,B,55


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   반       30 non-null     object
 1   점수      30 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 608.0+ bytes


In [27]:
# df1을 A반과 B반으로 분리
g_A = df1['점수'].loc[df1['반'] == 'A'].values # np.array 타입을 반환
g_B = df1['점수'].loc[df1['반'] == 'B'].values

g_A, g_A.mean()
g_B, g_B.mean()

(array([73, 69, 71, 71, 73, 67, 73, 69, 62, 74, 68, 66, 70, 82, 70, 65, 76,
        73, 58, 81], dtype=int64),
 70.55)

(array([63, 56, 73, 61, 55, 77, 75, 65, 61, 55], dtype=int64), 64.1)

In [28]:
# 정규성 검정
kstest(g_A, 'norm')
kstest(g_B, 'norm') # pvalue가 0이므로 정규성을 띈다

KstestResult(statistic=1.0, pvalue=0.0)

KstestResult(statistic=1.0, pvalue=0.0)

In [29]:
# 등분산성 검정
levene(g_A,g_B)

# pvalue=0.164964086222101   유의수준 0.05보다 높으므로 등분산을 띈다고 볼수없다


LeveneResult(statistic=2.033067087400979, pvalue=0.164964086222101)

- 두 집단의 분산 확인 - 분산 값이 다름

In [30]:
np.var(g_A, ddof=1), np.var(g_B,ddof=1)

(32.26052631578948, 68.54444444444445)

In [35]:
# 두 집단의 분산값이 다르므로 equal_var = False로 설정
# pvalue가 유의수준 0.05보다 작으므로 두 집단의 평균은 차이가 있다.

ttest_ind(g_A, g_B, equal_var=False)
ttest_ind(g_B, g_A, equal_var=False)


Ttest_indResult(statistic=2.2165772005780684, pvalue=0.04454669638896435)

Ttest_indResult(statistic=-2.2165772005780684, pvalue=0.04454669638896435)

#### scipy.stats.mannwhitneyu(a,b): 정규성검정이 만족하지 않으면 수행


#### Tip. 다른 데이터 포맷인 경우 확인해야 할 사항

In [38]:
df2 = pd.read_csv("../../data/data/반별_점수_type2.csv", engine = "python", encoding='euc-kr')
df2.head()
#B반의 데이터는 float이므로 nan값이들어있을 가능성이 있음


Unnamed: 0,A반,B반
0,73,63.0
1,69,56.0
2,71,73.0
3,71,61.0
4,73,55.0


In [39]:
df2

Unnamed: 0,A반,B반
0,73,63.0
1,69,56.0
2,71,73.0
3,71,61.0
4,73,55.0
5,67,77.0
6,73,75.0
7,69,65.0
8,62,61.0
9,74,55.0


In [41]:
## 수집 샘풀의 길이가 달라서 NaN이 포함되게 df가 만들어졌을 수 있으므로 NaN 처리를 해야함
g_A= df2['A반'].dropna().values
g_B= df2['B반'].dropna().values



- 검정을 위한 데이터에 의도하지 않은 NaN은 제거해야함 - 0으로 처리하면 평균이나 분산등의 기준값이 달라지게 됨
