### 가설 검정 단계

- 가설을 세운다 -> 두 집단의 평균은 같다(귀무가설), 두 집단의 평균은 다르다(대립가설)
- 기준을 세운다 -> 검정통계량을 구한다 (유의수준 5%)
- 결론을 내린다 -> p_value 참고
    
     - 기본 양측검정의 결과를 반환하므로 단측 검정으로 해석하려면 p-value/2를 해서 해석
     - 통계량이 양수인지 음수인지에 따라서 해석이 달라진다
    
    
    
![](검정선택.png)

### p-value란?

- 귀무 가설이 참이라고 했을 때 표본 데이터가 수집될 확률
- P-value가 낮을 수록 대립가설 채택
- 통상적으로 p-value < 0.05 면 대립가설 채택
- 이때 0.05를 유의 수준이라고 하며 대게 0.05 또는 0.01 중 선택


## T 검정

![](검정종류.png)

#### 단일표본 t검정
- 목적: 표본그룹의 평균이 기준값과 차이가 있는지를 확인
- 귀무가설: 표본평균과 모집단의 평균(기준값이됨)은 같다
- 대립가설: 표본평균과 모집단의 평균(기준값이됨)은 다르다

- 예시) 편의점에서 판매하는 감자티김의 무게는 130g(기준값)인지 아닌지를 판단

#### 선행조건

- 해당 변수(sample)는 정규분포를 따라야함 : 정규성 검정이 선행되어야 함
    - 단 샘플 수가 많을수록 정규성을 띌 가능성이 높아지므로 샘플 수가 부족한 경우에만 정규성검정을 수행
    - 만약, 정규성을 띄지 않으면 비모수적인 방법인 부호 검정을 진행

#### t 통계량

![](t통계량.png)

#### 정규성 검정 방법 : Kolmogorov-Smornov 검정

- KS test라 함 
- 관측한 샘플들이 특정 분포를 따르는지 확인 하기 위한 검정 방법
- KS test는 특정 분포를 따른다면 나올 것이라 예상되는 값과 실제 값의 차이가 유의한지를 확인하는 방법
    - 관측한 샘플들이 특정 분포를 따르는지 확인하기 위한 검정방법임
        - 예상되는 값과 실제값의 차이가 클수록 분포를 따르지 않는다고 보며, 
        - 차이(pvalue)가 작을 수록 분포를 따른다고 봄
    - 해당분포를 정규분포로 설정하여 정규성 검정에도 사용


![](단일표본t검정표.png)

In [1]:
import numpy as np
import pandas as pd
from scipy.stats import *

%precision 3
np.random.seed(1111)


from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"



- map은 리스트의 요소를 지정된 함수로 처리해주는 함수
    - map은 원본 리스트를 변경하지 않고 새 리스트를 생성


In [2]:
a = [1.2, 2.5, 3.7, 4.6]
a = list(map(int, a))
a


[1, 2, 3, 4]

In [10]:
#data 불러오기

import os

with open('../data/data/성인여성_키_데이터.txt',"r") as f:
    data = f.read().split('\n')
    print(type(data[0]))
    data = list(map(float, data))
    print(type(data[0]))

<class 'str'>
<class 'float'>


In [7]:
data[:3]
len(data)

[150.270, 142.940, 160.990]

25

In [12]:
data

[150.270,
 142.940,
 160.990,
 157.480,
 153.460,
 137.500,
 154.940,
 159.510,
 171.870,
 143.690,
 153.650,
 160.250,
 153.070,
 154.420,
 141.210,
 154.170,
 162.560,
 164.440,
 172.360,
 141.510,
 169.400,
 167.970,
 170.260,
 157.800,
 167.610]

### 수집한 데이터는 경기지역 성인 여성 25명의 키 데이터다. 
- 경기지역 성인여성 키의 평균은 163 이다 라는 가설을
- 수집한 sample에 근거해서 성인 여성키의 평균이 163인지 검정 통해서 확인

#### 데이터가 25개이고 표본이 하나이므로, 단일표본 t검정을 수행
- 정규성을 띄는지 확인
- 1개 표본이므로 분산과는 상관이 없음
- ttest_1samp(집단, popmean= 기준값)
- 귀무가설: 집단의 평균은 모집단의 평균(기준값 163)과 같다

In [18]:
# 정규성 검정
# kstest(): 모든 분포에 대하여 검정할 수 있고, 정규분포는 'norm'인수로 검정
# 통계량과 p-value를 반환

kstest(data, 'norm') #p-value가 0.0< 0.05로 정규성을 띈다고 본다

KstestResult(statistic=1.0, pvalue=0.0)

In [19]:
ttest_1samp(data,163)

# 통계량 statistic = -2.97....
# pvalue = 0.0065.... #유의수준 0.05보다 작은 값이므로 귀무가설 기각
# 통계량이 음수이므로 기준값 미만이다 라는 해석을 할 수 있다.
#표본집단의 평균은 기준값으로 설정한 163보다 작은 것으로 추정할 수 있다

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.006510445335847954)

- alternative = 'two-sided|'less'|'greater'
    - 기본값: 'two=sided'

In [24]:
ttest_1samp(data,163)#기본 양측 검정 진행
ttest_1samp(data,163, alternative = 'two-sided') # => 양측 검정,data의 평균이 163과 다르다를 검정
ttest_1samp(data,163, alternative = 'less') #단측 검정 , data의 평균이 163보다 작다를 검정
ttest_1samp(data,163, alternative = 'greater') #단측검정 #data의 평균이 163보다 크다를 검정

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.006510445335847954)

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.006510445335847954)

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.003255222667923977)

Ttest_1sampResult(statistic=-2.979804412662668, pvalue=0.996744777332076)


### 독립표본 t검정
- 목적: 서로 다른 두 집단의 평균 비교
- 귀무가설: 두집단의 평균은 같다
- 대립가설: 두 집단의 평균은 차이가 있다
    
- 예시) 중간고사 국어점수 A반과 B반의 평균을 비교했을때, A반의 평균이 3점더 높았다. 두반의 국어점수의 차이가 있는지 확인해보자

### 선행조건

- 독립성: 두 그룹은 독립적이어야 한다
- 정규성: 데이터는 정규분포를 따라야한다
    - 만약, 정규성을 띄지 않으면 비모수적인 방법인 부호검정을 진행
- 등분산성: 두 그룹의 데이터에 대한 분산이 같아야 함
    ### Levene의 등분산 검정 : p-value가 0.05 미만이면 분산이 다르다고 판단

- 분산이 같은지 다른지에 따라 사용하는 통계량이 달라지므로 함수 내에서 설정을 달리 한다

![](독립t등분산.png)
![](독립표본t이분산.png)

![](검정종류.png)

- 두 반의 국어 공통 평가 점수가 있을 때 유의미한 평균 차이가 있는지 확인해보자 (절대적인 평균점수 차이가 x)





In [27]:
# df1 = pd.read_csv("../data/data/반별_점수_type1.csv",encoding='utf-8')
# 'utf-8' codec can't decode byte 0xb9 in position 0: invalid start byte
df1 = pd.read_csv("../data/data/반별_점수_type1.csv",encoding='euc-kr')

df1.head()
df1.tail()

Unnamed: 0,반,점수
0,A,73
1,A,69
2,A,71
3,A,71
4,A,73


Unnamed: 0,반,점수
25,B,77
26,B,75
27,B,65
28,B,61
29,B,55


In [30]:
#df1을 A반과 B반으로 분리
g_A = df1['점수'].loc[df1['반']=='A'].values #np.array 타입 반환
g_B = df1['점수'].loc[df1['반']=='B'].values

g_A.mean()

g_B.mean()

70.55

64.1

In [33]:
#정규성 검정

kstest(g_A,'norm')
kstest(g_B,'norm')
# pvalue가 0.05 이하이므로 정규성을 띈다

KstestResult(statistic=1.0, pvalue=0.0)

KstestResult(statistic=1.0, pvalue=0.0)

In [49]:
#등분산성 검정
levene(g_A,g_B)

#귀무가설 : 두 집단은 등분산을 갖는다
# pvalue 가 유의수준 0.05보다 크므로 등분산이다 라는 귀무가설을 채택한다

LeveneResult(statistic=2.033067087400979, pvalue=0.164964086222101)

- 두 집단의 분산확인 - 분산값이 다름

In [50]:
np.var(g_A,ddof=1),np.var(g_B,ddof=1)

(32.26052631578948, 68.54444444444445)

In [48]:
# 두 집단의 분산 값이 같으므로 equal_var = True로 설정
# pvalue가 유의수준 0.05보다 작으므로 두 집단의 평균은 차이가 있다
# 통계량이 양수이므로 g_A의 평균이 더 높다.
ttest_ind(g_A,g_B,equal_var=True)

Ttest_indResult(statistic=2.5128526794964134, pvalue=0.01801095352893767)

#### scipy.stats.mannwhitneyu(a,b): 정규성검정이 만족하지 않으면 수행


In [40]:
df2 = pd.read_csv("../data/data/반별_점수_type2.csv", engine = "python", encoding = 'euc=kr')
df2.head()
#B반의 데이터는 float이므로 nan값이들어있을 가능성이 있음


Unnamed: 0,A반,B반
0,73,63.0
1,69,56.0
2,71,73.0
3,71,61.0
4,73,55.0


In [41]:
df2

Unnamed: 0,A반,B반
0,73,63.0
1,69,56.0
2,71,73.0
3,71,61.0
4,73,55.0
5,67,77.0
6,73,75.0
7,69,65.0
8,62,61.0
9,74,55.0


In [43]:
# 수집 샘플의 길이가 달라서 NaN이 포함되게 만들어졌을 수 있으므로 처리를 해야함
g_A=df2['A반'].dropna().values
g_B=df2['B반'].dropna().values



- 검정을 위한 데이터에 의도하지 않은 NaN은 제거해야 한다.
- 0으로 처리하면 평균, 분산 등의 기준값이 달라지게 된다