**PART 04** 제3유형: 통계적 가설 검정

> **CHAPTER 02** 통계적 가설 검정 기법 실습
> >**1) 표본의 평균 검정**

In [None]:
# 1) 표본의 평균 검정
# 	1-1. 모집단의 분산(표준편차)을 알고 있는 경우: z-test(양측)
# 	1-2. 모집단의 분산(표준편차)을 모르는 경우: t-test(양측)
# 		- scipy.stats.ttest_1samp()
# 		- scipy.tats.interval()
# 2) 두 독립표본의 평균, 중앙값 차이 검정
# 	2-1. 두 독립적인 표본 간의 평균 차이 검정: t-test
# 		- scipy.stats.ttest_ind()
# 	2-2. 두 독립적인 표본 간의 중앙값 차이 검정: Mann-Whitney u test
# 		- scipy.stats.mannwhitneyu()
# 	2-3. 정규성 검정: 샤피로-윌크 정규성 검정
# 		- scipy.stats.shapiro()
# 3) 두 대응표본의 평균 차이 검정: t-test
# 4) 단일표본 모분산 검정: 카이제곱 검정
# 5) 두 모분산 비에 대한 가설 검정: f 검정: 일원분산분석
# 6) 독립성 검정: 카이제곱 검정



In [13]:
# 1-1. 모집단의 분산(표준편차)을 알고 있는 경우: z-test(양측)
# z-value는 z-test에 대한 검정 통계량으로, 관측된 통계량과 귀무 가설에서의 모집단 모수 간의 차이를 표준 오차 단위로 측정한 것이다.
# z-value를 이용해서 p-value를 계산하고 이 값으로 귀무 가설 기각 여부를 결정한다.
    # h0 - 모집단과 표본의 평균이 같다.
    # h1 - 모집단과 표본의 평균이 다르다.

In [18]:
import numpy as np
from scipy.stats import norm # 표준분포 그릴용

# 예제 데이터 생성
data = np.array([23, 25, 28, 30, 26, 27, 29, 32, 31, 28])

# 모집단의 평균과 분선(표준편차) 를 이미 알고 있음
population_mean = 28 # 모집단의 평균
population_variance = 4 # 모집단의 분산 (표준편차의 제곱)

# 유의수준 설정
alpha = 0.05 # 95% 수준에서 신뢰

# 이번에는 양측검정인 two.sided를 진행

# 표본의 평균 계산
sample_mean = data.mean()
# 표본의 크기
n = len(data)

# 검정통계량 계산 (Z-검정)
test_statistic = (sample_mean - population_mean) / (np.sqrt(population_variance) / np.sqrt(n))

# 임계값 계산 (Z 검정이고 양측 검정)
# ppf = percent point function
# PPF는 확률을 입력으로 받아 그 확률에 대응하는 값을 반환하는 함수
critical_value = norm.ppf(1 - alpha / 2)

# p-value 계산 (양측 검정)
# cdf = Cumulative distribution function
# CDF는 값을 입력으로 받아 그 값 이하일 확률을 반환하는 함수
p_value = 2 * (1- norm.cdf(abs(test_statistic)))

# 결과 출력
print("표본평균:", sample_mean)
print("검정통계량:", test_statistic)
print("임계값:", critical_value)
print("p-value:", p_value)

if abs(test_statistic) > critical_value:
    print("귀무가설을 기각합니다. 표본평균이 모집단 평균과 다릅니다.")
else:
    print("귀무가설을 기각하지 못합니다. 표본평균이 모집단 평균과 차이가 없을 가능성이 있습니다.")

표본평균: 27.9
검정통계량: -0.15811388300842122
임계값: 1.959963984540054
p-value: 0.87436706116289
귀무가설을 기각하지 못합니다. 표본평균이 모집단 평균과 차이가 없을 가능성이 있습니다.


In [19]:
# 1-2. 모집단의 분산(표준편차)을 모르는 경우: 단일표본 t-test(양측)
# - scipy.stats.ttest_1samp()
# - scipy.tats.interval()
    # h0 - 모집단과 표본의 평균이 같다.
    # h1 - 모집단과 표본의 평균이 다르다.

In [20]:
import numpy as np
import scipy.stats as ss

# 예제 데이터 생성
data = np.array([23, 25, 28, 30, 26, 27, 29, 32, 31, 28])

# 유의수준 설정, 95% 수준에서 신뢰
alpha = 0.05

# 단측 또는 양측 검정 선택
# 양측 검정 | two-sided : m = m0 (모집단의 평균이 특정 값과 같다)
# 단측 검정 | less : m < m0 (모집단의 평균이 특정 값보다 작다)
# 단측 검정 | greater : m > m0 (모딥단의 평균이 특정 값보다 크다)
alternative = 'two-sided' # 우리는 귀무가설을 같다고 지정

# 단일표본 t-검정 수행
t_statistic, p_value = ss.ttest_1samp(data, popmean=0, alternative=alternative)

# 95% 신뢰구간 계산
confience_interval = ss.t.interval(1-alpha, # 유의 수준
                                   len(data)-1, # 표본의 개수 -1
                                   loc=np.mean(data), # loc는 표본의 평균
                                   scale=ss.sem(data)) # scale은 표본의 표준오차

# 결과 출력
print("t-통계량:", t_statistic)
print("p-값:", p_value)
print("95% 신뢰구간:", confience_interval)

# 결과 해석
if p_value < alpha:
    print("귀무가설을 기각합니다. 표본평균이 모집단 평균과 다릅니다.")
else:
    print("귀무가설을 기각하지 못합니다. 표본평균이 모집단 평균과 차이가 없을 가능성이 있습니다.")

t-통계량: 31.887160448233363
p-값: 1.4410218033665443e-10
95% 신뢰구간: (25.92070225277866, 29.879297747221337)
귀무가설을 기각합니다. 표본평균이 모집단 평균과 다릅니다.


In [37]:
# 따라하기
# mtcars의 mpg 데이터로 단일표본 t검정 진행해보기
data_url = 'https://raw.githubusercontent.com/YoungjinBD/dataset/main/mtcars.csv'

import pandas as pd
import numpy as np
import scipy.stats as ss

mtcars = pd.read_csv(data_url)
print(mtcars.shape)
display(mtcars.head(3))
print('-'*50)

# 표본의 평균 확인(4자리 반올림)
sample_mean = round(mtcars.mpg.mean(), 4)
print('표본의 평균:', sample_mean)

# 표본의 분산 확인(4자리 반올림)
sample_variance = round(mtcars.mpg.var(), 4)
print('표본의 분산:',sample_variance)
print('-'*50)

# 단일표본 t-검정 수행하기, 평균이 20인지 확인
t_stat, p_value = ss.ttest_1samp(mtcars['mpg'], 20, alternative='two-sided')
print("단일표본 t-검정 결과:")
print('t-통계량:', t_stat)
print('p-값: ', p_value)
print('-'*50)

# mpg 평균의 95% 신뢰구간 계산해보고 확인
conf_interval = ss.t.interval(0.95, # 신뢰수준
              len(mtcars['mpg'])-1, # 표본의 크기 -1
              loc=np.mean(mtcars['mpg']), # loc에는 표본의 평균
              scale=ss.sem(mtcars['mpg'])) # scale에는 표본의 표준오차
print(f'mpg 평균의 95% 신뢰구간: {round(conf_interval[0], 4)} ~ {round(conf_interval[1], 4)}')
print('-'*50)

# 결과 확인
if p_value < alpha :
    print("귀무가설 기각, 표본의 평균은 20과 다름")
else: print( "대립가설 기각, 표본의 평균은 20과 같음")

(32, 12)


Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


--------------------------------------------------
표본의 평균: 20.0906
표본의 분산: 36.3241
--------------------------------------------------
단일표본 t-검정 결과:
t-통계량: 0.08506003568133688
p-값:  0.9327606409093872
--------------------------------------------------
mpg 평균의 95% 신뢰구간: 17.9177 ~ 22.2636
--------------------------------------------------
대립가설 기각, 표본의 평균은 20과 같음


**PART 04** 제3유형: 통계적 가설 검정

> **CHAPTER 02** 통계적 가설 검정 기법 실습
>>**2) 두 독립표본의 평균, 중앙값 차이 검정**

In [38]:
# 2-1. 두 독립적인 표본 간의 평균 차이 검정: t-test
    # - scipy.stats.ttest_ind()

In [39]:
import scipy.stats as ss
import numpy as np

# 두 독립 표본 데이터 준비
sample1 = [23, 25, 28, 30, 32]
sample2 = [19, 21, 24, 26, 29]

# t-검정 실행
# h0 - 두 독립표본의 평균이 같다.
# h1 - 두 독립표본의 평균이 다르다.
t_statistic, p_value = ss.ttest_ind(sample1, sample2)

# 각 샘플의 실제 평균 구해놓기
mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

# 유의수준 설정
alpha = 0.05

# 결과 출력
print(f't-통계량: {t_statistic}')
print(f'p-값: {p_value}')
print(f'sample1 평균: {mean_sample1}')
print(f'sample2 평균: {mean_sample2}')

if p_value < alpha:
    print('귀무가설 기각, 두 독립표본의 평균에 유의미한 차이가 있음')
else:
    print('대립가설 기각, 두 독립표본의 평균에 유의미한 차이가 없음')

t-통계량: 1.5778641172210597
p-값: 0.15324889402868613
sample1 평균: 27.6
sample2 평균: 23.8
대립가설 기각, 두 독립표본의 평균에 유의미한 차이가 없음


In [None]:
# 2-2. 두 독립적인 표본 간의 중앙값 차이 검정: Mann-Whitney u test
    # - scipy.stats.mannwhitneyu()

In [42]:
import numpy as np
import scipy.stats as ss

# 두 개의 독립표본 준비하기
sample1 = [23, 25, 28, 30, 32]
sample2 = [19, 21, 24, 26, 29]

# 각 샘플의 실제 평균
mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

# mannwhitneyu 테스트 진행
# h0 - 두 독립표본의 평균이 같음
# h1 - 두 독립표본의 평균이 다름
u_stat, p_value = ss.mannwhitneyu(sample1, sample2)

# 유의수준 설정
alpha = 0.05

# 결과 출력
print(f'Mann Whitney U-통계량: {u_stat}')
print(f'p-value: {p_value}')
print(f'sample1 평균: {mean_sample1}')
print(f'sample2 평균: {mean_sample2}')

if p_value < alpha:
    print('두 독립표본의 평균이 유의미하게 다름')
else:
    print('두 독립표본의 평균이 유의미하게 다르지 않음')

Mann Whitney U-통계량: 19.0
p-value: 0.2222222222222222
sample1 평균: 27.6
sample2 평균: 23.8
두 독립표본의 평균이 유의미하게 다르지 않음


In [None]:
# + 표본의 정규성 검정 - shapiro()

In [1]:
# 2-3. 정규성 검정: 샤피로-윌크 정규성 검정
    # - scipy.stats.shapiro()

# 샤피로윌크 검정은 표본이 정규성을 따르는지 검정하는 것
# t-test, 회귀분석과 같은 분석방법은 데이터가 정규성을 따른다고 가정하고 실시함
# 중심극한정리에 의해서 표본이 일정 개수 이상이 되면 정규성을 따르지만 그렇지 않은 경우도 있기 때문에 이름 검정하는 것

# 샤피오-윌크 검정의 귀무가설(h0)은 데이터가 정규분포를 따른다임

In [3]:
import scipy.stats as ss

# 정규성 검정을 위한 샘플 데이터 생성
data = [2.4, 2.7, 3.1, 3.2, 3.5, 3.7, 3.9, 4.1, 4.2]

# Shapiro-Wikl 테스트 수행
statistic, p_value = ss.shapiro(data)

# 유의 수준 설정
alpha = 0.05

# 결과 출력
print(f'샤피로윌크 통계량: {statistic}')
print(f'p_value: {p_value}')

if p_value < alpha:
    print('귀무가설 기각, 해당 표본은 정규분포를 따르지 않을 가능성 높음')
else:
    print('대립가설 기각, 해당 표본은 정규분포를 따를 가능성 높음')

샤피로윌크 통계량: 0.9553363445648536
p_value: 0.7484769348718906
대립가설 기각, 해당 표본은 정규분포를 따를 가능성 높음


In [4]:
# 따라하기
# 두 개의 데이터가 정규분포 따르는지 확인하기

import scipy.stats as ss

# 데이터 준비
dat_M = [117, 108, 105, 89, 101, 93, 96, 108, 108, 94, 93, 112, 92, 91, 100, 96, 120, 86, 96, 95]
dat_F = [121, 101, 102, 114, 103, 105, 101, 131, 96, 109, 109, 113, 115, 94, 108, 96, 110, 112, 120, 100]

# 샤피로-윌크 정규성 테스트 수행
M_stat, M_p_value = ss.shapiro(dat_M)
F_stat, F_p_value = ss.shapiro(dat_F)

# 결과 출력
print(f'M 데이터 - 샤피로윌크 통계량: {M_stat}')
print(f'M 데이터 - p 값 {M_p_value}')
print(f'F 데이터 - 샤피로윌크 통계량: {F_stat}')
print(f'F 데이터 - p 값 {F_p_value}')
print('-'*50)

# 가설 확인
if M_p_value < 0.05 :
    print('남성 데이터는 정규분포를 따르지 않을 가능성 높음')
else:
    print('남성 데이터는 정규분포를 따른 가능성 높음')

if F_p_value < 0.05 :
    print('여성 데이터는 정규분포를 따르지 않을 가능성 높음')
else:
    print('여성 데이터는 정규분포를 따른 가능성 높음')

M 데이터 - 샤피로윌크 통계량: 0.9326357614973092
M 데이터 - p 값 0.17352612045868016
F 데이터 - 샤피로윌크 통계량: 0.9615265146509544
F 데이터 - p 값 0.5747781455168709
--------------------------------------------------
남성 데이터는 정규분포를 따른 가능성 높음
여성 데이터는 정규분포를 따른 가능성 높음


In [6]:
# 따라하기
# 두 개의 데이터 평균 차이 있는지 독립표본 ttest로 확인
import numpy as np
import scipy.stats as ss

# 데이터 준비
dat_M = [117, 108, 105, 89, 101, 93, 96, 108, 108, 94, 93, 112, 92, 91, 100, 96, 120, 86, 96, 95]
dat_F = [121, 101, 102, 114, 103, 105, 101, 131, 96, 109, 109, 113, 115, 94, 108, 96, 110, 112, 120, 100]

# 두 데이터의 실제 평균
mean_dat_M = np.mean(dat_M)
mean_dat_F = np.mean(dat_F)

# t-test 진행
t_stat, p_value = ss.ttest_ind(dat_M, dat_F)

# 유의수준 설정
alpha = 0.05

# 결과 출력
print(f'dat_M 평균: {mean_dat_M}')
print(f'dat_F 평균: {mean_dat_F}')
print(f't-통계량: {t_stat}')
print(f'p-값: {p_value}')
print('-'*50)

# 가설 확인
if p_value < alpha :
    print('귀무가설 기각, 두 표본의 평균에 유의미한 차이가 있음')
else :
    print('대립가설 기각, 두 표본의 평균에 유의미한 차이가 없음')

dat_M 평균: 100.0
dat_F 평균: 108.0
t-통계량: -2.670573872669349
p-값: 0.011082895240510137
--------------------------------------------------
귀무가설 기각, 두 표본의 평균에 유의미한 차이가 있음


>>**3) 대응표본의 평균 차이 검정 (t-검정)**

In [8]:
# ss.ttest_rel() 사용
# ralation data

In [9]:
import scipy.stats as ss

data_before = [72, 75, 68, 71, 73]
data_after = [76, 79, 74, 78, 80]

t_stat, p_value = ss.ttest_rel(data_before, data_after)

print('대응표본 t-test 검정 결과')
print(f't-통계량: {t_stat}')
print(f'p-값: {p_value}')

대응표본 t-test 검정 결과
t-통계량: -8.25674954467424
p-값: 0.0011738040715128372


In [10]:
# 따라하기
# 두 개의 대응 표본이 정규성을 따르는지, 이후에는 두 대응표본의 평균차이가 있는지

In [12]:
import scipy.stats as ss

before = [7, 3, 4, 5, 2, 1, 6, 6, 5, 4]
after = [8, 4, 5, 6, 2, 3, 6, 8, 6, 5]

sb_stat, sb_p_value = ss.shapiro(before)
sa_stat, sb_p_value = ss.shapiro(after)

print('-before 데이터 정규성 검정-')
if sb_p_value < 0.05: print('해당 데이터는 정규성을 따르지 않음')
else: print('해당 데이터는 정규성을 따름')

print('-'*50)
print('-after 데이터 정규성 검정-')
if sb_p_value < 0.05: print('해당 데이터는 정규성을 따르지 않음')
else: print('해당 데이터는 정규성을 따름')

-before 데이터 정규성 검정-
해당 데이터는 정규성을 따름
--------------------------------------------------
-after 데이터 정규성 검정-
해당 데이터는 정규성을 따름


In [13]:
import scipy.stats as ss

# 대응표본 t검정
t_stat, p_value = ss.ttest_rel(before, after)

# 실제 평균
mean_b = np.mean(before)
mean_a = np.mean(after)

# 결과
if p_value < 0.05: print('귀무가설 기각, 두 대응표본의 평균에 차이가 있음')
else: print('대립가설 기각, 두 대응표본의 평균에 차이가 없음')
print('-'*50)

print(f'before 평균: {mean_b}')
print(f'after 평균: {mean_a}')

귀무가설 기각, 두 대응표본의 평균에 차이가 있음
--------------------------------------------------
before 평균: 4.3
after 평균: 5.3


>>**4) 단일표본 모분산 검정 (카이제곱 검정)**

>>**5) 두 모분산 비에 대한 가설 검정 (F 검정: 일원분산분석)**

>>**6) 독립성 검정 (카이제곱 검정)**