# 표본의 평균 검정

In [1]:
import pandas as pd
import numpy as np
from scipy import stats
from scipy.stats import norm

  from pandas.core.computation.check import NUMEXPR_INSTALLED
  from pandas.core import (


In [None]:
data = np.array([23,25,28,30,26,27,29,32,31,28])

# 모평균,모분산
population_mean = 28
population_var = 4

#유의수준 설정
alpha = 0.05


# 단측,양측 검정 선택
alternative = 'two.sided'

sample_mean = np.mean(data)

# 표본 크기
n = len(data)

test_statistic = (sample_mean-population_mean) / (np.sqrt(population_var))/(np.sqrt(n))

# 임계값 계산 (Z-검정,양측 검정)
critical_value = norm.ppf(1-alpha/2)

# p값 계산
p_value = 2 * (1-norm.cdf(abs(test_statistic)))


# 결과출력
print('표본평균:',sample_mean)
print('검정통계량:',test_statistic)
print('임계값:',critical_value)
print('p-값:',p_value)

# 결과해석
if abs(test_statistic) > critical_value:
    print('귀무가설을 기각.표본평균이 모집단 평균과 다름')
else:
    print('귀무가설 기각X.표본평균이 모집단 평균과 차이가 없을 가능성')

표본평균: 27.9
검정통계량: -0.01581138830084212
임계값: 1.959963984540054
p-값: 0.9873848630227964
귀무가설 기각X.표본평균이 모집단 평균과 차이가 없을 가능성


## 단일표본 평균 검정

In [3]:
# T-Test, 신뢰구간

import numpy as np
from scipy import stats

data = np.array([23,25,28,30,26,27,29,32,31,28])

alpha = 0.05

alternative = 'two-sided'

t_statistic,p_value = stats.ttest_1samp(data,popmean = 0,alternative = alternative)

# 95% 신뢰구간
confidence_interval = stats.t.interval(1-alpha,len(data)-1,loc = np.mean(data),scale = stats.sem(data))

# 결과출력
print('t-통계량:',t_statistic)
print('p-값:',p_value)
print('95% 신뢰구간:',confidence_interval)


# 결과 해석
if p_value < alpha:
    print('귀무가설 기각. 표본평균이 모집단 평균과 다름')
else:
    print('귀무가설을 기각X. 표본평균이 모집단 평균과 차이가 없을 가능성')

t-통계량: 31.887160448233363
p-값: 1.4410218033665443e-10
95% 신뢰구간: (25.92070225277866, 29.879297747221337)
귀무가설 기각. 표본평균이 모집단 평균과 다름


In [4]:
# 실제 데이터 가지고 수행

import pandas as pd
import numpy as np
from scipy import stats

mtcars = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/dataset/main/mtcars.csv')

# mpg 열의 표본평균 계산 및 반올림 
mpg_mean = round(np.mean(mtcars['mpg']),4)
print('mpg의 평균:',mpg_mean)


# mpg 열의 표본분산 계산 및 반올림
mpg_var = round(np.var(mtcars['mpg'],ddof = 1),4)
print('mpg의 표본분산:',mpg_var)

# 단일표본 t-검정 수행,mpg열의 평균이 20인지 검정
t_stat,p_value = stats.ttest_1samp(mtcars['mpg'],20)
print('단일표본 t-검정 결과:')
print('t-통계량:',t_stat)
print('p-값:',p_value)

# mpg 평균의 95% 신뢰구간 계산 및 출력
conf_interval = stats.t.interval(0.95,len(mtcars['mpg'])-1,loc = np.mean(mtcars['mpg']),scale = stats.sem(mtcars['mpg']))
print('mpg 평균의 95% 신뢰구간:', round(conf_interval[0],4),"-",round(conf_interval[1],4))

mpg의 평균: 20.0906
mpg의 표본분산: 36.3241
단일표본 t-검정 결과:
t-통계량: 0.08506003568133688
p-값: 0.9327606409093872
mpg 평균의 95% 신뢰구간: 17.9177 - 22.2636


## 두 독립표본 평균,중앙값 차이 검정

In [5]:
import scipy.stats as stats
import numpy as np

sample1 = [23,25,28,30,32]
sample2 = [19,21,24,26,29]

t_statistic,p_value = stats.ttest_ind(sample1,sample2)

# 각 샘플 평균
mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

# 결과 출력
alpha = 0.05
print('t-검정통계량:',t_statistic)
print('Sample1 평균:', mean_sample1)
print('Sample2 평균:', mean_sample2)
print('p-값 (two-tailed):', p_value)
if p_value<alpha:
    print('두 그룹의 평균은 유의미하게 다름')
else:
    print('두 그룹의 평균은 유의미하게 다르지 않음')

t-검정통계량: 1.5778641172210597
Sample1 평균: 27.6
Sample2 평균: 23.8
p-값 (two-tailed): 0.15324889402868613
두 그룹의 평균은 유의미하게 다르지 않음


In [6]:
# 비모수 방식

import scipy.stats as stats
import numpy as np

sample1 = [23,25,28,30,32]
sample2 = [19,21,24,26,29]

u_statistic,p_value = stats.mannwhitneyu(sample1,sample2)

mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)


alpha = 0.05
print('Mann-Whitney U 통계량:', u_statistic)
print('Sample 1 평균:',mean_sample1)
print('Sample 2 평균:',mean_sample2)
print('p-값 (two-tailed):',p_value)

if p_value<alpha:
    print('두 그룹의 중앙값은 유의미하게 다름')
else:
    print('두 그룹의 중앙값은 유의미하게 다르지 않음')

Mann-Whitney U 통계량: 19.0
Sample 1 평균: 27.6
Sample 2 평균: 23.8
p-값 (two-tailed): 0.2222222222222222
두 그룹의 중앙값은 유의미하게 다르지 않음


## 정규성 검정