# 표본의 평균 검정

In [1]:
import pandas as pd
import numpy as np
from scipy import stats
from scipy.stats import norm

  from pandas.core.computation.check import NUMEXPR_INSTALLED
  from pandas.core import (


In [None]:
data = np.array([23,25,28,30,26,27,29,32,31,28])

# 모평균,모분산
population_mean = 28
population_var = 4

#유의수준 설정
alpha = 0.05


# 단측,양측 검정 선택
alternative = 'two.sided'

sample_mean = np.mean(data)

# 표본 크기
n = len(data)

test_statistic = (sample_mean-population_mean) / (np.sqrt(population_var))/(np.sqrt(n))

# 임계값 계산 (Z-검정,양측 검정)
critical_value = norm.ppf(1-alpha/2)

# p값 계산
p_value = 2 * (1-norm.cdf(abs(test_statistic)))


# 결과출력
print('표본평균:',sample_mean)
print('검정통계량:',test_statistic)
print('임계값:',critical_value)
print('p-값:',p_value)

# 결과해석
if abs(test_statistic) > critical_value:
    print('귀무가설을 기각.표본평균이 모집단 평균과 다름')
else:
    print('귀무가설 기각X.표본평균이 모집단 평균과 차이가 없을 가능성')

표본평균: 27.9
검정통계량: -0.01581138830084212
임계값: 1.959963984540054
p-값: 0.9873848630227964
귀무가설 기각X.표본평균이 모집단 평균과 차이가 없을 가능성


## 단일표본 평균 검정

In [3]:
# T-Test, 신뢰구간

import numpy as np
from scipy import stats

data = np.array([23,25,28,30,26,27,29,32,31,28])

alpha = 0.05

alternative = 'two-sided'

t_statistic,p_value = stats.ttest_1samp(data,popmean = 0,alternative = alternative)

# 95% 신뢰구간
confidence_interval = stats.t.interval(1-alpha,len(data)-1,loc = np.mean(data),scale = stats.sem(data))

# 결과출력
print('t-통계량:',t_statistic)
print('p-값:',p_value)
print('95% 신뢰구간:',confidence_interval)


# 결과 해석
if p_value < alpha:
    print('귀무가설 기각. 표본평균이 모집단 평균과 다름')
else:
    print('귀무가설을 기각X. 표본평균이 모집단 평균과 차이가 없을 가능성')

t-통계량: 31.887160448233363
p-값: 1.4410218033665443e-10
95% 신뢰구간: (25.92070225277866, 29.879297747221337)
귀무가설 기각. 표본평균이 모집단 평균과 다름


In [4]:
# 실제 데이터 가지고 수행

import pandas as pd
import numpy as np
from scipy import stats

mtcars = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/dataset/main/mtcars.csv')

# mpg 열의 표본평균 계산 및 반올림 
mpg_mean = round(np.mean(mtcars['mpg']),4)
print('mpg의 평균:',mpg_mean)


# mpg 열의 표본분산 계산 및 반올림
mpg_var = round(np.var(mtcars['mpg'],ddof = 1),4)
print('mpg의 표본분산:',mpg_var)

# 단일표본 t-검정 수행,mpg열의 평균이 20인지 검정
t_stat,p_value = stats.ttest_1samp(mtcars['mpg'],20)
print('단일표본 t-검정 결과:')
print('t-통계량:',t_stat)
print('p-값:',p_value)

# mpg 평균의 95% 신뢰구간 계산 및 출력
conf_interval = stats.t.interval(0.95,len(mtcars['mpg'])-1,loc = np.mean(mtcars['mpg']),scale = stats.sem(mtcars['mpg']))
print('mpg 평균의 95% 신뢰구간:', round(conf_interval[0],4),"-",round(conf_interval[1],4))

mpg의 평균: 20.0906
mpg의 표본분산: 36.3241
단일표본 t-검정 결과:
t-통계량: 0.08506003568133688
p-값: 0.9327606409093872
mpg 평균의 95% 신뢰구간: 17.9177 - 22.2636


## 두 독립표본 평균,중앙값 차이 검정

In [5]:
import scipy.stats as stats
import numpy as np

sample1 = [23,25,28,30,32]
sample2 = [19,21,24,26,29]

t_statistic,p_value = stats.ttest_ind(sample1,sample2)

# 각 샘플 평균
mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

# 결과 출력
alpha = 0.05
print('t-검정통계량:',t_statistic)
print('Sample1 평균:', mean_sample1)
print('Sample2 평균:', mean_sample2)
print('p-값 (two-tailed):', p_value)
if p_value<alpha:
    print('두 그룹의 평균은 유의미하게 다름')
else:
    print('두 그룹의 평균은 유의미하게 다르지 않음')

t-검정통계량: 1.5778641172210597
Sample1 평균: 27.6
Sample2 평균: 23.8
p-값 (two-tailed): 0.15324889402868613
두 그룹의 평균은 유의미하게 다르지 않음


In [6]:
# 비모수 방식

import scipy.stats as stats
import numpy as np

sample1 = [23,25,28,30,32]
sample2 = [19,21,24,26,29]

u_statistic,p_value = stats.mannwhitneyu(sample1,sample2)

mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)


alpha = 0.05
print('Mann-Whitney U 통계량:', u_statistic)
print('Sample 1 평균:',mean_sample1)
print('Sample 2 평균:',mean_sample2)
print('p-값 (two-tailed):',p_value)

if p_value<alpha:
    print('두 그룹의 중앙값은 유의미하게 다름')
else:
    print('두 그룹의 중앙값은 유의미하게 다르지 않음')

Mann-Whitney U 통계량: 19.0
Sample 1 평균: 27.6
Sample 2 평균: 23.8
p-값 (two-tailed): 0.2222222222222222
두 그룹의 중앙값은 유의미하게 다르지 않음


## 정규성 검정

In [2]:
from scipy  import stats

data = [2.4,2.7,3.1,3.2,3.5,3.7,3.9,4.1,4.2]

statistic,p_value = stats.shapiro(data)

alpha = 0.05
print('Shapiro-wilk 테스트 통계량:',statistic)
print('p-값:',p_value)

if p_value > alpha:
    print('귀무가설 기각X, 데이터는 정규분포 따를 가능성 높음')
else:
    print('귀무가설 기각O, 데이터는 정규분포를 따를 가능성 낮음')

Shapiro-wilk 테스트 통계량: 0.9553363919258118
p-값: 0.7484778761863708
귀무가설 기각X, 데이터는 정규분포 따를 가능성 높음


In [4]:
from scipy import stats
dat_M = [117,108,105,89,101,93,96,108,108,94,93,112,92,91,100,96,120,86,96,95]
dat_F = [121,101,102,114,103,105,101,131,96,109,109,113,115,94,108,96,110,112,120,100]

mean_M = sum(dat_M) / len(dat_M)
mean_F = sum(dat_F) / len(dat_F)
print('남자 데이터 평균:', mean_M)
print('여자 데이터 평균:', mean_F)

statistic_M,p_value_M = stats.shapiro(dat_M)
statistic_F,p_value_F = stats.shapiro(dat_F)

print('\n남자 데이터 Shapiro-Wilk 테스트 통계량:',statistic_M)
print('남자 데이터 p-값:',p_value_M)

if p_value_M > 0.05:
    print("남자 데이터는 정규분포를 따를 가능성이 높음")
else:
    print('남자 데이터는 정규분포를 따를 가능성이 낮음')

print('\n여자 데이터는 Shapiro-Wilk 테스트 통계량:',statistic_F)
print('여자 데이터 p-값:',p_value_F)
if p_value_F > 0.05:
    print('여자 데이터는 정규분포를 따를 가능성이 높음')
else:
    print('여자 데이터는 정규분포를 따를 가능성이 낮음')

남자 데이터 평균: 100.0
여자 데이터 평균: 108.0

남자 데이터 Shapiro-Wilk 테스트 통계량: 0.932635486125946
남자 데이터 p-값: 0.17352384328842163
남자 데이터는 정규분포를 따를 가능성이 높음

여자 데이터는 Shapiro-Wilk 테스트 통계량: 0.9615268111228943
여자 데이터 p-값: 0.5747838020324707
여자 데이터는 정규분포를 따를 가능성이 높음


In [5]:
## 남자 평균 여자 평균 검정 t-검정
from scipy import stats
t_statistic,p_value = stats.ttest_ind(dat_M,dat_F)

print('t-검정통계량:',t_statistic)
print('p-값:',p_value)

alpha = 0.05

if p_value < alpha:
    print('두 표본 간에는 유의한 평균 차이가 있음(귀무가설 기각)')
else:
    print('두 표본 간에는 유의한 평균 차이가 없음(귀무가설 채택)')
    

t-검정통계량: -2.670573872669349
p-값: 0.011082895240510137
두 표본 간에는 유의한 평균 차이가 있음(귀무가설 기각)


## 대응표본

In [10]:
from scipy import stats
data_before = [72,75,68,71,73]
data_after = [76,79,74,78,80]

t_statistic,p_value = stats.ttest_rel(data_before,data_after)

print('대응표본 t-검정 결과:')
print(f't-통계량 : {t_statistic}')
print(f'p-값 : {p_value}')


대응표본 t-검정 결과:
t-통계량 : -8.25674954467424
p-값 : 0.0011738040715128372


In [11]:
from scipy import stats

before = [7,3,4,5,2,1,6,6,5,4]
after = [8,4,5,6,2,3,6,8,6,5]

# 샤피로 윌크 검정 수행
_,p_value_before = stats.shapiro(before)
_,p_value_after = stats.shapiro(after)


# 결과출력
print('before 데이터의 정규성 검정:')
if p_value_before > 0.05:
    print('p-값:',p_value_before)
    print('before 데이터는 정규분포를 따릅니다')
else:
    print('p-값:',p_value_before)
    print('before 데이터는 정규분포를 따르지 않습니다')

print('after 데이터의 정규성 검정:')
if p_value_after > 0.05:
    print('p-값:',p_value_after)
    print('after 데이터는 정규분포를 따릅니다')
else:
    print('p-값:',p_value_after)
    print('after 데이터는 정규분포를 따르지 않습니다')
    

before 데이터의 정규성 검정:
p-값: 0.835266649723053
before 데이터는 정규분포를 따릅니다
after 데이터의 정규성 검정:
p-값: 0.6177965998649597
after 데이터는 정규분포를 따릅니다


In [15]:
# 대응표본 검정
import numpy as np
from scipy import stats

before = np.array([7,3,4,5,2,1,6,6,5,4])
after = np.array([8,4,5,6,2,3,6,8,6,5])

D = before-after # 이거 하려면 array 형태

t_statistic,p_value = stats.ttest_rel(before,after)


print('대응 표본 t-검정 결과:')
print(f't-통계량(t-statistic): {t_statistic}')
print(f'p-값(p_value): {p_value}')

alpha = 0.05

if p_value < alpha:
    print('p-값이 유의수준보다 작으므로 귀무가설을 기각')
    print('수면유도제를 복용하기 전과 후의 평균시간 차이는 0보다 작음')
else:
    print('p-값이 유의수준보다 크므로 귀무가설을 기각하지 않음')
    print('수면유도제를 복용하기 전과 후의 평균 수면시간에는 차이가 없음')


대응 표본 t-검정 결과:
t-통계량(t-statistic): -4.743416490252569
p-값(p_value): 0.001053871257016553
p-값이 유의수준보다 작으므로 귀무가설을 기각
수면유도제를 복용하기 전과 후의 평균시간 차이는 0보다 작음


## 단일표본 모분산 검정

In [17]:
import numpy as np
from scipy.stats import chi2


data = np.array([14.2,15.1,14.8,15.4,14.9,15.2,14.6,15.0])


# 가설 설정
# H0 : 모분산은 1과 같다
# H1 : 모분산은 1과 다르다

population_var = 1.0

sample_var= np.var(data,ddof = 1)
n = len(data)
chi2_stat = (n-1) * sample_var / population_var

degrees_of_freedom  = n-1

# p-값 계산
p_value = 1-chi2.cdf(chi2_stat,degrees_of_freedom)

print('Chi-Square Statistic:', chi2_stat)
print('p-value:',p_value)

# 유의수준 0.05로 가설 설정
alpha = 0.05
if p_value < alpha:
    print('귀무가설을 기각. 모분산은 1과 다름')
else:
    print('귀무가설을 기각X. 모분산은 1과 같을 가능성이 있음 ')

Chi-Square Statistic: 0.9800000000000009
p-value: 0.9951447440742881
귀무가설을 기각X. 모분산은 1과 같을 가능성이 있음 


## 두 모분산 비에 대한 가설 검정

In [18]:
import numpy as np
np.random.seed(123)
sample1  = np.random.normal(loc = 5,scale=2,size = 50)
sample2 = np.random.normal(loc= 5, scale = 3,size = 50)
print(sample1)
print(sample2)

[ 2.82873879  6.99469089  5.565957    1.98741057  3.8427995   8.30287307
  0.14664151  4.14217474  7.53187252  3.2665192   3.6422277   4.81058206
  7.98277925  3.72219601  4.11203608  4.13129745  9.41186017  9.37357218
  7.0081078   5.7723728   6.47473715  7.98146406  3.12833226  7.35165809
  2.49223866  3.724497    6.81421039  2.1426386   4.71986256  3.27649021
  4.48876126 -0.59717821  1.45693379  3.60024553  6.85492486  4.65272863
  5.00569183  6.37644542  3.24092731  5.56725465  3.38926696  1.54466101
  4.21820041  6.14761172  5.6771781   4.97633901  9.78473053  5.82582432
  6.95747201  9.47628668]
[ 1.11774403  1.88363537 10.23113668  2.60581179  5.08904969  8.20794791
  7.67211917 10.26465855  9.48693241  8.20817801  2.68187386  7.384588
  5.94281598  1.02120362  9.25189714  7.4217096   5.13647024  4.30072382
  1.40509657  5.59857222  6.40531736  2.50653505  8.48661215  1.70839086
 -1.36930105  8.11918127  3.78990189  4.62191124  2.48744983  0.18211172
  8.76571212  2.93339305  9

In [19]:
from scipy import stats

# 두 표본의 분산계산
variance_sample1 = np.var(sample1,ddof = 1)
variance_sample2 = np.var(sample2,ddof = 1)

# F-검정 실행
f_statistic = variance_sample1 / variance_sample2
df1 = len(sample1) - 1
df2 = len(sample2) - 1
p_value = 1 - stats.f.cdf(f_statistic,df1,df2)

print(f'표본 1의 분산: {variance_sample1:.4f}')
print(f'표본 2의 분산: {variance_sample2:.4f}')
print(f'F-통계량: {f_statistic:.4f}')

alpha = 0.05

if p_value < alpha:
    print(f'p-value: {p_value:.4f} < {alpha}, 귀무가설을 기각. 두 표본의 모분산은 다름')
else:
    print(f'p-value: {p_value:.4f} >={alpha}, 귀무가설을 기각X. 두 표본의 모분산은 같을 수 있음' )

    

표본 1의 분산: 5.7763
표본 2의 분산: 10.3800
F-통계량: 0.5565
p-value: 0.9787 >=0.05, 귀무가설을 기각X. 두 표본의 모분산은 같을 수 있음


## 독립성 검정

In [22]:
import numpy as np
from scipy.stats import chi2_contingency

data_matrix = np.array([[50,75,125,175],[90,30,45,10]])

chi2,p,df,expected = chi2_contingency(data_matrix)


print('Chi-square statistic:',chi2)
print('p-value:',p)
print('Degress of freedom:',df)
print('Expected Frequencies table:')
print('expected')

Chi-square statistic: 134.7511341579557
p-value: 5.117490956087995e-29
Degress of freedom: 3
Expected Frequencies table:
expected


In [25]:
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency

titanic_data = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/dataset/main/titanic.csv')

cross_table = pd.crosstab(titanic_data['Sex'],titanic_data['Survived'])

chi2,p,df,expected = chi2_contingency(cross_table)

print('카이제곱 통계량:',chi2)
print('p-value:',p_value)
print('자유도(df):',df)
print('기대값(Expected Frequencies):')
print(expected)

카이제곱 통계량: 260.71702016732104
p-value: 0.9786532588205226
자유도(df): 1
기대값(Expected Frequencies):
[[193.47474747 120.52525253]
 [355.52525253 221.47474747]]


In [27]:
def categorize_age(age):
    if age < 20:
        return '10대'
    elif age < 30:
        return '20대'
    elif age < 40:
        return '30대'
    elif age < 50:
        return '40대'
    elif age < 60:
        return '50대'
    else:
        return '60대 이상'
    
average_age = titanic_data['Age'].mean()
titanic_data['Age'] = titanic_data['Age'].apply(lambda x:average_age if np.isnan(x) else x)


titanic_data['AgeGroup'] = titanic_data['Age'].apply(categorize_age)

print(titanic_data[['Age','AgeGroup']])

           Age AgeGroup
0    22.000000      20대
1    38.000000      30대
2    26.000000      20대
3    35.000000      30대
4    35.000000      30대
..         ...      ...
886  27.000000      20대
887  19.000000      10대
888  29.699118      20대
889  26.000000      20대
890  32.000000      30대

[891 rows x 2 columns]


In [35]:
cross_table = pd.crosstab(titanic_data['AgeGroup'],titanic_data['Survived'])


chi2,p,df,expected = chi2_contingency(cross_table)

print('카이제곱 통계량:',chi2)
print('p-value:',p)
print('자유도(df):',df)
print('기대값(Expected Frequencies):')
print(expected)

카이제곱 통계량: 16.134525241016338
p-value: 0.006470311249228111
자유도(df): 5
기대값(Expected Frequencies):
[[101.05050505  62.94949495]
 [244.61616162 152.38383838]
 [102.8989899   64.1010101 ]
 [ 54.83838384  34.16161616]
 [ 29.57575758  18.42424242]
 [ 16.02020202   9.97979798]]
