### 표본의 평균 검정 (단일 표본 t-검정)

In [None]:
# 모집단의 분산(표준편차)을 모르는 경우: t-test (양측)

import numpy as np
import pandas as pd

# 예제 데이터 생성
data = np.array([23, 25, 28, 30, 26, 27, 29, 32, 31, 28])

# 유의수준 설정
alpha = 0.05

# t - 검정 수행
from scipy import stats
t_statistic, p_value = stats.ttest_1samp(data, popmean=0, alternative='two-sided') # alternative=two-sided 기본값(양측 검정), greater(단측 검정)
# less(단측 검정), 샘플 평균이 모집단 평균보다 작다는 가설을 검정

# 95% 신뢰구간 계산
confidence_interval = stats.t.interval(1 - alpha, len(data) - 1, loc=np.mean(data), scale=stats.sem(data))

# 결과 출력
print('t 통계량', t_statistic)
print('p값', p_value)
print('95% 신뢰구간', confidence_interval)

if p_value < alpha:
    print('귀무가설을 기각합니다.')
else:
    print('귀무가설을 기각하지 못합니다.')


t 통계량 31.887160448233363
p값 1.4410218033665443e-10
95% 신뢰구간 (25.920702252679696, 29.8792977473203)
귀무가설을 기각합니다.


In [19]:
import pandas as pd
import numpy as np
from scipy.stats import ttest_1samp, t

# 데이터 로드
mtcars = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/dataset/main/mtcars.csv')

# print(mtcars.info())

# mpg 열의 표본평균 계산
mpg_mean = np.mean(mtcars['mpg'])
print('mpg 열의 표본평균:', round(mpg_mean, 4))

# mpg 열의 표본분산 계산
mpg_val = np.var(mtcars['mpg'], ddof = 1) # ddof = 0은 모집단 분산, ddof = 1은 표본분산 계산
print('mpg의 표본분산', round(mpg_val, 4))

# 단일표본 t-검정 수행, mpg 평균이 20인지 검정
t_stat, p_value = ttest_1samp(mtcars['mpg'], 20)
print('단일 표본 t 검정 결과')
print('t-통계량', t_stat)
print('p-값', p_value) # p-value가 매우 높은 편이기 때문에 귀무가설을 기각할 충분한 증거가 없음을 의미한다

# mpg 평균의 95% 신뢰구간 계산 및 출력
conf_interval = t.interval(0.95, len(mtcars['mpg']) - 1, loc=np.mean(mtcars['mpg']), scale=stats.sem(mtcars['mpg']))
print('mpg 평균의 95% 신뢰구간:', round(conf_interval[0], 4), '-', round(conf_interval[1], 4))

mpg 열의 표본평균: 20.0906
mpg의 표본분산 36.3241
단일 표본 t 검정 결과
t-통계량 0.08506003568133688
p-값 0.9327606409093872
mpg 평균의 95% 신뢰구간: 17.9177 - 22.2636


### 두 독립표본의 평균, 중앙값 차이 검정

In [None]:
# 두 독립적인 표본 간의 평균 차이 검정 예제
import numpy as np

# 두 독립 표본 데이터
s1 = [23, 25, 28, 30, 32]
s2 = [19, 21, 24, 26, 29]

# t-검정 실행, 두 표본의 평균이 통계적으로 유믜하게 다른지 여부를 검정하는데 사용
from scipy.stats import ttest_ind
t_stat, p_value = ttest_ind(s1, s2)

# 각 샘플의 평균
mean_s1 = np.mean(s1)
mean_s2 = np.mean(s2)

# 결과출력
alpha = 0.05
print('t 통계량:', t_stat)
print('p-값:', p_value)

if p_value < alpha:
    print('두 그룹의 평균은 유의미하게 다릅니다.')
else:
    print('두 그룹의 평균은 유의미하게 다르지 않습니다.')

t 통계량: 1.5778641172210597
p-값: 0.15324889402868613
두 그룹의 평균은 유의미하게 다르지 않습니다.


In [None]:
# 두 독립적인 표본 간의 평균 차이 검정 예제
import numpy as np

# 두 독립 표본 데이터
s1 = [23, 25, 28, 30, 32]
s2 = [19, 21, 24, 26, 29]

# t-검정 실행, 두 그룹의 중앙값이 서로 다른지 여부를 평가
from scipy.stats import mannwhitneyu
t_stat, p_value = mannwhitneyu(s1, s2)

# 각 샘플의 평균
mean_s1 = np.mean(s1)
mean_s2 = np.mean(s2)

# 결과출력
alpha = 0.05
print('t 통계량:', t_stat)
print('p-값:', p_value)

if p_value < alpha:
    print('두 그룹의 평균은 유의미하게 다릅니다.')
else:
    print('두 그룹의 평균은 유의미하게 다르지 않습니다.')

t 통계량: 19.0
p-값: 0.2222222222222222
두 그룹의 평균은 유의미하게 다르지 않습니다.


In [None]:
# 샤피로-월크 테스트 , 정규성 검정 테스트

data = np.array([23, 25, 28, 30, 26, 27, 29, 32, 31, 28])

from scipy.stats import shapiro
stats, p_value = shapiro(data)

# 결과출력
alpha = 0.05
print('shapiro-wilk 통계량:', stats)
print('p-값:', p_value)

# 평균에 대한 차이가 있는지 검정 -> 즉, 주어진 데이터가 정규분포를 따르는 정도를 나타냄
if p_value < alpha:
    print('귀무가설을 기각하며, 데이터는 정규분포를 따르지 않을 가능성이 있습니다.')
else:
    print('귀무가설을 기각하지 못하며, 데이터는 정규분포를 따를 가능성이 높습니다.')

### 대응표본의 평균 차이 검정(t-검정)
- stats.ttest_rel() 함수는 두 관련된 데이터 집단 간의 평균 차이를 비교하고, 이 차이가 유의미한지 확인하는데 사용

In [24]:
from scipy.stats import ttest_rel

data_before = [72, 75, 68, 71, 73]
data_after = [76, 79, 74, 78, 80]

t_stat, p_value = ttest_rel(data_before, data_after)

print('대응표본 t-검정 결과:')
print('t통계량:', t_stat)
print('p-값:', p_value)

대응표본 t-검정 결과:
t통계량: -8.25674954467424
p-값: 0.0011738040715128372


### 단일표본 모분산 검정

In [25]:
import numpy as np
from scipy.stats import chi2

# 샘플 데이터 생성
data = np.array([14.2, 15.1, 14.8, 15.4, 14.9, 15.2, 14.6, 15,0])

#가설 설정
# H0: 모분산은 1.0과 같다.
# H1: 모분산은 1.0과 다르다. 

# 모분산
pop_var = 1.0

# 검정통계량 = (n - 1) * 표본분산 / 모분산
sample_var = np.var(data, ddof = 1)
n = len(data)
chi2_stat = (n - 1) * sample_var / pop_var

# 카이제곱 분포의 자유도
ddof = n - 1

# p값 계산
p_value = 1 - chi2.cdf(chi2_stat, ddof)

# 결과 출력
print('chi-square Statistic:', chi2_stat)
print('p-value:', p_value)

alpha = 0.05
if p_value < alpha:
    print('귀무가설 기각')

chi-square Statistic: 198.32222222222222
p-value: 0.0
귀무가설 기각


### 두 모분산 비에 대한 가설 검정 (F검정: 일원분산분석)

In [27]:
from scipy.stats import f

sample1 = [10,20,30]
sample2 = [20,30,40]

# 두 표본의 분산 계산
var_sample1 = np.var(sample1, ddof = 1)
var_sample2 = np.var(sample2, ddof = 1)

# F-검정 실행
f_stat = var_sample1 / var_sample2
df1 = len(sample1) - 1
df2 = len(sample2) - 1
p_value = 1 - f.cdf(f_stat, df1, df2)

print('표본 1의 분산:', var_sample1)
print('표본 2의 분산:', var_sample2)
print('f-통계량:', f_stat)

alpha = 0.05
if p_value < alpha:
    print('귀무가설 기각, 두 표본의 모둔산은 다릅니다')
    

표본 1의 분산: 100.0
표본 2의 분산: 100.0
f-통계량: 1.0


### 독립성 검정(카이제곱 검정)
- 주로 범주형 데이터에 사용
- 두 개이상의 범주형 변수 간의 관계를 분석하거나 관찰된 빈도와 기대 빈도사이의 차이를 확인하는데 활용

In [None]:
from scipy.stats import chi2_contingency
table = pd.crosstab(df['Gender'], df['Survived'])
print(chi2_contingency(table))

chi2, p_val, dof, exp = chi2_contingency(table)
print(chi2)


### 로지스틱 회귀모형

In [None]:
from statsmodels.formula.api import logit

result1 = logit('Survived ~ Gender+SibSp+Parch+Fare', data = df).fit().summary()
print(result1)

ModuleNotFoundError: No module named 'statsmodels'

In [None]:
import numpy as np
result2=logit('Survived ~ Gender+SibSp+Parch+Fare', data=df).fit().params
print(result2)

# summary에서 복사한 후 넣어도 됨
print(np.exp(result2)) #0.702