In [69]:
import pandas as pd
import numpy as np
from scipy import stats

In [70]:
t.cdf(3.35, df=29)

0.9988722898166406

In [None]:
# p-value 구하기 : 왼쪽 꼬리임에 주의
t.cdf(검정통계량, 자유도)
norm.cdf(검정통계량, 자유도)

# 임계값 구하기 : 유의수준은 양측구간인 경우 a/2 인 것에 주의
t.pdf(유의수준, 자유도)

# 1. t-test

## 1) 단일 표본 검정 (ttest_1samp)
- 귀무가설 : 평균 = u
- 대립가설 : 평균 != u

In [73]:
heights = np.array([168, 172, 169, 173, 171, 170, 174, 169, 172, 168])

# 귀무가설: 학급의 평균 키는 170cm이다.
# 대립가설: 학급의 평균 키는 170cm이 아니다.
hypothesized_mean = 170

# 단일 표본 t-검정 수행
statistic, p_value = stats.ttest_1samp(heights, hypothesized_mean)

# 결과 출력
print(f"검정 통계량: {statistic}")
print(f"P-value: {p_value}")

# 유의수준과 비교하여 귀무가설 기각 여부 결정
alpha = 0.05
if p_value < alpha:
    print(f"귀무가설 기각: 학급의 평균 키는 {hypothesized_mean}cm이 아니다.")
else:
    print(f"귀무가설 채택: 학급의 평균 키는 {hypothesized_mean}cm이다.")

검정 통계량: 0.8955334711889819
P-value: 0.39382281469156566
귀무가설 채택: 학급의 평균 키는 170cm이다.


## 2) 2 표본 검정
- 귀무가설 : 두 집단의 평균이 같다
- 대립가설 : 두 집단의 평균이 다르다

### 쌍체 표본 검정 (ttest_rel)
- 같은 사람에게 A, B 약 실험하는 경우
- 두 표본의 크기는 반드시!! 같아야 한다

In [74]:
# 예제 데이터 생성
before = np.array([23, 25, 28, 32, 29, 30, 31, 22, 27, 26])
after = np.array([21, 24, 26, 30, 28, 28, 30, 20, 25, 24])

# 쌍체표본 t-검정 수행
statistic, p_value = stats.ttest_rel(before, after)

# 결과 출력
print(f"검정 통계량: {statistic}")
print(f"P-value: {p_value}")

# 유의수준과 비교하여 귀무가설 기각 여부 결정
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각: 시간 전후에 차이가 있다.")
else:
    print("귀무가설 채택: 시간 전후에 차이가 없다.")

검정 통계량: 11.129112402035613
P-value: 1.458947122944854e-06
귀무가설 기각: 시간 전후에 차이가 있다.


### 독립 표본 검정 (ttest_ind)
- 독립적인 두 집간단 검정
- 두 표본 크기가 달라도 된다
- equal_var에 따라 합동분산(pooled variance) 여부가 결정된다

In [75]:
group1 = np.array([23, 25, 28, 32, 29, 30, 31, 22, 27, 26])
group2 = np.array([21, 24, 26, 30, 28, 28, 30, 20, 25, 24])

# 대립표본 t-검정 수행
statistic, p_value = stats.ttest_ind(group1, group2)

# 결과 출력
print(f"검정 통계량: {statistic}")
print(f"P-value: {p_value}")

# 유의수준과 비교하여 귀무가설 기각 여부 결정
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각: 두 그룹 간에 차이가 있다.")
else:
    print("귀무가설 채택: 두 그룹 간에 차이가 없다.")

검정 통계량: 1.1169073436899266
P-value: 0.27872153065219607
귀무가설 채택: 두 그룹 간에 차이가 없다.


# 2. 모비율 추정

### 1) 한 그룹에 대한 모비율 추정
- 귀무가설 : 비율 = value(파라미터 값)

In [89]:
import numpy as np
from statsmodels.stats.proportion import proportions_ztest


# 예제 데이터: 한 그룹에서의 성공 비율
sample_size = 100
success_count = 70

# 귀무가설: 모비율은 0.5이다.
null_hypothesis = 0.5

alpha = 0.05

# 가설 검정 수행
# 표본 비율 계산
sample_proportion = success_count / sample_size

# 가설 검정
z_stat, p_value = proportions_ztest(success_count, sample_size, value=null_hypothesis, alternative='two-sided')

# 결과 출력
print(f"Z-통계량: {z_stat}")
print(f"P-value: {p_value}")

# 유의수준과 비교하여 귀무가설 기각 여부 결정
if p_value < alpha:
    print(f"귀무가설 기각: 모비율은 {null_hypothesis}이 아니다.")
else:
    print(f"귀무가설 채택: 모비율은 {null_hypothesis}이다.")

Z-통계량: 4.364357804719846
P-value: 1.274967492109715e-05
귀무가설 기각: 모비율은 0.5이 아니다.


### 2) 두 그룹에 대한 모비율 추정

In [90]:
import numpy as np
from statsmodels.stats.proportion import proportions_ztest

def proportion_two_sample_test(sample1_size, sample1_success, sample2_size, sample2_success, alpha=0.05):
    # 표본 비율 계산
    prop1 = sample1_success / sample1_size
    prop2 = sample2_success / sample2_size

    # 가설 검정
    z_stat, p_value = proportions_ztest([sample1_success, sample2_success], [sample1_size, sample2_size], alternative='two-sided')

    # 결과 출력
    print(f"Z-통계량: {z_stat}")
    print(f"P-value: {p_value}")

    # 유의수준과 비교하여 귀무가설 기각 여부 결정
    if p_value < alpha:
        print("귀무가설 기각: 두 모비율은 다르다.")
    else:
        print("귀무가설 채택: 두 모비율은 같다.")

# 예제 데이터: 두 그룹에서의 성공 비율
sample1_size = 100
sample1_success = 70

sample2_size = 120
sample2_success = 80

# 가설 검정 수행
proportion_two_sample_test(sample1_size, sample1_success, sample2_size, sample2_success)


Z-통계량: 0.5285499781147278
P-value: 0.5971176684141065
귀무가설 채택: 두 모비율은 같다.


# 3. 이산형 자료 분석

## 1) 일원산 분석

In [100]:
import numpy as np
from scipy.stats import chi2_contingency

# 예제 데이터: 실제 관측된 빈도
observed_counts = np.array([30, 45, 25])

# 예제 데이터: 기대되는 빈도 (귀무가설에서 기대되는 값)
expected_counts = np.array([40, 40, 40])

# 일원분할표의 적합도 검정
chi2_stat, p_value, *_ = chi2_contingency([observed_counts, expected_counts])

# 결과 출력
print(f"카이제곱 통계량: {chi2_stat}")
print(f"P-value: {p_value}")

# 유의수준과 비교하여 귀무가설 기각 여부 결정
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각: 분포가 기대와 다르다.")
else:
    print("귀무가설 채택: 분포가 기대와 일치한다.")


카이제곱 통계량: 3.394096099978456
P-value: 0.18322359342023686
귀무가설 채택: 분포가 기대와 일치한다.
