In [47]:
import numpy as np
from scipy import stats

# =================================================
# 1단계: 데이터 수집 (가상 데이터 생성)
# =================================================
np. random.seed(42)  #결과 재현을 위한 시드 설정

# 상황: 통증 수치(0~100)가 얼마나 줄어들었는가? (수치가 높을수록 효과 좋음)
# 기존 진통제(A그룹): 평균 50만큼 감소, 표준편차 10, 환자 30명
group_old = np.random.normal(loc=50, scale=10, size=30)

# 신규 진통제(B그룹): 평균 55만큼 감소, 표준편차 10, 환자 30명
# (우리는 신규 약이 더 좋다고 가정하고 데이터를 만들었습니다)
group_new = np.random.normal(loc=55, scale=10, size=30)

print(f'[데이터 확인]')
print(f'기존 진통제 효과 평균: {group_old.mean():.2f}')
print(f'신규 진통제 효과 평균: {group_new.mean():.2f}')
print("-" * 30)

# ===================================================
# 2단계: 가설 수립 및 검정 통계량 산출
# ===================================================
# H0: New <= Old (효과가 없거나 같다)
# H1: New > Old (신규약이 더 우수하다) -> 'greater' 옵션 사용(단측 검정)

# 독립 표본 T-검정 수행
t_stat, p_value = stats.ttest_ind(
    group_new,         # 신규 약 (대립 가설의 주인공)
    group_old,         # 기존 약
    equal_var=False,   # 등분산 가정 안 함 (Welch's t-test, 실무적으로 더 안전함)
    alternative = 'greater'  # 중요: "더 크다(우수하다)"를 검증하므로 우측 검정
)
print(f'[검정 결과]')
print(f'T-Statistic (차이의 크기)" {t_stat:.4f}')
print(f'P-value (우연일 확률): {p_value:.4f}')
print("-" * 30)

# ===================================================
# 3단계: 최종 결정 (비즈니스 의사 결정)
# ===================================================
alpha = 0.05   # 유의수준 (리스크 허용 범위 5%)

print(f'[최종판단]')
if p_value < alpha :
    print(f'결과: 귀무가설 기각 (P-value {p_value:.4f} < {alpha})')
    print('해석: 신규 진통제의 효능이 통계적으로 유의미하게 우수합니다.')
    print('Action: 신규 약 출시 승인 / 마케팅 포인트로 활용')
else :
    print(f'결과: 귀무가설 채택 (P-value {p_value:.4f} >= {alpha})')
    print('해석: 평균은 조금 높아 보일지 몰라도, 통계적으로 우수하다고 볼 수 없습니다 (우연일 가능성 높음).')
    print('Action: 출시 보류 / 추가 임상 실험 필요')    

[데이터 확인]
기존 진통제 효과 평균: 48.12
신규 진통제 효과 평균: 53.79
------------------------------
[검정 결과]
T-Statistic (차이의 크기)" 2.3981
P-value (우연일 확률): 0.0099
------------------------------
[최종판단]
결과: 귀무가설 기각 (P-value 0.0099 < 0.05)
해석: 신규 진통제의 효능이 통계적으로 유의미하게 우수합니다.
Action: 신규 약 출시 승인 / 마케팅 포인트로 활용


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats

H0 : 평균 몸무게는 70킬로이다.
H1 : 70킬로가 아니다. (크거나, 작다 - 양측검정)

In [5]:
import numpy as np
from scipy import stats

In [6]:
np.random.seed(123)   # 123은 고정값 (관습적으로 42를 넣음)
weight = np.random.uniform(40, 100, 100)    # 40과 100 사이에서 균일하게 뽑기, 100개 뽑기
weight[:5]

array([81.78815114, 57.1683601 , 53.61108721, 73.07888614, 83.16813819])

In [9]:
test_result, p_value = stats.ttest_1samp(weight, 70)

In [13]:
if p_value < 0.05 :
    print('귀무가설 기각')
    print('대한민국 남성의 평균 몸무게는 70kg이 아니다.')
else :
    print('귀무가설 채택')
    print('대한민국 남성의 평균 몸무게는 70kg이다.')

귀무가설 채택
대한민국 남성의 평균 몸무게는 70kg이다.


In [14]:
p_value
np.mean(weight)

np.float64(70.08573280308887)

In [30]:
#새로운 표본 생성
np.random.seed(123)
weight_new = np.random.normal(loc=75, scale=10, size=100)  #평균, 표준편차, 샘플수
weight_new[:5]

array([64.14369397, 84.97345447, 77.82978498, 59.93705286, 69.21399748])

In [31]:
np.mean(weight_new)

np.float64(75.2710907349036)

In [32]:
test_result, p_value = stats.ttest_1samp(weight_new, 70)

In [33]:
if p_value < 0.05 :
    print('귀무가설 기각')
    print('대한민국 남성의 평균 몸무게는 70kg이 아니다.')
else :
    print('귀무가설 채택')
    print('대한민국 남성의 평균 몸무게는 70kg이다.')

귀무가설 기각
대한민국 남성의 평균 몸무게는 70kg이 아니다.


In [34]:
test_result, p_value

(np.float64(4.648538319899441), np.float64(1.0331900407061861e-05))

## 평균 비교

In [35]:
#평균 비교 실습(T-검정) - 1. 단일표본
# 표본 데이터 (30명)
coffee_data = [2.9, 2.4, 2.7, 3.0, 2.6, 2.8, 2.9, 3.1, 2.7, 2.6,
               2.8, 2.5, 3.2, 3.0, 2.4, 2.6, 2.7, 3.1, 2.8, 2.7,
               2.5, 2.9, 2.6, 2.8, 2.9, 2.5, 2.7, 2.8, 3.0, 2.9]

# 단일표본 t-검정
t_stat, p_value = stats.ttest_1samp(coffee_data, popmean=2.5)

print(f"t값 = {t_stat:.3f}, p값 = {p_value:.3f}")

t값 = 7.031, p값 = 0.000


In [36]:
#평균 비교 실습(T-검정) - 2. 독립표본
group_A = [78, 85, 82, 88, 76, 81, 79, 84, 82, 80]
group_B = [72, 75, 78, 74, 71, 77, 70, 76, 75, 73]

t_stat, p_value = stats.ttest_ind(group_A, group_B, equal_var=False)
print(f"t값 = {t_stat:.3f}, p값 = {p_value:.3f}")

t값 = 5.331, p값 = 0.000


In [37]:
#평균 비교 실습(T-검정) - 3. 대응표본 (before vs. after)
#대응 표본 t-검정 예제: 약물 투여 전후 혈압 비교
before = [120, 122, 143, 130, 135, 118, 127, 140, 132, 125]
after = [115, 117, 138, 125, 129, 112, 120, 135, 126, 119]

t_stat, p_value = stats.ttest_rel(before, after)
print(f"t값 = {t_stat:.3f}, p값 = {p_value:.3f}")

t값 = 25.327, p값 = 0.000


## 분포비교

In [38]:
from scipy.stats import mannwhitneyu

# 두 그룹의 월 지출액 (단위: 만원)
high_income = [450, 520, 380, 600, 550, 480, 510, 490, 530, 470]
low_income = [250, 280, 230, 310, 270, 260, 240, 290, 255, 265]

u_stat, p_value = mannwhitneyu(high_income, low_income, alternative='two-sided')
print(f"U값 = {u_stat:.3f}, p값 = {p_value:.3f}")

U값 = 100.000, p값 = 0.000


## 비율검정

In [41]:
!pip install statsmodels



In [43]:
from statsmodels.stats.proportion import proportions_ztest

# 예제: 두 광고의 클릭률 비교
# 광고 A: 100명 중 15명 클릭, 광고 B: 100명 중25명 클릭
count = np.array([15,25])  #성공 횟수
nobs = np.array([100, 100])  # 전체 시도 횟수

z_stat, p_value = proportions_ztest(count, nobs)
print(f'z값 = {z_stat:.3f}, p값 = {p_value:.3f}')

z값 = -1.768, p값 = 0.077


In [48]:
from statsmodels.stats.proportion import proportions_ztest

# 예제: 두 광고의 클릭률 비교
# 광고 A: 100명 중 15명 클릭, 광고 B: 100명 중 25명 클릭
count = np.array([15, 25])  # 성공 횟수
nobs = np.array([100, 100])  # 전체 시도 횟수

z_stat, p_value = proportions_ztest(count, nobs)
print(f"z값 = {z_stat:.3f}, p값 = {p_value:.3f}")

z값 = -1.768, p값 = 0.077
