In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
%matplotlib inline
plt.rc('figure', figsize=(10, 6))
from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

# 가설검정 단계

대한민국 남성의 

In [3]:
# 1. 가설수립
# H0: 대한민국 남성의 평균 몸무게는 70킬로그램이다(차이가 없다)  
# H1: 대한민국 남성의 평균 몸무게는 70킬로그렘이 아니다


# 2. 통계량 산출 - 데이터 수집

np.random.seed(123)
weight = np.random.uniform(40, 100, 100)
#weight

test_result = stats.ttest_1samp(weight, 70)
print(f" 평균: {np.mean(weight)}")
print(f"p-value: {test_result.pvalue}")

# 3. 기각 / 채택 여부 판단
print(f"검정결과: {'귀무가설 기각' if test_result.pvalue <0.05 else '귀무가설 채택'}")

# 4. 결정
if test_result.pvalue<0.05:
    print('대한민국 남성의 평균 몸무게는 70kg이 아니다.')
else :
    print('대한민국 남성의 평균 몸무게는 70kg이다.')

 평균: 70.08573280308887
p-value: 0.953913826658112
검정결과: 귀무가설 채택
대한민국 남성의 평균 몸무게는 70kg이다.


In [4]:
# 표본 데이터 (30명)
coffee_data = [2.9, 2.4, 2.7, 3.0, 2.6, 2.8, 2.9, 3.1, 2.7, 2.6,
               2.8, 2.5, 3.2, 3.0, 2.4, 2.6, 2.7, 3.1, 2.8, 2.7,
               2.5, 2.9, 2.6, 2.8, 2.9, 2.5, 2.7, 2.8, 3.0, 2.9]

# 단일표본 t-검정
t_stat, p_value = stats.ttest_1samp(coffee_data, popmean=2.5)

print(f"t값 = {t_stat:.3f}, p값 = {p_value:.10f}")

print(f"검정결과: {'귀무가설 기각' if p_value <0.05 else '귀무가설 기각'}")

t값 = 7.031, p값 = 0.0000000986
검정결과: 귀무가설 기각


t값=7.031은 표본과 모집단 평균 간 차이가 표준오차의 7배라는 통계량 -> 표본의 평균이 모집단 평균 2.5에서 7*표준오차 만큼 떨어져 있다 -> 매우 큰 차이를 보인다.

이 통계량은 p-value<0.05 이므로 통계적으로 유의한 차이가 있다고 할 수 있습니다.

In [8]:
group_A = [78, 85, 82, 88, 76, 81, 79, 84, 82, 80]
group_B = [72, 75, 78, 74, 71, 77, 70, 76, 75, 73]

t_stat, p_value = stats.ttest_ind(group_A, group_B, equal_var=False)
print(f"t값 = {t_stat:.3f}, p값 = {p_value:.10f}")

print(f"검정결과: {'귀무가설 기각' if p_value <0.05 else '귀무가설 기각'}")

t값 = 5.331, p값 = 0.0000604698
검정결과: 귀무가설 기각


H0 두 그룹의 평균은 차이가 없다
H1 차이가 있다

통계량: 5.33 즉, 표준오차의 5배 정도 차이가 난다.
유의확률: 0.000 < 0.05 이므로

귀무가설을 기각한다.
결론:  두 그룹의 평균은 유의한 차이가 있다.

In [9]:
# 대응 표본 t-검정 예제: 약물 투여 전후 혈압 비교
before = [120, 122, 143, 130, 135, 118, 127, 140, 132, 125]
after = [115, 117, 138, 125, 129, 112, 120, 135, 126, 119]

t_stat, p_value = stats.ttest_rel(before, after)
print(f"t값 = {t_stat:.3f}, p값 = {p_value:.10f}")
print(f"검정결과: {'귀무가설 기각' if p_value <0.05 else '귀무가설 기각'}")

t값 = 25.327, p값 = 0.0000000011
검정결과: 귀무가설 기각


H0 두 그룹의 평균은 차이가 없다
H1 차이가 있다

통계량: 25.32 즉, 표준오차의 25배 정도 차이가 난다.
유의확률: 0.000 < 0.05 이므로

귀무가설을 기각한다.
결론:  두 그룹의 평균은 유의한 차이가 있다.

In [10]:
# 범주형 변수 - 카기제곱 검정
# 성별에 따라 커피를 더 선호하는지?

import numpy as np
obs = np.array([[40, 10],  # 남자 (좋아함, 안좋아함) 교차표
                [30, 20]]) # 여자

chi2, p, dof, expected = stats.chi2_contingency(obs)
print(f"chi2 = {chi2:.3f}, p값 = {p:.10f}")

print(f"검정결과: {'귀무가설 기각' if p_value <0.05 else '귀무가설 기각'}")

chi2 = 3.857, p값 = 0.0495346134
검정결과: 귀무가설 기각


H0: 두 그룹의 평균은 차이가 없다
H1: 차이가 있다

통계량: 3.857 즉, 표준오차의 3배 정도 차이가 난다.
유의확률: 0.049 < 0.05 이므로

귀무가설을 기각한다.
결론:  두 그룹의 평균은 유의한 차이가 있다.

In [11]:
from scipy.stats import f_oneway

# 세 그룹의 점수
group1 = [80, 85, 90]
group2 = [70, 75, 78]
group3 = [60, 65, 62]

f_stat, p_value = f_oneway(group1, group2, group3)
print(f"F값: {f_stat:.2f}, p값: {p_value:.4f}")

F값: 24.28, p값: 0.0013


h0: 세개 그룹의 평균은 차이가 없다.
h1: 적어도 1개 그룹은 다르다.

결과: F값 24 - 그룹간 분산의 차이가 그룹내 분산보다 크다
p-value = 0.0013 -> 유의수준보다 작다
귀무가설을 기각하고, 그룹간 평군은 유의미한 차이가 있다.

문제) 양성진단 -> 실제 암일 확률은?
진단의 정확도 95%, 암환자의 비율 10%

암 : 사전 P(A)
양성 : 사후 P(B)

- 5% 오진 (P양성|암') = 0.05 = P(B|A')
- 95% 정확(P양성|암) = 0.95 = P(B|A)


암 P(A) = 0.1
암' P(A') = 0.9  (암이 아닐 때)


양성 P(B) = 양성&암 + 양성&암' = 0.095 + 0.045 = 0.14
양성&암 = P(B∩A) = P(A)*P(B|A) = 0.1*0.95
양성&암' = P(B∩A') = P(A')*P(B|A') = 0.9*0.05


베이즈 정리
P(A|B) = P(B|A) * P(A) / P(B) =       0.95 * 0.1  / 0.14  = 0.6785

In [13]:
P_A = 0.1 #암의 확률
P_not_A = 1 - P_A #암이 아닐 확률
P_B_given_A = 0.95 #양성판정의 정확도
P_B_given_not_A = 0.05 #앙이 아닌데, 양성 판정이 나온 확률

#베이즈의 정리
P_A_given_B = P_B_given_A * P_A / ((P_B_given_A*P_A)+(P_B_given_not_A * P_not_A))
P_A_given_B 


0.6785714285714285