In [None]:
# 빅데이터분석기사 실기 유형3 - T검정 문제

"""
문제 1: 일표본 T검정

한 대학교에서 학생들의 평균 수면시간이 7시간이라고 주장하고 있다.
이를 검증하기 위해 20명의 학생을 무작위로 선택하여 수면시간을 조사했다.
유의수준 0.05에서 평균 수면시간이 7시간인지 검정하시오.

H0: μ = 7 (평균 수면시간이 7시간이다)
H1: μ ≠ 7 (평균 수면시간이 7시간이 아니다)
"""

import pandas as pd
import numpy as np
from scipy.stats import ttest_1samp, t

# 수면시간 데이터 (시간 단위)
sleep_hours = [6.5, 7.2, 6.8, 7.5, 6.9, 7.1, 6.7, 7.3, 6.6, 7.4,
               7.0, 6.8, 7.2, 6.9, 7.1, 6.5, 7.6, 6.7, 7.3, 6.8]

df = pd.DataFrame({'sleep_hours': sleep_hours})
print("수면시간 데이터:")
print(df.head(10))

# 기본 통계량
n = len(sleep_hours)
sample_mean = np.mean(sleep_hours)
sample_std = np.std(sleep_hours, ddof=1)  # 표본표준편차
mu_0 = 7.0  # 귀무가설 하의 모평균
alpha = 0.05

print(f"\n표본 크기: {n}")
print(f"표본 평균: {sample_mean:.4f}시간")
print(f"표본 표준편차: {sample_std:.4f}시간")
print(f"귀무가설 평균: {mu_0}시간")

Unnamed: 0,ID,height
0,user_1,164.57
1,user_2,174.99
2,user_3,171.41
3,user_4,162.47
4,user_5,167.11


In [None]:
# T검정 수행
t_stat, p_value = ttest_1samp(sleep_hours, mu_0)

print(f"\nT 통계량: {t_stat:.4f}")
print(f"p-value: {p_value:.6f}")

# 자유도와 임계값
df_freedom = n - 1
t_critical = t.ppf(1 - alpha/2, df_freedom)
print(f"자유도: {df_freedom}")
print(f"임계값: ±{t_critical:.4f}")

# 수동 계산으로 검증
se = sample_std / np.sqrt(n)  # 표준오차
t_manual = (sample_mean - mu_0) / se
print(f"\n수동 계산 T 통계량: {t_manual:.4f}")
print(f"표준오차: {se:.4f}")

# 결론
print("\n=== 검정 결과 ===")
if p_value < alpha:
    print(f"p-value({p_value:.6f}) < α({alpha}) 이므로 귀무가설을 기각한다.")
    print("평균 수면시간이 7시간이 아니라고 할 수 있다.")
else:
    print(f"p-value({p_value:.6f}) >= α({alpha}) 이므로 귀무가설을 채택한다.")
    print("평균 수면시간이 7시간이라고 할 수 있다.")

np.float64(169.937)

In [None]:
"""
문제 2: 대응표본 T검정 (쌍체 T검정)

한 다이어트 프로그램의 효과를 검증하기 위해 15명의 참가자를 대상으로 
프로그램 시작 전과 후의 체중을 측정했다.
유의수준 0.05에서 다이어트 프로그램이 체중 감소에 효과가 있는지 검정하시오.

H0: μd = 0 (다이어트 전후 체중 차이가 없다)
H1: μd > 0 (다이어트 후 체중이 감소했다) - 우측검정
"""

from scipy.stats import ttest_rel

# 다이어트 전후 체중 데이터 (kg)
before_weight = [75.2, 68.5, 82.1, 70.8, 77.3, 65.9, 73.4, 80.2, 69.7, 74.5,
                 78.9, 71.2, 76.8, 67.4, 79.1]

after_weight = [73.8, 66.9, 80.5, 69.2, 75.7, 64.8, 71.9, 78.6, 68.1, 72.8,
                77.2, 69.8, 75.1, 66.0, 77.5]

# 체중 차이 계산 (전 - 후, 양수면 감소)
weight_diff = np.array(before_weight) - np.array(after_weight)

print("다이어트 전후 체중 변화:")
diet_df = pd.DataFrame({
    '참가자': range(1, 16),
    '다이어트_전': before_weight,
    '다이어트_후': after_weight,
    '체중_차이': weight_diff
})
print(diet_df)

# 기본 통계량
n = len(weight_diff)
mean_diff = np.mean(weight_diff)
std_diff = np.std(weight_diff, ddof=1)

print(f"\n표본 크기: {n}")
print(f"평균 체중 감소량: {mean_diff:.4f}kg")
print(f"체중 차이의 표준편차: {std_diff:.4f}kg")


In [None]:
# 대응표본 T검정 수행 (우측검정)
t_stat, p_value_two = ttest_rel(before_weight, after_weight)

# 우측검정을 위한 p-value 계산
p_value_right = p_value_two / 2 if t_stat > 0 else 1 - (p_value_two / 2)

print(f"\nT 통계량: {t_stat:.4f}")
print(f"양측검정 p-value: {p_value_two:.6f}")
print(f"우측검정 p-value: {p_value_right:.6f}")

# 자유도와 임계값
df_freedom = n - 1
t_critical_right = t.ppf(1 - alpha, df_freedom)  # 우측검정
print(f"자유도: {df_freedom}")
print(f"우측검정 임계값: {t_critical_right:.4f}")

# 수동 계산
se_diff = std_diff / np.sqrt(n)
t_manual = mean_diff / se_diff
print(f"\n수동 계산 T 통계량: {t_manual:.4f}")
print(f"차이의 표준오차: {se_diff:.4f}")

# 결론
print("\n=== 검정 결과 ===")
if p_value_right < alpha:
    print(f"p-value({p_value_right:.6f}) < α({alpha}) 이므로 귀무가설을 기각한다.")
    print("다이어트 프로그램이 체중 감소에 효과가 있다고 할 수 있다.")
else:
    print(f"p-value({p_value_right:.6f}) >= α({alpha}) 이므로 귀무가설을 채택한다.")
    print("다이어트 프로그램이 체중 감소에 효과가 있다고 할 수 없다.")

Unnamed: 0,광고 시청 전 구매 의사,광고 시청 후 구매 의사
0,no,yes
1,no,no
2,no,yes
3,yes,no
4,no,yes


In [None]:
"""
문제 3: 독립표본 T검정

두 개의 서로 다른 교육 방법(A, B)의 효과를 비교하기 위해 
각각 12명씩의 학생들에게 적용한 후 시험 점수를 측정했다.
유의수준 0.05에서 두 교육 방법 간에 평균 점수 차이가 있는지 검정하시오.

H0: μA = μB (두 교육 방법의 평균 점수가 같다)
H1: μA ≠ μB (두 교육 방법의 평균 점수가 다르다)
"""

from scipy.stats import ttest_ind

# 교육 방법별 시험 점수 데이터
method_A = [85, 78, 92, 88, 76, 90, 82, 87, 79, 91, 84, 86]
method_B = [79, 83, 77, 81, 85, 74, 80, 78, 82, 76, 84, 75]

print("교육 방법별 시험 점수:")
education_df = pd.DataFrame({
    '방법A': method_A + [None] * (max(len(method_A), len(method_B)) - len(method_A)),
    '방법B': method_B + [None] * (max(len(method_A), len(method_B)) - len(method_B))
})
print(education_df.dropna())

# 기본 통계량
n_A, n_B = len(method_A), len(method_B)
mean_A, mean_B = np.mean(method_A), np.mean(method_B)
std_A, std_B = np.std(method_A, ddof=1), np.std(method_B, ddof=1)

print(f"\n방법A - 표본크기: {n_A}, 평균: {mean_A:.2f}, 표준편차: {std_A:.2f}")
print(f"방법B - 표본크기: {n_B}, 평균: {mean_B:.2f}, 표준편차: {std_B:.2f}")

# 독립표본 T검정 수행 (등분산 가정)
t_stat, p_value = ttest_ind(method_A, method_B)

print(f"\nT 통계량: {t_stat:.4f}")
print(f"p-value: {p_value:.6f}")

# 자유도와 임계값
df_freedom = n_A + n_B - 2
t_critical = t.ppf(1 - alpha/2, df_freedom)
print(f"자유도: {df_freedom}")
print(f"임계값: ±{t_critical:.4f}")

# 결론
print("\n=== 검정 결과 ===")
if p_value < alpha:
    print(f"p-value({p_value:.6f}) < α({alpha}) 이므로 귀무가설을 기각한다.")
    print("두 교육 방법 간에 평균 점수 차이가 있다고 할 수 있다.")
else:
    print(f"p-value({p_value:.6f}) >= α({alpha}) 이므로 귀무가설을 채택한다.")
    print("두 교육 방법 간에 평균 점수 차이가 있다고 할 수 없다.")




TtestResult(statistic=np.float64(-1.0000000000000002), pvalue=np.float64(0.3739009663000589), df=np.int64(4))