# 예제 3.09-3.10: 비쌍체 t-검정 (Independent t-test)

## 학습목표
1. **비쌍체 t-검정의 개념** 이해하기 - 두 독립 표본의 평균 차이 검정
2. **scipy.stats를 활용한 통계 검정** 방법 익히기
3. **p-value 해석** 방법 학습하기 - 유의수준(0.05, 0.001)과 비교
4. **데이터 시각화**를 통한 분포 확인 방법 익히기

---
#### 예제 3.09 데이터 생성 및 시각화

**비쌍체 t-검정 (Independent t-test)**
- 두 **독립적인** 그룹의 평균이 통계적으로 유의미하게 다른지 검정
- 예: 남성 키 vs 여성 키, 실험군 vs 대조군

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats
from matplotlib import pyplot as plt

# 정규분포를 따르는 남성/여성 키 데이터 생성
# loc: 평균, scale: 표준편차, size: 샘플 수
man_height = stats.norm.rvs(loc=170, scale=10, size=500, random_state=1)    # 남성: 평균 170cm
woman_height = stats.norm.rvs(loc=150, scale=10, size=500, random_state=1)  # 여성: 평균 150cm

# 데이터 결합
X = np.concatenate([man_height, woman_height])  # 키 데이터
Y = ["man"] * len(man_height) + ["woman"] * len(woman_height)  # 레이블

# DataFrame 생성 및 커널 밀도 추정(KDE) 그래프로 시각화
df = pd.DataFrame(list(zip(X, Y)), columns=["X", "Y"])
fig = sns.displot(data=df, x="X", hue="Y", kind="kde")  # 두 그룹의 분포 비교
fig.set_axis_labels("cm", "count")
plt.show()

---
#### 예제 3.10 t-검정 수행

**t-검정 결과 해석**
- `statistic`: t-통계량 (두 그룹 평균 차이를 표준오차로 나눈 값)
- `p-value`: 귀무가설이 참일 때 현재 결과가 나올 확률
  - p < 0.05 (*): 95% 신뢰수준에서 유의미한 차이
  - p < 0.001 (**): 99.9% 신뢰수준에서 매우 유의미한 차이

In [None]:
# 비쌍체 t-검정 (Independent samples t-test) 수행
# equal_var=True: 두 그룹의 분산이 같다고 가정 (Student's t-test)
statistic, pvalue = stats.ttest_ind(man_height, woman_height, equal_var=True)

print("statistic:", statistic)  # t-통계량: 클수록 두 그룹 차이가 큼
print("pvalue :", pvalue)       # p-값: 작을수록 차이가 유의미함

# 유의수준에 따른 결과 해석
print("*:", pvalue < 0.05)   # 95% 신뢰수준에서 유의미한 차이 여부
print("**:", pvalue < 0.001) # 99.9% 신뢰수준에서 유의미한 차이 여부