# 🌪️ 완벽하지 않은 현실: 가정 위반과 Welch의 해법

## 📖 1947년, 새로운 영웅의 등장

Student의 t-검정이 널리 사용되던 1947년, **Bernard Lewis Welch**라는 수학자가 중요한 문제를 제기했습니다:

> "두 그룹의 분산이 다르면 어떻게 해야 할까? 🤔  
> Student's t-test는 등분산을 가정하는데...  
> 현실에서는 이 가정이 자주 위반된다!"

이 질문이 **Welch's t-test**의 탄생으로 이어졌습니다! 🚀

---

## 🎯 학습 목표

1. **t-검정의 3대 가정**을 이해하고 확인하는 방법 학습
2. **등분산성 위반**의 영향과 탐지 방법
3. **Welch's t-test**와 **Satterthwaite 근사법** 이해
4. **가정 위반 시 대처 전략** 수립
5. **강건성 vs 민감성** 판단 기준

In [None]:
# 필수 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
from scipy import stats
from ipywidgets import interact, widgets, IntSlider, FloatSlider
import warnings

warnings.filterwarnings('ignore')

print("🌪️ 현실의 복잡함과 마주할 준비 완료!")
print("🛡️ Welch의 지혜를 배워보세요!")

## 📋 1. t-검정의 3대 가정

Student's t-검정이 올바르게 작동하려면 다음 3가지 가정이 충족되어야 합니다:

### 🎯 **가정 1: 정규성 (Normality)**
- **내용**: 데이터가 정규분포를 따름
- **검정방법**: Shapiro-Wilk 검정, Q-Q plot
- **위반시 영향**: p-값의 정확도 저하

### ⚖️ **가정 2: 등분산성 (Homoscedasticity)**
- **내용**: 두 그룹의 분산이 같음
- **검정방법**: Levene 검정, F-검정
- **위반시 영향**: 제1종 오류율 증가

### 🔄 **가정 3: 독립성 (Independence)**
- **내용**: 관측값들이 서로 독립
- **검정방법**: 연구 설계로 확보
- **위반시 영향**: 모든 통계적 추론 무효

### 💡 **현실에서는...**
- **정규성**: 표본크기가 클수록 덜 중요 (중심극한정리)
- **등분산성**: 가장 자주 위반되는 가정
- **독립성**: 가장 중요하지만 통계적 검정 불가

## 🛡️ 2. Welch's t-test: 현실적 해법

### 🤔 **등분산성 위반의 문제점**

Student's t-검정은 두 그룹의 분산이 같다고 가정합니다:
$$t = \frac{\bar{X_1} - \bar{X_2}}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$$

여기서 **pooled standard deviation**:
$$s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}}$$

### ⚠️ **문제점**:
- 두 그룹의 분산이 실제로 다르면 $s_p$가 부적절
- 제1종 오류율이 명목수준 0.05를 초과
- 특히 표본크기가 다를 때 심각

### 🚀 **Welch의 해법**:

$$t = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$$

**핵심 아이디어**: 각 그룹의 분산을 따로 계산!

### 📊 **Satterthwaite 근사법**:

자유도를 다음과 같이 근사:
$$\nu = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{s_1^4}{n_1^2(n_1-1)} + \frac{s_2^4}{n_2^2(n_2-1)}}$$

**결과**: 정수가 아닌 자유도가 나올 수 있음!

## 💡 3. 실용적 가이드라인

### 🎯 **언제 어떤 검정을 사용할까?**

#### 🔄 **결정 흐름도**:

```
데이터 준비
    ↓
정규성 확인 (Shapiro-Wilk, Q-Q plot)
    ↓
정규성 만족? ──NO──→ 비모수 검정 (Mann-Whitney U)
    ↓ YES
등분산성 확인 (Levene 검정)
    ↓
등분산성 만족? ──NO──→ Welch's t-test
    ↓ YES
Student's t-test 또는 Welch's t-test
(사실상 Welch's를 추천)
```

### 📊 **경험법칙**:

1. **분산비 확인**:
   - 분산비 < 2: 두 방법 모두 안전
   - 분산비 ≥ 2: Welch's t-test 필수

2. **표본크기**:
   - 균등 (n₁ ≈ n₂): 상대적으로 안전
   - 불균등: Welch's t-test 강력 권장

3. **안전한 선택**:
   - **항상 Welch's t-test 사용**
   - 등분산이어도 성능 거의 동일
   - 이분산일 때 훨씬 안전

### ⚠️ **주의사항**:

- **독립성**: 통계로 확인 불가, 연구설계로 보장
- **정규성**: 심한 위반시 변환 또는 비모수 검정
- **이상치**: 제거 전 신중한 검토 필요

### 🏆 **최종 권장사항**:

> **"의심스러우면 Welch's t-test를 사용하라"**
> 
> - 현대 통계 소프트웨어의 기본값
> - 더 안전하고 강건한 방법
> - 성능 손실 거의 없음

## 📚 핵심 요약

### ✨ **오늘 배운 것들**

1. **t-검정의 3대 가정** 🎯
   - 정규성, 등분산성, 독립성
   - 각 가정의 확인 방법과 위반시 영향

2. **Welch's t-test의 우수성** 🛡️
   - 등분산성 가정 불필요
   - Satterthwaite 근사법으로 자유도 조정
   - 더 강건하고 안전한 방법

3. **실무 가이드라인** 💼
   - 분산비 > 2배시 Welch's 필수
   - 의심스러우면 항상 Welch's 사용
   - 현대 통계의 표준 접근법

### 🔑 **핵심 메시지**

> **"완벽한 가정을 만족하는 데이터는 드물다.  
> 현실을 인정하고 적절한 도구를 사용하자!"**

### 🚀 **다음 단계**

이제 우리는 가정 위반에 대처하는 법을 알았습니다!  
다음에는 **부채널 분석과 실제 비즈니스 적용**에서 t-검정을 어떻게 사용하는지 살펴보겠습니다.

**다음 노트북**: `05_real_world_applications.ipynb`

---

*"통계학은 불완전한 세상에서 최선의 결론을 내리는 예술이다"* - Bernard Welch의 정신을 기리며 🎓