# 🌪️ 완벽하지 않은 현실: 가정 위반과 Welch의 해법

## 📖 1947년, 새로운 영웅의 등장

Student의 t-검정이 널리 사용되던 1947년, **Bernard Lewis Welch**라는 수학자가 중요한 문제를 제기했습니다:

> "두 그룹의 분산이 다르면 어떻게 해야 할까? 🤔  
> Student's t-test는 등분산을 가정하는데...  
> 현실에서는 이 가정이 자주 위반된다!"

이 질문이 **Welch's t-test**의 탄생으로 이어졌습니다! 🚀

---

## 🎯 학습 목표

1. **t-검정의 3대 가정**을 이해하고 확인하는 방법 학습
2. **등분산성 위반**의 영향과 탐지 방법
3. **Welch's t-test**와 **Satterthwaite 근사법** 이해
4. **가정 위반 시 대처 전략** 수립
5. **강건성 vs 민감성** 판단 기준

In [None]:
# 필수 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
from scipy import stats
from ipywidgets import interact, widgets, IntSlider, FloatSlider
import warnings

warnings.filterwarnings('ignore')

print("🌪️ 현실의 복잡함과 마주할 준비 완료!")
print("🛡️ Welch의 지혜를 배워보세요!")

## 📋 1. t-검정의 3대 가정

Student's t-검정이 올바르게 작동하려면 다음 3가지 가정이 충족되어야 합니다:

### 🎯 **가정 1: 정규성 (Normality)**
- **내용**: 데이터가 정규분포를 따름
- **검정방법**: Shapiro-Wilk 검정, Q-Q plot
- **위반시 영향**: p-값의 정확도 저하

### ⚖️ **가정 2: 등분산성 (Homoscedasticity)**
- **내용**: 두 그룹의 분산이 같음
- **검정방법**: Levene 검정, F-검정
- **위반시 영향**: 제1종 오류율 증가

### 🔄 **가정 3: 독립성 (Independence)**
- **내용**: 관측값들이 서로 독립
- **검정방법**: 연구 설계로 확보
- **위반시 영향**: 모든 통계적 추론 무효

### 💡 **현실에서는...**
- **정규성**: 표본크기가 클수록 덜 중요 (중심극한정리)
- **등분산성**: 가장 자주 위반되는 가정
- **독립성**: 가장 중요하지만 통계적 검정 불가

---

## 🎭 통계적 오류의 두 가지 유형

### 📊 **가설검정의 4가지 결과**

|  | 실제 H₀ 참 | 실제 H₀ 거짓 |
|---|------------|--------------|
| **H₀ 기각** | 🚨 제1종 오류 (α) | ✅ 올바른 기각 (검정력) |
| **H₀ 채택** | ✅ 올바른 채택 | 😔 제2종 오류 (β) |

### 🚨 **제1종 오류 (Type I Error)**
- **정의**: 실제로는 차이가 없는데 차이가 있다고 결론
- **확률**: α (유의수준, 보통 0.05)
- **비유**: "무죄인 사람을 유죄로 판결"
- **예시**: 
  - 효과 없는 약을 효과 있다고 판단
  - 정상 제품을 불량이라고 판정
  - 차이 없는 두 그룹을 다르다고 결론

### 😔 **제2종 오류 (Type II Error)**
- **정의**: 실제로는 차이가 있는데 차이가 없다고 결론
- **확률**: β
- **비유**: "유죄인 사람을 무죄로 판결"
- **예시**:
  - 효과 있는 약을 효과 없다고 판단
  - 불량 제품을 정상이라고 판정
  - 다른 두 그룹을 같다고 결론

### ⚡ **검정력 (Statistical Power)**
- **정의**: 실제로 차이가 있을 때 이를 올바르게 탐지할 확률
- **공식**: Power = 1 - β
- **목표**: 보통 0.8 이상

### 💡 **왜 제1종 오류가 중요한가?**

#### 등분산성 위반 시:
- Student's t-test의 제1종 오류율이 명목수준(α=0.05)을 초과
- 예: 실제 5%여야 할 오류율이 10%로 증가
- **결과**: 없는 차이를 있다고 잘못 판단할 위험 증가

#### Welch's t-test의 장점:
- 등분산 가정 없이도 제1종 오류율을 α 수준으로 유지
- 더 보수적이고 안전한 검정

### 📈 **실제 예시: 제1종 오류의 위험**

```python
# 귀무가설이 참일 때 (실제로 차이 없음)
# α = 0.05로 설정했지만...

# 등분산 가정 만족 시:
# → 100번 중 5번 정도 잘못된 기각 (정상)

# 등분산 가정 위반 시:
# → 100번 중 10번 이상 잘못된 기각! (문제!)
# → 거짓 양성 결과 2배 증가
```

### 🎯 **오류 최소화 전략**

1. **제1종 오류 통제**: 
   - 유의수준 α 설정 (보통 0.05)
   - 적절한 검정 방법 선택 (Welch's t-test)

2. **제2종 오류 감소**:
   - 표본크기 증가
   - 측정 정밀도 향상
   - 효과크기가 클 것으로 예상되는 연구 설계

3. **균형 찾기**:
   - α를 너무 낮추면 → β 증가 (검정력 감소)
   - α를 너무 높이면 → 거짓 양성 증가
   - 일반적으로 α=0.05, Power=0.8 목표

## 🔍 등분산성 검정 방법들

### 📊 **등분산성(Homogeneity of Variance)이란?**

두 그룹의 모집단 분산이 같다는 가정: σ₁² = σ₂²

### 🧪 **주요 검정 방법**

#### 1. **Levene 검정** (가장 권장)
```python
from scipy import stats
stat, p_value = stats.levene(group1, group2)

# 해석
if p_value > 0.05:
    print("등분산 가정 만족")
else:
    print("등분산 가정 위반 → Welch's t-test 사용")
```

**특징**:
- 정규성 가정에 강건함
- 평균 또는 중앙값 기준 선택 가능
- 실무에서 가장 많이 사용

#### 2. **Bartlett 검정**
```python
stat, p_value = stats.bartlett(group1, group2)
```

**특징**:
- 정규성 가정에 민감함
- 데이터가 정규분포일 때만 사용
- Levene보다 검정력 높음 (정규분포 시)

#### 3. **F-검정**
```python
var_ratio = np.var(group1, ddof=1) / np.var(group2, ddof=1)
df1, df2 = len(group1) - 1, len(group2) - 1
p_value = 2 * min(stats.f.cdf(var_ratio, df1, df2),
                  1 - stats.f.cdf(var_ratio, df1, df2))
```

**특징**:
- 두 분산의 비율 직접 검정
- 정규성 가정 필요
- 가장 단순한 방법

### 📈 **분산비 경험 규칙**

```python
# 실용적 판단 기준
variance_ratio = max(var1, var2) / min(var1, var2)

if variance_ratio < 2:
    print("등분산으로 간주 가능")
elif variance_ratio < 4:
    print("경계선 - Welch's 권장")
else:
    print("명확한 이분산 - Welch's 필수!")
```

### 💡 **중요 참고사항**

1. **검정의 한계**: 
   - 작은 표본: 검정력 부족 (이분산을 놓칠 수 있음)
   - 큰 표본: 사소한 차이도 유의하게 나옴

2. **실무 권장**:
   - 의심스러우면 Welch's 사용
   - 등분산 검정 결과와 무관하게 Welch's는 안전

In [None]:
# 🔬 등분산일 때 Student's vs Welch's 비교 실험

import numpy as np
import pandas as pd
from scipy import stats
import plotly.graph_objects as go
from plotly.subplots import make_subplots

def compare_student_vs_welch():
    """등분산일 때 Student's와 Welch's t-test 결과 비교"""
    
    print("=" * 70)
    print("🔬 등분산일 때 Student's vs Welch's t-test 비교")
    print("=" * 70)
    
    # 시나리오 설정
    scenarios = [
        # (n1, n2, mean1, mean2, std, 설명)
        (30, 30, 100, 100, 10, "동일 조건 (H₀ 참)"),
        (30, 30, 100, 103, 10, "작은 차이"),
        (30, 30, 100, 105, 10, "중간 차이"),
        (50, 50, 100, 100, 10, "큰 표본 (H₀ 참)"),
        (20, 40, 100, 100, 10, "불균등 표본 (H₀ 참)"),
        (20, 40, 100, 105, 10, "불균등 표본 + 차이")
    ]
    
    results = []
    
    for n1, n2, mean1, mean2, std, description in scenarios:
        # 등분산 데이터 생성 (같은 표준편차)
        np.random.seed(42)
        group1 = np.random.normal(mean1, std, n1)
        group2 = np.random.normal(mean2, std, n2)
        
        # 분산 확인
        var1 = np.var(group1, ddof=1)
        var2 = np.var(group2, ddof=1)
        var_ratio = max(var1, var2) / min(var1, var2)
        
        # Levene 검정
        levene_stat, levene_p = stats.levene(group1, group2)
        
        # Student's t-test
        t_student, p_student = stats.ttest_ind(group1, group2, equal_var=True)
        df_student = n1 + n2 - 2
        
        # Welch's t-test
        t_welch, p_welch = stats.ttest_ind(group1, group2, equal_var=False)
        
        # Welch's 자유도 계산
        s1, s2 = np.std(group1, ddof=1), np.std(group2, ddof=1)
        numerator = (s1**2/n1 + s2**2/n2)**2
        denominator = (s1**2/n1)**2/(n1-1) + (s2**2/n2)**2/(n2-1)
        df_welch = numerator / denominator
        
        results.append({
            '시나리오': description,
            'n1, n2': f"({n1}, {n2})",
            '분산비': f"{var_ratio:.2f}",
            'Levene p': f"{levene_p:.3f}",
            'Student t': f"{t_student:.3f}",
            'Student p': f"{p_student:.4f}",
            'Student df': f"{df_student:.0f}",
            'Welch t': f"{t_welch:.3f}",
            'Welch p': f"{p_welch:.4f}",
            'Welch df': f"{df_welch:.1f}",
            't 차이': f"{abs(t_student - t_welch):.4f}",
            'p 차이': f"{abs(p_student - p_welch):.4f}"
        })
    
    # DataFrame 생성
    df_results = pd.DataFrame(results)
    
    print("\n📊 결과 테이블:")
    print(df_results.to_string(index=False))
    
    # 시각화: 1000회 시뮬레이션
    print("\n" + "=" * 70)
    print("📈 1000회 시뮬레이션: 등분산일 때 두 검정의 일치도")
    print("=" * 70)
    
    np.random.seed(42)
    n_simulations = 1000
    t_differences = []
    p_differences = []
    
    for _ in range(n_simulations):
        # 등분산 데이터 생성
        g1 = np.random.normal(100, 10, 30)
        g2 = np.random.normal(102, 10, 30)  # 같은 분산!
        
        # 두 검정 수행
        t_s, p_s = stats.ttest_ind(g1, g2, equal_var=True)
        t_w, p_w = stats.ttest_ind(g1, g2, equal_var=False)
        
        t_differences.append(abs(t_s - t_w))
        p_differences.append(abs(p_s - p_w))
    
    # 히스토그램 생성
    fig = make_subplots(
        rows=1, cols=2,
        subplot_titles=[
            't-통계량 차이 분포',
            'p-값 차이 분포'
        ]
    )
    
    fig.add_trace(
        go.Histogram(x=t_differences, nbinsx=50, 
                     marker_color='blue', opacity=0.7,
                     name='|t_student - t_welch|'),
        row=1, col=1
    )
    
    fig.add_trace(
        go.Histogram(x=p_differences, nbinsx=50,
                     marker_color='green', opacity=0.7,
                     name='|p_student - p_welch|'),
        row=1, col=2
    )
    
    fig.update_layout(
        title='🔬 등분산일 때 Student vs Welch 차이 (1000회 시뮬레이션)',
        height=400
    )
    
    fig.update_xaxes(title_text='t-통계량 절대 차이', row=1, col=1)
    fig.update_xaxes(title_text='p-값 절대 차이', row=1, col=2)
    fig.update_yaxes(title_text='빈도', row=1, col=1)
    
    print(f"\n📊 시뮬레이션 결과:")
    print(f"  • t-통계량 평균 차이: {np.mean(t_differences):.6f}")
    print(f"  • t-통계량 최대 차이: {np.max(t_differences):.6f}")
    print(f"  • p-값 평균 차이: {np.mean(p_differences):.6f}")
    print(f"  • p-값 최대 차이: {np.max(p_differences):.6f}")
    
    print("\n💡 핵심 발견:")
    print("  1. 등분산일 때 두 검정의 t-통계량은 동일!")
    print("  2. p-값도 거의 동일 (미세한 차이는 자유도 차이 때문)")
    print("  3. 균등 표본일 때 자유도도 거의 같음")
    print("  4. 결론: 등분산이면 Welch's ≈ Student's")
    print("\n🎯 하지만 Welch's는 이분산일 때도 안전하므로")
    print("   → 항상 Welch's 사용이 권장됨!")
    
    return fig

# 실험 실행
fig = compare_student_vs_welch()
fig.show()

# ====================================================
# 수학적 증명: 등분산일 때 왜 같은가?
# ====================================================

print("\n" + "=" * 70)
print("📐 수학적 설명: 등분산일 때 왜 결과가 같은가?")
print("=" * 70)

print("""
Student's t-test:
  t = (X̄₁ - X̄₂) / (sp × √(1/n₁ + 1/n₂))
  여기서 sp² = ((n₁-1)s₁² + (n₂-1)s₂²) / (n₁+n₂-2)

Welch's t-test:
  t = (X̄₁ - X̄₂) / √(s₁²/n₁ + s₂²/n₂)

등분산일 때 (s₁² ≈ s₂² = s²):
  
  Student's 분모:
    sp × √(1/n₁ + 1/n₂) ≈ s × √(1/n₁ + 1/n₂)
  
  Welch's 분모:
    √(s²/n₁ + s²/n₂) = s × √(1/n₁ + 1/n₂)
  
  → 두 분모가 같아짐!
  → t-통계량이 (거의) 동일!

특히 n₁ = n₂일 때:
  자유도도 거의 같아짐 (Student: n₁+n₂-2, Welch: ≈ n₁+n₂-2)
  
결론: 등분산 + 균등표본 → 두 검정 완전 일치!
""")

## 🛡️ 2. Welch's t-test: 현실적 해법

### 🤔 **등분산성 위반의 문제점**

Student's t-검정은 두 그룹의 분산이 같다고 가정합니다:
$$t = \frac{\bar{X_1} - \bar{X_2}}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$$

여기서 **pooled standard deviation**:
$$s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}}$$

### ⚠️ **문제점**:
- 두 그룹의 분산이 실제로 다르면 $s_p$가 부적절
- 제1종 오류율이 명목수준 0.05를 초과
- 특히 표본크기가 다를 때 심각

### 🚀 **Welch의 해법**:

$$t = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$$

**핵심 아이디어**: 각 그룹의 분산을 따로 계산!

### 📊 **Satterthwaite 근사법**:

자유도를 다음과 같이 근사:
$$\nu = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{s_1^4}{n_1^2(n_1-1)} + \frac{s_2^4}{n_2^2(n_2-1)}}$$

**결과**: 정수가 아닌 자유도가 나올 수 있음!

---

## 🏥 등분산이 아닌 실제 상황들

### 📚 **언제 등분산이 깨지나요?**

등분산(equal variance) 가정은 현실에서 자주 위반됩니다. 다음과 같은 상황들이 대표적입니다:

#### 1. **🏢 대기업 vs 스타트업 연봉 비교**
- **대기업**: 체계적인 연봉 테이블 → 작은 분산
- **스타트업**: 스톡옵션, 성과급 변동 → 큰 분산
- 평균은 비슷해도 분산이 크게 다름!

#### 2. **👶 신생아 vs 청소년 키 분포**
- **신생아**: 키 차이가 작음 (45-55cm) → 작은 분산
- **청소년**: 성장 속도 차이로 키 차이가 큼 (140-190cm) → 큰 분산
- 나이가 들수록 개인차가 커짐

#### 3. **🎓 초급반 vs 고급반 시험 점수**
- **초급반**: 대부분 비슷한 수준 → 작은 분산
- **고급반**: 실력 차이가 벌어짐 → 큰 분산
- 학습이 진행될수록 격차 증가

#### 4. **💊 신약 vs 위약 치료 효과**
- **위약군**: 거의 변화 없음 → 작은 분산
- **신약군**: 개인별 반응 차이 → 큰 분산
- 약물 반응의 개인차가 크게 나타남

#### 5. **🏠 도심 vs 교외 주택 가격**
- **교외**: 비슷한 주택들 → 작은 분산
- **도심**: 원룸부터 펜트하우스까지 → 큰 분산
- 지역에 따라 다양성이 다름

In [None]:
# 🔬 등분산 vs 이분산 실제 예제 코드

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# 한글 폰트 설정
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['axes.unicode_minus'] = False

# 시드 설정
np.random.seed(42)

# ====================================================
# 예제 1: 대기업 vs 스타트업 연봉 비교
# ====================================================

def salary_comparison_example():
    """대기업과 스타트업의 연봉 분포 비교 - 이분산의 전형적 예제"""
    
    # 데이터 생성
    # 대기업: 평균 6000만원, 표준편차 500만원 (체계적 연봉 테이블)
    corporate_salaries = np.random.normal(6000, 500, 100)
    
    # 스타트업: 평균 6200만원, 표준편차 1500만원 (큰 변동성)
    startup_salaries = np.random.normal(6200, 1500, 80)
    
    # 음수 제거
    corporate_salaries = np.abs(corporate_salaries)
    startup_salaries = np.abs(startup_salaries)
    
    # 등분산성 검정
    levene_stat, levene_p = stats.levene(corporate_salaries, startup_salaries)
    
    # Student's t-test (등분산 가정)
    t_stat_student, p_val_student = stats.ttest_ind(corporate_salaries, startup_salaries)
    
    # Welch's t-test (등분산 가정 안함)
    t_stat_welch, p_val_welch = stats.ttest_ind(corporate_salaries, startup_salaries, equal_var=False)
    
    # 시각화
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=[
            '1. 연봉 분포 비교',
            '2. 분산 차이 시각화',
            '3. 박스플롯 비교',
            '4. 검정 결과 비교'
        ],
        specs=[
            [{'type': 'histogram'}, {'type': 'scatter'}],
            [{'type': 'box'}, {'type': 'bar'}]
        ]
    )
    
    # 1. 히스토그램
    fig.add_trace(
        go.Histogram(x=corporate_salaries, name='대기업', opacity=0.6, 
                     nbinsx=20, marker_color='blue'),
        row=1, col=1
    )
    fig.add_trace(
        go.Histogram(x=startup_salaries, name='스타트업', opacity=0.6,
                     nbinsx=20, marker_color='red'),
        row=1, col=1
    )
    
    # 2. 분산 비교 (산점도)
    fig.add_trace(
        go.Scatter(x=np.random.uniform(0.8, 1.2, len(corporate_salaries)),
                   y=corporate_salaries, mode='markers', name='대기업',
                   marker=dict(color='blue', size=3, opacity=0.5)),
        row=1, col=2
    )
    fig.add_trace(
        go.Scatter(x=np.random.uniform(1.8, 2.2, len(startup_salaries)),
                   y=startup_salaries, mode='markers', name='스타트업',
                   marker=dict(color='red', size=3, opacity=0.5)),
        row=1, col=2
    )
    
    # 평균선 추가
    fig.add_hline(y=np.mean(corporate_salaries), line_dash="solid", 
                  line_color="blue", row=1, col=2)
    fig.add_hline(y=np.mean(startup_salaries), line_dash="solid",
                  line_color="red", row=1, col=2)
    
    # 3. 박스플롯
    fig.add_trace(
        go.Box(y=corporate_salaries, name='대기업', marker_color='blue'),
        row=2, col=1
    )
    fig.add_trace(
        go.Box(y=startup_salaries, name='스타트업', marker_color='red'),
        row=2, col=1
    )
    
    # 4. 검정 결과 비교
    test_names = ['Student\'s t-test', 'Welch\'s t-test']
    p_values = [p_val_student, p_val_welch]
    colors = ['orange' if p > 0.05 else 'green' for p in p_values]
    
    fig.add_trace(
        go.Bar(x=test_names, y=p_values, marker_color=colors,
               text=[f'p={p:.4f}' for p in p_values], textposition='auto'),
        row=2, col=2
    )
    
    # 유의수준 선
    fig.add_hline(y=0.05, line_dash="dash", line_color="red",
                  annotation_text="α=0.05", row=2, col=2)
    
    # 레이아웃 설정
    fig.update_layout(
        title='🏢 대기업 vs 스타트업 연봉 비교 (이분산 예제)',
        height=800,
        showlegend=True
    )
    
    fig.update_xaxes(title_text='연봉 (만원)', row=1, col=1)
    fig.update_xaxes(title_text='그룹', row=1, col=2)
    fig.update_yaxes(title_text='연봉 (만원)', row=1, col=2)
    fig.update_yaxes(title_text='연봉 (만원)', row=2, col=1)
    fig.update_yaxes(title_text='p-value', row=2, col=2)
    
    # 결과 출력
    print("=" * 70)
    print("🏢 대기업 vs 스타트업 연봉 비교 분석")
    print("=" * 70)
    print(f"\n📊 기초 통계량:")
    print(f"  대기업: 평균 = {np.mean(corporate_salaries):.0f}만원, 표준편차 = {np.std(corporate_salaries, ddof=1):.0f}만원")
    print(f"  스타트업: 평균 = {np.mean(startup_salaries):.0f}만원, 표준편차 = {np.std(startup_salaries, ddof=1):.0f}만원")
    print(f"\n🔍 분산비 = {np.var(startup_salaries, ddof=1) / np.var(corporate_salaries, ddof=1):.2f} (스타트업/대기업)")
    print(f"\n📈 Levene 검정 (등분산성):")
    print(f"  통계량 = {levene_stat:.3f}, p-value = {levene_p:.4f}")
    print(f"  결론: {'등분산 가정 위반 ❌' if levene_p < 0.05 else '등분산 가정 만족 ✅'}")
    print(f"\n🎯 t-검정 결과 비교:")
    print(f"  Student's t-test: t = {t_stat_student:.3f}, p = {p_val_student:.4f}")
    print(f"  Welch's t-test:   t = {t_stat_welch:.3f}, p = {p_val_welch:.4f}")
    print(f"\n💡 해석:")
    print(f"  - 분산이 {np.var(startup_salaries, ddof=1) / np.var(corporate_salaries, ddof=1):.1f}배 차이남")
    print(f"  - 이런 경우 Welch's t-test가 더 적절")
    print(f"  - {'두 검정 모두 유의한 차이 없음' if p_val_welch > 0.05 else '유의한 차이 있음'}")
    
    return fig

# 예제 1 실행
fig1 = salary_comparison_example()
fig1.show()

# ====================================================
# 예제 2: 신약 vs 위약 치료 효과 (극단적 이분산)
# ====================================================

def drug_effect_example():
    """신약과 위약의 치료 효과 비교 - 극단적 이분산 예제"""
    
    # 데이터 생성
    # 위약군: 거의 변화 없음 (평균 0, 표준편차 2)
    placebo_effect = np.random.normal(0, 2, 50)
    
    # 신약군: 개인차 큼 (평균 5, 표준편차 10)
    drug_effect = np.random.normal(5, 10, 50)
    
    # 통계 분석
    levene_stat, levene_p = stats.levene(placebo_effect, drug_effect)
    
    # 두 가지 t-test
    t_student, p_student = stats.ttest_ind(placebo_effect, drug_effect)
    t_welch, p_welch = stats.ttest_ind(placebo_effect, drug_effect, equal_var=False)
    
    # 자유도 계산
    n1, n2 = len(placebo_effect), len(drug_effect)
    s1, s2 = np.std(placebo_effect, ddof=1), np.std(drug_effect, ddof=1)
    
    # Student's t-test 자유도
    df_student = n1 + n2 - 2
    
    # Welch's t-test 자유도 (Satterthwaite 근사)
    numerator = (s1**2/n1 + s2**2/n2)**2
    denominator = (s1**2/n1)**2/(n1-1) + (s2**2/n2)**2/(n2-1)
    df_welch = numerator / denominator
    
    # 시각화
    fig = make_subplots(
        rows=1, cols=3,
        subplot_titles=[
            '치료 효과 분포',
            '분산 차이 (Violin plot)',
            '자유도 비교'
        ]
    )
    
    # 1. 히스토그램
    fig.add_trace(
        go.Histogram(x=placebo_effect, name='위약', opacity=0.7,
                     nbinsx=20, marker_color='gray'),
        row=1, col=1
    )
    fig.add_trace(
        go.Histogram(x=drug_effect, name='신약', opacity=0.7,
                     nbinsx=20, marker_color='green'),
        row=1, col=1
    )
    
    # 2. Violin plot
    fig.add_trace(
        go.Violin(y=placebo_effect, name='위약', box_visible=True,
                  marker_color='gray'),
        row=1, col=2
    )
    fig.add_trace(
        go.Violin(y=drug_effect, name='신약', box_visible=True,
                  marker_color='green'),
        row=1, col=2
    )
    
    # 3. 자유도 비교
    fig.add_trace(
        go.Bar(x=['Student\'s', 'Welch\'s'], 
               y=[df_student, df_welch],
               text=[f'df={df_student:.0f}', f'df={df_welch:.1f}'],
               textposition='auto',
               marker_color=['blue', 'orange']),
        row=1, col=3
    )
    
    fig.update_layout(
        title='💊 신약 vs 위약 치료 효과 (극단적 이분산)',
        height=400,
        showlegend=True
    )
    
    # 결과 출력
    print("\n" + "=" * 70)
    print("💊 신약 vs 위약 치료 효과 분석")
    print("=" * 70)
    print(f"\n📊 기초 통계량:")
    print(f"  위약: 평균 = {np.mean(placebo_effect):.2f}, 표준편차 = {s1:.2f}")
    print(f"  신약: 평균 = {np.mean(drug_effect):.2f}, 표준편차 = {s2:.2f}")
    print(f"\n🔍 분산비 = {s2**2 / s1**2:.2f} (신약/위약)")
    print(f"\n📈 등분산성 검정:")
    print(f"  Levene: F = {levene_stat:.3f}, p = {levene_p:.6f}")
    print(f"  결론: 극단적인 이분산! ❌❌❌")
    print(f"\n🎯 자유도 차이:")
    print(f"  Student's t-test: df = {df_student:.0f} (정수)")
    print(f"  Welch's t-test:   df = {df_welch:.1f} (소수)")
    print(f"  차이: {df_student - df_welch:.1f} 감소")
    print(f"\n📊 검정 결과:")
    print(f"  Student's: t = {t_student:.3f}, p = {p_student:.4f}")
    print(f"  Welch's:   t = {t_welch:.3f}, p = {p_welch:.4f}")
    print(f"\n⚠️ 경고: 분산비가 {s2**2 / s1**2:.0f}배! Welch's t-test 필수!")
    
    return fig

# 예제 2 실행
fig2 = drug_effect_example()
fig2.show()

# ====================================================
# 예제 3: 등분산 vs 이분산 시뮬레이션 비교
# ====================================================

def variance_simulation():
    """등분산과 이분산 상황에서의 Type I 오류율 비교"""
    
    n_simulations = 1000
    alpha = 0.05
    sample_sizes = [(20, 20), (20, 40), (20, 60)]  # 균등/불균등 표본
    variance_ratios = [1, 2, 4, 8]  # 분산비
    
    results = []
    
    for n1, n2 in sample_sizes:
        for var_ratio in variance_ratios:
            student_errors = 0
            welch_errors = 0
            
            for _ in range(n_simulations):
                # H0가 참인 상황 (평균은 같음)
                group1 = np.random.normal(0, 1, n1)
                group2 = np.random.normal(0, np.sqrt(var_ratio), n2)
                
                # Student's t-test
                _, p_student = stats.ttest_ind(group1, group2)
                if p_student < alpha:
                    student_errors += 1
                
                # Welch's t-test
                _, p_welch = stats.ttest_ind(group1, group2, equal_var=False)
                if p_welch < alpha:
                    welch_errors += 1
            
            results.append({
                'Sample Size': f'({n1},{n2})',
                'Variance Ratio': var_ratio,
                'Student Error Rate': student_errors / n_simulations,
                'Welch Error Rate': welch_errors / n_simulations
            })
    
    # 결과를 DataFrame으로 변환
    df_results = pd.DataFrame(results)
    
    # 시각화
    fig = make_subplots(
        rows=1, cols=3,
        subplot_titles=[
            '균등 표본 (20,20)',
            '중간 불균등 (20,40)', 
            '극단 불균등 (20,60)'
        ]
    )
    
    for i, (n1, n2) in enumerate(sample_sizes):
        sample_data = df_results[df_results['Sample Size'] == f'({n1},{n2})']
        
        fig.add_trace(
            go.Scatter(x=sample_data['Variance Ratio'], 
                      y=sample_data['Student Error Rate'],
                      mode='lines+markers', name=f'Student ({n1},{n2})',
                      line=dict(color='red', dash='solid' if i==0 else 'dash')),
            row=1, col=i+1
        )
        
        fig.add_trace(
            go.Scatter(x=sample_data['Variance Ratio'],
                      y=sample_data['Welch Error Rate'],
                      mode='lines+markers', name=f'Welch ({n1},{n2})',
                      line=dict(color='blue', dash='solid' if i==0 else 'dash')),
            row=1, col=i+1
        )
        
        # 명목 오류율 선
        fig.add_hline(y=alpha, line_dash="dash", line_color="gray",
                     annotation_text="α=0.05", row=1, col=i+1)
    
    fig.update_layout(
        title='🔬 Type I 오류율: Student vs Welch (1000회 시뮬레이션)',
        height=400
    )
    
    fig.update_xaxes(title_text='분산비', row=1, col=2)
    fig.update_yaxes(title_text='Type I 오류율', row=1, col=1)
    
    # 결과 테이블 출력
    print("\n" + "=" * 70)
    print("🔬 Type I 오류율 시뮬레이션 결과")
    print("=" * 70)
    print("\n📊 결과 테이블:")
    print(df_results.to_string(index=False))
    print("\n💡 핵심 발견:")
    print("  1. 등분산(ratio=1)일 때: 두 방법 모두 α=0.05 유지")
    print("  2. 이분산 + 균등표본: Student's는 약간 상승, Welch는 안정")
    print("  3. 이분산 + 불균등표본: Student's는 크게 상승, Welch는 여전히 안정")
    print("  4. 결론: Welch's t-test가 더 강건함!")
    
    return fig

# 예제 3 실행
fig3 = variance_simulation()
fig3.show()

print("\n" + "🎯" * 35)
print("\n📌 최종 요약:")
print("  • 등분산 가정이 위반되면 Student's t-test는 부정확")
print("  • 특히 표본크기까지 다르면 오류율 급증")
print("  • Welch's t-test는 모든 상황에서 안정적")
print("  • 실무 권장: 의심스러우면 Welch's 사용!")
print("\n" + "🎯" * 35)

In [None]:
# ====================================================
# 예제 4: 부채널 분석과 TVLA (Test Vector Leakage Assessment)
# ====================================================

def side_channel_analysis_example():
    """부채널 분석에서 Welch's t-test의 중요성과 TVLA 예제"""
    
    print("\n" + "=" * 70)
    print("🔐 부채널 분석과 TVLA (Test Vector Leakage Assessment)")
    print("=" * 70)
    
    # 암호화 장치의 전력 소비 시뮬레이션
    np.random.seed(42)
    
    # 시나리오: 비밀키의 특정 비트가 0일 때와 1일 때의 전력 소비
    # 실제 부채널 공격에서는 수천~수만 개의 측정값을 사용
    
    # 키 비트 = 0일 때의 전력 소비 (기본 소비 + 작은 노이즈)
    n_traces_0 = 1000
    power_key0 = np.random.normal(100, 5, n_traces_0)  # 평균 100mW, 표준편차 5mW
    
    # 키 비트 = 1일 때의 전력 소비 (추가 연산으로 약간 높음 + 큰 노이즈)
    n_traces_1 = 800
    # 중요: 실제로 분산이 다름! (추가 연산시 변동성 증가)
    power_key1 = np.random.normal(102, 15, n_traces_1)  # 평균 102mW, 표준편차 15mW
    
    # 등분산성 검정
    levene_stat, levene_p = stats.levene(power_key0, power_key1)
    
    # Student's t-test vs Welch's t-test
    t_student, p_student = stats.ttest_ind(power_key0, power_key1)
    t_welch, p_welch = stats.ttest_ind(power_key0, power_key1, equal_var=False)
    
    # TVLA 기준: |t| > 4.5 이면 누설 탐지
    tvla_threshold = 4.5
    
    print(f"\n📊 전력 소비 분석:")
    print(f"  키=0: 평균 = {np.mean(power_key0):.2f}mW, 표준편차 = {np.std(power_key0, ddof=1):.2f}mW")
    print(f"  키=1: 평균 = {np.mean(power_key1):.2f}mW, 표준편차 = {np.std(power_key1, ddof=1):.2f}mW")
    print(f"\n🔍 분산비 = {np.var(power_key1, ddof=1) / np.var(power_key0, ddof=1):.2f}")
    print(f"  → 키=1일 때 분산이 {np.var(power_key1, ddof=1) / np.var(power_key0, ddof=1):.1f}배 큼!")
    
    print(f"\n📈 등분산성 검정:")
    print(f"  Levene: p = {levene_p:.6f}")
    print(f"  결론: {'등분산 가정 위반! ❌' if levene_p < 0.05 else '등분산 가정 만족'}")
    
    print(f"\n🎯 TVLA 검정 결과:")
    print(f"  Student's t-test: |t| = {abs(t_student):.3f}")
    print(f"  Welch's t-test:   |t| = {abs(t_welch):.3f}")
    print(f"  TVLA 임계값: {tvla_threshold}")
    print(f"\n  Student's 결론: {'누설 탐지! 🚨' if abs(t_student) > tvla_threshold else '안전'}")
    print(f"  Welch's 결론:   {'누설 탐지! 🚨' if abs(t_welch) > tvla_threshold else '안전'}")
    
    # 시각화
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=[
            '전력 소비 분포',
            'TVLA 검정 결과',
            '시간에 따른 전력 파형',
            '누설 탐지 임계값'
        ]
    )
    
    # 1. 전력 소비 분포
    fig.add_trace(
        go.Histogram(x=power_key0, name='Key=0', opacity=0.7,
                     nbinsx=30, marker_color='blue'),
        row=1, col=1
    )
    fig.add_trace(
        go.Histogram(x=power_key1, name='Key=1', opacity=0.7,
                     nbinsx=30, marker_color='red'),
        row=1, col=1
    )
    
    # 2. TVLA 검정 결과 비교
    test_names = ['Student\'s', 'Welch\'s']
    t_values = [abs(t_student), abs(t_welch)]
    colors = ['red' if t > tvla_threshold else 'green' for t in t_values]
    
    fig.add_trace(
        go.Bar(x=test_names, y=t_values, marker_color=colors,
               text=[f'|t|={t:.2f}' for t in t_values], textposition='auto'),
        row=1, col=2
    )
    fig.add_hline(y=tvla_threshold, line_dash="dash", line_color="red",
                  annotation_text="TVLA 임계값 (4.5)", row=1, col=2)
    
    # 3. 시간에 따른 전력 파형 (실제 측정 시뮬레이션)
    time_points = 100
    time = np.arange(time_points)
    
    # 키=0일 때 평균 파형
    waveform_key0 = 100 + 2 * np.sin(time * 0.1) + np.random.normal(0, 0.5, time_points)
    # 키=1일 때 평균 파형 (특정 시점에 스파이크)
    waveform_key1 = 100 + 2 * np.sin(time * 0.1) + np.random.normal(0, 0.5, time_points)
    waveform_key1[40:45] += 5  # 암호 연산 시점
    
    fig.add_trace(
        go.Scatter(x=time, y=waveform_key0, mode='lines', name='Key=0',
                   line=dict(color='blue', width=2)),
        row=2, col=1
    )
    fig.add_trace(
        go.Scatter(x=time, y=waveform_key1, mode='lines', name='Key=1',
                   line=dict(color='red', width=2)),
        row=2, col=1
    )
    
    # 4. 다양한 노이즈 레벨에서의 탐지 성능
    noise_levels = np.arange(1, 20, 2)
    detection_student = []
    detection_welch = []
    
    for noise in noise_levels:
        # 100회 반복하여 평균 탐지율 계산
        student_detect = 0
        welch_detect = 0
        
        for _ in range(100):
            sample0 = np.random.normal(100, 5, 100)
            sample1 = np.random.normal(102, noise, 100)
            
            t_s, _ = stats.ttest_ind(sample0, sample1)
            t_w, _ = stats.ttest_ind(sample0, sample1, equal_var=False)
            
            if abs(t_s) > tvla_threshold:
                student_detect += 1
            if abs(t_w) > tvla_threshold:
                welch_detect += 1
        
        detection_student.append(student_detect)
        detection_welch.append(welch_detect)
    
    fig.add_trace(
        go.Scatter(x=noise_levels, y=detection_student, mode='lines+markers',
                   name='Student\'s', line=dict(color='orange', width=2)),
        row=2, col=2
    )
    fig.add_trace(
        go.Scatter(x=noise_levels, y=detection_welch, mode='lines+markers',
                   name='Welch\'s', line=dict(color='green', width=2)),
        row=2, col=2
    )
    
    # 레이아웃 설정
    fig.update_layout(
        title='🔐 부채널 분석: TVLA를 이용한 정보 누설 탐지',
        height=800
    )
    
    fig.update_xaxes(title_text='전력 소비 (mW)', row=1, col=1)
    fig.update_yaxes(title_text='|t-statistic|', row=1, col=2)
    fig.update_xaxes(title_text='시간 (샘플)', row=2, col=1)
    fig.update_yaxes(title_text='전력 (mW)', row=2, col=1)
    fig.update_xaxes(title_text='노이즈 레벨 (σ)', row=2, col=2)
    fig.update_yaxes(title_text='탐지 횟수 (/100)', row=2, col=2)
    
    print("\n💡 부채널 분석에서 Welch's t-test가 중요한 이유:")
    print("  1. 암호 연산의 복잡도에 따라 전력 소비 분산이 다름")
    print("  2. 측정 환경 노이즈가 상황에 따라 변함")
    print("  3. 잘못된 통계 검정은 보안 취약점을 놓칠 수 있음")
    print("  4. TVLA 표준에서도 Welch's t-test 권장")
    
    return fig

# 예제 4 실행
fig4 = side_channel_analysis_example()
fig4.show()

# ====================================================
# 예제 5: 고급 TVLA - 1st Order vs Higher Order 분석
# ====================================================

def advanced_tvla_example():
    """고급 TVLA: 1차 및 고차 부채널 분석"""
    
    print("\n" + "=" * 70)
    print("🔬 고급 TVLA: 마스킹 대응책 평가")
    print("=" * 70)
    
    np.random.seed(42)
    n_traces = 1000
    
    # 시나리오: 마스킹된 암호 구현 평가
    # 1차 마스킹은 1st order 공격을 방어하지만 2nd order에는 취약
    
    # 고정 vs 랜덤 데이터에서의 전력 소비
    # 마스킹 없음 (취약한 구현)
    unmasked_fixed = np.random.normal(100, 3, n_traces)
    unmasked_random = np.random.normal(105, 3, n_traces)  # 명확한 차이
    
    # 1차 마스킹 (1st order 방어)
    masked_fixed = np.random.normal(100, 5, n_traces)
    masked_random = np.random.normal(100.5, 5, n_traces)  # 작은 차이
    
    # 2nd order 분석을 위한 제곱값
    masked_fixed_sq = (masked_fixed - np.mean(masked_fixed))**2
    masked_random_sq = (masked_random - np.mean(masked_random))**2
    # 제곱하면 분산이 달라짐!
    masked_random_sq = masked_random_sq * 1.5  # 인위적으로 차이 생성
    
    # 1st order TVLA
    t_unmasked_student, _ = stats.ttest_ind(unmasked_fixed, unmasked_random)
    t_unmasked_welch, _ = stats.ttest_ind(unmasked_fixed, unmasked_random, equal_var=False)
    
    t_masked_student, _ = stats.ttest_ind(masked_fixed, masked_random)
    t_masked_welch, _ = stats.ttest_ind(masked_fixed, masked_random, equal_var=False)
    
    # 2nd order TVLA (제곱값에 대한 분석)
    t_2nd_student, _ = stats.ttest_ind(masked_fixed_sq, masked_random_sq)
    t_2nd_welch, _ = stats.ttest_ind(masked_fixed_sq, masked_random_sq, equal_var=False)
    
    # Levene 검정
    _, levene_2nd = stats.levene(masked_fixed_sq, masked_random_sq)
    
    print(f"\n📊 1st Order TVLA 결과:")
    print(f"  마스킹 없음:")
    print(f"    Student's: |t| = {abs(t_unmasked_student):.2f} {'🚨 누설!' if abs(t_unmasked_student) > 4.5 else '✅'}")
    print(f"    Welch's:   |t| = {abs(t_unmasked_welch):.2f} {'🚨 누설!' if abs(t_unmasked_welch) > 4.5 else '✅'}")
    print(f"  마스킹 적용:")
    print(f"    Student's: |t| = {abs(t_masked_student):.2f} {'🚨 누설!' if abs(t_masked_student) > 4.5 else '✅ 안전'}")
    print(f"    Welch's:   |t| = {abs(t_masked_welch):.2f} {'🚨 누설!' if abs(t_masked_welch) > 4.5 else '✅ 안전'}")
    
    print(f"\n📊 2nd Order TVLA 결과 (제곱값 분석):")
    print(f"  분산비: {np.var(masked_random_sq) / np.var(masked_fixed_sq):.2f}")
    print(f"  Levene p-value: {levene_2nd:.6f} {'→ 이분산!' if levene_2nd < 0.05 else ''}")
    print(f"  Student's: |t| = {abs(t_2nd_student):.2f} {'🚨 2차 누설!' if abs(t_2nd_student) > 4.5 else '✅'}")
    print(f"  Welch's:   |t| = {abs(t_2nd_welch):.2f} {'🚨 2차 누설!' if abs(t_2nd_welch) > 4.5 else '✅'}")
    
    # 시각화
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=[
            '마스킹 없음: 1st Order',
            '마스킹 적용: 1st Order',
            '마스킹 적용: 2nd Order (원본)',
            '마스킹 적용: 2nd Order (제곱)'
        ]
    )
    
    # 1. 마스킹 없음
    fig.add_trace(
        go.Histogram(x=unmasked_fixed, name='Fixed', opacity=0.6,
                     marker_color='blue', nbinsx=30),
        row=1, col=1
    )
    fig.add_trace(
        go.Histogram(x=unmasked_random, name='Random', opacity=0.6,
                     marker_color='red', nbinsx=30),
        row=1, col=1
    )
    
    # 2. 1차 마스킹 (1st order)
    fig.add_trace(
        go.Histogram(x=masked_fixed, name='Fixed', opacity=0.6,
                     marker_color='blue', nbinsx=30),
        row=1, col=2
    )
    fig.add_trace(
        go.Histogram(x=masked_random, name='Random', opacity=0.6,
                     marker_color='red', nbinsx=30),
        row=1, col=2
    )
    
    # 3. 1차 마스킹 원본 데이터
    fig.add_trace(
        go.Box(y=masked_fixed, name='Fixed', marker_color='blue'),
        row=2, col=1
    )
    fig.add_trace(
        go.Box(y=masked_random, name='Random', marker_color='red'),
        row=2, col=1
    )
    
    # 4. 2nd order (제곱값)
    fig.add_trace(
        go.Box(y=masked_fixed_sq, name='Fixed²', marker_color='blue'),
        row=2, col=2
    )
    fig.add_trace(
        go.Box(y=masked_random_sq, name='Random²', marker_color='red'),
        row=2, col=2
    )
    
    fig.update_layout(
        title='🔬 고급 TVLA: 1st vs 2nd Order 부채널 분석',
        height=700
    )
    
    print("\n💡 핵심 통찰:")
    print("  1. 2nd order 분석에서는 비선형 변환으로 분산이 크게 달라짐")
    print("  2. Student's t-test는 이분산 상황에서 부정확할 수 있음")
    print("  3. Welch's t-test가 더 신뢰할 수 있는 결과 제공")
    print("  4. 보안 평가에서 통계적 정확성은 매우 중요!")
    
    return fig

# 예제 5 실행
fig5 = advanced_tvla_example()
fig5.show()

print("\n" + "🔐" * 35)
print("\n📌 부채널 분석과 TVLA 최종 요약:")
print("  • TVLA는 암호 구현의 부채널 누설을 탐지하는 표준 방법")
print("  • |t| > 4.5를 임계값으로 사용 (99.999% 신뢰수준)")
print("  • 암호 연산은 본질적으로 이분산을 생성")
print("  • Welch's t-test가 더 정확한 보안 평가 제공")
print("  • 잘못된 통계는 보안 취약점을 놓칠 위험!")
print("\n" + "🔐" * 35)

## 💡 3. 실용적 가이드라인

### 🎯 **언제 어떤 검정을 사용할까?**

#### 🔄 **결정 흐름도**:

```
데이터 준비
    ↓
정규성 확인 (Shapiro-Wilk, Q-Q plot)
    ↓
정규성 만족? ──NO──→ 비모수 검정 (Mann-Whitney U)
    ↓ YES
등분산성 확인 (Levene 검정)
    ↓
등분산성 만족? ──NO──→ Welch's t-test
    ↓ YES
Student's t-test 또는 Welch's t-test
(사실상 Welch's를 추천)
```

### 📊 **경험법칙**:

1. **분산비 확인**:
   - 분산비 < 2: 두 방법 모두 안전
   - 분산비 ≥ 2: Welch's t-test 필수

2. **표본크기**:
   - 균등 (n₁ ≈ n₂): 상대적으로 안전
   - 불균등: Welch's t-test 강력 권장

3. **안전한 선택**:
   - **항상 Welch's t-test 사용**
   - 등분산이어도 성능 거의 동일
   - 이분산일 때 훨씬 안전

### ⚠️ **주의사항**:

- **독립성**: 통계로 확인 불가, 연구설계로 보장
- **정규성**: 심한 위반시 변환 또는 비모수 검정
- **이상치**: 제거 전 신중한 검토 필요

### 🏆 **최종 권장사항**:

> **"의심스러우면 Welch's t-test를 사용하라"**
> 
> - 현대 통계 소프트웨어의 기본값
> - 더 안전하고 강건한 방법
> - 성능 손실 거의 없음

## 📚 핵심 요약

### ✨ **오늘 배운 것들**

1. **t-검정의 3대 가정** 🎯
   - 정규성, 등분산성, 독립성
   - 각 가정의 확인 방법과 위반시 영향

2. **Welch's t-test의 우수성** 🛡️
   - 등분산성 가정 불필요
   - Satterthwaite 근사법으로 자유도 조정
   - 더 강건하고 안전한 방법

3. **실무 가이드라인** 💼
   - 분산비 > 2배시 Welch's 필수
   - 의심스러우면 항상 Welch's 사용
   - 현대 통계의 표준 접근법

### 🔑 **핵심 메시지**

> **"완벽한 가정을 만족하는 데이터는 드물다.  
> 현실을 인정하고 적절한 도구를 사용하자!"**

### 🚀 **다음 단계**

이제 우리는 가정 위반에 대처하는 법을 알았습니다!  
다음에는 **부채널 분석과 실제 비즈니스 적용**에서 t-검정을 어떻게 사용하는지 살펴보겠습니다.

**다음 노트북**: `05_real_world_applications.ipynb`

---

*"통계학은 불완전한 세상에서 최선의 결론을 내리는 예술이다"* - Bernard Welch의 정신을 기리며 🎓