# Day 1-0: 파인튜닝 핵심 개념 이해

## 🎯 학습 목표
- **파인튜닝(Fine-tuning)**의 기본 개념과 원리 이해
- **LoRA(Low-Rank Adaptation)**의 작동 방식과 장점
- **PEFT(Parameter Efficient Fine-Tuning)** 기법들 비교
- **파인튜닝 vs 프롬프트 엔지니어링** 차이점과 선택 기준
- **실제 프로덕션 환경**에서의 파인튜닝 적용 사례

## 📚 핵심 개념 소개

### 💡 파인튜닝이란?
**파인튜닝(Fine-tuning)**은 이미 사전 훈련된 대규모 언어 모델을 특정 태스크나 도메인에 맞게 추가로 학습시키는 기법입니다.

마치 이미 기본기가 갖춰진 선수를 특정 종목에 맞게 전문 훈련시키는 것과 같습니다!

In [None]:
# 필요한 라이브러리 설치 및 임포트
!pip install -q transformers datasets torch peft accelerate bitsandbytes

import torch
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from transformers import AutoTokenizer, AutoModelForCausalLM
from datasets import Dataset
import json
from typing import List, Dict, Any

# 한글 폰트 설정
plt.rcParams['font.family'] = 'DejaVu Sans'

print("✅ 라이브러리 임포트 완료!")

## 1. 🧠 파인튜닝의 기본 원리

### 📊 사전 훈련 vs 파인튜닝 비교
파인튜닝과 사전 훈련의 차이점을 시각화로 이해해봅시다.

In [None]:
def create_finetuning_concept_visualization():
    """
    파인튜닝 개념을 시각화하는 함수
    """
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    fig.suptitle('Fine-tuning Core Concepts Visualization', fontsize=16, fontweight='bold')
    
    # 1. 사전 훈련 vs 파인튜닝 데이터 크기 비교
    categories = ['Pre-training\nData', 'Fine-tuning\nData']
    data_sizes = [1000000, 1000]  # 상대적 크기 (1M vs 1K)
    colors = ['lightblue', 'orange']
    
    bars = axes[0, 0].bar(categories, data_sizes, color=colors, alpha=0.7)
    axes[0, 0].set_yscale('log')
    axes[0, 0].set_ylabel('Data Size (examples)')
    axes[0, 0].set_title('📊 Pre-training vs Fine-tuning Data Size')
    
    # 막대 위에 수치 표시
    for bar, size in zip(bars, data_sizes):
        height = bar.get_height()
        axes[0, 0].text(bar.get_x() + bar.get_width()/2., height,
                       f'{size:,}', ha='center', va='bottom', fontweight='bold')
    
    # 2. 파인튜닝 방법별 학습 파라미터 수 비교
    methods = ['Full\nFine-tuning', 'LoRA', 'Adapter', 'Prompt\nTuning']
    param_percentages = [100, 0.1, 2, 0.01]  # 전체 파라미터 대비 학습 파라미터 비율
    method_colors = ['red', 'green', 'blue', 'purple']
    
    bars2 = axes[0, 1].bar(methods, param_percentages, color=method_colors, alpha=0.7)
    axes[0, 1].set_ylabel('Trainable Parameters (%)')
    axes[0, 1].set_title('🔧 Parameter Efficiency Comparison')
    axes[0, 1].set_yscale('log')
    
    for bar, pct in zip(bars2, param_percentages):
        height = bar.get_height()
        axes[0, 1].text(bar.get_x() + bar.get_width()/2., height,
                       f'{pct}%', ha='center', va='bottom', fontweight='bold')
    
    # 3. LoRA의 작동 원리 시각화
    # 원래 가중치 행렬을 시각화
    np.random.seed(42)
    W = np.random.randn(8, 8)  # 원래 가중치 행렬
    
    im1 = axes[1, 0].imshow(W, cmap='RdBu', aspect='auto')
    axes[1, 0].set_title('🎯 Original Weight Matrix W')
    axes[1, 0].set_xlabel('Input Dimension')
    axes[1, 0].set_ylabel('Output Dimension')
    
    # LoRA 분해 시각화
    rank = 2
    A = np.random.randn(8, rank) * 0.1  # Low-rank matrix A
    B = np.random.randn(rank, 8) * 0.1  # Low-rank matrix B
    
    # A와 B를 나란히 표시
    combined = np.hstack([A, np.zeros((8, 2)), B.T])
    im2 = axes[1, 1].imshow(combined, cmap='RdBu', aspect='auto')
    axes[1, 1].set_title('🔄 LoRA Decomposition: A + B^T')
    axes[1, 1].set_xlabel('A Matrix | Gap | B^T Matrix')
    axes[1, 1].set_ylabel('Dimensions')
    
    # 컬러바 추가
    plt.colorbar(im1, ax=axes[1, 0], fraction=0.046, pad=0.04)
    plt.colorbar(im2, ax=axes[1, 1], fraction=0.046, pad=0.04)
    
    plt.tight_layout()
    plt.savefig('finetuning_concepts.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    return fig

# 시각화 생성
concept_fig = create_finetuning_concept_visualization()
print("✅ 파인튜닝 개념 시각화 완료!")

## 2. 🎯 LoRA (Low-Rank Adaptation) 깊이 이해

### 💡 LoRA의 핵심 아이디어

LoRA는 "**큰 행렬을 작은 두 행렬의 곱으로 근사**"하는 아이디어에 기반합니다.

**수학적 표현:**
- 원래: `h = W₀x + ΔWx` (전체 가중치 업데이트)
- LoRA: `h = W₀x + BAx` (저차원 분해)

여기서 `B ∈ ℝᵈˣʳ`, `A ∈ ℝʳˣᵏ`, `r << min(d,k)`

In [None]:
def demonstrate_lora_math():
    """
    LoRA의 수학적 원리를 실제 코드로 시연
    """
    print("🔍 LoRA 수학적 원리 시연")
    print("=" * 50)
    
    # 가상의 가중치 행렬 (예: GPT의 어텐션 레이어)
    d_model = 768  # 모델 차원
    seq_length = 512  # 시퀀스 길이
    
    print(f"📏 모델 설정:")
    print(f"   - 모델 차원 (d_model): {d_model}")
    print(f"   - 시퀀스 길이: {seq_length}")
    
    # 원래 가중치 행렬 W₀ (freeze됨)
    W0 = torch.randn(d_model, d_model) * 0.02
    
    # Full Fine-tuning의 경우
    delta_W_full = torch.randn(d_model, d_model) * 0.001  # 업데이트할 가중치
    full_params = delta_W_full.numel()
    
    print(f"\n🔴 Full Fine-tuning:")
    print(f"   - 업데이트할 파라미터 수: {full_params:,}")
    print(f"   - 메모리 사용량: ~{full_params * 4 / 1024**2:.1f} MB")
    
    # LoRA의 경우
    ranks = [1, 2, 4, 8, 16, 32]
    
    print(f"\n🟢 LoRA 방식:")
    print(f"{'Rank':<6} {'Parameters':<12} {'Reduction':<12} {'Memory (MB)':<12}")
    print("-" * 50)
    
    for rank in ranks:
        # LoRA 행렬들
        A = torch.randn(rank, d_model) * 0.001  # A ∈ ℝʳˣᵈ
        B = torch.randn(d_model, rank) * 0.001  # B ∈ ℝᵈˣʳ
        
        lora_params = A.numel() + B.numel()
        reduction_ratio = full_params / lora_params
        memory_mb = lora_params * 4 / 1024**2
        
        print(f"{rank:<6} {lora_params:<12,} {reduction_ratio:<12.1f}x {memory_mb:<12.2f}")
    
    # 실제 계산 시연
    print(f"\n🧮 계산 과정 시연 (rank=4):")
    rank = 4
    A = torch.randn(rank, d_model) * 0.001
    B = torch.randn(d_model, rank) * 0.001
    
    # 입력 벡터
    x = torch.randn(d_model, 1)
    
    # 원래 계산
    h_original = W0 @ x
    
    # LoRA 계산
    h_lora = W0 @ x + B @ (A @ x)
    
    print(f"   - A 행렬 크기: {A.shape}")
    print(f"   - B 행렬 크기: {B.shape}")
    print(f"   - 입력 x 크기: {x.shape}")
    print(f"   - 원래 출력 h 크기: {h_original.shape}")
    print(f"   - LoRA 출력 h 크기: {h_lora.shape}")
    print(f"   - 출력 차이 (norm): {torch.norm(h_lora - h_original).item():.6f}")
    
    return {"full_params": full_params, "lora_params": A.numel() + B.numel()}

# LoRA 수학 시연
lora_demo = demonstrate_lora_math()

## 3. 📋 PEFT 기법들 비교 분석

### 🔍 Parameter Efficient Fine-Tuning 기법들

다양한 PEFT 기법들의 특징과 적용 상황을 비교해봅시다.

In [None]:
def create_peft_comparison_table():
    """
    PEFT 기법들을 종합 비교하는 표
    """
    peft_methods = {
        "방법": ["Full Fine-tuning", "LoRA", "AdaLoRA", "Adapter", "Prefix Tuning", "P-Tuning v2", "Prompt Tuning"],
        "학습 파라미터 비율": ["100%", "0.1-1%", "0.1-1%", "2-4%", "0.01-0.1%", "0.1-3%", "0.01%"],
        "메모리 효율성": ["낮음", "매우 높음", "매우 높음", "높음", "매우 높음", "높음", "매우 높음"],
        "성능 유지도": ["최고", "높음", "높음", "중간", "중간", "높음", "낮음"],
        "구현 복잡도": ["낮음", "중간", "높음", "중간", "높음", "높음", "낮음"],
        "적합한 태스크": [
            "모든 태스크",
            "언어 생성, QA", 
            "동적 중요도 태스크",
            "분류, 감정분석",
            "생성 태스크",
            "이해/생성 태스크",
            "간단한 태스크"
        ],
        "주요 장점": [
            "최고 성능",
            "효율성과 성능 균형",
            "동적 rank 조정",
            "안정적 성능",
            "생성 품질 향상",
            "범용적 적용",
            "초고효율"
        ],
        "주요 단점": [
            "메모리/비용 과다",
            "하이퍼파라미터 민감",
            "구현 복잡",
            "추가 레이어 필요",
            "시퀀스 길이 제한",
            "토큰별 최적화 필요",
            "복잡 태스크 한계"
        ]
    }
    
    import pandas as pd
    
    df = pd.DataFrame(peft_methods)
    
    print("🔍 PEFT 기법 종합 비교")
    print("=" * 100)
    
    # 표 출력 (가독성을 위해 분할 출력)
    print("\n📊 기본 정보:")
    basic_info = df[['방법', '학습 파라미터 비율', '메모리 효율성', '성능 유지도', '구현 복잡도']]
    print(basic_info.to_string(index=False))
    
    print("\n🎯 적용 정보:")
    application_info = df[['방법', '적합한 태스크', '주요 장점', '주요 단점']]
    for idx, row in application_info.iterrows():
        print(f"\n{row['방법']}:")
        print(f"  적합한 태스크: {row['적합한 태스크']}")
        print(f"  주요 장점: {row['주요 장점']}")
        print(f"  주요 단점: {row['주요 단점']}")
    
    return df

# PEFT 비교표 생성
peft_comparison = create_peft_comparison_table()

## 4. ⚖️ 파인튜닝 vs 프롬프트 엔지니어링

### 🤔 언제 파인튜닝을 선택해야 할까?

파인튜닝과 프롬프트 엔지니어링의 적절한 선택 기준을 알아봅시다.

In [None]:
def create_finetuning_vs_prompting_guide():
    """
    파인튜닝 vs 프롬프트 엔지니어링 선택 가이드
    """
    
    print("🎯 파인튜닝 vs 프롬프트 엔지니어링 선택 가이드")
    print("=" * 60)
    
    # 선택 기준표
    criteria = {
        "기준": [
            "데이터 양",
            "도메인 특수성", 
            "성능 요구사항",
            "지연시간 요구사항",
            "개발 리소스",
            "유지보수성",
            "비용 제약",
            "개인정보 보호"
        ],
        "프롬프트 엔지니어링": [
            "< 100 예제",
            "일반적 도메인",
            "중간 수준 충분",
            "실시간 필요",
            "제한적",
            "높음 (쉬운 수정)",
            "낮은 비용",
            "외부 API 사용"
        ],
        "파인튜닝": [
            "> 1,000 예제",
            "고도로 전문화",
            "높은 성능 필요",
            "배치 처리 가능",
            "충분한 리소스",
            "중간 (모델 재훈련)",
            "중간-높은 비용",
            "온프레미스 가능"
        ]
    }
    
    import pandas as pd
    criteria_df = pd.DataFrame(criteria)
    print(criteria_df.to_string(index=False))
    
    print("\n" + "=" * 60)
    
    # 실제 사용 사례
    use_cases = {
        "프롬프트 엔지니어링 추천": [
            "💬 일반적인 챗봇 서비스",
            "📝 간단한 텍스트 분류", 
            "🔄 프로토타입 빠른 개발",
            "📊 다양한 태스크 실험",
            "⚡ 실시간 응답 필요",
            "💰 예산 제약이 큰 경우"
        ],
        "파인튜닝 추천": [
            "🏥 의료진 전문 상담 AI",
            "⚖️ 법률 문서 분석 AI",
            "💼 기업 특화 업무 자동화",
            "🎯 높은 정확도가 중요한 태스크",
            "🔒 데이터 보안이 중요한 경우",
            "📈 장기적 서비스 운영"
        ]
    }
    
    print("\n🎯 실제 사용 사례:")
    
    print("\n🟦 프롬프트 엔지니어링이 적합한 경우:")
    for case in use_cases["프롬프트 엔지니어링 추천"]:
        print(f"  {case}")
    
    print("\n🟩 파인튜닝이 적합한 경우:")
    for case in use_cases["파인튜닝 추천"]:
        print(f"  {case}")
    
    # 하이브리드 접근법
    print("\n🔄 하이브리드 접근법:")
    print("  1️⃣ 프롬프트 엔지니어링으로 빠른 프로토타입")
    print("  2️⃣ 성능 한계 도달 시 파인튜닝 적용")
    print("  3️⃣ 파인튜닝된 모델에 프롬프트 엔지니어링 추가 적용")
    print("  4️⃣ RAG + 파인튜닝으로 최적 성능 달성")
    
    return criteria_df, use_cases

# 선택 가이드 생성
selection_guide, use_case_examples = create_finetuning_vs_prompting_guide()

## 5. 🏗️ 파인튜닝 파이프라인 전체 구조

### 📋 실제 프로덕션에서의 파인튜닝 워크플로우

전체 파인튜닝 과정을 단계별로 이해해봅시다.

In [None]:
def create_finetuning_pipeline_overview():
    """
    파인튜닝 파이프라인 전체 구조 설명
    """
    
    pipeline_stages = {
        "1. 데이터 준비": {
            "설명": "고품질 학습 데이터 수집 및 전처리",
            "주요 작업": [
                "📊 데이터 수집 및 검증",
                "🧹 데이터 클리닝 및 필터링",
                "📝 프롬프트 템플릿 설계",
                "✂️ 데이터 분할 (train/val/test)",
                "🔍 데이터 품질 검증"
            ],
            "체크포인트": "데이터 품질과 양이 충분한가?",
            "일반적 문제": "편향된 데이터, 품질 불량, 양 부족"
        },
        "2. 모델 선택": {
            "설명": "태스크에 적합한 베이스 모델 선택",
            "주요 작업": [
                "🎯 태스크 유형 분석",
                "📏 모델 크기 vs 성능 트레이드오프",
                "💻 하드웨어 제약사항 고려",
                "🌐 언어 및 도메인 적합성 평가",
                "📜 라이선스 확인"
            ],
            "체크포인트": "선택한 모델이 태스크와 환경에 적합한가?",
            "일반적 문제": "오버스펙, 언더스펙, 라이선스 이슈"
        },
        "3. PEFT 기법 선택": {
            "설명": "효율적 파인튜닝 방법 결정",
            "주요 작업": [
                "⚖️ Full vs PEFT 방식 선택",
                "🔧 LoRA rank 설정",
                "📊 학습 파라미터 수 계산",
                "💾 메모리 요구량 추정",
                "🎛️ 하이퍼파라미터 설계"
            ],
            "체크포인트": "메모리와 성능 요구사항을 만족하는가?",
            "일반적 문제": "부적절한 rank, 메모리 부족"
        },
        "4. 학습 실행": {
            "설명": "실제 파인튜닝 학습 과정",
            "주요 작업": [
                "🏃‍♂️ 학습률 스케줄링",
                "📈 손실 함수 모니터링",
                "💾 체크포인트 저장",
                "📊 검증 데이터 평가",
                "⏰ 조기 종료 조건 확인"
            ],
            "체크포인트": "학습이 안정적으로 수렴하고 있는가?",
            "일반적 문제": "과적합, 발산, 메모리 부족"
        },
        "5. 평가 및 검증": {
            "설명": "모델 성능 종합 평가",
            "주요 작업": [
                "📊 정량적 지표 측정",
                "👀 정성적 결과 분석",
                "⚖️ 베이스라인 대비 성능 비교",
                "🔍 실패 케이스 분석",
                "🧪 A/B 테스트 준비"
            ],
            "체크포인트": "목표 성능을 달성했는가?",
            "일반적 문제": "과적합, 일반화 부족, 편향"
        },
        "6. 배포 및 모니터링": {
            "설명": "프로덕션 환경 배포 및 운영",
            "주요 작업": [
                "🚀 모델 배포 파이프라인",
                "📊 실시간 성능 모니터링",
                "🔄 모델 버전 관리",
                "📈 사용자 피드백 수집",
                "🔄 지속적 개선 계획"
            ],
            "체크포인트": "실제 환경에서 안정적으로 동작하는가?",
            "일반적 문제": "성능 저하, 드리프트, 확장성 이슈"
        }
    }
    
    print("🏗️ 파인튜닝 파이프라인 전체 구조")
    print("=" * 80)
    
    for stage_name, stage_info in pipeline_stages.items():
        print(f"\n{stage_name}")
        print(f"📋 {stage_info['설명']}")
        print(f"\n주요 작업:")
        for task in stage_info['주요 작업']:
            print(f"  {task}")
        print(f"\n✅ 체크포인트: {stage_info['체크포인트']}")
        print(f"⚠️ 일반적 문제: {stage_info['일반적 문제']}")
        print("-" * 60)
    
    # 성공을 위한 핵심 팁
    success_tips = {
        "데이터 품질": "양보다 질! 고품질 데이터 1000개가 저품질 10000개보다 낫다",
        "점진적 접근": "작은 모델로 시작해서 점진적으로 확장",
        "체계적 실험": "모든 실험을 기록하고 재현 가능하게 관리",
        "지속적 모니터링": "배포 후에도 성능과 편향성을 지속적으로 관찰",
        "도메인 전문가 협업": "기술적 구현뿐만 아니라 도메인 지식 활용"
    }
    
    print("\n🎯 성공을 위한 핵심 팁:")
    for tip_name, tip_content in success_tips.items():
        print(f"  💡 {tip_name}: {tip_content}")
    
    return pipeline_stages, success_tips

# 파이프라인 구조 설명
pipeline_overview, success_guidelines = create_finetuning_pipeline_overview()

## 6. 📚 실제 프로덕션 사례 연구

### 🏢 기업에서의 파인튜닝 활용 사례

실제 기업 환경에서 파인튜닝이 어떻게 활용되는지 살펴봅시다.

In [None]:
def showcase_production_cases():
    """
    실제 프로덕션 파인튜닝 사례들
    """
    
    production_cases = {
        "🏥 의료 AI 어시스턴트": {
            "배경": "대형 병원의 의료진 업무 지원 AI 개발",
            "데이터": "의료 문헌 10만건 + 진료 기록 5만건 (개인정보 제거)",
            "베이스 모델": "Llama 2 7B (의료 도메인 사전 학습 모델)",
            "PEFT 방법": "LoRA (rank=16, α=32)",
            "학습 시간": "Tesla V100 4장으로 48시간",
            "성과": {
                "정확도": "의료 질의응답 85% → 94% 향상",
                "효율성": "의료진 문서 작업 시간 40% 단축",
                "안전성": "잘못된 의학 정보 제공률 90% 감소"
            },
            "주요 도전과제": [
                "개인정보 보호 규정 준수",
                "의학적 정확성 보장",
                "전문 용어 정확한 이해"
            ]
        },
        "💼 금융 문서 분석 AI": {
            "배경": "투자은행의 리서치 보고서 자동 생성 시스템",
            "데이터": "금융 리포트 50만건 + 시장 데이터 연동",
            "베이스 모델": "GPT-3.5 Turbo (OpenAI API)",
            "PEFT 방법": "Few-shot learning + Function calling",
            "학습 시간": "API 파인튜닝 서비스 이용 (24시간)",
            "성과": {
                "품질": "리포트 품질 점수 7.2/10 → 8.8/10",
                "속도": "리포트 작성 시간 5일 → 2시간 단축",
                "비용": "리서치 인력 비용 60% 절감"
            },
            "주요 도전과제": [
                "실시간 시장 데이터 반영",
                "규제 요구사항 준수",
                "시장 변동성에 대한 적응"
            ]
        },
        "🛒 E-commerce 상품 추천 AI": {
            "배경": "대형 쇼핑몰의 개인화 상품 설명 생성",
            "데이터": "상품 정보 100만건 + 사용자 리뷰 500만건",
            "베이스 모델": "KoAlpaca 13B (한국어 특화)",
            "PEFT 방법": "LoRA (rank=8) + Adapter (상품 카테고리별)",
            "학습 시간": "RTX 4090 8장으로 72시간",
            "성과": {
                "전환율": "상품 구매 전환율 2.3% → 3.8% 상승",
                "만족도": "고객 만족도 4.2/5 → 4.7/5 향상",
                "매출": "월 매출 15% 증가"
            },
            "주요 도전과제": [
                "다양한 상품 카테고리 대응",
                "계절성 및 트렌드 반영",
                "실시간 추천 시스템 통합"
            ]
        },
        "🎓 교육 콘텐츠 AI": {
            "배경": "온라인 교육 플랫폼의 맞춤형 학습 도우미",
            "데이터": "교육 콘텐츠 20만건 + 학습자 상호작용 데이터",
            "베이스 모델": "EXAONE 7.8B (한국어 교육 도메인)",
            "PEFT 방법": "AdaLoRA (동적 rank 조정)",
            "학습 시간": "A100 2장으로 36시간",
            "성과": {
                "학습 효과": "학습자 이해도 평가 점수 20% 향상",
                "참여도": "수업 완주율 65% → 82% 증가",
                "개인화": "개별 학습자 맞춤 콘텐츠 제공률 95%"
            },
            "주요 도전과제": [
                "연령별 학습 수준 차이 대응",
                "교육학적 효과성 검증",
                "다국어 지원 확장"
            ]
        }
    }
    
    print("🏢 실제 프로덕션 파인튜닝 사례 연구")
    print("=" * 80)
    
    for case_name, case_info in production_cases.items():
        print(f"\n{case_name}")
        print(f"📋 배경: {case_info['배경']}")
        print(f"📊 데이터: {case_info['데이터']}")
        print(f"🤖 베이스 모델: {case_info['베이스 모델']}")
        print(f"⚙️ PEFT 방법: {case_info['PEFT 방법']}")
        print(f"⏰ 학습 시간: {case_info['학습 시간']}")
        
        print(f"\n📈 주요 성과:")
        for metric, value in case_info['성과'].items():
            print(f"  • {metric}: {value}")
        
        print(f"\n🚧 주요 도전과제:")
        for challenge in case_info['주요 도전과제']:
            print(f"  • {challenge}")
        
        print("-" * 60)
    
    # 공통 성공 요인
    success_factors = [
        "🎯 명확한 비즈니스 목표 설정",
        "📊 고품질 도메인 데이터 확보",
        "🤝 도메인 전문가와의 밀접한 협업",
        "📈 체계적인 성능 측정 및 모니터링",
        "🔄 지속적인 모델 개선 및 업데이트",
        "⚖️ 윤리적 AI 사용 가이드라인 준수",
        "🛡️ 강력한 보안 및 개인정보 보호 체계"
    ]
    
    print("\n🎯 공통 성공 요인:")
    for factor in success_factors:
        print(f"  {factor}")
    
    return production_cases, success_factors

# 프로덕션 사례 소개
cases, success_keys = showcase_production_cases()

## 7. 🚀 Day 1 실습 미리보기

### 📋 오늘 진행할 실습 내용

이론을 바탕으로 실제로 진행할 파인튜닝 실습을 미리 살펴봅시다.

In [None]:
def preview_day1_practicals():
    """
    Day 1 실습 내용 미리보기
    """
    
    practicals = {
        "01_dataset_preparation.ipynb": {
            "제목": "📊 고품질 학습 데이터셋 준비",
            "목표": "RAFT 형식의 한국어 QA 데이터셋 구축",
            "주요 내용": [
                "🔍 다양한 도메인의 한국어 데이터 수집",
                "🧹 데이터 품질 검증 및 클리닝",
                "📝 RAFT 프롬프트 템플릿 적용",
                "✂️ 적절한 길이로 데이터 분할",
                "📊 데이터 분포 분석 및 시각화"
            ],
            "실습 시간": "45분",
            "난이도": "초급"
        },
        "02_model_setup.ipynb": {
            "제목": "🤖 EXAONE 모델 설정 및 준비",
            "목표": "파인튜닝을 위한 모델 환경 구축",
            "주요 내용": [
                "🏗️ EXAONE-3.0-7.8B-Instruct 모델 로드",
                "🔧 토크나이저 설정 및 특수 토큰 추가",
                "💾 모델 메모리 사용량 최적화",
                "⚙️ PEFT 설정 (LoRA) 구성",
                "🧪 모델 기본 동작 테스트"
            ],
            "실습 시간": "30분",
            "난이도": "초급-중급"
        },
        "03_fine_tuning_with_lora.ipynb": {
            "제목": "🎯 LoRA 기반 효율적 파인튜닝",
            "목표": "실제 파인튜닝 학습 과정 완주",
            "주요 내용": [
                "⚙️ LoRA 하이퍼파라미터 설정 (rank, alpha)",
                "🏃‍♂️ 학습률 스케줄링 및 옵티마이저 설정",
                "📈 학습 진행 상황 실시간 모니터링",
                "💾 체크포인트 저장 및 관리",
                "🔍 학습 곡선 분석 및 해석"
            ],
            "실습 시간": "60분",
            "난이도": "중급"
        },
        "04_evaluation_and_comparison.ipynb": {
            "제목": "📊 모델 성능 평가 및 비교",
            "목표": "파인튜닝 전후 성능 차이 정량적 분석",
            "주요 내용": [
                "📋 다양한 평가 메트릭 적용",
                "📊 베이스라인 vs 파인튜닝 모델 비교",
                "🎯 도메인별 성능 분석",
                "📈 성능 향상 요인 분석",
                "🔍 실패 케이스 분석 및 개선 방향 도출"
            ],
            "실습 시간": "45분",
            "난이도": "중급"
        },
        "05_deployment_and_serving.ipynb": {
            "제목": "🚀 모델 배포 및 서빙",
            "목표": "파인튜닝된 모델의 실제 배포",
            "주요 내용": [
                "🔗 Hugging Face Hub 업로드",
                "⚡ 추론 최적화 (양자화, 캐싱)",
                "🌐 FastAPI 기반 서비스 API 구축",
                "📊 실시간 성능 모니터링 설정",
                "🔄 모델 버전 관리 및 롤백 전략"
            ],
            "실습 시간": "50분",
            "난이도": "중급-고급"
        }
    }
    
    print("🚀 Day 1 실습 과정 미리보기")
    print("=" * 80)
    
    total_time = 0
    
    for notebook, info in practicals.items():
        time_minutes = int(info['실습 시간'].replace('분', ''))
        total_time += time_minutes
        
        print(f"\n📖 {notebook}")
        print(f"🎯 {info['제목']}")
        print(f"📋 목표: {info['목표']}")
        print(f"⏰ 소요시간: {info['실습 시간']}")
        print(f"🎚️ 난이도: {info['난이도']}")
        
        print(f"\n주요 실습 내용:")
        for content in info['주요 내용']:
            print(f"  {content}")
        
        print("-" * 60)
    
    print(f"\n⏰ 총 예상 실습 시간: {total_time}분 ({total_time//60}시간 {total_time%60}분)")
    
    # 실습 준비사항
    requirements = {
        "하드웨어": [
            "🖥️ GPU 메모리 16GB 이상 권장 (RTX 4090, A100 등)",
            "💻 RAM 32GB 이상",
            "💽 저장공간 50GB 이상"
        ],
        "소프트웨어": [
            "🐍 Python 3.8+",
            "🔥 PyTorch 2.0+",
            "🤗 Transformers 4.35+",
            "📊 Dataset, PEFT, Accelerate 라이브러리"
        ],
        "계정": [
            "🤗 Hugging Face 계정 (모델 다운로드/업로드)",
            "📊 Weights & Biases 계정 (선택사항, 실험 추적)"
        ]
    }
    
    print("\n🛠️ 실습 준비사항:")
    for category, items in requirements.items():
        print(f"\n{category}:")
        for item in items:
            print(f"  {item}")
    
    # 학습 목표 달성 체크리스트
    objectives = [
        "✅ 파인튜닝의 기본 개념과 원리를 이해한다",
        "✅ LoRA를 이용한 효율적 파인튜닝을 실습한다",
        "✅ 한국어 도메인 데이터로 실제 모델을 학습시킨다",
        "✅ 파인튜닝 전후의 성능 차이를 정량적으로 분석한다",
        "✅ 파인튜닝된 모델을 실제 서비스 가능한 형태로 배포한다",
        "✅ 프로덕션 환경에서의 고려사항들을 이해한다"
    ]
    
    print("\n🎯 Day 1 종료 후 달성 목표:")
    for objective in objectives:
        print(f"  {objective}")
    
    return practicals, requirements, objectives

# Day 1 실습 미리보기
day1_preview, prep_requirements, learning_objectives = preview_day1_practicals()

## 8. 🎓 개념 학습 정리

### ✅ 핵심 개념 체크리스트

지금까지 학습한 파인튜닝 핵심 개념들을 정리해봅시다.

In [None]:
def create_concept_summary_quiz():
    """
    학습한 개념들에 대한 간단한 퀴즈와 정리
    """
    
    # 핵심 개념 체크리스트
    concept_checklist = {
        "파인튜닝 기본 개념": [
            "사전 훈련 vs 파인튜닝의 차이점을 설명할 수 있다",
            "파인튜닝이 필요한 상황과 적합한 태스크를 구분할 수 있다",
            "Full Fine-tuning의 장단점을 이해한다"
        ],
        "PEFT 이해": [
            "Parameter Efficient Fine-Tuning의 필요성을 설명할 수 있다",
            "LoRA의 수학적 원리 (저차원 분해)를 이해한다",
            "다양한 PEFT 기법들의 특징과 적용 상황을 구분할 수 있다"
        ],
        "실무 적용": [
            "파인튜닝 vs 프롬프트 엔지니어링 선택 기준을 안다",
            "파인튜닝 파이프라인의 전체 과정을 이해한다",
            "프로덕션 환경에서의 주요 고려사항을 파악한다"
        ]
    }
    
    print("📋 파인튜닝 핵심 개념 체크리스트")
    print("=" * 60)
    
    for category, items in concept_checklist.items():
        print(f"\n🎯 {category}:")
        for item in items:
            print(f"  ☐ {item}")
    
    # 간단한 개념 확인 문제
    quiz_questions = [
        {
            "질문": "LoRA에서 rank 값을 높이면 어떤 변화가 일어날까요?",
            "선택지": [
                "A) 학습 파라미터 수가 줄어든다",
                "B) 학습 파라미터 수가 늘어나고 표현력이 증가한다",
                "C) 학습 속도가 빨라진다",
                "D) 메모리 사용량이 줄어든다"
            ],
            "정답": "B",
            "해설": "rank가 높아지면 A와 B 행렬의 크기가 커져서 학습 파라미터가 늘어나고, 더 복잡한 변화를 표현할 수 있습니다."
        },
        {
            "질문": "다음 중 파인튜닝이 프롬프트 엔지니어링보다 적합한 경우는?",
            "선택지": [
                "A) 100개 미만의 예제 데이터",
                "B) 실시간 응답이 중요한 서비스",
                "C) 의료 도메인의 고도로 전문화된 태스크",
                "D) 빠른 프로토타입 개발"
            ],
            "정답": "C",
            "해설": "의료처럼 고도로 전문화되고 정확성이 중요한 도메인에서는 충분한 데이터로 파인튜닝하는 것이 효과적입니다."
        },
        {
            "질문": "PEFT 기법의 주요 장점이 아닌 것은?",
            "선택지": [
                "A) 메모리 효율성",
                "B) 학습 속도 향상",
                "C) 재앙적 망각 방지",
                "D) 항상 Full Fine-tuning보다 높은 성능"
            ],
            "정답": "D",
            "해설": "PEFT는 효율성 면에서 장점이 있지만, 성능은 태스크와 데이터에 따라 Full Fine-tuning보다 낮을 수 있습니다."
        }
    ]
    
    print("\n\n🧠 개념 확인 퀴즈")
    print("=" * 60)
    
    for i, q in enumerate(quiz_questions, 1):
        print(f"\n❓ 문제 {i}: {q['질문']}")
        for choice in q['선택지']:
            print(f"   {choice}")
        print(f"\n💡 정답: {q['정답']}")
        print(f"📝 해설: {q['해설']}")
        print("-" * 40)
    
    # 다음 단계 준비
    next_steps = [
        "🛠️ 개발 환경 설정 (GPU, Python, 라이브러리)",
        "🤗 Hugging Face 계정 생성 및 토큰 설정",
        "📊 실습용 데이터셋 다운로드 준비",
        "🔍 EXAONE 모델 문서 및 사용법 숙지",
        "⚙️ LoRA 하이퍼파라미터 실험 계획 수립"
    ]
    
    print("\n🚀 실습 전 준비할 것들:")
    for step in next_steps:
        print(f"  {step}")
    
    return concept_checklist, quiz_questions, next_steps

# 개념 정리 및 퀴즈
checklist, quiz, preparation_steps = create_concept_summary_quiz()

print("\n" + "=" * 80)
print("🎯 파인튜닝 개념 학습 완료!")
print("이제 실제 실습으로 넘어가서 이론을 코드로 구현해보겠습니다.")
print("=" * 80)

## 🎉 개념 학습 완료!

### 🎓 축하합니다!

파인튜닝의 핵심 개념들을 성공적으로 학습하셨습니다:

✅ **파인튜닝 기본 원리** - 사전 훈련 모델을 특정 태스크에 맞게 조정하는 방법  
✅ **LoRA 이해** - 효율적인 저차원 분해 기반 파라미터 업데이트  
✅ **PEFT 기법 비교** - 다양한 효율적 파인튜닝 방법들의 특징  
✅ **실무 적용** - 프로덕션 환경에서의 고려사항과 선택 기준  

### 🚀 다음 단계: 실습

이제 배운 개념들을 실제 코드로 구현해보겠습니다!

**📚 다음 실습 노트북:**
- `01_dataset_preparation.ipynb` - 고품질 한국어 데이터셋 준비
- `02_model_setup.ipynb` - EXAONE 모델 설정
- `03_fine_tuning_with_lora.ipynb` - 실제 파인튜닝 실행
- `04_evaluation_and_comparison.ipynb` - 성능 평가
- `05_deployment_and_serving.ipynb` - 모델 배포

**💪 여러분이 만들 결과물:**
- 한국어 도메인에 특화된 고성능 언어 모델
- Hugging Face에 업로드된 나만의 파인튜닝 모델
- 실제 서비스 가능한 API 엔드포인트

**🎯 최종 목표:**
여러분의 파인튜닝 모델은 Day 2-3의 RAG와 Advanced RAG 실습에서도 계속 활용됩니다!

---

*"이론은 시작에 불과하다. 실습에서 진정한 배움이 일어난다."* 🚀