# 🚀 Day 1-00.01: 파인튜닝 사전 준비 (초보자용)

## 🎯 이번 실습에서 배울 것
- **파인튜닝이 뭔지** 간단하게 이해하기
- **왜 파인튜닝이 필요한지** 알아보기
- **Hugging Face**로 쉽게 모델 다루기
- **실제로 모델을 파인튜닝**해보기

## 💡 파인튜닝이란?
**이미 잘 훈련된 AI 모델을 우리가 원하는 일에 특화시키는 것**

예시: 
- 일반적인 AI → 한국어 질문답변에 특화된 AI
- 범용 AI → 의료 분야 전문 AI
- 기본 AI → 우리 회사 업무에 맞는 AI

## 🔧 오늘 사용할 도구들
- **Hugging Face**: AI 모델을 쉽게 다운로드하고 사용
- **EXAONE**: 한국어에 특화된 AI 모델
- **LoRA**: 적은 메모리로 효율적으로 파인튜닝
- **RAFT**: RAG 성능을 높이는 파인튜닝 방법


## 1. 필요한 라이브러리 설치하기


In [None]:
# 필요한 라이브러리들을 설치합니다
%pip install -q transformers datasets torch peft accelerate bitsandbytes rouge-score nltk scikit-learn matplotlib seaborn pandas numpy tqdm


## 2. 라이브러리 불러오기


In [None]:
# 파인튜닝에 필요한 라이브러리들을 불러옵니다
import torch
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from transformers import (
    AutoTokenizer,           # 텍스트를 토큰으로 변환
    AutoModelForCausalLM,    # 언어 모델
    TrainingArguments,       # 학습 설정
    Trainer,                 # 학습 실행
    DataCollatorForLanguageModeling  # 데이터 정리
)
from peft import (
    LoraConfig,              # LoRA 설정
    get_peft_model,          # LoRA 모델 생성
    TaskType                 # 태스크 타입
)
from datasets import Dataset
import json
from tqdm import tqdm
import warnings
warnings.filterwarnings('ignore')

print("✅ 모든 라이브러리가 성공적으로 불러와졌습니다!")
print(f"🔥 PyTorch 버전: {torch.__version__}")
print(f"🚀 CUDA 사용 가능: {torch.cuda.is_available()}")


## 3. GPU 메모리 확인하기


In [None]:
# GPU가 있는지 확인하고 메모리 상태를 봅니다
if torch.cuda.is_available():
    print(f"🎮 GPU: {torch.cuda.get_device_name(0)}")
    print(f"💾 GPU 메모리: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
    print(f"🔄 사용 가능한 메모리: {torch.cuda.memory_reserved(0) / 1024**3:.1f} GB")
else:
    print("⚠️ GPU를 찾을 수 없습니다. CPU로 실행됩니다.")
    print("💡 Google Colab에서 실행하시려면 '런타임 > 런타임 유형 변경 > GPU'를 선택하세요")


## 4. 파인튜닝 개념 이해하기

### 🤔 파인튜닝이 왜 필요할까요?

1. **기본 AI 모델의 한계**
   - 일반적인 대화는 잘함
   - 특정 분야 질문은 부정확함
   - 우리가 원하는 형식으로 답변하지 않음

2. **파인튜닝의 효과**
   - 특정 분야에 정확한 답변
   - 원하는 형식으로 답변
   - 더 나은 성능

### 📊 오늘 할 일
1. **데이터 준비**: 한국어 질문-답변 데이터
2. **모델 로드**: EXAONE 모델 다운로드
3. **파인튜닝**: 우리 데이터로 모델 학습
4. **테스트**: 학습된 모델로 질문해보기


## 5. 실습 환경 설정

### 📁 작업 디렉토리 설정


In [None]:
# 작업할 폴더를 만듭니다
import os

# 결과를 저장할 폴더들
os.makedirs("data", exist_ok=True)           # 데이터 저장
os.makedirs("models", exist_ok=True)         # 모델 저장
os.makedirs("results", exist_ok=True)        # 결과 저장

print("📁 작업 폴더가 준비되었습니다!")
print("   - data/: 데이터 저장소")
print("   - models/: 모델 저장소")
print("   - results/: 결과 저장소")


## 6. 다음 단계 안내

### 🎯 다음 노트북에서 할 일
1. **00.02-data-exploration.ipynb**: 한국어 데이터셋 살펴보기
2. **00.03-raft-preprocessing.ipynb**: 데이터를 파인튜닝용으로 변환
3. **00.04-model-setup.ipynb**: EXAONE 모델 준비하기
4. **00.05-fine-tuning.ipynb**: 실제 파인튜닝 실행
5. **00.06-evaluation.ipynb**: 결과 확인하기

### 💡 팁
- 각 단계를 차근차근 따라해보세요
- 코드를 실행할 때마다 결과를 확인하세요
- 궁금한 점이 있으면 언제든 질문하세요!

## 🚀 준비 완료!
이제 다음 노트북으로 넘어가서 데이터를 살펴보겠습니다!
