# 🧪 CHAPTER 4 실습: 모델 개발

이 노트북은 『MLOps 도입 가이드』 4장의 내용을 실습하기 위한 템플릿입니다.

## ✅ 실습 순서
1. 데이터 로딩 및 탐색
2. 특성 엔지니어링
3. 모델 학습 및 평가
4. 실험 추적 (MLflow)
5. 모델 버전 저장

## 1. 데이터 로딩 및 탐색

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 예시 데이터셋: 타이타닉
sns.set()
data = sns.load_dataset('titanic')
data.head()

## 2. 특성 엔지니어링

In [None]:
# 간단한 전처리 예시
data = data.dropna(subset=['age', 'embarked'])
data['sex'] = data['sex'].map({'male': 0, 'female': 1})
data['embarked'] = data['embarked'].astype('category').cat.codes
features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']
X = data[features]
y = data['survived']

## 3. 모델 학습 및 평가

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

## 4. 실험 추적 (MLflow)

In [None]:
import mlflow
import mlflow.sklearn

with mlflow.start_run():
    mlflow.log_param("n_estimators", 100)
    mlflow.log_metric("accuracy", model.score(X_test, y_test))
    mlflow.sklearn.log_model(model, "random_forest_model")

## 5. 모델 저장 (joblib)

In [None]:
import joblib
joblib.dump(model, 'rf_model.pkl')

✅ 이제 모델 파일은 `rf_model.pkl`로 저장되었으며, 추후 배포나 서빙 단계에서 활용할 수 있습니다.