In [2]:
import pandas as pd
import numpy as np
import joblib
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 1. 데이터 로드 (Assignment 4 데이터 활용)
# 주의: 상위 폴더(../)로 가서 assignment4 데이터를 가져옵니다.
df = pd.read_csv('../assignment4/data/drinking_data.csv')

# 2. 데이터 전처리 준비
# - Feature(X)와 Target(y) 분리
X = df.drop('hangover', axis=1)
y = df['hangover']

# - 범주형 변수(drink_type)와 수치형 변수(나머지) 구분
numeric_features = ['sleep_hours', 'meal_before', 'stress_level', 'amount']
categorical_features = ['drink_type']

# - 전처리 파이프라인 구축 (수치형: 스케일링 / 범주형: 원-핫 인코딩)
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ])

# 3. 모델 정의 (Random Forest Classifier)
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42, n_estimators=100))
])

# 4. 데이터 분할 (Train: 80%, Test: 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5. 모델 학습
print("모델 학습 중...")
model.fit(X_train, y_train)

# 6. 간단한 성능 확인 (Train Accuracy)
train_acc = model.score(X_train, y_train)
print(f"Training Accuracy: {train_acc:.4f}")

# 7. 모델 저장 (가중치 저장)
joblib.dump(model, 'model.pkl')
print("모델이 'model.pkl' 파일로 저장되었습니다!")

모델 학습 중...
Training Accuracy: 1.0000
모델이 'model.pkl' 파일로 저장되었습니다!
