In [1]:
# 필요한 라이브러리 불러오기
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, accuracy_score, f1_score
from catboost import CatBoostClassifier

# 데이터 로드
data = pd.read_csv("../monunmon.csv")

# Label 값에 1을 더하여 0부터 시작하는 연속된 정수로 변환
data['Label'] = data['Label'] + 1

# 특성과 레이블 분리
X = data.drop(columns=['Label'])  # 피처 데이터
y = data['Label']  # 레이블 데이터

# Train, Validation, Test 데이터 나누기
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp)

# 데이터 정규화
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)

# CatBoost는 DataFrame 형태를 권장하므로 다시 DataFrame으로 변환
X_train = pd.DataFrame(X_train, columns=X.columns)
X_val = pd.DataFrame(X_val, columns=X.columns)
X_test = pd.DataFrame(X_test, columns=X.columns)

# 기본 CatBoost 모델
print("=== Default CatBoost ===")
model_default = CatBoostClassifier(random_seed=42, eval_metric='MultiClass', loss_function='MultiClass', verbose=0)
model_default.fit(X_train, y_train, eval_set=(X_val, y_val), use_best_model=True, early_stopping_rounds=50)

# 테스트 데이터 평가
y_test_pred_default = model_default.predict(X_test)

# 성능 출력
print("\nClassification Report on Test Data (Default CatBoost):")
print(classification_report(y_test, y_test_pred_default))

test_accuracy_default = accuracy_score(y_test, y_test_pred_default)
test_f1_default = f1_score(y_test, y_test_pred_default, average='weighted')

print(f"Test Accuracy: {test_accuracy_default}")
print(f"Test F1 Score: {test_f1_default}")


=== Default CatBoost ===

Classification Report on Test Data (Default CatBoost):
              precision    recall  f1-score   support

           0       0.61      0.76      0.68       450
           1       0.71      0.50      0.59        30
           2       0.81      0.70      0.75        30
           3       0.85      0.73      0.79        30
           4       0.82      0.77      0.79        30
           5       0.80      0.67      0.73        30
           6       0.81      0.70      0.75        30
           7       0.84      0.90      0.87        30
           8       0.88      1.00      0.94        30
           9       0.87      0.67      0.75        30
          10       0.79      0.77      0.78        30
          11       0.87      0.67      0.75        30
          12       0.66      0.63      0.64        30
          13       0.81      0.83      0.82        30
          14       0.55      0.57      0.56        30
          15       0.86      0.60      0.71        30
