모델의 성능 평가

모델을 훈련시킨 후에는 모델이 얼마나 잘 작동하는지 객관적으로 평가해야 합니다. 

이 과정은 모델이 아직 보지 못한 데이터(테스트 세트)에 대해 정확하게 예측하는지 확인하는 중요한 단계입니다.


예측과 평가의 차이

예측 (predict): 모델이 테스트 세트의 입력 데이터(X_test)를 보고 정답을 추측하는 행위입니다.

평가 (evaluate): 모델의 예측 결과와 실제 정답(y_test)을 비교하여 점수(예: 정확도)를 매기는 행위입니다.


가장 흔하게 사용되는 평가 지표 중 하나는 **정확도(Accuracy)**입니다. 

이는 전체 데이터 중 모델이 정답을 맞힌 비율을 의미합니다.

In [1]:
# 필요한 라이브러리를 모두 불러옵니다.
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
# 정확도를 계산하기 위한 accuracy_score 함수를 불러옵니다.
from sklearn.metrics import accuracy_score

# 1. 와인 데이터를 불러와 특성(X)과 타겟(y)을 분리합니다.
df = pd.read_csv("https://bit.ly/wine_csv_data")
X = df[['alcohol', 'sugar', 'pH']]
y = df['class']

# 2. 데이터를 훈련 세트와 테스트 세트로 나눕니다.
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42, stratify=y
)

# 3. 스케일링을 적용합니다.
ss = StandardScaler()
ss.fit(X_train)
X_train_scaled = ss.transform(X_train)
X_test_scaled = ss.transform(X_test)

# 4. 모델을 훈련합니다.
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train_scaled, y_train)

# 5. 모델로 예측(predict)합니다.
# 훈련된 모델에 스케일링된 테스트 세트(X_test_scaled)를 넣어 예측 결과를 얻습니다.
preds = dt.predict(X_test_scaled)

# 6. 모델을 평가(evaluate)합니다.
# 예측 결과(preds)와 실제 정답(y_test)을 비교하여 정확도를 계산합니다.
acc = accuracy_score(y_test, preds)

# 7. 최종 정확도를 출력합니다.
print("--- 모델 성능 평가 완료 ---")
print(f"정확도: {acc:.4f}")


--- 모델 성능 평가 완료 ---
정확도: 0.8677
