# 22차시: 모델 성능 평가 (MSE, R-squared, Confusion Matrix)

## 학습 목표
- 회귀 모델 평가 지표 (MSE, RMSE, R2)의 **의미** 이해
- 분류 모델 평가 지표 (Accuracy, Precision, Recall, F1)의 **차이** 이해
- **금융 상황에 맞는 지표 선택** 방법 학습

## 학습 내용
1. 왜 평가 지표가 중요한가?
2. 회귀 평가 지표: R2와 RMSE
3. 분류 평가 지표: Precision vs Recall
4. Confusion Matrix 심화
5. 금융에서의 지표 선택

## 중요 주의사항 (Warning)

본 교재와 실습에서 사용하는 모든 데이터, 모델, 기법은
오직 머신러닝 개념 이해와 교육 목적을 위한 예제입니다. 따라서,
실제 금융 시장의 복잡성, 리스크, 거래 비용, 정책·심리 요인 등을 전혀 반영하지 못하며, 실제 투자 판단이나 매매 전략에 사용해서는 안 됩니다.

실습 결과는 "참고용·학습용"으로만 활용하시기 바랍니다.

In [None]:
!pip install -Uq pykrx koreanize-matplotlib

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import koreanize_matplotlib
from datetime import datetime, timedelta
from IPython.display import display

---
## 1. 왜 평가 지표가 중요한가?

### 모델이 "좋다"는 것을 어떻게 판단할까?

- 20차시에서 만든 회귀 모델의 R2가 0.85라면 좋은 건가요?
- 21차시에서 만든 분류 모델의 Accuracy가 60%라면 좋은 건가요?

### 평가 지표 선택이 중요한 이유

| 상황 | 잘못된 선택 | 결과 |
|------|-------------|------|
| 불균형 데이터 | Accuracy만 봄 | 성능 과대평가 |
| 매수 신호 예측 | Recall만 봄 | 잘못된 매수 증가 |
| 부도 예측 | Precision만 봄 | 실제 부도 놓침 |

**결론: 상황에 맞는 지표 선택이 필수!**

---
## 2. 회귀 평가 지표: R2와 RMSE

20차시에서 배운 회귀 모델을 복습하며 지표의 **의미**를 깊이 이해합니다.

### 주요 지표
| 지표 | 의미 | 해석 |
|------|------|------|
| R2 | 모델이 데이터를 얼마나 잘 설명하는가 | 0~1, 높을수록 좋음 |
| RMSE | 평균적으로 얼마나 틀리는가 | 원래 단위(원), 낮을수록 좋음 |

In [None]:
from pykrx import stock
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

# 삼성전자 데이터 수집 (20차시와 동일)
end_date = datetime.now()
start_date = end_date - timedelta(days=365)
start_str = start_date.strftime('%Y%m%d')
end_str = end_date.strftime('%Y%m%d')

print("[데이터 수집 - 삼성전자]")
df = stock.get_market_ohlcv(start_str, end_str, "005930")
print(f"수집된 데이터: {len(df)}개")

# 특성 생성 (20차시와 동일)
df['전일종가'] = df['종가'].shift(1)
df['수익률'] = df['종가'].pct_change() * 100
df['5일이동평균'] = df['종가'].rolling(5).mean()
df['거래량비율'] = df['거래량'] / df['거래량'].rolling(20).mean()
df['다음날종가'] = df['종가'].shift(-1)
df = df.dropna()

In [None]:
# 회귀 모델 학습 (20차시 복습)
feature_cols = ['전일종가', '수익률', '5일이동평균', '거래량비율']
X = df[feature_cols]
y = df['다음날종가']

split_idx = int(len(X) * 0.8)
X_train, X_test = X[:split_idx], X[split_idx:]
y_train, y_test = y[:split_idx], y[split_idx:]

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

model_reg = LinearRegression()
model_reg.fit(X_train_scaled, y_train)
y_pred_reg = model_reg.predict(X_test_scaled)

In [None]:
# 회귀 평가 지표 계산
r2 = r2_score(y_test, y_pred_reg)
rmse = np.sqrt(mean_squared_error(y_test, y_pred_reg))

print("[회귀 모델 평가 지표]")
print("=" * 50)
print(f"R2 Score: {r2:.4f}")
print(f"RMSE: {rmse:,.0f}원")

In [None]:
# R2 해석 시각화
print("\n[R2 해석 가이드]")
print("=" * 50)

r2_guide = pd.DataFrame({
    'R2 범위': ['0.9 ~ 1.0', '0.7 ~ 0.9', '0.5 ~ 0.7', '0.0 ~ 0.5', '< 0'],
    '해석': ['매우 좋음', '좋음', '보통', '낮음', '평균보다 못함'],
    '현재 모델': ['O' if 0.9 <= r2 else ('O' if 0.7 <= r2 < 0.9 else ('O' if 0.5 <= r2 < 0.7 else ('O' if 0.0 <= r2 < 0.5 else 'O')))]
})

# 현재 R2가 어디에 해당하는지 표시
current_range = ''
if r2 >= 0.9:
    current_range = '0.9 ~ 1.0'
elif r2 >= 0.7:
    current_range = '0.7 ~ 0.9'
elif r2 >= 0.5:
    current_range = '0.5 ~ 0.7'
elif r2 >= 0:
    current_range = '0.0 ~ 0.5'
else:
    current_range = '< 0'

print(f"현재 모델 R2: {r2:.4f} → '{current_range}' 범위")
print(f"해석: 모델이 주가 변동의 {r2*100:.1f}%를 설명")

In [None]:
# RMSE 해석 시각화
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 1. 실제 vs 예측
axes[0].scatter(y_test, y_pred_reg, alpha=0.6, s=30)
axes[0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 
             'r--', linewidth=2, label='완벽한 예측')
axes[0].set_xlabel('실제 가격')
axes[0].set_ylabel('예측 가격')
axes[0].set_title(f'실제 vs 예측 (R²: {r2:.4f})')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# 2. 오차 분포
errors = y_test.values - y_pred_reg
axes[1].hist(errors, bins=20, edgecolor='black', alpha=0.7, color='steelblue')
axes[1].axvline(0, color='red', linestyle='--', linewidth=2, label='0 (완벽)')
axes[1].axvline(errors.mean(), color='orange', linestyle='-', linewidth=2, label=f'평균: {errors.mean():,.0f}원')
axes[1].set_xlabel('예측 오차 (원)')
axes[1].set_ylabel('빈도')
axes[1].set_title(f'예측 오차 분포 (RMSE: {rmse:,.0f}원)')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nRMSE {rmse:,.0f}원의 의미:")
print(f"→ 평균적으로 실제 주가와 {rmse:,.0f}원 정도 차이남")
print(f"→ 현재 주가 {df['종가'].iloc[-1]:,}원 대비 약 {rmse/df['종가'].iloc[-1]*100:.1f}% 오차")

---
## 3. 분류 평가 지표: Precision vs Recall

21차시에서 배운 분류 모델을 복습하며 **Precision과 Recall의 차이**를 이해합니다.

### 핵심 개념
| 지표 | 질문 | 수식 |
|------|------|------|
| **Precision** | 상승 예측 중 실제로 상승한 비율은? | TP / (TP + FP) |
| **Recall** | 실제 상승 중 예측한 비율은? | TP / (TP + FN) |
| **F1 Score** | 둘의 균형은? | 2 × (P × R) / (P + R) |

### 용어 정리
- **TP (True Positive)**: 상승 예측 → 실제 상승 (정답!)
- **FP (False Positive)**: 상승 예측 → 실제 하락 (잘못된 매수 신호)
- **FN (False Negative)**: 하락 예측 → 실제 상승 (기회 놓침)
- **TN (True Negative)**: 하락 예측 → 실제 하락 (정답!)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 분류 모델용 타겟 생성 (21차시와 동일)
df_cls = df.copy()
df_cls['다음날상승'] = (df_cls['다음날종가'] > df_cls['종가']).astype(int)

X_cls = df_cls[feature_cols]
y_cls = df_cls['다음날상승']

X_train_cls, X_test_cls = X_cls[:split_idx], X_cls[split_idx:]
y_train_cls, y_test_cls = y_cls[:split_idx], y_cls[split_idx:]

X_train_cls_scaled = scaler.fit_transform(X_train_cls)
X_test_cls_scaled = scaler.transform(X_test_cls)

model_cls = LogisticRegression(random_state=42, max_iter=1000)
model_cls.fit(X_train_cls_scaled, y_train_cls)
y_pred_cls = model_cls.predict(X_test_cls_scaled)

In [None]:
# 분류 평가 지표 계산
accuracy = accuracy_score(y_test_cls, y_pred_cls)
precision = precision_score(y_test_cls, y_pred_cls, zero_division=0)
recall = recall_score(y_test_cls, y_pred_cls, zero_division=0)
f1 = f1_score(y_test_cls, y_pred_cls, zero_division=0)

print("[분류 모델 평가 지표]")
print("=" * 50)
print(f"Accuracy:  {accuracy:.1%} (전체 중 맞춘 비율)")
print(f"Precision: {precision:.1%} (상승 예측 중 실제 상승)")
print(f"Recall:    {recall:.1%} (실제 상승 중 예측 상승)")
print(f"F1 Score:  {f1:.1%} (Precision과 Recall 조화평균)")

In [None]:
# Precision vs Recall 이해
print("\n[Precision vs Recall 비교]")
print("=" * 50)

print("""
Precision이 높다 = 상승이라고 예측하면 대부분 맞음
                 → "신중한 예측" (확실할 때만 상승 예측)
                 
Recall이 높다 = 실제 상승을 놓치지 않고 잘 잡아냄
              → "적극적인 예측" (상승 기회를 놓치지 않음)
""")

# 시각화
fig, ax = plt.subplots(figsize=(8, 6))

metrics = ['Accuracy', 'Precision', 'Recall', 'F1 Score']
values = [accuracy, precision, recall, f1]
colors = ['#4CAF50', '#2196F3', '#FF9800', '#9C27B0']

bars = ax.barh(metrics, values, color=colors, alpha=0.8, edgecolor='black')
ax.set_xlim(0, 1)
ax.set_xlabel('점수')
ax.set_title('분류 모델 평가 지표 비교')
ax.grid(True, alpha=0.3, axis='x')

# 값 표시
for bar, val in zip(bars, values):
    ax.text(val + 0.02, bar.get_y() + bar.get_height()/2, 
            f'{val:.1%}', va='center', fontsize=12)

plt.tight_layout()
plt.show()

---
## 4. Confusion Matrix 심화

Confusion Matrix에서 각 지표가 어떻게 계산되는지 직접 확인합니다.

In [None]:
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns

# Confusion Matrix 계산
cm = confusion_matrix(y_test_cls, y_pred_cls)

print("[Confusion Matrix]")
print("=" * 50)
print(cm)
print()

TN, FP, FN, TP = cm.ravel()
print(f"TN (하락→하락): {TN} - 정확한 하락 예측")
print(f"FP (하락→상승): {FP} - 잘못된 상승 예측 (거짓 양성)")
print(f"FN (상승→하락): {FN} - 놓친 상승 (거짓 음성)")
print(f"TP (상승→상승): {TP} - 정확한 상승 예측")

In [None]:
# 직접 계산 확인
print("\n[Confusion Matrix에서 지표 계산]")
print("=" * 50)

accuracy_manual = (TP + TN) / (TP + TN + FP + FN)
precision_manual = TP / (TP + FP) if (TP + FP) > 0 else 0
recall_manual = TP / (TP + FN) if (TP + FN) > 0 else 0
f1_manual = 2 * (precision_manual * recall_manual) / (precision_manual + recall_manual) if (precision_manual + recall_manual) > 0 else 0

print(f"Accuracy  = (TP + TN) / 전체 = ({TP} + {TN}) / {TP+TN+FP+FN} = {accuracy_manual:.1%}")
print(f"Precision = TP / (TP + FP) = {TP} / ({TP} + {FP}) = {precision_manual:.1%}")
print(f"Recall    = TP / (TP + FN) = {TP} / ({TP} + {FN}) = {recall_manual:.1%}")
print(f"F1 Score  = 2 × (P × R) / (P + R) = {f1_manual:.1%}")

In [None]:
# Confusion Matrix 시각화
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# 1. 기본 Confusion Matrix
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['하락', '상승'], yticklabels=['하락', '상승'],
            annot_kws={'size': 16}, ax=axes[0])
axes[0].set_xlabel('예측', fontsize=12)
axes[0].set_ylabel('실제', fontsize=12)
axes[0].set_title('Confusion Matrix (절대값)', fontsize=14)

# 2. 정규화된 Confusion Matrix
cm_norm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
sns.heatmap(cm_norm, annot=True, fmt='.1%', cmap='Blues', 
            xticklabels=['하락', '상승'], yticklabels=['하락', '상승'],
            annot_kws={'size': 14}, ax=axes[1])
axes[1].set_xlabel('예측', fontsize=12)
axes[1].set_ylabel('실제', fontsize=12)
axes[1].set_title('Confusion Matrix (비율)', fontsize=14)

plt.tight_layout()
plt.show()

In [None]:
# Classification Report
print("\n[Classification Report]")
print("=" * 50)
print(classification_report(y_test_cls, y_pred_cls, target_names=['하락', '상승'], zero_division=0))

---
## 5. 금융에서의 지표 선택

### 상황별 중요 지표

| 상황 | 중요 지표 | 이유 |
|------|-----------|------|
| **매수 신호 예측** | Precision | FP(잘못된 매수)가 비용 발생 |
| **부도 예측** | Recall | FN(부도 놓침)이 큰 손실 |
| **균형 잡힌 예측** | F1 Score | 두 가지 모두 중요 |
| **전반적 성능** | Accuracy | 데이터가 균형일 때만 |

In [None]:
print("[금융에서 지표 선택 가이드]")
print("=" * 60)
print()
print("1. 매수 신호 예측 (Precision 중요)")
print("   - 상승 예측이 틀리면? → 손실 발생 (매수했는데 하락)")
print("   - Precision 높게: 확실할 때만 매수 신호")
print()
print("2. 리스크 관리/부도 예측 (Recall 중요)")
print("   - 부도를 놓치면? → 큰 손실")
print("   - Recall 높게: 위험 신호를 놓치지 않음")
print()
print("3. 일반적인 예측 (F1 Score)")
print("   - Precision과 Recall 균형")
print("   - 두 가지 오류 비용이 비슷할 때")

In [None]:
# 현재 모델 평가 요약
print("\n[현재 모델 평가 요약]")
print("=" * 60)
print()
print("[ 회귀 모델 (다음날 주가 예측) ]")
print(f"  R2:   {r2:.4f} → 변동성의 {r2*100:.1f}% 설명")
print(f"  RMSE: {rmse:,.0f}원 → 평균 {rmse:,.0f}원 오차")
print()
print("[ 분류 모델 (다음날 상승/하락 예측) ]")
print(f"  Accuracy:  {accuracy:.1%} → 전체 정확도")
print(f"  Precision: {precision:.1%} → 상승 예측 신뢰도")
print(f"  Recall:    {recall:.1%} → 상승 포착률")
print(f"  F1 Score:  {f1:.1%} → 종합 성능")
print()

if accuracy > 0.5:
    print("→ 분류 모델이 랜덤(50%)보다 나은 성능을 보임")
else:
    print("→ 분류 모델이 랜덤(50%)보다 낮음, 개선 필요")

---
## 학습 정리

### 1. 회귀 평가 지표
| 지표 | 의미 | 좋은 값 |
|------|------|---------|
| R2 | 설명력 | 1에 가까울수록 |
| RMSE | 평균 오차 | 작을수록 |

### 2. 분류 평가 지표
| 지표 | 의미 | 언제 중요? |
|------|------|-----------|
| Accuracy | 전체 정확도 | 균형 데이터 |
| Precision | 예측 신뢰도 | 잘못된 매수 방지 |
| Recall | 포착률 | 기회 놓치지 않기 |
| F1 Score | 종합 | 균형 필요 시 |

### 3. 핵심 코드
```python
# 회귀
from sklearn.metrics import r2_score, mean_squared_error
r2 = r2_score(y_true, y_pred)
rmse = np.sqrt(mean_squared_error(y_true, y_pred))

# 분류
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

# Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_true, y_pred)
TN, FP, FN, TP = cm.ravel()
```

---

### 다음 차시 예고
- 23차시: 딥러닝 기초 - LSTM 이해하기
  - RNN과 LSTM의 원리
  - 시계열 예측에 특화된 구조
  - TensorFlow/Keras 기초