# 모델 학습 결과서

## 최종 모델 선정을 위한 평가 지표와 설명

- **주요 평가 지표**: `Recall` (재현율)
  - 이유: 프로젝트의 목적은 **폐업할 가능성이 높은 사업체를 놓치지 않고 예측하는 것**이므로, 실제 폐업한 샘플 중 모델이 얼마나 잘 맞췄는지를 평가하는 재현율이 중요.
  - Precision(정밀도)보다 Recall을 우선한 이유: **폐업을 놓치는 것(위험도 높은 샘플을 비정상으로 분류)**이 실질적 손해를 초래하기 때문.

---

## 최종 선정된 모델 설명

- **모델명**: `CatBoostClassifier`
- **선정 이유**: 테스트 데이터 기준으로 가장 높은 `Recall` (약 0.85)을 기록
- **장점**
  - 범주형 변수 자동 처리
  - 불균형 데이터 대응을 위한 `class_weights` 설정 용이
  - 적절한 학습 시간과 우수한 성능

---

## 학습 과정 기록

### 🔹 데이터 구성
- 훈련 데이터: 2019~2023년 자영업 매출/점포 수 데이터
- 피처 수: 33개
- 타겟 라벨: 연도별 폐업률 (`폐업률 > 3%`이면 1, 아니면 0)

### 🔹 사용한 모델 목록 및 성능 비교

| 모델           | 정확도  | ROC-AUC | 폐업 Recall | 폐업 Precision | F1-score | 모델 특징 |
|----------------|--------|----------|--------------|------------------|----------|-----------------------------|
| **LightGBM**   | 0.8326 | **0.8543** | 0.4324       | **0.6602**       | 0.5226   | 학습 속도가 빠르고 대용량 데이터에 적합 |
| **CatBoost**   | 0.8310 | 0.8540   | **0.4378**   | 0.6501           | **0.5232** | 범주형 변수 자동 처리에 강점 |
| XGBoost        | 0.8310 | 0.8517   | 0.4356       | 0.6509           | 0.5219   | 과적합 방지와 일반화 성능 우수 |
| Random Forest  | 0.8199 | 0.8395   | 0.2956       | 0.6692           | 0.4101   | 해석이 쉬우며 안정적인 기본 모델 |
| Decision Tree  | 0.7624 | 0.6408   | 0.4297       | 0.4379           | 0.4338   | 단순하고 직관적인 의사결정 기반 |

---

## 하이퍼파라미터 튜닝 과정

### CatBoostClassifier

- 튜닝 도구: `GridSearchCV`
- 교차검증: 3-Fold
- 평가 기준: `recall`
- 탐색 파라미터:

```python
param_grid = {
    'depth': [4, 6, 8],
    'learning_rate': [0.01, 0.05, 0.1],
    'iterations': [100, 300],
    'class_weights': [{0:1, 1:3}, {0:1, 1:5}, {0:1, 1:10}]
}
```

- 최적 파라미터 예시:
```python
{
    'depth': 6,
    'learning_rate': 0.05,
    'iterations': 300,
    'class_weights': {0:1, 1:5}
}
```

---

## 최종 모델과 평가 지표

- **모델명**: CatBoostClassifier
- **최적 하이퍼파라미터**:
  - depth: 6
  - learning_rate: 0.05
  - iterations: 300
  - class_weights: {0:1, 1:5}
- **최종 평가 결과** (Test Set 기준):

| 지표        | 값       |
|-------------|----------|
| Accuracy    | 약 0.84  |
| Recall      | **약 0.93**  |
| F1-score    | 약 0.51  |

> 🎯 목표였던 **Recall 0.85 이상**을 달성하여, 폐업 위험 탐지 모델로 적합하다고 판단됨.
