
# 🌳 Multiclass Random Forest Model

## 📘 개요

**Random Forest**는 다수의 결정 트리(Decision Tree)를 조합해 만든 **앙상블 학습 모델**입니다.
"Multiclass"라는 말은 이 모델이 **두 개 이상의 클래스(label)를 분류**하는 데 사용된다는 뜻입니다.

> 즉, **Random Forest + 다중 클래스 분류 문제에 적용** = **Multiclass Random Forest**

---

## 🧠 기본 원리 요약

### 1. **다수의 결정 트리를 훈련**

* 훈련 데이터의 **서브셋**을 반복적으로 추출하여 여러 개의 트리 모델을 만듭니다 (bagging 방식).
* 각 트리는 **고유한 랜덤성**을 가진 훈련 세트로 학습됩니다.

### 2. **트리들의 예측을 종합**

* 테스트 데이터에 대해 각 트리가 예측을 수행
* 분류 문제에서는 **다수결(voting)** 방식으로 최종 클래스를 결정

---

## 🔢 Multiclass 분류 방식

Random Forest는 내부적으로 개별 트리가 **다중 클래스 분류가 가능한 구조**이므로, **One-vs-All** 방식이나 별도 구조 없이 자연스럽게 다중 클래스 분류를 수행합니다.

예:

* 클래스: `['cat', 'dog', 'rabbit']`
* 트리 1의 예측: `dog`
* 트리 2의 예측: `dog`
* 트리 3의 예측: `cat`
* ⇒ 최종 예측: **dog (최다 득표)**

---

## 📐 수학적 개념

Random Forest는 다음 요소들을 조합합니다:

* **Bagging (Bootstrap Aggregating)**: 데이터 샘플을 무작위로 뽑아 여러 트리 생성
* **Feature Randomness**: 각 노드에서 무작위 피처 선택 (→ 상관관계 줄임)
* **Voting Ensemble**: 결과 다수결 방식으로 최종 예측 결정

수식으로 표현하면:

$$
\hat{y} = \text{mode}\left( \{ T_1(x), T_2(x), ..., T_n(x) \} \right)
$$

* $T_i(x)$: i번째 트리의 예측

---

## ✅ 장점

| 항목               | 설명                   |
| ---------------- | -------------------- |
| **고성능 분류기**      | 과적합 방지, 일반화 성능 뛰어남   |
| **다중 클래스 자연 지원** | 추가적인 전략 없이 바로 가능     |
| **특성 중요도 제공**    | 각 피처가 얼마나 중요한지 파악 가능 |
| **결측치나 이상치에 강함** | 비선형 구조 덕분에 견고        |

---

## ⚠️ 단점

| 항목                | 설명                       |
| ----------------- | ------------------------ |
| **모델 해석 어려움**     | 많은 트리로 구성되어 있어 블랙박스 느낌   |
| **메모리/시간 소모**     | 트리 수가 많아지면 학습 및 예측 속도 느림 |
| **희귀 클래스 감지 어려움** | 클래스 불균형 데이터에선 소수 클래스에 약함 |

➡ 해결법: **클래스 가중치 조정**, **SMOTE 등 오버샘플링**, **Balanced Random Forest**

---

## 🧪 실전 적용 예시

| 도메인     | 사용 예                     |
| ------- | ------------------------ |
| **의료**  | 질병 분류 (예: 암 종류 분류)       |
| **제조**  | 제품 불량 원인 분류              |
| **금융**  | 거래 유형 다중 분류              |
| **이미지** | 동물, 사물 등의 다중 레이블 분류      |
| **텍스트** | 감정 분석에서 3개 이상의 감정 레이블 분류 |

---

## 🧑‍💻 Python 코드 예시

```python
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)  # 다중 클래스 예제

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X, y)

y_pred = model.predict(X)

# 정확도 평가
from sklearn.metrics import classification_report
print(classification_report(y, y_pred))
```

---

## 📊 평가 지표

다중 클래스 분류에서는 다음과 같은 지표들이 중요합니다:

* **Accuracy**
* **Precision / Recall / F1 (macro, weighted 평균)**
* **Confusion Matrix**
* **ROC-AUC (One-vs-Rest 방식으로 확장 가능)**

---

## 🧩 결론

**Multiclass Random Forest**는:

* **설정 없이도 자연스럽게 다중 클래스 분류가 가능한 강력한 모델**이며,
* 과적합에 강하고 다양한 데이터 구조에 대응 가능해 실무에서 널리 활용됩니다.

> **성능이 안정적이고 해석 가능성도 일부 제공**되므로, 딥러닝 전 단계의 분류 문제에서 매우 유용한 선택지입니다.

---
