<a href="https://colab.research.google.com/github/JKH-ML/python/blob/main/8_%EA%B2%B0%EC%A0%95_%ED%8A%B8%EB%A6%AC%EC%99%80_%EB%9E%9C%EB%8D%A4_%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 결정 트리 (Decision Tree)와 랜덤 포레스트 (Random Forest)

---

## 1. 결정 트리 (Decision Tree)

### 개념

결정 트리는 데이터를 분할하여 예측하는 **트리 구조의 지도 학습 모델**입니다.  
각 분기점은 **특성의 조건**을 기준으로 데이터를 나누며, 최종 리프 노드는 예측값을 나타냅니다.

- 분류와 회귀 모두 가능
- 직관적이며 해석이 쉬움
- 학습 속도가 빠름

---

### 지니 불순도 (Gini Impurity)

분류에서 노드를 얼마나 잘 나누는지를 평가하기 위한 기준입니다.

$$
\text{Gini}(t) = 1 - \sum_{i=1}^{C} p_i^2
$$

- $p_i$: 노드 $t$에서 클래스 $i$의 비율
- Gini가 낮을수록 더 순수한 노드

---

### 엔트로피 (Entropy)

또 다른 분할 기준. 정보 이득 (Information Gain)을 계산할 때 사용합니다.

$$
\text{Entropy}(t) = - \sum_{i=1}^{C} p_i \log_2(p_i)
$$

---

## 2. 랜덤 포레스트 (Random Forest)

### 개념

랜덤 포레스트는 **여러 개의 결정 트리를 랜덤하게 학습시켜 예측을 앙상블하는 모델**입니다.  
각 트리는 데이터와 피처를 무작위로 샘플링하여 학습됩니다.

- 과적합 방지
- 일반화 성능 우수
- 분산 감소 효과 (Bias-Variance Trade-off 개선)

---

### 주요 특징

- **Bootstrap Aggregating (Bagging)** 기법 사용
- 예측은 다수결 (분류) 또는 평균 (회귀)
- 개별 트리가 약하더라도 전체 모델의 성능은 강력함

---

## 장단점 요약

| 모델 | 장점 | 단점 |
|------|------|------|
| 결정 트리 | 해석 쉬움, 빠름 | 과적합 위험 |
| 랜덤 포레스트 | 일반화 성능 우수, 과적합 방지 | 해석 어려움, 느릴 수 있음 |


# 추가 개념 설명 (처음 배우는 입장을 고려)

---

## ▶️ "불순도"란 무엇인가요?

불순도(Impurity)는 하나의 노드에 **여러 클래스가 섞여 있을 때 그 혼합 정도**를 수치화한 것입니다.

- 어떤 노드에 데이터가 모두 같은 클래스라면 → **불순도 0 (완전히 순수)**
- 반대로 클래스가 섞여 있으면 → **불순도 ↑**

즉, **불순도가 낮을수록** 더 좋은 분할이 된 것입니다.

---

## ▶️ 지니 불순도(Gini Impurity) vs 엔트로피(Entropy)

| 항목 | 지니 불순도 | 엔트로피 |
|------|---------------|-----------|
| 수식 | $1 - \sum p_i^2$ | $- \sum p_i \log_2 p_i$ |
| 특징 | 계산 간단, 빠름 | 정보 이득 개념과 잘 맞음 |
| 공통점 | 모두 불순도를 측정 | 값이 작을수록 순수함 |

둘 다 노드를 얼마나 잘 나누는지를 평가하는 **기준 지표**입니다.  
실무에서는 **속도 때문에 Gini**를 많이 사용합니다.

---

## ▶️ 정보 이득 (Information Gain) 이란?

정보 이득은 노드를 분할했을 때 **얼마나 불순도가 줄어들었는지**를 측정하는 값입니다.

예:
- 분할 전 불순도: 0.5
- 분할 후 두 자식 노드의 평균 불순도: 0.2
- 정보 이득 = 0.5 - 0.2 = **0.3**

→ 정보 이득이 클수록 좋은 분할!

---

## ▶️ "최대 깊이 (max_depth)"란?

결정 트리는 계속 분할할 수 있지만, 무한히 분할하면 학습 데이터에 과적합(overfitting)될 수 있습니다.

이를 방지하기 위해:

- `max_depth`: 트리의 최대 깊이를 제한합니다.
- 깊이가 깊을수록 복잡한 모델, 얕을수록 단순한 모델이 됩니다.

---

## ▶️ 랜덤 포레스트에서 "무작위성"이란?

랜덤 포레스트는 여러 결정 트리를 **서로 다르게** 만들기 위해 두 가지 무작위성을 도입합니다:

1. **부트스트랩 샘플링**  
   - 훈련 데이터를 **중복을 허용하면서 무작위로 샘플링**
   - 각 트리는 서로 다른 데이터를 보고 학습함

2. **특성 무작위 선택**  
   - 분할 기준을 고를 때 **전체 피처 중 일부만 무작위 선택**
   - 서로 다른 특성을 기준으로 나누게 되어 다양성 ↑

이러한 무작위성이 있기 때문에 트리 개별 성능은 약하더라도, 앙상블하면 훨씬 강력한 모델이 됩니다.

---

## ▶️ 앙상블이란?

앙상블(Ensemble)은 **여러 모델을 결합하여 더 좋은 예측을 얻는 방법**입니다.  
랜덤 포레스트는 앙상블 기법 중 하나입니다.

- 단일 모델보다 **정확도↑**, **안정성↑**
- 예: 여러 결정 트리를 합쳐 예측 (랜덤 포레스트), 다른 모델을 합쳐 투표 (보팅), 가중 평균 (배깅/부스팅)



# 결정 트리 직접 구현 개요

## 핵심 아이디어
- 각 분할 지점에서 Gini 불순도를 최소화하는 특성과 임계값을 찾는다.
- 이를 재귀적으로 반복하여 트리를 만든다.
- 리프 노드에는 다수 클래스가 저장된다.

## 재귀적 분할 과정
1. 현재 노드에서 가능한 모든 분할 (모든 특성, 임계값)에 대해 Gini 계산
2. Gini가 가장 작은 분할을 선택
3. 해당 분할로 좌/우 노드를 나눔
4. 일정 조건 (깊이 제한 또는 최소 샘플 수 등)에 도달할 때까지 반복


In [2]:
import numpy as np
from collections import Counter

class TreeNode:
    def __init__(self, gini, num_samples, num_samples_per_class, predicted_class):
        self.gini = gini
        self.num_samples = num_samples
        self.num_samples_per_class = num_samples_per_class
        self.predicted_class = predicted_class
        self.feature_index = 0
        self.threshold = 0
        self.left = None
        self.right = None

class DecisionTree:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth

    def fit(self, X, y):
        self.n_classes_ = len(set(y))
        self.n_features_ = X.shape[1]
        self.tree_ = self._grow_tree(X, y)

    def _gini(self, y):
        m = len(y)
        return 1.0 - sum((np.sum(y == c) / m) ** 2 for c in np.unique(y))

    def _best_split(self, X, y):
        m, n = X.shape
        if m <= 1:
            return None, None

        best_gini = 1.0
        best_idx, best_thr = None, None

        for idx in range(n):
            thresholds, classes = zip(*sorted(zip(X[:, idx], y)))
            num_left = [0] * self.n_classes_
            num_right = Counter(classes)

            for i in range(1, m):
                c = classes[i - 1]
                num_left[c] += 1
                num_right[c] -= 1

                gini_left = 1.0 - sum((num_left[x] / i) ** 2 for x in range(self.n_classes_))
                gini_right = 1.0 - sum((num_right[x] / (m - i)) ** 2 for x in range(self.n_classes_))

                gini = (i * gini_left + (m - i) * gini_right) / m

                if thresholds[i] == thresholds[i - 1]:
                    continue

                if gini < best_gini:
                    best_gini = gini
                    best_idx = idx
                    best_thr = (thresholds[i] + thresholds[i - 1]) / 2
        return best_idx, best_thr

    def _grow_tree(self, X, y, depth=0):
        num_samples_per_class = [np.sum(y == i) for i in range(self.n_classes_)]
        predicted_class = np.argmax(num_samples_per_class)
        node = TreeNode(
            gini=self._gini(y),
            num_samples=len(y),
            num_samples_per_class=num_samples_per_class,
            predicted_class=predicted_class,
        )

        if depth < self.max_depth:
            idx, thr = self._best_split(X, y)
            if idx is not None:
                indices_left = X[:, idx] < thr
                X_left, y_left = X[indices_left], y[indices_left]
                X_right, y_right = X[~indices_left], y[~indices_left]
                node.feature_index = idx
                node.threshold = thr
                node.left = self._grow_tree(X_left, y_left, depth + 1)
                node.right = self._grow_tree(X_right, y_right, depth + 1)
        return node

    def predict(self, X):
        return [self._predict(inputs) for inputs in X]

    def _predict(self, inputs):
        node = self.tree_
        while node.left:
            if inputs[node.feature_index] < node.threshold:
                node = node.left
            else:
                node = node.right
        return node.predicted_class


In [3]:
import plotly.graph_objects as go
from sklearn.datasets import make_classification

# 데이터 생성
X, y = make_classification(n_samples=200, n_features=2, n_informative=2,
                           n_redundant=0, n_clusters_per_class=1, random_state=1)

tree = DecisionTree(max_depth=3)
tree.fit(X, y)

# 시각화를 위한 meshgrid
x_min, x_max = X[:,0].min() - 1, X[:,0].max() + 1
y_min, y_max = X[:,1].min() - 1, X[:,1].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200),
                     np.linspace(y_min, y_max, 200))
grid = np.c_[xx.ravel(), yy.ravel()]
Z = np.array(tree.predict(grid)).reshape(xx.shape)

# 시각화
fig = go.Figure()
fig.add_trace(go.Contour(z=Z, x=xx[0], y=yy[:,0], showscale=False, opacity=0.5,
                         colorscale=[[0, 'lightblue'], [1, 'salmon']]))
fig.add_trace(go.Scatter(x=X[:,0], y=X[:,1], mode='markers',
                         marker=dict(color=y, colorscale='RdBu', line=dict(width=1))))
fig.update_layout(title='NumPy 기반 결정 트리 (max_depth=3)', xaxis_title="X1", yaxis_title="X2")
fig.show()


# NumPy 기반 결정 트리 (DecisionTree) 코드 설명

---

## 1. `TreeNode` 클래스

```python
class TreeNode:
    def __init__(...):
        ...
```

- 트리의 각 노드를 나타냄
- 각 노드에는 다음 정보가 저장됨:
  - `gini`: 현재 노드의 Gini 불순도
  - `num_samples`: 현재 노드의 샘플 개수
  - `num_samples_per_class`: 클래스별 샘플 수
  - `predicted_class`: 다수 클래스로 예측
  - `feature_index`: 분할 기준이 된 특성 인덱스
  - `threshold`: 분할 기준 임계값
  - `left`, `right`: 자식 노드 (재귀적 연결)

---

## 2. `_gini` 함수

```python
def _gini(self, y):
    ...
```

- 현재 노드에 있는 클래스 분포로부터 Gini 불순도를 계산
- Gini = 0이면 완전히 순수한 상태 (한 클래스만 존재)

---

## 3. `_best_split` 함수

```python
def _best_split(self, X, y):
    ...
```

- 각 특성에 대해 가능한 모든 임계값을 시도
- 해당 분할로 좌/우 노드로 나눴을 때의 Gini를 계산
- Gini가 가장 작아지는 조합을 선택

### 핵심 로직

```python
for idx in range(n):  # 모든 특성 반복
    thresholds, classes = zip(*sorted(zip(X[:, idx], y)))
    ...
    for i in range(1, m):  # 각 임계값 반복
        ...
        if gini < best_gini:
            best_gini = gini
            best_idx = idx
            best_thr = ...
```

---

## 4. `_grow_tree` 함수

```python
def _grow_tree(self, X, y, depth=0):
    ...
```

- 재귀적으로 트리를 생성하는 핵심 함수
- 종료 조건:
  - 최대 깊이 도달
  - 더 이상 좋은 분할이 없음
- 그렇지 않으면 최적 분할 기준을 찾고, 좌/우 노드를 다시 생성

---

## 5. `fit` 함수

```python
def fit(self, X, y):
    ...
```

- `fit()`이 호출되면 트리 전체가 `_grow_tree()`를 통해 재귀적으로 구성됨
- 학습이 실제로 여기서 진행됨

---

## 6. `predict` 함수

```python
def predict(self, X):
    return [self._predict(inputs) for inputs in X]
```

- 모든 샘플에 대해 `_predict()`를 호출해 트리 구조를 따라가며 예측

---

## 7. `_predict` 함수

```python
def _predict(self, inputs):
    node = self.tree_
    while node.left:
        if inputs[node.feature_index] < node.threshold:
            node = node.left
        else:
            node = node.right
    return node.predicted_class
```

- 루트 노드부터 시작해 분기 조건에 따라 좌/우로 내려감
- 리프 노드에 도달하면 해당 노드의 예측값 반환

---

## 정리

이 구현은 실제 머신러닝 라이브러리보다 단순하지만,  
결정 트리의 핵심 아이디어인 **재귀 분할 + Gini 기준 + majority vote**를 모두 포함하고 있어 학습용으로 적합합니다.


In [4]:
import numpy as np
from collections import Counter

class RandomForest:
    def __init__(self, n_estimators=10, max_depth=None, sample_ratio=0.8):
        self.n_estimators = n_estimators
        self.max_depth = max_depth
        self.sample_ratio = sample_ratio
        self.trees = []

    def _bootstrap_sample(self, X, y):
        n_samples = int(len(X) * self.sample_ratio)
        indices = np.random.choice(len(X), size=n_samples, replace=True)
        return X[indices], y[indices]

    def fit(self, X, y):
        self.trees = []
        for _ in range(self.n_estimators):
            X_sample, y_sample = self._bootstrap_sample(X, y)
            tree = DecisionTree(max_depth=self.max_depth)
            tree.fit(X_sample, y_sample)
            self.trees.append(tree)

    def predict(self, X):
        predictions = np.array([tree.predict(X) for tree in self.trees])
        final_predictions = []
        for i in range(X.shape[0]):
            counts = Counter(predictions[:, i])
            final_predictions.append(counts.most_common(1)[0][0])
        return final_predictions


In [5]:
forest = RandomForest(n_estimators=10, max_depth=3)
forest.fit(X, y)

Z_forest = np.array(forest.predict(grid)).reshape(xx.shape)

fig = go.Figure()
fig.add_trace(go.Contour(z=Z_forest, x=xx[0], y=yy[:,0], showscale=False, opacity=0.5,
                         colorscale=[[0, 'lightblue'], [1, 'salmon']]))
fig.add_trace(go.Scatter(x=X[:,0], y=X[:,1], mode='markers',
                         marker=dict(color=y, colorscale='RdBu', line=dict(width=1))))
fig.update_layout(title='NumPy 기반 랜덤 포레스트 (10 trees, max_depth=3)', xaxis_title="X1", yaxis_title="X2")
fig.show()


# NumPy 기반 랜덤 포레스트 설명

## 1. `_bootstrap_sample`

```python
indices = np.random.choice(len(X), size=n_samples, replace=True)
```

- 중복 허용하여 데이터 샘플링 (Bagging)
- 각 트리는 서로 다른 데이터셋을 사용해 다양성 확보

---

## 2. `fit` 함수

- 각각의 샘플로 새로운 `DecisionTree`를 학습시킴
- 트리를 리스트에 저장 (`self.trees`)

---

## 3. `predict` 함수

```python
predictions = np.array([tree.predict(X) for tree in self.trees])
```

- 각 트리의 예측 결과를 모아서,
- **다수결 투표로 최종 클래스 결정**

```python
counts = Counter(predictions[:, i])
final_predictions.append(counts.most_common(1)[0][0])
```

---

## 4. 시각화

- Plotly Contour를 사용해 예측된 영역을 시각화
- 트리 10개를 앙상블한 예측 결과가 적용됨


In [6]:
import numpy as np
from sklearn.datasets import make_classification
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
import plotly.graph_objects as go

# 데이터 생성
X, y = make_classification(n_samples=200, n_features=2, n_informative=2,
                           n_redundant=0, n_clusters_per_class=1, random_state=42)

# 모델 정의 및 학습
tree_model = DecisionTreeClassifier(max_depth=3, random_state=0)
forest_model = RandomForestClassifier(n_estimators=10, max_depth=3, random_state=0)

tree_model.fit(X, y)
forest_model.fit(X, y)

# meshgrid 생성
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200),
                     np.linspace(y_min, y_max, 200))
grid = np.c_[xx.ravel(), yy.ravel()]

# 예측 결과
Z_tree = tree_model.predict(grid).reshape(xx.shape)
Z_forest = forest_model.predict(grid).reshape(xx.shape)

# 시각화 함수
def plot_boundary(Z, title):
    fig = go.Figure()
    fig.add_trace(go.Contour(z=Z, x=xx[0], y=yy[:, 0], showscale=False, opacity=0.5,
                             colorscale=[[0, 'lightblue'], [1, 'salmon']]))
    fig.add_trace(go.Scatter(x=X[:, 0], y=X[:, 1], mode='markers',
                             marker=dict(color=y, colorscale='RdBu', line=dict(width=1))))
    fig.update_layout(title=title, xaxis_title="X1", yaxis_title="X2")
    fig.show()

# 시각화
plot_boundary(Z_tree, "scikit-learn 결정 트리 (max_depth=3)")
plot_boundary(Z_forest, "scikit-learn 랜덤 포레스트 (10 trees, max_depth=3)")


# scikit-learn을 활용한 결정 트리 및 랜덤 포레스트

---

## 1. 데이터 생성

```python
make_classification(...)
```

- sklearn 내장 함수로 이진 분류용 데이터 생성
- 특성은 2개로 제한하여 시각화 가능

---

## 2. 모델 정의

```python
DecisionTreeClassifier(max_depth=3)
RandomForestClassifier(n_estimators=10, max_depth=3)
```

- 결정 트리는 최대 깊이 3으로 설정
- 랜덤 포레스트는 10개의 결정 트리를 앙상블

---

## 3. 학습

```python
model.fit(X, y)
```

- 각 모델에 학습 데이터를 전달하여 트리 구조 자동 생성

---

## 4. 예측 경계 시각화

```python
Z = model.predict(grid).reshape(xx.shape)
```

- meshgrid 상에서 각 점의 예측 결과를 받아 시각화
- `plotly.graph_objects.Contour`를 사용해 결정 경계 시각화

---

## 5. 비교

| 항목 | 결정 트리 | 랜덤 포레스트 |
|------|-----------|----------------|
| 모델 수 | 1 | 여러 트리 (기본 10개 이상) |
| 장점 | 해석 용이 | 정확도 높고 과적합 방지 |
| 단점 | 과적합 위험 | 느릴 수 있음, 해석 어려움 |
