<a href="https://colab.research.google.com/github/Kangseok-Jeon/From_ML_To_LLM/blob/main/03_decision_tree.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Decision Tree - 작동 원리 정리

**Decision Tree(의사결정트리)**는 입력 데이터를 기준으로 분할을 반복하여 최종적으로 분류 또는 예측을 수행하는 트리 구조 기반의 모델입니다.

---

## 핵심 구조

- **Root Node**: 전체 데이터를 처음 분할하는 기준
- **Internal Node**: 중간 단계의 추가 분할
- **Leaf Node**: 최종 분류 결과 또는 예측 값

트리는 **위에서 아래 방향으로** 데이터를 반복적으로 조건에 따라 분할합니다.

---

## 작동 단계

### 1. 최적의 분할 기준 선택 (Best Split)
- 각 입력 변수(특징)에 대해 가능한 모든 분할 기준을 탐색
- 분할 평가 지표:
    - **분류 문제**: Gini Impurity 또는 Entropy
    - **회귀 문제**: Variance 또는 Mean Squared Error (MSE)

---

### 2. 데이터 분할
- 최적의 특징과 기준값을 선택해 데이터를 두 그룹으로 분할
- 각 그룹이 더 "순수(pure)"하도록 목표 설정
    - 즉, 같은 클래스가 많을수록 이상적

---

### 3. 재귀적 반복 (Recursive Splitting)
- 각 하위 그룹에 대해 위 과정을 반복
- 종료 조건:
    - 더 이상 분할할 의미가 없을 때
    - 트리의 최대 깊이에 도달했을 때
    - 최소 샘플 수 기준에 도달했을 때

---

### 4. 예측
- 새로운 데이터가 들어오면 트리의 분기 기준을 따라 Leaf Node까지 내려감
- 해당 Leaf Node의 결과를 최종 예측으로 사용

---

## 장점

- 비선형 관계 학습 가능
- 직관적인 모델 구조
- 시각화가 쉬움
- 범주형 변수 및 일부 결측치도 처리 가능

---

## 단점

- 과적합(Overfitting) 가능성 높음
- 작은 데이터 변화에 민감
- 성능 개선을 위해 종종 Random Forest, XGBoost 등 앙상블 기법과 함께 사용



In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [2]:
# Iris 데이터 로드
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# 훈련/테스트 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [3]:
# Decision Tree 분류 모델 생성
model = DecisionTreeClassifier(random_state=42, max_depth=3)  # max_depth로 과적합 방지 가능

# 학습
model.fit(X_train, y_train)

In [4]:
# 테스트 데이터 예측
y_pred = model.predict(X_test)

# 평가
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")

print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

print("\nClassification Report:")
print(classification_report(y_test, y_pred))

Accuracy: 1.0000
Confusion Matrix:
[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]

Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

