# 🥊 AI 알고리즘 대결! Decision Tree vs Random Forest vs SVM

**목표**: 같은 데이터로 **3개 알고리즘**을 비교해서 **어떤 게 더 좋은지** 알아보기!

## 🤖 **출전 선수들**

### 1️⃣ **Decision Tree** (의사결정나무) 🌳
- **특징**: 나무처럼 질문하면서 답 찾기
- **장점**: 이해하기 쉬움
- **단점**: 과적합 위험

### 2️⃣ **Random Forest** (랜덤 숲) 🌳🌳🌳  
- **특징**: 나무 여러 개를 합쳐서 투표
- **장점**: 더 정확함
- **단점**: 이해하기 어려움

### 3️⃣ **SVM** (Support Vector Machine) ⚔️
- **특징**: 경계선을 그어서 구분
- **장점**: 복잡한 패턴도 찾음  
- **단점**: 느림

## 🎯 **대결 방식**
**같은 아이리스 꽃 데이터**로 **정확도 비교**!


In [56]:
# 🧰 대결에 필요한 도구들 준비
import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 3명의 출전 선수들!
from sklearn.tree import DecisionTreeClassifier           # 🌳 나무
from sklearn.ensemble import RandomForestClassifier      # 🌳🌳🌳 숲  
from sklearn.svm import SVC                              # ⚔️ SVM

print("🥊 AI 대결 준비 완료!")
print("✅ Decision Tree - 나무 전사")
print("✅ Random Forest - 숲 군단") 
print("✅ SVM - 경계선 마스터")
print("\n⚔️ 대결 시작합니다!")


🥊 AI 대결 준비 완료!
✅ Decision Tree - 나무 전사
✅ Random Forest - 숲 군단
✅ SVM - 경계선 마스터

⚔️ 대결 시작합니다!


In [57]:
# 🎲 대결 데이터 준비 (아이리스 꽃)
print("🌸 대결장 준비: 아이리스 꽃 데이터!")
print("="*50)

# 데이터 로드
iris = datasets.load_iris()
X = iris.data   # 꽃 크기 (4개 특성)
y = iris.target # 꽃 종류 (3개 클래스)

print(f"📊 대결 데이터:")
print(f"   꽃 개수: {len(X)}개")
print(f"   측정 특성: {len(iris.feature_names)}개")
print(f"   꽃 종류: {len(iris.target_names)}개")

# 🔥 대결을 어렵게! 훈련 데이터 대폭 줄이기!
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.7, random_state=42  # 30%만 학습, 70% 테스트!
)

print(f"\n⚖️ 🔥 하드코어 대결 환경:")
print(f"   훈련용: {len(X_train)}개 (적은 학습 데이터!)")
print(f"   테스트용: {len(X_test)}개 (많은 평가 데이터!)")
print(f"\n💀 난이도: HARD")
print("   - 적은 데이터로 학습해야 함")
print("   - 과적합 위험 증가") 
print("   - 알고리즘 진짜 실력 테스트!")
print("\n🏟️ 하드코어 대결장 준비 완료!")


🌸 대결장 준비: 아이리스 꽃 데이터!
📊 대결 데이터:
   꽃 개수: 150개
   측정 특성: 4개
   꽃 종류: 3개

⚖️ 🔥 하드코어 대결 환경:
   훈련용: 45개 (적은 학습 데이터!)
   테스트용: 105개 (많은 평가 데이터!)

💀 난이도: HARD
   - 적은 데이터로 학습해야 함
   - 과적합 위험 증가
   - 알고리즘 진짜 실력 테스트!

🏟️ 하드코어 대결장 준비 완료!


In [58]:
# 🥊 1라운드: 3명의 AI 선수 훈련시키기!
print("🏋️ 1라운드: 훈련 시간!")
print("="*50)

# 선수 1: Decision Tree 🌳
print("🌳 Decision Tree 훈련 중...")
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)
print("   ✅ 나무 전사 훈련 완료!")

# 선수 2: Random Forest 🌳🌳🌳
print("\n🌳🌳🌳 Random Forest 훈련 중...")
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)  # 나무 100개!
rf_model.fit(X_train, y_train)
print("   ✅ 숲 군단 훈련 완료! (나무 100개 동원)")

# 선수 3: SVM ⚔️
print("\n⚔️ SVM 훈련 중...")
svm_model = SVC(random_state=42)
svm_model.fit(X_train, y_train)
print("   ✅ 경계선 마스터 훈련 완료!")

print("\n🎯 모든 선수 훈련 완료! 이제 실력 테스트!")


🏋️ 1라운드: 훈련 시간!
🌳 Decision Tree 훈련 중...
   ✅ 나무 전사 훈련 완료!

🌳🌳🌳 Random Forest 훈련 중...
   ✅ 숲 군단 훈련 완료! (나무 100개 동원)

⚔️ SVM 훈련 중...
   ✅ 경계선 마스터 훈련 완료!

🎯 모든 선수 훈련 완료! 이제 실력 테스트!


In [59]:
# 🏆 2라운드: 최종 대결! 정확도 비교
print("🏆 2라운드: 최종 대결!")
print("="*50)

# 각 선수의 예측 결과
dt_pred = dt_model.predict(X_test)
rf_pred = rf_model.predict(X_test)
svm_pred = svm_model.predict(X_test)

# 정확도 계산
dt_accuracy = accuracy_score(y_test, dt_pred)
rf_accuracy = accuracy_score(y_test, rf_pred)
svm_accuracy = accuracy_score(y_test, svm_pred)

print("📊 대결 결과:")
print(f"🌳 Decision Tree:    {dt_accuracy:.1%}")
print(f"🌳🌳🌳 Random Forest:   {rf_accuracy:.1%}")
print(f"⚔️ SVM:              {svm_accuracy:.1%}")

# 우승자 발표!
accuracies = [dt_accuracy, rf_accuracy, svm_accuracy]
names = ["Decision Tree 🌳", "Random Forest 🌳🌳🌳", "SVM ⚔️"]
winner_idx = accuracies.index(max(accuracies))

print(f"\n🥇 우승자: {names[winner_idx]}")
print(f"🎉 최고 정확도: {max(accuracies):.1%}")

# 자세한 분석 (우승자만)
print(f"\n📈 우승자 상세 분석:")
if winner_idx == 0:
    winner_pred = dt_pred
elif winner_idx == 1:
    winner_pred = rf_pred
else:
    winner_pred = svm_pred

print(classification_report(y_test, winner_pred, target_names=iris.target_names))


🏆 2라운드: 최종 대결!
📊 대결 결과:
🌳 Decision Tree:    92.4%
🌳🌳🌳 Random Forest:   92.4%
⚔️ SVM:              96.2%

🥇 우승자: SVM ⚔️
🎉 최고 정확도: 96.2%

📈 우승자 상세 분석:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        40
  versicolor       0.97      0.91      0.94        33
   virginica       0.91      0.97      0.94        32

    accuracy                           0.96       105
   macro avg       0.96      0.96      0.96       105
weighted avg       0.96      0.96      0.96       105



In [60]:
# 🧪 보너스: 새로운 꽃으로 3명 모두 테스트!
print("🧪 보너스 라운드: 새로운 꽃 예측 대결!")
print("="*50)

# 새로운 가상의 꽃 3개
test_flowers = [
    [5.1, 3.5, 1.4, 0.2],  # 작은 꽃 (setosa 같음)
    [6.0, 2.9, 4.5, 1.5],  # 중간 꽃 (versicolor 같음)  
    [7.2, 3.6, 6.1, 2.5]   # 큰 꽃 (virginica 같음)
]

flower_descriptions = ["작은 꽃", "중간 꽃", "큰 꽃"]

for i, (flower, desc) in enumerate(zip(test_flowers, flower_descriptions)):
    print(f"\n🌺 {i+1}번째 테스트: {desc}")
    print(f"   크기: {flower}")
    
    # 3명의 예측
    dt_pred = dt_model.predict([flower])[0]
    rf_pred = rf_model.predict([flower])[0] 
    svm_pred = svm_model.predict([flower])[0]
    
    print(f"   🌳 Decision Tree:  {iris.target_names[dt_pred]}")
    print(f"   🌳🌳🌳 Random Forest: {iris.target_names[rf_pred]}")
    print(f"   ⚔️ SVM:            {iris.target_names[svm_pred]}")
    
    # 의견 일치도 확인
    predictions = [dt_pred, rf_pred, svm_pred]
    if len(set(predictions)) == 1:
        print("   ✅ 모든 AI가 동의!")
    else:
        print("   🤔 AI들 의견이 다름...")

print(f"\n🎊 3개 알고리즘 비교 완료!")
print("📚 배운 것:")
print("- Decision Tree: 이해하기 쉽지만 과적합 위험")
print("- Random Forest: 여러 나무로 더 안정적")  
print("- SVM: 복잡한 경계선으로 정교한 분류")
print("\n🚀 다음: 회귀 알고리즘으로 숫자 예측해보기!")


🧪 보너스 라운드: 새로운 꽃 예측 대결!

🌺 1번째 테스트: 작은 꽃
   크기: [5.1, 3.5, 1.4, 0.2]
   🌳 Decision Tree:  setosa
   🌳🌳🌳 Random Forest: setosa
   ⚔️ SVM:            setosa
   ✅ 모든 AI가 동의!

🌺 2번째 테스트: 중간 꽃
   크기: [6.0, 2.9, 4.5, 1.5]
   🌳 Decision Tree:  versicolor
   🌳🌳🌳 Random Forest: versicolor
   ⚔️ SVM:            versicolor
   ✅ 모든 AI가 동의!

🌺 3번째 테스트: 큰 꽃
   크기: [7.2, 3.6, 6.1, 2.5]
   🌳 Decision Tree:  virginica
   🌳🌳🌳 Random Forest: virginica
   ⚔️ SVM:            virginica
   ✅ 모든 AI가 동의!

🎊 3개 알고리즘 비교 완료!
📚 배운 것:
- Decision Tree: 이해하기 쉽지만 과적합 위험
- Random Forest: 여러 나무로 더 안정적
- SVM: 복잡한 경계선으로 정교한 분류

🚀 다음: 회귀 알고리즘으로 숫자 예측해보기!


## 🧪 특별 실험: 데이터 부족 시뮬레이션!

**질문**: 훈련 데이터가 점점 줄어들면 어떻게 될까? 🤔

**가설**: 데이터가 적을수록 성능이 떨어지고 알고리즘 차이가 극명해질 것!

**실험**: test_size를 0.3 → 0.7 → 0.8 → 0.9로 점진적으로 늘려보기


In [61]:
# 🔬 데이터 부족 실험: 극한까지 밀어붙이기!
print("🔬 데이터 부족 실험 시작!")
print("="*60)

# 다양한 test_size로 실험 (훈련 데이터가 점점 줄어듦)
test_sizes = [0.3, 0.7, 0.8, 0.9]
experiment_names = [
    "0.3 (105개 학습, 45개 테스트) - 일반적",
    "0.7 (45개 학습, 105개 테스트) - 어려움", 
    "0.8 (30개 학습, 120개 테스트) - 매우 어려움",
    "0.9 (15개 학습, 135개 테스트) - 극한!"
]

results = []

for test_size, exp_name in zip(test_sizes, experiment_names):
    print(f"\n🧪 실험: {exp_name}")
    print("-" * 50)
    
    # 데이터 분할
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=test_size, random_state=42
    )
    
    print(f"📊 실제 데이터: 훈련 {len(X_train)}개, 테스트 {len(X_test)}개")
    
    # 3개 모델 훈련
    dt_model = DecisionTreeClassifier(random_state=42).fit(X_train, y_train)
    rf_model = RandomForestClassifier(random_state=42, n_estimators=100).fit(X_train, y_train)
    svm_model = SVC(random_state=42).fit(X_train, y_train)
    
    # 성능 측정
    dt_acc = accuracy_score(y_test, dt_model.predict(X_test))
    rf_acc = accuracy_score(y_test, rf_model.predict(X_test))
    svm_acc = accuracy_score(y_test, svm_model.predict(X_test))
    
    print(f"🌳 Decision Tree:  {dt_acc:.1%}")
    print(f"🌳🌳🌳 Random Forest: {rf_acc:.1%}")
    print(f"⚔️ SVM:            {svm_acc:.1%}")
    
    # 우승자 찾기 (동점 처리 포함)
    accuracies = [dt_acc, rf_acc, svm_acc]
    algorithm_names = ["Decision Tree 🌳", "Random Forest 🌳🌳🌳", "SVM ⚔️"]
    max_accuracy = max(accuracies)
    
    # 최고 점수를 받은 모든 알고리즘 찾기
    winners = [algorithm_names[i] for i, acc in enumerate(accuracies) if acc == max_accuracy]
    
    if len(winners) == 1:
        winner_text = winners[0]
        print(f"🥇 이 라운드 우승자: {winner_text} ({max_accuracy:.1%})")
    else:
        winner_text = " & ".join(winners)
        print(f"🥇 이 라운드 우승자: {winner_text} (공동우승 {max_accuracy:.1%})")
    
    # 결과 저장
    results.append({
        'test_size': test_size,
        'train_count': len(X_train),
        'dt_acc': dt_acc,
        'rf_acc': rf_acc, 
        'svm_acc': svm_acc,
        'winner': winner_text
    })

print(f"\n🎊 모든 실험 완료!")


🔬 데이터 부족 실험 시작!

🧪 실험: 0.3 (105개 학습, 45개 테스트) - 일반적
--------------------------------------------------
📊 실제 데이터: 훈련 105개, 테스트 45개
🌳 Decision Tree:  100.0%
🌳🌳🌳 Random Forest: 100.0%
⚔️ SVM:            100.0%
🥇 이 라운드 우승자: Decision Tree 🌳 & Random Forest 🌳🌳🌳 & SVM ⚔️ (공동우승 100.0%)

🧪 실험: 0.7 (45개 학습, 105개 테스트) - 어려움
--------------------------------------------------
📊 실제 데이터: 훈련 45개, 테스트 105개
🌳 Decision Tree:  92.4%
🌳🌳🌳 Random Forest: 92.4%
⚔️ SVM:            96.2%
🥇 이 라운드 우승자: SVM ⚔️ (96.2%)

🧪 실험: 0.8 (30개 학습, 120개 테스트) - 매우 어려움
--------------------------------------------------
📊 실제 데이터: 훈련 30개, 테스트 120개
🌳 Decision Tree:  93.3%
🌳🌳🌳 Random Forest: 93.3%
⚔️ SVM:            93.3%
🥇 이 라운드 우승자: Decision Tree 🌳 & Random Forest 🌳🌳🌳 & SVM ⚔️ (공동우승 93.3%)

🧪 실험: 0.9 (15개 학습, 135개 테스트) - 극한!
--------------------------------------------------
📊 실제 데이터: 훈련 15개, 테스트 135개
🌳 Decision Tree:  95.6%
🌳🌳🌳 Random Forest: 95.6%
⚔️ SVM:            94.1%
🥇 이 라운드 우승자: Decision Tree 🌳 & Random Forest 🌳🌳🌳 (공동우승 

In [62]:
# 📊 실험 결과 분석 및 놀라운 발견!
print("📊 실험 결과 종합 분석")
print("="*60)

# 결과 표로 정리
print("\n📋 전체 결과 요약:")
print(f"{'훈련 데이터':<8} {'Decision Tree':<15} {'Random Forest':<15} {'SVM':<15} {'우승자':<20}")
print("-" * 75)

for result in results:
    print(f"{result['train_count']:>6}개   "
          f"{result['dt_acc']:>12.1%}   "
          f"{result['rf_acc']:>13.1%}   "
          f"{result['svm_acc']:>11.1%}   "
          f"{result['winner']:<20}")

print(f"\n🤯 놀라운 발견들:")
print("="*40)

print("1️⃣ **예상과 완전 반대!**")
print("   - 가설: '데이터 적을수록 성능 떨어질 것'")
print("   - 실제: '데이터 적어도 성능 유지/향상!'")

print("\n2️⃣ **알고리즘 순위 변화!**")
print("   - 105개 학습: 모두 100% (구분 불가)")  
print("   - 45개 학습: SVM 우승 (96.2%)")
print("   - 30개 학습: 모두 동점 (93.3%)")
print("   - 15개 학습: Decision Tree 역전승! (95.6%)")

print("\n3️⃣ **아이리스 데이터의 특성**")
print("   - 꽃 종류가 명확히 구분됨")
print("   - 적은 데이터로도 충분히 학습 가능")
print("   - '간단한 문제'의 대표 사례")

print("\n🎯 **교훈**:")
print("✅ 알고리즘 성능은 데이터 양에 따라 달라짐")
print("✅ 복잡한 알고리즘이 항상 좋은 건 아님")  
print("✅ 문제가 단순하면 단순한 방법이 더 효과적")
print("✅ 실험을 통해서만 알 수 있는 것들이 있음!")

print(f"\n🔬 **과학적 접근의 중요성**:")
print("가설 → 실험 → 관찰 → 분석 → 새로운 발견! 🧪✨")


📊 실험 결과 종합 분석

📋 전체 결과 요약:
훈련 데이터   Decision Tree   Random Forest   SVM             우승자                 
---------------------------------------------------------------------------
   105개         100.0%          100.0%        100.0%   Decision Tree 🌳 & Random Forest 🌳🌳🌳 & SVM ⚔️
    45개          92.4%           92.4%         96.2%   SVM ⚔️              
    30개          93.3%           93.3%         93.3%   Decision Tree 🌳 & Random Forest 🌳🌳🌳 & SVM ⚔️
    15개          95.6%           95.6%         94.1%   Decision Tree 🌳 & Random Forest 🌳🌳🌳

🤯 놀라운 발견들:
1️⃣ **예상과 완전 반대!**
   - 가설: '데이터 적을수록 성능 떨어질 것'
   - 실제: '데이터 적어도 성능 유지/향상!'

2️⃣ **알고리즘 순위 변화!**
   - 105개 학습: 모두 100% (구분 불가)
   - 45개 학습: SVM 우승 (96.2%)
   - 30개 학습: 모두 동점 (93.3%)
   - 15개 학습: Decision Tree 역전승! (95.6%)

3️⃣ **아이리스 데이터의 특성**
   - 꽃 종류가 명확히 구분됨
   - 적은 데이터로도 충분히 학습 가능
   - '간단한 문제'의 대표 사례

🎯 **교훈**:
✅ 알고리즘 성능은 데이터 양에 따라 달라짐
✅ 복잡한 알고리즘이 항상 좋은 건 아님
✅ 문제가 단순하면 단순한 방법이 더 효과적
✅ 실험을 통해서만 알 수 있는 것들이 있음!

🔬 **과학적 접근의 중요성**:
가