In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt

### 데이터 준비

In [5]:
## iris 데이터셋 로드
iris = load_iris()
x = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names

## 데이터 분할 (70% 학습, 30% 테스트), stratify=y로 클래스 비율 유지
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.3, random_state=42, stratify=y
)

In [6]:
## 학습 데이터와 테스트 데이터의 클래스 분포 확인
train_counts = pd.Series(y_train).value_counts().sort_index()
test_counts = pd.Series(y_test).value_counts().sort_index()

print("학습 데이터 클래스 분포:")
for idx, count in train_counts.items():
    print(f"{target_names[idx]}: {count}")
    
print("\n테스트 데이터 클래스 분포:")
for idx, count in test_counts.items():
    print(f"{target_names[idx]}: {count}")


학습 데이터 클래스 분포:
setosa: 35
versicolor: 35
virginica: 35

테스트 데이터 클래스 분포:
setosa: 15
versicolor: 15
virginica: 15


### 모델 학습 & 예측

In [8]:
## 의사결정트리 모델 학습
decision_tree = DecisionTreeClassifier(random_state=42)
decision_tree.fit(x_train, y_train)

## 나이브 베이즈 모델 학습
naive_bayes = GaussianNB()
naive_bayes.fit(x_train, y_train)

## 랜덤 포레스트 모델 학습
random_forest = RandomForestClassifier(random_state=42, n_estimators=100, oob_score=True)
random_forest.fit(x_train, y_train)

## 의사결정트리 예측
dt_pred = decision_tree.predict(x_test)

## 나이브 베이즈 예측
nb_pred = naive_bayes.predict(x_test)

## 랜덤 포레스트 예측
rf_pred = random_forest.predict(x_test)

### 혼돈 행렬 생성

In [14]:
## 의사결정트리 혼동 행렬
cm_dt = confusion_matrix(y_test, dt_pred)
print("의사결정트리 혼동 행렬:")
print(cm_dt)

## 나이브 베이즈 혼동 행렬
cm_nb = confusion_matrix(y_test, nb_pred)
print("\n나이브 베이즈 혼동 행렬:")
print(cm_nb)

## 랜덤 포레스트 혼동 행렬
cm_rf = confusion_matrix(y_test, rf_pred)
print("\n랜덤 포레스트 혼동 행렬:")
print(cm_rf)

의사결정트리 혼동 행렬:
[[15  0  0]
 [ 0 12  3]
 [ 0  0 15]]

나이브 베이즈 혼동 행렬:
[[15  0  0]
 [ 0 14  1]
 [ 0  3 12]]

랜덤 포레스트 혼동 행렬:
[[15  0  0]
 [ 0 14  1]
 [ 0  4 11]]


### 모델 성능 평가지표 비교

In [11]:
## 의사결정트리 성능 평가
print("의사결정트리 성능 평가:")
print(classification_report(y_test, dt_pred, target_names=target_names, digits=4))

## 나이브 베이즈 성능 평가
print("나이브 베이즈 성능 평가:")
print(classification_report(y_test, nb_pred, target_names=target_names, digits=4))

## 랜덤 포레스트 성능 평가
print("랜덤 포레스트 성능 평가:")
print(classification_report(y_test, rf_pred, target_names=target_names, digits=4))

의사결정트리 성능 평가:
              precision    recall  f1-score   support

      setosa     1.0000    1.0000    1.0000        15
  versicolor     1.0000    0.8000    0.8889        15
   virginica     0.8333    1.0000    0.9091        15

    accuracy                         0.9333        45
   macro avg     0.9444    0.9333    0.9327        45
weighted avg     0.9444    0.9333    0.9327        45

나이브 베이즈 성능 평가:
              precision    recall  f1-score   support

      setosa     1.0000    1.0000    1.0000        15
  versicolor     0.8235    0.9333    0.8750        15
   virginica     0.9231    0.8000    0.8571        15

    accuracy                         0.9111        45
   macro avg     0.9155    0.9111    0.9107        45
weighted avg     0.9155    0.9111    0.9107        45

랜덤 포레스트 성능 평가:
              precision    recall  f1-score   support

      setosa     1.0000    1.0000    1.0000        15
  versicolor     0.7778    0.9333    0.8485        15
   virginica     0.9167    0.73