In [1]:
#의사결정나무(Decision Tree)란?
# 예측 모델 중 하나로, 데이터의 특징(feature)을 기준으로 의사결정 규칙을 만들고
# 이를 바탕으로 데이터를 분류하거나 회귀하는 데 사용됨
# 트리 구조를 가짐 (nod, branch, leaf가 있음)
# nod = 데이터의 특정 특징에 대한 테스트
# branch = 테스트 결과
# leaf = 클래스 테이블

#분할 기준
# 정보 이득 (Information Gain): 불확실성(Entropy) 값으로 데이터를 나누는 기준.엔트로피가 낮을 수록 불확실 성이 적음.
# 지니 계수 (Gini Index): 불순도를 측정하는 방법으로, 지니 계수가 낮을수록 불순도가 적음.

In [2]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 데이터 로드
data = load_breast_cancer()
X = data.data
y = data.target

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 스케일링
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [3]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 모델 생성 및 학습
model = DecisionTreeClassifier(random_state=42) #의사결정나무 분류 모델 생성 및 시드 42 지정
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 평가
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}")

Accuracy: 0.9473684210526315
Classification Report:
              precision    recall  f1-score   support

           0       0.93      0.93      0.93        43
           1       0.96      0.96      0.96        71

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114

Confusion Matrix:
[[40  3]
 [ 3 68]]
