### 의사결정트리

In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
import seaborn as sns

cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    stratify=cancer.target, 
                                                    test_size = 0.3,
                                                    random_state=77)

tree = DecisionTreeClassifier(max_depth=2, random_state=0)
tree.fit(X_train, y_train)

print("훈련 세트 정확도 : {:.3f}".format(tree.score(X_train, y_train)))
print("테스트 세트 정확도 : {:.3f}".format(tree.score(X_test, y_test)))

훈련 세트 정확도 : 0.972
테스트 세트 정확도 : 0.912


### 레벨업 1

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
import seaborn as sns

cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

best_score = 0.0
best_max_depth = None
best_test_size = None

for max_depth in [3, 4, 5]:
    for test_size in [0.4, 0.5, 0.6]:
        X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=cancer.target, test_size=test_size, random_state=77)

        tree = DecisionTreeClassifier(max_depth=max_depth, random_state=0)
        tree.fit(X_train, y_train)

        train_score = tree.score(X_train, y_train)
        test_score = tree.score(X_test, y_test)

        if test_score > best_score:
            best_score = test_score
            best_max_depth = max_depth
            best_test_size = test_size

print("가장 좋은 max_depth:", best_max_depth)
print("가장 좋은 test_size:", best_test_size)
print("테스트 세트에서의 최고 정확도:", best_score)


가장 좋은 max_depth: 4
가장 좋은 test_size: 0.4
테스트 세트에서의 최고 정확도: 0.9385964912280702


In [3]:
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

# 유방암 데이터 셋
cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=cancer.target, test_size=0.3, random_state=77)

# Decision Tree Classifier
tree = DecisionTreeClassifier(max_depth=2, random_state=0)
tree.fit(X_train, y_train)

print("Decision Tree Classifier:")
print("훈련 세트 정확도 : {:.3f}".format(tree.score(X_train, y_train)))
print("테스트 세트 정확도 : {:.3f}".format(tree.score(X_test, y_test)))

# Random Forest Classifier
forest = RandomForestClassifier(n_estimators=100, random_state=0)
forest.fit(X_train, y_train)

print("\nRandom Forest Classifier:")
print("훈련 세트 정확도 : {:.3f}".format(forest.score(X_train, y_train)))
print("테스트 세트 정확도 : {:.3f}".format(forest.score(X_test, y_test)))

# Gradient Boosting Classifier
boosting = GradientBoostingClassifier(n_estimators=100, random_state=0)
boosting.fit(X_train, y_train)

print("\nGradient Boosting Classifier:")
print("훈련 세트 정확도 : {:.3f}".format(boosting.score(X_train, y_train)))
print("테스트 세트 정확도 : {:.3f}".format(boosting.score(X_test, y_test)))

Decision Tree Classifier:
훈련 세트 정확도 : 0.972
테스트 세트 정확도 : 0.912

Random Forest Classifier:
훈련 세트 정확도 : 1.000
테스트 세트 정확도 : 0.942

Gradient Boosting Classifier:
훈련 세트 정확도 : 1.000
테스트 세트 정확도 : 0.936


### 레벨업 3 - 비교 평가 부분. 함수로 만들어보기

In [4]:
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

def train_and_evaluate_models(X, y):
    X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3, random_state=77)

    # Decision Tree Classifier
    tree = DecisionTreeClassifier(max_depth=2, random_state=0)
    tree.fit(X_train, y_train)

    print("Decision Tree Classifier:")
    print("훈련 세트 정확도 : {:.3f}".format(tree.score(X_train, y_train)))
    print("테스트 세트 정확도 : {:.3f}".format(tree.score(X_test, y_test)))

    # Random Forest Classifier
    forest = RandomForestClassifier(n_estimators=100, random_state=0)
    forest.fit(X_train, y_train)

    print("\nRandom Forest Classifier:")
    print("훈련 세트 정확도 : {:.3f}".format(forest.score(X_train, y_train)))
    print("테스트 세트 정확도 : {:.3f}".format(forest.score(X_test, y_test)))

    # Gradient Boosting Classifier
    boosting = GradientBoostingClassifier(n_estimators=100, random_state=0)
    boosting.fit(X_train, y_train)

    print("\nGradient Boosting Classifier:")
    print("훈련 세트 정확도 : {:.3f}".format(boosting.score(X_train, y_train)))
    print("테스트 세트 정확도 : {:.3f}".format(boosting.score(X_test, y_test)))

    return {
        "Decision Tree": {
            "train_accuracy": tree.score(X_train, y_train),
            "test_accuracy": tree.score(X_test, y_test)
        },
        "Random Forest": {
            "train_accuracy": forest.score(X_train, y_train),
            "test_accuracy": forest.score(X_test, y_test)
        },
        "Gradient Boosting": {
            "train_accuracy": boosting.score(X_train, y_train),
            "test_accuracy": boosting.score(X_test, y_test)
        }
    }

# 유방암 데이터셋 로드
cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

# 모델 학습 및 평가
results = train_and_evaluate_models(X, y)

# 결과 출력
print("\n모델 성능 결과:")
for model, metrics in results.items():
    print(model)
    print("훈련 세트 정확도 : {:.3f}".format(metrics["train_accuracy"]))
    print("테스트 세트 정확도 : {:.3f}".format(metrics["test_accuracy"]))
    print()
    

Decision Tree Classifier:
훈련 세트 정확도 : 0.972
테스트 세트 정확도 : 0.912

Random Forest Classifier:
훈련 세트 정확도 : 1.000
테스트 세트 정확도 : 0.942

Gradient Boosting Classifier:
훈련 세트 정확도 : 1.000
테스트 세트 정확도 : 0.936

모델 성능 결과:
Decision Tree
훈련 세트 정확도 : 0.972
테스트 세트 정확도 : 0.912

Random Forest
훈련 세트 정확도 : 1.000
테스트 세트 정확도 : 0.942

Gradient Boosting
훈련 세트 정확도 : 1.000
테스트 세트 정확도 : 0.936

