In [35]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 1. 데이터 준비
# make_moons를 사용해 데이터를 생성
X, y = make_moons(n_samples=10000, noise=0.4, random_state=42)

# 훈련 세트(80%)와 테스트 세트(20%)로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. 결정 트리 하이퍼파라미터 최적화
# 하이퍼파라미터 검색 범위 설정
param_grid = {
    'max_depth': [5, 10, 15, 20, None],
    'max_leaf_nodes': [10, 20, 30, None]
}

# GridSearchCV를 사용해 결정 트리 모델을 최적화
dt = DecisionTreeClassifier(random_state=42)
grid_search = GridSearchCV(estimator=dt, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터와 테스트 정확도 출력
best_dt = grid_search.best_estimator_
print("최적의 하이퍼파라미터:", grid_search.best_params_)
y_pred_dt = best_dt.predict(X_test)
dt_accuracy = accuracy_score(y_test, y_pred_dt)
print("결정 트리의 테스트 정확도:", dt_accuracy)

# 3. 랜덤 포레스트 구현
# 랜덤 포레스트는 100개의 서브셋을 사용해 결정 트리를 훈련
n_trees = 100
random_forest = RandomForestClassifier(n_estimators=n_trees, random_state=42)
random_forest.fit(X_train, y_train)

# 랜덤 포레스트 모델의 테스트 정확도 확인
y_pred_rf = random_forest.predict(X_test)
rf_accuracy = accuracy_score(y_test, y_pred_rf)
print("랜덤 포레스트의 테스트 정확도:", rf_accuracy)

# 4. 다수결 앙상블
# 100개의 결정 트리 예측값을 모으고 다수결 방식으로 최종 예측 생성
y_preds = np.array([tree.predict(X_test) for tree in random_forest.estimators_])
majority_votes = np.apply_along_axis(lambda x: np.bincount(x).argmax(), axis=0, arr=y_preds)

# 다수결 앙상블 방식의 정확도 측정
ensemble_accuracy = accuracy_score(y_test, majority_votes)
print("다수결 앙상블 방식의 테스트 정확도:", ensemble_accuracy)


최적의 하이퍼파라미터: {'max_depth': 10, 'max_leaf_nodes': 20}
결정 트리의 테스트 정확도: 0.87
랜덤 포레스트의 테스트 정확도: 0.8505


TypeError: Cannot cast array data from dtype('float64') to dtype('int64') according to the rule 'safe'