## Instructions
- 빈 코드를 완성하여 제출합니다.
- 제출 파일명은 "과제2_학번_이름.ipynb" 입니다.
- random_state 를 지정할 수 있는 함수 및 메소드에 대해, 321으로 지정합니다.

In [1]:
import numpy as np
import pandas as pd
from sklearn.ensemble import VotingClassifier, RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, f1_score

import warnings
warnings.filterwarnings('ignore')

## 데이터 로드

In [2]:
from sklearn.datasets import load_breast_cancer
import pandas as pd

cancer = load_breast_cancer()
data_df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
data_df.sample(3, random_state=321)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
303,10.49,18.61,66.86,334.3,0.1068,0.06678,0.02297,0.0178,0.1482,0.066,...,11.06,24.54,70.76,375.4,0.1413,0.1044,0.08423,0.06528,0.2213,0.07842
536,14.27,22.55,93.77,629.8,0.1038,0.1154,0.1463,0.06139,0.1926,0.05982,...,15.29,34.27,104.3,728.3,0.138,0.2733,0.4234,0.1362,0.2698,0.08351
152,9.731,15.34,63.78,300.2,0.1072,0.1599,0.4108,0.07857,0.2548,0.09296,...,11.02,19.49,71.04,380.5,0.1292,0.2772,0.8216,0.1571,0.3108,0.1259


## 0. 데이터 분할
- cancer.data 를 입력 특징으로, cancer.target을 타겟 변수로 하여 학습 데이터와 테스트 데이터를 분할합니다.
- 테스트 데이터 비율은 20% 입니다.

In [3]:
X_train, X_test, y_train, y_test = train_test_split(data_df, cancer.target, test_size=0.2, random_state=42)

## 1. 결정 트리
- 결정 트리 모델을 학습하고, 학습 및 테스트 데이터에 각각에 대해 정확도 및 F1을 측정합니다.
- 1-1. 제약 없는 결정 트리를 entropy 를 불순도 지표로 사용하여 학습합니다. 
- 1-2. 트리 최대 깊이를 3으로 지정한 가지치기한 결정 트리를 학습합니다.

In [4]:
dt_full = DecisionTreeClassifier(criterion='entropy', random_state=42)
dt_full.fit(X_train, y_train)

print("= 제약없는 결정 트리 =")

y_pred_train = dt_full.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = dt_full.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 제약없는 결정 트리 =
(학습) 정확도: 1.000
(학습) F1: 1.000
(테스트) 정확도: 0.947
(테스트) F1: 0.959


In [5]:
dt_pruned = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=42)
dt_pruned.fit(X_train, y_train)

print("= 가지치기한 결정 트리 =")

y_pred_train = dt_pruned.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = dt_pruned.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 가지치기한 결정 트리 =
(학습) 정확도: 0.980
(학습) F1: 0.984
(테스트) 정확도: 0.965
(테스트) F1: 0.973


## 2. 랜덤 포레스트
- 랜덤 포레스트 모델을 학습하고, 학습 및 테스트 데이터 각각에 대해 정확도 및 F1을 측정합니다.
- 2-1. 불순도 지표는 'gini', 트리 개수는 500으로 지정합니다.
- 2-2. 불순도 지표는 'gini', 트리 개수는 50으로 지정합니다.

In [6]:
forest_500 = RandomForestClassifier(n_estimators=500, criterion='gini', random_state=42)
forest_500.fit(X_train, y_train)

print("= 랜덤 포레스트 (트리 개수: 500) =")

y_pred_train = forest_500.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = forest_500.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 랜덤 포레스트 (트리 개수: 500) =
(학습) 정확도: 1.000
(학습) F1: 1.000
(테스트) 정확도: 0.965
(테스트) F1: 0.972


In [7]:
forest_50 = RandomForestClassifier(n_estimators=50, criterion='gini', random_state=42)
forest_50.fit(X_train, y_train)

print("= 랜덤 포레스트 (트리 개수: 50) =")

y_pred_train = forest_50.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = forest_50.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 랜덤 포레스트 (트리 개수: 50) =
(학습) 정확도: 1.000
(학습) F1: 1.000
(테스트) 정확도: 0.965
(테스트) F1: 0.972


## 3. 보팅 앙상블
- 개별 모델을 로지스틱 회귀, KNN, 랜덤 포레스트(트리 개수 50, 불순도 지표 'gini')로 사용하는 보팅 앙상블 모델을 학습합니다. 학습한 모델을 이용해 테스트 데이터에 성능을 평가합니다. 랜덤 포레스트 모델은 2-2 에서 구현한 모델을 사용합니다.
- 3.1. logistic regression 모델을 학습합니다.
- 3.2. KNN 모델을 학습합니다. 이웃의 수는 8 입니다.
- 3.3. 보팅 앙상블 모델을 학습합니다. 소프트 보팅을 사용합니다.

In [8]:
lr_clf = LogisticRegression(random_state=42)
lr_clf.fit(X_train, y_train)

print("= 로지스틱 회귀 =")

y_pred_train = lr_clf.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = lr_clf.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 로지스틱 회귀 =
(학습) 정확도: 0.952
(학습) F1: 0.962
(테스트) 정확도: 0.956
(테스트) F1: 0.966


In [9]:
knn_clf = KNeighborsClassifier(n_neighbors=8)
knn_clf.fit(X_train, y_train)

print("= KNN =")

y_pred_train = knn_clf.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = knn_clf.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= KNN =
(학습) 정확도: 0.938
(학습) F1: 0.952
(테스트) 정확도: 0.956
(테스트) F1: 0.966


In [10]:
vo_clf = VotingClassifier(estimators=[('lr', lr_clf), ('knn', knn_clf), ('rf', forest_50)], voting='soft')
vo_clf.fit(X_train, y_train)

print("= Voting 분류기 =")

y_pred_train = vo_clf.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = vo_clf.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= Voting 분류기 =
(학습) 정확도: 0.971
(학습) F1: 0.978
(테스트) 정확도: 0.956
(테스트) F1: 0.966


## 4. 하이퍼파라미터 최적화
- 학습 데이터에 대해 10-fold CV 기반 Grid Search를 수행합니다. scoring 기준은 roc_auc 입니다.
- Logistic Regression 대상 하이퍼파라미터는 C 이며, 후보 값은 1, 0.1, 0.01 입니다.
- KNN 대상 하이퍼파라미터는 n_neighbors 이며, 후보 값은 4, 6, 8 입니다.
- Random Forest 대상 하이퍼파라미터는 num_estimators 이며, 후보 값은 50, 100, 500 입니다.
- 최적 하이퍼파라미터를 이용해 테스트 데이터에 예측을 수행하고, 성능을 평가합니다.

In [11]:
grid = _
_

for r, _ in enumerate(grid.cv_results_['mean_test_score']):
    print("%0.3f +/- %0.2f %r"
          % (grid.cv_results_['mean_test_score'][r], 
             grid.cv_results_['std_test_score'][r] / 2.0, 
             grid.cv_results_['params'][r]))

AttributeError: 'DataFrame' object has no attribute 'cv_results_'

In [None]:
print('최적의 매개변수: %s' % _)

In [None]:
print('정확도: %.2f' % _)

In [None]:
_
y_test_pred = _
print('(테스트) 정확도: %.3f' % _)
print('(테스트) F1: %.3f' % _)

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier

# Logistic Regression 모델에 대한 Grid Search 설정
lr_param_grid = {'C': [1, 0.1, 0.01]}
lr_grid = GridSearchCV(LogisticRegression(), lr_param_grid, cv=10, scoring='roc_auc')
lr_grid.fit(X_train, y_train)

print("= Logistic Regression Grid Search 결과 =")
for mean_score, std_score, params in zip(lr_grid.cv_results_['mean_test_score'], 
                                         lr_grid.cv_results_['std_test_score'], 
                                         lr_grid.cv_results_['params']):
    print("%0.3f +/- %0.2f %r" % (mean_score, std_score / 2.0, params))

print('최적의 매개변수: %s' % lr_grid.best_params_)
print('최적 평균 ROC-AUC: %.2f' % lr_grid.best_score_)

# KNN 모델에 대한 Grid Search 설정
knn_param_grid = {'n_neighbors': [4, 6, 8]}
knn_grid = GridSearchCV(KNeighborsClassifier(), knn_param_grid, cv=10, scoring='roc_auc')
knn_grid.fit(X_train, y_train)

print("\n= KNN Grid Search 결과 =")
for mean_score, std_score, params in zip(knn_grid.cv_results_['mean_test_score'], 
                                         knn_grid.cv_results_['std_test_score'], 
                                         knn_grid.cv_results_['params']):
    print("%0.3f +/- %0.2f %r" % (mean_score, std_score / 2.0, params))

print('최적의 매개변수: %s' % knn_grid.best_params_)
print('최적 평균 ROC-AUC: %.2f' % knn_grid.best_score_)

# Random Forest 모델에 대한 Grid Search 설정
rf_param_grid = {'n_estimators': [50, 100, 500]}
rf_grid = GridSearchCV(RandomForestClassifier(random_state=42), rf_param_grid, cv=10, scoring='roc_auc')
rf_grid.fit(X_train, y_train)

print("\n= Random Forest Grid Search 결과 =")
for mean_score, std_score, params in zip(rf_grid.cv_results_['mean_test_score'], 
                                         rf_grid.cv_results_['std_test_score'], 
                                         rf_grid.cv_results_['params']):
    print("%0.3f +/- %0.2f %r" % (mean_score, std_score / 2.0, params))

print('최적의 매개변수: %s' % rf_grid.best_params_)
print('최적 평균 ROC-AUC: %.2f' % rf_grid.best_score_)

# 최적의 모델로 테스트 데이터에 대한 예측 수행
best_model = rf_grid.best_estimator_
y_test_pred = best_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_test_pred)
test_f1 = f1_score(y_test, y_test_pred)

print('\n최적 모델을 이용한 테스트 데이터 성능:')
print('(테스트) 정확도: %.3f' % test_accuracy)
print('(테스트) F1: %.3f' % test_f1)
