## Instructions
- 빈 코드를 완성하여 제출합니다.
- 제출 파일명은 "과제2_학번_이름.ipynb" 입니다.
- random_state 를 지정할 수 있는 함수 및 메소드에 대해, 321으로 지정합니다.

In [1]:
import numpy as np
import pandas as pd
from sklearn.ensemble import VotingClassifier, RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, f1_score

import warnings
warnings.filterwarnings('ignore')

## 데이터 로드

In [2]:
from sklearn.datasets import load_breast_cancer
import pandas as pd

cancer = load_breast_cancer()
data_df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
data_df.sample(3, random_state=321)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
303,10.49,18.61,66.86,334.3,0.1068,0.06678,0.02297,0.0178,0.1482,0.066,...,11.06,24.54,70.76,375.4,0.1413,0.1044,0.08423,0.06528,0.2213,0.07842
536,14.27,22.55,93.77,629.8,0.1038,0.1154,0.1463,0.06139,0.1926,0.05982,...,15.29,34.27,104.3,728.3,0.138,0.2733,0.4234,0.1362,0.2698,0.08351
152,9.731,15.34,63.78,300.2,0.1072,0.1599,0.4108,0.07857,0.2548,0.09296,...,11.02,19.49,71.04,380.5,0.1292,0.2772,0.8216,0.1571,0.3108,0.1259


## 0. 데이터 분할
- cancer.data 를 입력 특징으로, cancer.target을 타겟 변수로 하여 학습 데이터와 테스트 데이터를 분할합니다.
- 테스트 데이터 비율은 20% 입니다.

#### ppt 11 클래스 분류 참조
* train_test_split 함수: 랜덤하게 데이터 분할
* 학습 데이터: 80%, 테스트 데이터: 20%
* random_state: 데이터를 무작위로 섞을 때 사용되는 시드 값
    * 시드 값이 같다면 train_test_split 함수는 항상 같은 방식으로 데이터를 섞어 같은 결과 생성 -> 재현 가능한 결과 얻을 수 있음
    * 일반적으로 0 or 양의 정수, 특별한 경우 제외하고는 별로 큰 의미 없음

In [3]:
X_train, X_test, y_train, y_test = train_test_split(data_df, cancer.target, test_size=0.2, random_state=1)

## 1. 결정 트리
- 결정 트리 모델을 학습하고, 학습 및 테스트 데이터에 각각에 대해 정확도 및 F1을 측정합니다.
- 1-1. 제약 없는 결정 트리를 entropy 를 불순도 지표로 사용하여 학습합니다. 
- 1-2. 트리 최대 깊이를 3으로 지정한 가지치기한 결정 트리를 학습합니다.

#### ppt 11 참조
- DecisionTreeClassifier: 결정 트리 생성
- f1: 모델이 얼마나 잘 분류하는지 종합적으로 평가하는 지표
    - 정밀도와 재현율의 조화 평균으로 계산
    - 클래스 불균형 문제를 다룰 때 유용
####
- criterion: 결정 트리 모델에서 노드를 분할하는데 사용되는 기준을 지정하는데 사용
    - entropy: 정보 이론에서 불확실성의 정도를 나타내는 척도
        - entropy가 낮을 수록 데이터의 순도(purity) 높아짐
    - gini: entropy처럼 불확실성을 측정하는 지표, 노드의 순도 측정
        - gini 불순도가 낮을 수록 해당 노드의 순도가 높아짐
- fit(입력 데이터, 타겟 데이터): 입력 데이터를 사용하여 결정 트리 모델을 학습시키는 과정 

In [4]:
# 1-1
dt_full = DecisionTreeClassifier(criterion='entropy', random_state=1)
dt_full.fit(X_train, y_train)

print("= 제약없는 결정 트리 =")

y_pred_train = dt_full.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = dt_full.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 제약없는 결정 트리 =
(학습) 정확도: 1.000
(학습) F1: 1.000
(테스트) 정확도: 0.947
(테스트) F1: 0.960


- max_depth는 결정트리의 깊이가 깊어짐에 따라 과대적합이 되는 것을 방지하고 새로운 데이터에 대한 예측 능력을 향상시킴.
- max_depth를 너무 작게 설정하면 과소적합 될 수 있음

In [5]:
dt_pruned = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=1)
dt_pruned.fit(X_train, y_train)

print("= 가지치기한 결정 트리 =")

y_pred_train = dt_pruned.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = dt_pruned.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 가지치기한 결정 트리 =
(학습) 정확도: 0.965
(학습) F1: 0.971
(테스트) 정확도: 0.912
(테스트) F1: 0.931


## 2. 랜덤 포레스트
- 랜덤 포레스트 모델을 학습하고, 학습 및 테스트 데이터 각각에 대해 정확도 및 F1을 측정합니다.
- 2-1. 불순도 지표는 'gini', 트리 개수는 500으로 지정합니다.
- 2-2. 불순도 지표는 'gini', 트리 개수는 50으로 지정합니다.

#### ppt 11 - 결정 트리 응용: 랜덤 포레스트(Random Forest)
- RandomForestClassifier: 결정 트리의 앙상블
    - 과적합을 줄이고 일반화 성능 향상
    - 하이퍼 파라미터 튜닝이 간단함
        - 하이퍼 파라미터: 트리 개수 k가 성능에 영향을 주는 것. 중요하게 고려됨
- n_estimator: 결정 트리의 개수
    - 일반적으로 n_estimator을 늘릴수록 랜덤 포레스트의 성능이 향상될 수 있음
    - 결정 트리가 많아질수록 모델의 복잡도가 증가하고 학습 시간이 더 오래 걸릴 수 있음 (과적합의 위험)

In [6]:
forest_500 = RandomForestClassifier(n_estimators=500, criterion='gini', random_state=1)
forest_500.fit(X_train, y_train)

print("= 랜덤 포레스트 (트리 개수: 500) =")

y_pred_train = forest_500.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = forest_500.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 랜덤 포레스트 (트리 개수: 500) =
(학습) 정확도: 1.000
(학습) F1: 1.000
(테스트) 정확도: 0.956
(테스트) F1: 0.966


In [7]:
forest_50 = RandomForestClassifier(n_estimators=50, criterion='gini', random_state=1)
forest_50.fit(X_train, y_train)

print("= 랜덤 포레스트 (트리 개수: 50) =")

y_pred_train = forest_50.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = forest_50.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 랜덤 포레스트 (트리 개수: 50) =
(학습) 정확도: 1.000
(학습) F1: 1.000
(테스트) 정확도: 0.956
(테스트) F1: 0.966


## 3. 보팅 앙상블
- 개별 모델을 로지스틱 회귀, KNN, 랜덤 포레스트(트리 개수 50, 불순도 지표 'gini')로 사용하는 보팅 앙상블 모델을 학습합니다. 학습한 모델을 이용해 테스트 데이터에 성능을 평가합니다. 랜덤 포레스트 모델은 2-2 에서 구현한 모델을 사용합니다.
- 3.1. logistic regression 모델을 학습합니다.
- 3.2. KNN 모델을 학습합니다. 이웃의 수는 8 입니다.
- 3.3. 보팅 앙상블 모델을 학습합니다. 소프트 보팅을 사용합니다.

#### ppt 13, 16 참조
- <b>보팅 앙상블(voting ensemble)</b>: 여러 개의 다른 머신러닝 모델을 결합하여 최종 예측을 만들고 많은 선택을 받은 클래스 레이블을 선택하는 방법 (== 다수결 방식의 머신러닝 구현)
    - <b>로지스틱 회귀</b>: 선형 회귀를 분류 문제에 적용
        - 주로 이진 분류. 클래스에 속할 확률을 추정하는 방식
        - 간단, 해석이 쉬움, 과적합 방지하기 위해 정규화 기법
        - 선형 결정 경계만을 학습할 수 있음. 복잡한 패턴 잡아내기 어려움
    - <b>KNN(K-Nearest Neighbors)</b>: 지도 학습 알고리즘, 새로운 데이터를 예측할 때 가장 가까운 이웃 데이터의 클래스 사용하여 예측
        - 인스턴스 기반 학습 방법. 데이터의 군집을 이용하여 예측
        - 간단, 직관적인 모델, 비선형 결정 경계 학습 가능
        - 테스트 데이터가 많으면 예측 속도가 느려짐
    - <b>소프트 보팅</b>: 다수의 분류기가 예측한 확률을 평균하여 최종 예측을 결정하는 방식
        - 각 분류기가 예측한 확률을 더하여 평균 내고, 가장 높은 평균 확률을 가지는 클래스 선택
        - 하드 보팅보다 유연하고 확률적인 예측 제공, 정확한 예측 가능

In [8]:
lr_clf = LogisticRegression(random_state=1)
lr_clf.fit(X_train, y_train)

print("= 로지스틱 회귀 =")

y_pred_train = lr_clf.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = lr_clf.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= 로지스틱 회귀 =
(학습) 정확도: 0.949
(학습) F1: 0.960
(테스트) 정확도: 0.956
(테스트) F1: 0.966


In [9]:
knn_clf = KNeighborsClassifier(n_neighbors=8)
knn_clf.fit(X_train, y_train)

print("= KNN =")

y_pred_train = knn_clf.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = knn_clf.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= KNN =
(학습) 정확도: 0.934
(학습) F1: 0.948
(테스트) 정확도: 0.947
(테스트) F1: 0.959


In [10]:
vo_clf = VotingClassifier(estimators=[('lr', lr_clf), ('knn', knn_clf), ('rf', forest_50)], voting='soft')
vo_clf.fit(X_train, y_train)

print("= Voting 분류기 =")

y_pred_train = vo_clf.predict(X_train)
print('(학습) 정확도: %.3f' % accuracy_score(y_train, y_pred_train))
print('(학습) F1: %.3f' % f1_score(y_train, y_pred_train))

y_pred_test = vo_clf.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_test, y_pred_test))
print('(테스트) F1: %.3f' % f1_score(y_test, y_pred_test))

= Voting 분류기 =
(학습) 정확도: 0.978
(학습) F1: 0.983
(테스트) 정확도: 0.947
(테스트) F1: 0.959


## 4. 하이퍼파라미터 최적화
- 학습 데이터에 대해 10-fold CV 기반 Grid Search를 수행합니다. scoring 기준은 roc_auc 입니다.
- Logistic Regression 대상 하이퍼파라미터는 C 이며, 후보 값은 1, 0.1, 0.01 입니다.
- KNN 대상 하이퍼파라미터는 n_neighbors 이며, 후보 값은 4, 6, 8 입니다.
- Random Forest 대상 하이퍼파라미터는 num_estimators 이며, 후보 값은 50, 100, 500 입니다.
- 최적 하이퍼파라미터를 이용해 테스트 데이터에 예측을 수행하고, 성능을 평가합니다.

<b>하이퍼파라미터 튜닝을 위해 투표 앙상블 분류기의 하이퍼파라미터를 확인한다.</b>

In [11]:
vo_clf.get_params()

{'estimators': [('lr', LogisticRegression(random_state=1)),
  ('knn', KNeighborsClassifier(n_neighbors=8)),
  ('rf', RandomForestClassifier(n_estimators=50, random_state=1))],
 'flatten_transform': True,
 'n_jobs': None,
 'verbose': False,
 'voting': 'soft',
 'weights': None,
 'lr': LogisticRegression(random_state=1),
 'knn': KNeighborsClassifier(n_neighbors=8),
 'rf': RandomForestClassifier(n_estimators=50, random_state=1),
 'lr__C': 1.0,
 'lr__class_weight': None,
 'lr__dual': False,
 'lr__fit_intercept': True,
 'lr__intercept_scaling': 1,
 'lr__l1_ratio': None,
 'lr__max_iter': 100,
 'lr__multi_class': 'auto',
 'lr__n_jobs': None,
 'lr__penalty': 'l2',
 'lr__random_state': 1,
 'lr__solver': 'lbfgs',
 'lr__tol': 0.0001,
 'lr__verbose': 0,
 'lr__warm_start': False,
 'knn__algorithm': 'auto',
 'knn__leaf_size': 30,
 'knn__metric': 'minkowski',
 'knn__metric_params': None,
 'knn__n_jobs': None,
 'knn__n_neighbors': 8,
 'knn__p': 2,
 'knn__weights': 'uniform',
 'rf__bootstrap': True,
 'r

In [12]:
from sklearn.model_selection import GridSearchCV

params = {'lr__C':[1, 0.1, 0.01],
          'knn__n_neighbors': [4, 6, 8],
          'rf__n_estimators': [50, 100, 500]}

grid = GridSearchCV(estimator=vo_clf, param_grid=params, cv=10, scoring='roc_auc')
grid.fit(X_train, y_train)

for r, _ in enumerate(grid.cv_results_['mean_test_score']):
    print("%0.3f +/- %0.2f %r"
          % (grid.cv_results_['mean_test_score'][r], 
             grid.cv_results_['std_test_score'][r] / 2.0, 
             grid.cv_results_['params'][r]))

0.990 +/- 0.00 {'knn__n_neighbors': 4, 'lr__C': 1, 'rf__n_estimators': 50}
0.990 +/- 0.00 {'knn__n_neighbors': 4, 'lr__C': 1, 'rf__n_estimators': 100}
0.990 +/- 0.00 {'knn__n_neighbors': 4, 'lr__C': 1, 'rf__n_estimators': 500}
0.988 +/- 0.01 {'knn__n_neighbors': 4, 'lr__C': 0.1, 'rf__n_estimators': 50}
0.988 +/- 0.01 {'knn__n_neighbors': 4, 'lr__C': 0.1, 'rf__n_estimators': 100}
0.989 +/- 0.01 {'knn__n_neighbors': 4, 'lr__C': 0.1, 'rf__n_estimators': 500}
0.988 +/- 0.01 {'knn__n_neighbors': 4, 'lr__C': 0.01, 'rf__n_estimators': 50}
0.989 +/- 0.00 {'knn__n_neighbors': 4, 'lr__C': 0.01, 'rf__n_estimators': 100}
0.988 +/- 0.01 {'knn__n_neighbors': 4, 'lr__C': 0.01, 'rf__n_estimators': 500}
0.989 +/- 0.00 {'knn__n_neighbors': 6, 'lr__C': 1, 'rf__n_estimators': 50}
0.989 +/- 0.00 {'knn__n_neighbors': 6, 'lr__C': 1, 'rf__n_estimators': 100}
0.989 +/- 0.00 {'knn__n_neighbors': 6, 'lr__C': 1, 'rf__n_estimators': 500}
0.988 +/- 0.01 {'knn__n_neighbors': 6, 'lr__C': 0.1, 'rf__n_estimators': 50}


In [13]:
print('최적의 매개변수: %s' % grid.best_params_)

최적의 매개변수: {'knn__n_neighbors': 4, 'lr__C': 1, 'rf__n_estimators': 500}


In [14]:
print('정확도: %.2f' % grid.best_score_)

정확도: 0.99


In [16]:
model = grid.best_estimator_
y_test_pred = model.predict(X_test)
print('(테스트) 정확도: %.3f' % accuracy_score(y_true=y_test,y_pred=y_test_pred))
print('(테스트) F1: %.3f' % f1_score(y_test, y_test_pred))

(테스트) 정확도: 0.947
(테스트) F1: 0.959
