# 분류

분류는 지도학습의 대표적인 유형이다. 분류는 기존 데이터가 어떤 레이블에 속하는지 패턴을 알아낸 후에 새로운 데이터에 대해 레이블을 판별하는 것이다.

분류의 종류: 나이브 베이즈, 로지스틱 회귀, 결정트리, 서포트 벡터 머신, 최소 근접 알고리즘, 신경망, 앙상블

---

### 1. 결정트리

데이터에 있는 규칙을 학습을 통해 찾아내 트리 기반의 분류 규칙을 만드는 것. 알고리즘의 성능은 데이터의 어떤 기준으로 규칙을 만들지에 결정이 된다.

- 규칙 노드: 규칙 조건이 되는 노드
- 리프 노드: 클래스가 결정된 노드

결정 노드는 정보 균일도가 높은 데이터 세트를 먼저 선택할 수 있도록 규칙 조건을 만든다. 

데이터 세트를 구분할 때 정보 균일도가 높게끔 조건을 찾아 서브 데이터 세트를 만들고 서브 데이터 세트에서 균일도가 높은 자식 데이터 세트로 쪼개는 방식이다.

- 정보 이득: 1 - 엔트로피 지수(데이터 집합의 혼잡도)
- 지니 계수: 불평등 지수를 나타낼 때 사용하는 계수로 0이 가장 평등, 1이 가장 불평등

In [5]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

dt_clf = DecisionTreeClassifier(random_state=0)  # 원하면 min_samples_leaf나 max_depth등의 조건을 추가할 수 있다.
iris_data = load_iris()  # 역시 iris 데이터가 최고다.
print(iris_data)  # iris_data 내에 data와 target이 따로있음을 알 수 있다.

{'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
     

In [7]:
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, random_state=0)  # 원하면 test_size = 를 통해 데이터의 비율을 정할 수 있다. radom_state도 설정 가능

dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
accuracy = accuracy_score(y_test, pred)
print(accuracy)

0.9736842105263158


In [8]:
### GridSearchCV를 사용한 학습과 예측

from sklearn.model_selection import GridSearchCV

params = {'max_depth' : [0,2,4,6,8,10,12,16,20,24]}

grid_cv = GridSearchCV(dt_clf, param_grid=params, scoring='accuracy', cv=5)  # 예측 성능을 측정할 평가 방법으로 scoring인자를 입력한다. 보통 문자열('accuracy')을 입력한다.
grid_cv.fit(X_train, y_train)
print('정확도 수치:', grid_cv.best_score_)
print('최적의 하이퍼 파라미터:', grid_cv.best_params_)

정확도 수치: 0.9640316205533598
최적의 하이퍼 파라미터: {'max_depth': 4}


정확도가 GridSearch를 사용했음에도 낮아졌지만 애초에 정확도가 높았기에 사용할 필요는 없었다. GridSearch는 정확도가 낮아 정확도를 높이기 위해 최적의 하이퍼 파라미터를 찾을 필요가 생기면 수행하는 게 낫다.

### GridSearchCV(교차 검증)이란?
 GridSearch(교차검증)은 데이터 세트를 cross-validation을 위한 데이터 세트를 자동으로 나누어 하이퍼 파라미터 그리드에 기술된 모든 파라미터를 순차적으로 적용해 최적의 파라미터를 찾을 수 있게 해줍니다.
 
  교차 검증은 데이터의 편중을 막기 위해 여러 여러 개의 학습 데이터 세트와 검증 데이터 세트로 학습과 평가를 수행한다. 각 세트에서 수행한 결과를 바탕으로 모델 최적화를 할 수 있다.
  
- K폴드 교차 검증: K개의 데이터 폴드 세트를 만들어서 학습과 평가를 K번 수행하는 방법이다.
- Stratified K폴드: 데이터가 불균형한 분포도를 가지고 있을 때 사용하는 K폴드 방식.

GridSearchCV의 가장 큰 특징은 인자 중에서 하이퍼 파라미터 그리드(param_grid)에 입력된 모든 파라미터를 순차적으로 적용해 최적의 파라미터를 찾게 해주는 것이다.

------

## 앙상블 학습
여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법을 말합니다.
- 보팅: 다른 알고리즘을 가진 분류기로 같은 데이터 세트에 대해 학습하고 예측한 결과를 가지고 보팅을 통해 최종 예측 결과를 선정하는 것.
- 배깅: 모두 같은 유형의 알고리즘 기반이지만 데이터 샘플링을 서로 다르게 가져가서(부트스트래핑 분할 방식) 학습을 수행해 보팅을 수행하는 것.
- 부스팅: 여러 개의 분류기가 순차적으로 학습을 수행하되, 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해서는 올바르게 예측할 수 있도록 다음 분류기에게는 가중치를 부여하면서 학습과 예측을 진행하는 것. 

1. 소프트 보팅: 분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해서 확률이 가장 높은 레이블 값을 최종 보팅 결과값으로 선정.
2. 하드 보팅: 예측한 결괏값들중 다수의 분류기가 결정한 예측값을 최종 보팅 결괏값으로 선정.

__보통 소프트 보팅을 사용한다.__

### 2. 소프트 보팅

In [9]:
# 개별 모델은 로지스틱 회귀와 KNN(최근접 이웃알고리즘)이다. 이것들은 뒤에서 다루자!!
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
import pandas as pd

cancer = load_breast_cancer()
data_df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
data_df.head(3)

lr_clf = LogisticRegression()
knn_clf = KNeighborsClassifier(n_neighbors=8)

vo_clf = VotingClassifier(estimators=[('LR',lr_clf), ('KNN', knn_clf)], voting='soft')
vo_clf.fit(X_train, y_train)
pred = vo_clf.predict(X_test)
print(pred)
print(accuracy_score(y_test, pred))

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
0.9736842105263158


### 3. 랜덤 포레스트
랜덤 포레스트는 배깅의 대표적인 알고리즘 방식이다. 배깅은 보팅과 다르게, 같은 알고리즘으로 여러 개의 분류기를 만들어서 보팅으로 최종 결정을 한다.

특징: 
- 앙상블 알고리즘 중에서 빠른 수행 속도.
- 다양한 영역에서 높은 예측 성능.
- 결정 트리의 쉽고 직관적이다.

여러 개의 결정 트리 분류기가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 소프트 보팅을 통해 예측 결정. 데이터 세트는 여러 개를 중첩되게 분리하는 것을 부트스트래핑.

In [10]:
from sklearn.ensemble import RandomForestClassifier
import warnings
warnings.filterwarnings('ignore')

rf_clf = RandomForestClassifier(random_state=2020)
rf_clf.fit(X_train, y_train)
pred = rf_clf.predict(X_test)
print(pred)
print(accuracy_score(y_test, pred))

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
0.9736842105263158


______
트리 기반의 앙상블 알고리즘의 단점(굳이 단점이라고 하자면)은 하이퍼 파라미터가 너무 많고 튜닝을 위한 시간이 많이 소모되는 것. 그래서 GridSearchCV를 이용해 랜덤포레스트를 튜닝 시간을 절약할 수 있다.

In [11]:
# 책에 있는 하이퍼 파라미터를 쓰기 위해 데이터를 불러오고 GridSearch 수행.
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=2020)

params = {
    'n_estimators':[100],
    'max_depth':[6,8,10,12],       
    'min_samples_leaf':[8,12,18],  #말단 노드(leaf)가 되기 위한 최소한의 샘플 데이터 수 
    'min_samples_split':[8,16,20]  #노드를 분할하기 위한 최소한의 샘플 데이터 수로 과적합을 제어하는 데 사용.
}

rf_clf = RandomForestClassifier(random_state=2020, n_jobs = -1)    
grid_cv = GridSearchCV(rf_clf, param_grid=params, cv=2, n_jobs= -1)
grid_cv.fit(X_train, y_train)
print(grid_cv.best_score_)
print(grid_cv.best_params_)

rf_clf1 = RandomForestClassifier(n_estimators=100, max_depth=6, min_samples_leaf=8, min_samples_split=8, random_state=2020)
rf_clf1.fit(X_train, y_train)
pred=rf_clf1.predict(X_test)
print(accuracy_score(y_test, pred))

0.9389671361502347
{'max_depth': 6, 'min_samples_leaf': 8, 'min_samples_split': 8, 'n_estimators': 100}
0.958041958041958


최적 하이퍼 파라미터를 GridSearchCV를 통해 찾을 수 있었고 랜덤포레스트에 적용해 예측한 결괏값의 정확도가 더욱 올라간 것을 알 수 있다.

랜덤 포레스트는 CPU 병렬 처리도 효과적으로 수행되어 빠른 학습이 가능하다. 멀티 코어 환경에서는 RandomClassifier 생성자와 GridSearchCV 생성시 n_jobs를 추가하면 모든 CPU 코어를 이용해 학습할 수 있다.

### 4. GBM(Gradient Boosting Machine)
부스팅 알고리즘을 구현한 대표적인 방법
- 부스팅 알고리즘: 여러 개의 약한 학습기를 순차적으로 학습 예측하면서 잘못 예측한 데이터에 가중치를 부여하는 알고리즘. 대표적으로는 AdaBoost와 GradientBoost가 있다.

GBM은 가중치 업데이트를 경사 하강법을 이용한다.  

- 경사 하강법: 분류의 실제 결괏값을 y, 피처를 $x_1,x_2,...,x_n$, 그리고 이 피처에 기반한 예측 함수를 $F(x)$함수라고 하면 오류식 $h(x) = y - F(x)$가 된다. 이 오류식 $h(x)$를 최소화하는 방향성을 가지고 반복적으로 가중치 값을 업데이트 하는 것.  

보통 랜덤 포레스트보다 예측이 뛰어난 경우가 많으나 수행 시간 문제가 존재한다. 그 이유는 사이킷런의 GradientBoostingClassifier는 약한 학습기의 순차적인 예측, 오류 보정을 통해 학습을 수행해서 병렬 처리가 지원이 안돼므로 학습할 시간이 많이 필요하기 때문이다.  
경사 하강법에 대해서 책은 간단하게 '반복 수행을 통해 오류를 최소화할 수 있도록 가중치의 업데이트 값을 도출하는 기법' 정도로 이해해도 된다고 한다. 다음 장에서 배울테니...

In [14]:
from sklearn.ensemble import GradientBoostingClassifier
import time
import warnings
warnings.filterwarnings('ignore')

cancer = load_breast_cancer()

start_time = time.time()
gb_clf = GradientBoostingClassifier(random_state=0)
gb_clf.fit(X_train, y_train)
gb_pred = gb_clf.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)

print(gb_accuracy)
print(time.time()-start_time)

0.965034965034965
0.5566556453704834


### 5. XGBoost
Gradient Boosting 알고리즘을 분산환경에서도 실행할 수 있도록 구현해놓은 라이브러리.  
- 장점:뛰어난 예측 성능, GBM 대비 빠른 수행시간, 과적합 규제, Tree pruning, 자체 내장된 교차 검증, 결손값 자체 처리   

파이썬 기반의 머신러닝 이용자들이 사이킷런을 많이 사용하고 있기 때문에 사이킷런과 연동되는 모듈을 제공. 사이킷런래퍼 XGBoost모듈이라고 할 수 있겠다.  
XGBoost는 자체적으로 교차 검증, 성능 평가, 피처 중요도 등의 시각화기능을 가지고 있다. 수행 속도를 향상시키기 위해서 조기 중단 기능 또한 가지고 있는데 n_estimators에 지정한 반복 횟수에 도달하지 않아도 예측 오류가 개선되지 않으면 중지해서 수행 시간을 개선

In [None]:
 conda install -c anaconda py-xgboost

XGBoost를 설치하기 위해서는 아나콘다 프롬프트를 관리자 권한으로 실행한 수 위의 명령어를 수행해야 한다.

In [1]:
import xgboost as xgb
from xgboost import XGBClassifier

In [3]:
print(xgb.__version__)

0.90


In [14]:
import xgboost as xgb
from xgboost import plot_importance
from xgboost import XGBClassifier
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import f1_score, roc_auc_score
import warnings
warnings.filterwarnings('ignore')

cancer=load_breast_cancer()
X_features=cancer.data
y_label = cancer.target
cancer_df=pd.DataFrame(data=X_features, columns=cancer.feature_names)
cancer_df['target']=y_label
cancer_df.head(3)

X_train, X_test, y_train, y_test = train_test_split(X_features, y_label, test_size=0.2, random_state=156)
print(X_train.shape, X_test.shape)

dtrain = xgb.DMatrix(data=X_train, label=y_train)
dtest = xgb.DMatrix(data=X_test, label=y_test)

params = { 'max_depth':3,
           'eta': 0.1,
           'objective':'binary:logistic',
           'eval_metric':'logloss'
        }
num_rounds = 400

xgb_wrapper = XGBClassifier(n_estimators=400, learning_rate=0.1, max_depth=3)
xgb_wrapper.fit(X_train, y_train)
pred = xgb_wrapper.predict(X_test)
pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1]
print("오차행렬\n", confusion_matrix(y_test, pred))
print("정확도:", accuracy_score(y_test , pred))
print("정밀도:", precision_score(y_test , pred))
print("재현율:", recall_score(y_test , pred))
print("f1:", f1_score(y_test,pred))
print("AUC:", roc_auc_score(y_test, pred_proba))

(455, 30) (114, 30)
오차행렬
 [[35  2]
 [ 1 76]]
정확도: 0.9736842105263158
정밀도: 0.9743589743589743
재현율: 0.987012987012987
f1: 0.9806451612903225
AUC: 0.995085995085995


### 6. LightGBM
리프 중심 트리 분할 방식을 사용한 GBM.
- 원리: 트리의 균형을 맞추지 않고(상대적으로 과적합에 강한 구조를 포기하고) 최대 손실 값을 가지는 리프 노드를 지속적으로 분할하는 방법. 트리의 깊이가 깊어지고 비대칭적인 트리가 생성되나 이를 통해 균형 트리 분할 방식보다 예측 오류 손실을 최소화 할 수 있다.

XGBoost에서 GridSearchCV로 하이퍼 파라미터 튜닝을 수행하면 수행 시간이 오래 걸리는 단점을 보완해준다. LightGBM은 메모리 샤용량도 상대적으로 적으나 둘의 예측 성능 차이는 얼마 없다고 한다.  
유일한 단점으로는 과적합이 발생할 수도 있는 것이다.

In [None]:
conda install -c conda-forge lightgbm

LightGBM을 설치하기 위해서는 아나콘다 프롬프트를 관리자 권한으로 실행한 수 위의 명령어를 수행해야 한다.

In [31]:
from lightgbm import LGBMClassifier

import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import f1_score, roc_auc_score
import warnings
warnings.filterwarnings('ignore')

dataset=load_breast_cancer()
ftr = dataset.data
target = dataset.target

X_train, X_test, y_train, y_test = train_test_split(ftr, target, test_size=0.2, random_state=156)

lgbm_wrapper = LGBMClassifier(n_estimators=400)

evals = [(X_test, y_test)]
lgbm_wrapper.fit(X_train, y_train, early_stopping_rounds=100, eval_metric='logloss', eval_set=evals, verbose=True)
pred = lgbm_wrapper.predict(X_test)
pred_proba = lgbm_wrapper.predict_proba(X_test)[:, 1]

print("오차행렬\n", confusion_matrix(y_test, pred))
print("정확도:", accuracy_score(y_test , pred))
print("정밀도:", precision_score(y_test , pred))
print("재현율:", recall_score(y_test , pred))
print("f1:", f1_score(y_test,pred))
print("AUC:", roc_auc_score(y_test, pred_proba))

[1]	valid_0's binary_logloss: 0.565079
Training until validation scores don't improve for 100 rounds
[2]	valid_0's binary_logloss: 0.507451
[3]	valid_0's binary_logloss: 0.458489
[4]	valid_0's binary_logloss: 0.417481
[5]	valid_0's binary_logloss: 0.385507
[6]	valid_0's binary_logloss: 0.355773
[7]	valid_0's binary_logloss: 0.329587
[8]	valid_0's binary_logloss: 0.308478
[9]	valid_0's binary_logloss: 0.285395
[10]	valid_0's binary_logloss: 0.267055
[11]	valid_0's binary_logloss: 0.252013
[12]	valid_0's binary_logloss: 0.237018
[13]	valid_0's binary_logloss: 0.224756
[14]	valid_0's binary_logloss: 0.213383
[15]	valid_0's binary_logloss: 0.203058
[16]	valid_0's binary_logloss: 0.194015
[17]	valid_0's binary_logloss: 0.186412
[18]	valid_0's binary_logloss: 0.179108
[19]	valid_0's binary_logloss: 0.174004
[20]	valid_0's binary_logloss: 0.167155
[21]	valid_0's binary_logloss: 0.162494
[22]	valid_0's binary_logloss: 0.156886
[23]	valid_0's binary_logloss: 0.152855
[24]	valid_0's binary_loglo