## 지도학습(분류)

1. 의사 결정 나무

-지도학습 알고리즘(분류, 회귀)

-직관적인 알고리즘(이해 쉬움)

-과대적합(overfitting)이 발생하기 쉬운 알고리즘(트리 깊이 제한 필요)

-정보이득(information gain)이 최대가 되는 특성을 나누는 기준(불순도를 측정하는 기준)은 '지니'와 '엔트로피'가 사용됨

-데이터가 한 종류만 있다면 엔트로피/지니 불순도는 0에 가까움. 서로 다른 데이터의 비율에 비슷하면 1에 가까움

-정보이득(information gain)이 최대(1-불순도)가 되는 특성을 기준으로 데이터를 나눔

![](./img_7.png)



In [5]:
# 의사 결정 나무(Decision Tree) 분류 모델 실습

# 라이브러리 불러오기
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [6]:
# 데이터 불러오기
from sklearn.datasets import load_breast_cancer
def make_dataset():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    X_train, X_test, y_train, y_test = train_test_split(df.drop('target',axis=1), df['target'], test_size=0.5, random_state=1004)
    return X_train, X_test, y_train, y_test
X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

In [7]:
# 타겟 확인
y_train.value_counts()

1    190
0     94
Name: target, dtype: int64

In [8]:
# 의사결정나무
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred) #실제값과 예측값을 넣어준다

0.9263157894736842

### 의사결정나무 하이퍼파라미터

- criterion(기본값 gini) : 불순도 측정 지표( 또는 엔트로피 불순도 entropy)

- max_depth(기본값 None) : 최대 한도 깊이(과대적합 방지)

- max_leaf_nodes(기본값 None) : 최대 리프 노드 개수(과대적합 방지)

- min_samples_split(기본값 2) : 자식 노드를 갖기 위한 최소한의 데이터 수

- min_samples_leaf(기본값 1) : 리프 노드가 되기 위한 최소 샘플 수

In [9]:


# 의사결정나무 하이퍼파라미터

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(
    criterion='entropy' ,
    max_depth=6,
    min_samples_split=2,
    min_samples_leaf=2,
    random_state=0) #max_depth를 5이상으로 설정하면 값 변경이 없다.(데이터 특성 상)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9228070175438596

2. 랜덤 포레스트

-지도학습 알고리즘(분류,회귀)

-의사결정나무의 앙상블

-여러개의 의사결정 트리로 구성

-성능이 좋음(과대적합 방지)

-부트스트랩 샘플링(데이터셋 중복 허용)

- 최종 다수결 투표

- 앙상블

  -> 배깅 : 같은 알고리즘으로 여러 모델을 만들어 분류함(랜덤포레스트)
  -> 부스팅 : 학습과 예측을 하면서 가중치 반영

![](./img_8.png)


In [10]:
# 랜덤 포레스트(Random Forest) 분류 모델 실습
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9438596491228071

### 랜덤 포레스트 하이퍼파라미터

- n_estimators(기본값 100) : 트리 개수

- criterion(기본값 gini) : 불순도 측정 지표( 또는 엔트로피 불순도 entropy)

- max_depth(기본값 None) : 최대 한도 깊이(과대적합 방지)

- min_samples_split(기본값 2) : 자식 노드를 갖기 위한 최소한의 데이터 수

- min_samples_leaf(기본값 1) : 리프 노드가 되기 위한 최소 샘플 수

- max_leaf_nodes(기본값 None) : 최대 리프 노드 개수(과대적합 방지)
- n_jobs(기본값 None) : 병렬 처리 코어 수(-1은 전체 코어 사용)
- random_state(기본값 None) : 랜덤 시드 값

In [11]:
# 랜덤 포레스트(Random Forest) 하이퍼파라미터
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=200,random_state=0, max_depth=5)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

#0.9473684210526315 max_depth=3

0.9473684210526315

3. xgboost

-eXtreme Gradient Boosting(익스트림 그레디언트 부스팅)

-부스팅(앙상블) 기반의 알고리즘

-트리 앙상블 중 성능이 좋은 알고리즘

-캐글(글로벌 AI 경진대회) 뛰어난 성능을 보이면서 인가기 높아짐

In [14]:
# XGBoost 분류 모델 실습
from xgboost import XGBClassifier
model = XGBClassifier(random_state=0, eval_metric='logloss')
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)


0.9508771929824561

### XGBoost 하이퍼파라미터

-booster(기본값 gbtree) : 부스팅 알고리즘(또는 dart, gblinear)

- objective(기본값 binary:logistic) : 목적 함수(이진 분류: 이항 로지스틱, 다중 분류: multi:softmax)

-max_depth(기본값 6) : 최대 한도 깊이

- learning_rate(기본값 0.3) : 학습률

![](./nLMzr.png)

- n_estimators(기본값 100) : 트리 개수  #learning_rate와 반비례, 러닝레이트를 낮추면 n_estimators를 높여야함

- subsample(기본값 1) : 훈련 샘플 개수의 비율

- colsample_bytree(기본값 1) : 트리 생성에 필요한 피처(열) 개수의 비율(특성 개수의 비율)

- n_jobs(기본값 None) : 병렬 처리 코어 수(-1은 전체 코어 사용)

In [24]:
# XGBoost 하이퍼파라미터
model = XGBClassifier(random_state=0,
                      eval_metric='logloss',
                      booster='gbtree',
                      objective='binary:logistic',
                      max_depth=5,
                      learning_rate=0.05,
                      n_estimators=500,
                      subsample=1,
                      colsample_bytree=1,
                      n_jobs=-1)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

#0.9614035087719298

0.9649122807017544

# 조기종료


In [25]:
model = XGBClassifier(random_state=0,
                      eval_metric='logloss',
                      learning_rate=0.05,
                      n_estimators=500)
eval_set = [(X_test, y_test)]
model.fit(X_train, y_train, eval_set=eval_set, early_stopping_rounds=10)
#early_stopping_rounds=10 : 10번의 반복동안 성능이 향상되지 않으면 학습을 종료
pred = model.predict(X_test)
accuracy_score(y_test, pred)

[0]	validation_0-logloss:0.65391
[1]	validation_0-logloss:0.61861
[2]	validation_0-logloss:0.58697
[3]	validation_0-logloss:0.55756
[4]	validation_0-logloss:0.53038
[5]	validation_0-logloss:0.50611
[6]	validation_0-logloss:0.48363
[7]	validation_0-logloss:0.46304
[8]	validation_0-logloss:0.44332
[9]	validation_0-logloss:0.42512
[10]	validation_0-logloss:0.40821
[11]	validation_0-logloss:0.39260
[12]	validation_0-logloss:0.37838
[13]	validation_0-logloss:0.36512
[14]	validation_0-logloss:0.35276
[15]	validation_0-logloss:0.34090
[16]	validation_0-logloss:0.33018
[17]	validation_0-logloss:0.31967
[18]	validation_0-logloss:0.30997
[19]	validation_0-logloss:0.30105
[20]	validation_0-logloss:0.29259
[21]	validation_0-logloss:0.28478
[22]	validation_0-logloss:0.27725
[23]	validation_0-logloss:0.27027
[24]	validation_0-logloss:0.26358
[25]	validation_0-logloss:0.25755
[26]	validation_0-logloss:0.25139
[27]	validation_0-logloss:0.24593
[28]	validation_0-logloss:0.24103
[29]	validation_0-loglos



[36]	validation_0-logloss:0.21061
[37]	validation_0-logloss:0.20800
[38]	validation_0-logloss:0.20558
[39]	validation_0-logloss:0.20268
[40]	validation_0-logloss:0.20042
[41]	validation_0-logloss:0.19771
[42]	validation_0-logloss:0.19510
[43]	validation_0-logloss:0.19354
[44]	validation_0-logloss:0.19128
[45]	validation_0-logloss:0.18976
[46]	validation_0-logloss:0.18854
[47]	validation_0-logloss:0.18668
[48]	validation_0-logloss:0.18535
[49]	validation_0-logloss:0.18346
[50]	validation_0-logloss:0.18234
[51]	validation_0-logloss:0.18057
[52]	validation_0-logloss:0.17897
[53]	validation_0-logloss:0.17815
[54]	validation_0-logloss:0.17703
[55]	validation_0-logloss:0.17564
[56]	validation_0-logloss:0.17445
[57]	validation_0-logloss:0.17335
[58]	validation_0-logloss:0.17179
[59]	validation_0-logloss:0.17106
[60]	validation_0-logloss:0.17022
[61]	validation_0-logloss:0.16983
[62]	validation_0-logloss:0.16899
[63]	validation_0-logloss:0.16851
[64]	validation_0-logloss:0.16776
[65]	validatio

0.9473684210526315

4. 교차검증
![](./img_9.png)
k를 5로 두었을때  데이터를 5개로 나누고 1개를 검증용으로 나머지 4개를 학습용으로 사용하여 5번 반복

첫번째는 5번 데이터 두번째는 4번째 데이터....이런식으로 해서 각각 모든 데이터를 훈련용으로도 쓰고 검증용으로도 써서 평균을 내서 교차 검증을 통해 모델 성능을 확인

In [None]:
#KFold 교차검증
# 일반적으로 많이 쓰는 검증 방법