<a href="https://colab.research.google.com/github/LanguageExchanger/MachineLEarning/blob/main/Classification_Models.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터셋 분리

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# 데이터 생성
from sklearn.datasets import load_breast_cancer

def make_dataset():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    X_train, X_test, y_train, y_test = train_test_split(
        df.drop('target', axis=1), df['target'], test_size=0.5, random_state=1004)
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

# DecisionTree

- `criterion`: 불순도 지표 (또는 엔트로피 불순도 entropy), 기본값 = gini
- `max_depth` : 최대 한도 깊이,  기본값 = None
- `min_samples_split`  : 자식 노드를 갖기 위한 최소한의 데이터 수, 기본값 = 2
- `min_samples_leaf` : 리프 노드가 되기 위한 최소 샘플 수,  기본값  = 1



In [3]:
# 의사결정나무 하이퍼파라미터
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(
    criterion = 'entropy',
    max_depth = 1000,
    min_samples_split = 2,
    min_samples_leaf=2,
    random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9228070175438596

# Random Forest

- `n_estimators`: 트리의 수,  기본값 = 100
- `criterion`: 불순도 지표, 기본값 = gini
- `max_depth` : 최대 한도 깊이, 기본값 = None
- `min_samples_split`  : 자식 노드를 갖기 위한 최소한의 데이터 수, 기본값 = 2
- `min_samples_leaf`  : 리프 노드가 되기 위한 최소 샘플 수, 기본값  = 1

In [5]:
# 랜덤포레스트 하이퍼파라미터
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=500, max_depth=5, random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9473684210526315

# xgboost

- `booster` : 부스팅 알고리즘 (또는 dart, gblinear),  기본값 = gbtree
- `objective` : 이진분류 (다중분류: multi:softmax), 기본값 = binary : logistic
- `max_depth`  : 최대 한도 깊이, 기본값 = 6
- `learning_rate`  : 학습률, 기본값 = 0.1
- `n_estimators`  : 트리의 수, 기본값 = 100
- `subsample`  : 훈련 샘플 개수의 비율, 기본값 = 1
- `colsample_bytree`  : 특성 개수의 비율, 기본값  = 1
- `n_jobs`  : 사용 코어 수 (-1: 모든 코어를 다 사용), 기본값 = 1

In [7]:
# xgboost 하이퍼파라미터
from xgboost import XGBClassifier
model = XGBClassifier(random_state=0, use_label_encoder=False, eval_metric='logloss',
                      booster = 'gbtree',
                      objective = 'binary:logistic',
                      max_depth = 5,
                      learning_rate = 0.05,
                      n_estimators = 500,
                      subsample = 1,
                      colsample_bytree = 1,
                      n_jobs = -1
                     )
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

Parameters: { "use_label_encoder" } are not used.



0.9649122807017544