# 3-2 의사결정나무

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# 데이터 생성
from sklearn.datasets import load_breast_cancer

def make_dataset():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    X_train, X_test, y_train, y_test = train_test_split(
        df.drop('target', axis=1), df['target'], test_size=0.5, random_state=1004)
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

## 의사결정 나무


* 지도학습(분류) 기법
* 트리의 루트(root)에서 시작, 정보이득(information gain)이 최대가 되는 특성으로 데이터를 나눔
* 데이터 특성을 나누는 기준(불순도를 측정하는 기준)은 '지니'와 '엔트로피'
* 데이터가 한 종류만 있다면 엔트로피/지니 불순도는 0에 가깝고, 서로 다른 데이터의 비율이 비슷하면 1에 가까움
* 정보이득(information gain)이 최대라는 것은 불순도를 최소화 하는 것 (1-불순도)

In [6]:
#의사결정나무
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state = 0) # random_state 필수 지정

# 학습
model.fit(X_train , y_train)

# 예측
pred = model.predict(X_test)

# 평가
accuracy_score(y_test, pred)

0.9263157894736842

## 의사결정나무 하이퍼 파라미터

DecisionTreeClassifier 에는 아래와 같은 하이퍼 파라미터들이 속해 있음.

* criterion (기본값 gini) : 불순도 지표 (또는 엔트로피 불순도 entropy)
* <span style="background-color:#fff5b1">max_depth (기본값 None)</span> : 최대 한도 깊이. <u>주로 튜닝하게 되는 값</u>. 깊이의 제한은 사실 없으나 ... 자유롭게 사용 할 경우 오버피팅 되는 경우가 많음.
* min_samples_split (기본값 2) : 자식 노드를 갖기 위한 최소한의 데이터 수
* min_samples_leaf (기본값 1) : 리프 노드가 되기 위한 최소 샘플 수

In [15]:
#의사결정나무 하이퍼 파라미터

from sklearn.tree import DecisionTreeClassifier

# random_state 필수 지정, 
model = DecisionTreeClassifier(
    random_state = 0
    , max_depth =7 
    , min_samples_split = 3
    , min_samples_leaf=2
    , criterion = 'entropy')

# max_depth 제한 걸어보기 : 3 , 평가 점수 낮아짐
# max_depth 제한 걸어보기 : 5 , 0.9263157894736842 위 결과와 동일
# max_depth 제한 걸어보기 : 6 , 0.9263157894736842 위 결과와 동일
# max_depth 제한 걸어보기 : 7 , 0.9263157894736842 위 결과와 동일

# 데이터 크기가 크지 않아서 5 이상의 결과가 같게 나옴

# min_samples_leaf : 2 값 약간 떨어짐. 


#### 이런식으로 각 파라미터 변경해 가며 결과값을 찾는 것.

# 학습
model.fit(X_train , y_train)

# 예측
pred = model.predict(X_test)

# 평가
accuracy_score(y_test, pred)

0.9228070175438596