## 지도학습(분류)

1. 의사 결정 나무

-지도학습 알고리즘(분류, 회귀)

-직관적인 알고리즘(이해 쉬움)

-과대적합(overfitting)이 발생하기 쉬운 알고리즘(트리 깊이 제한 필요)

-정보이득(information gain)이 최대가 되는 특성을 나누는 기준(불순도를 측정하는 기준)은 '지니'와 '엔트로피'가 사용됨

-데이터가 한 종류만 있다면 엔트로피/지니 불순도는 0에 가까움. 서로 다른 데이터의 비율에 비슷하면 1에 가까움

-정보이득(information gain)이 최대(1-불순도)가 되는 특성을 기준으로 데이터를 나눔

![](./img_7.png)



In [1]:
# 의사 결정 나무(Decision Tree) 분류 모델 실습

# 라이브러리 불러오기
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# 데이터 불러오기
from sklearn.datasets import load_breast_cancer
def make_dataset():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    X_train, X_test, y_train, y_test = train_test_split(df.drop('target',axis=1), df['target'], test_size=0.5, random_state=1004)
    return X_train, X_test, y_train, y_test
X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

In [3]:
# 타겟 확인
y_train.value_counts()

1    190
0     94
Name: target, dtype: int64

In [6]:
# 의사결정나무
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred) #실제값과 예측값을 넣어준다

0.9263157894736842

### 의사결정나무 하이퍼파라미터

- criterion(기본값 gini) : 불순도 측정 지표( 또는 엔트로피 불순도 entropy)

- max_depth(기본값 None) : 최대 한도 깊이(과대적합 방지)

- max_leaf_nodes(기본값 None) : 최대 리프 노드 개수(과대적합 방지)

- min_samples_split(기본값 2) : 자식 노드를 갖기 위한 최소한의 데이터 수

- min_samples_leaf(기본값 1) : 리프 노드가 되기 위한 최소 샘플 수

In [14]:
# 의사결정나무 하이퍼파라미터
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(
    criterion='entropy' ,
    max_depth=6,
    min_samples_split=2,
    min_samples_leaf=2,
    random_state=0) #max_depth를 5이상으로 설정하면 값 변경이 없다.(데이터 특성 상)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9228070175438596