In [None]:
# 주피터 노트북 환경설정
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

from IPython.display import Image

from IPython.core.display import display, HTML
# display(HTML("<style>.container { font-weight: bold !important; font-family:'Malgun Gothic' !important;}</style>"))
display(HTML("<style>.container { font-weight: bold !important;}</style>"))
display(HTML("<style>.container { width: 98% !important; }</style>"))

In [None]:
import numpy as np
import pandas as pd
import os

import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# 관련 라이브러리 임포트 
import matplotlib.font_manager as fm

#  한글글꼴로 변경
# plt.rcParams['font.family'] = '한글글꼴명'
plt.rcParams['font.size'] = 11.0
# plt.rcParams['font.family'] = 'batang'
plt.rcParams['font.family'] = 'Malgun Gothic'

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
matplotlib.rcParams['axes.unicode_minus'] = False

# 그래프 기본 크기 설정 
# plt.rcParams['figure.figsize'] = [10, 6]

# 분류(Classfication)

- 학습데이터로 주어진 데이터의 피처와 레이블값(결정값, 클래스값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터값이 주어졌을 때 미지의 값을 예측한다.


    - K Nearest Neighbor : 근접 거리를 기준으로 하는 최소 근접 알고리즘 
    - Ensemble : 서로 다른 또는 같은 머신러닝 알고리즘을 결합하는 알고리즘 
    - Logistic Regression : 독립변수와 종속변수의 선형 관계성에 기반
    - SVM(support Vector Machine) : 개별 클래스간의 최대 분류 마진이용 
    - Decision Tree :  트리기반 분류 규칙의 알고리즘 

# 결정트리 

- 스무고개 형태로 질문을 하나씩 던져서 정답을 맞추어 나간다. 
- sklearn의 DecisionTreeClassifier 클래스에서 제공
- 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만든다. (If-Else 기반 규칙)
- 쉽고 직관적이다. 데이타의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적다. 
- 단점은 과적합으로 알고리즘 성능이 떨어진다. 이를 극복하기 위해 트리의  크기를 사전에 제한하는 튜닝이 필요하다. 
- GBM, XGBoodt, LightGBM과 같은 앙상블 학습기의 기반이 된다.

<img src='https://upload.wikimedia.org/wikipedia/commons/f/fe/CART_tree_titanic_survivors_KOR.png' width="50%">

## 결정트리에 사용되는 Terms

- 결정트리 알고리즘 원리 
    - 결정트리는 부모노드와 자식노드의 불순도 차이가 가능한 크도록 트리를 성장시킨다. 
    - 불순도 기준을 사용해 정보 이득이 최대가 되도록 노드를 분할한다. 


- 불순도(impurity)
    - 결정트리가 최적의 질문을 찾기 위한 기준. 
    - 노드에서 데이터를 분할하는 기준을 정한다. 
    - 불순도 기준으로 criterion 파라미터를 사용하며 gini, entropy 가 있다. 
    - 기본값은 gini 
    - criterion : {"gini", "entropy"}, default="gini"


- 지니 불순도 
    - 경제학 용어 코라도 지니의 이름에서 딴 지니계수에서 유래 
    - 다양성을 계산하는 방법
    - 데이타의 불평등이 높을수록 1에 가깝다.
    - 1 - (음성클래스비율의제곱 + 양성클래스비율의제곱)
    - 지니불순도가 0이면 순수 노드라고 한다. 
    - 0이 가장 평등. 1로 갈수록 불평등.

    
    
- 엔트로피 불순도 
     - 지니 불순도와 같이 노드의 클래스 비율을 사용하지만 제곱이 아닌 밑이 2인 로그를 사용하여 곱한다. 


- 정보 이득(Information Gain) 
    - 부모와 자식 노드사이의 불순도 차이 
    - 엔트로피 개념 기반. 엔트로피는 주어진 데이터 집합의 혼합도
    - 정보이득 지수는 1-엔트로피지수 
  

#### 결정트리 구성 
- 루트노드 
- 규칙노드 : 규칙조건 
- 리프 노드 : 결정된 분류값 





## 결정트리 주요 하이퍼파라미터 

max_depth 
- 트리의 최대 깊이. 

max_features
- 최적의 분할을 위해 고려할 최대 피처 갯수 

min_samples_split 
- 노드를 분할하기 위한 최소한의 샘플 데이터수. 디폴트는 2이고 작게 설정할 수록 분할되는 노드가 많아져 과적합 가능성이 증가한다. 

min_samples_leaf
- 말단노드(Leaf)가 되기위한 최소한의 샘플 데이터 수 

max_leaf_nodes 
- 말단 노드의 최대 개수 


## Fature 선택 중요도 
- DecisionClassifier 객체의 feature_importances_


# 결정 트리 모델의 시각화

- 붓꽃 데이타셋 이용 
- plot_tree => 시각화 

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [None]:
iris_data = load_iris()
print(iris_data.data.shape)
X_train , X_test , y_train , y_test = train_test_split(iris_data.data, iris_data.target,
                                                       test_size=0.3,  random_state=11, stratify=iris_data.target)

model_dt = DecisionTreeClassifier(random_state=11)

model_dt.fit(X_train , y_train)

### plot_tree

- graphviz 보다 편리 
- 결정트리 모델를 트리 형태로 표시 
- sklearn.tree 에서 지원 

plot_tree(모델명)

In [None]:
from sklearn.tree import plot_tree

In [None]:
plt.figure(figsize=(10,7))

plot_tree(model_dt)

plt.savefig('output/iris_tree1.png')
plt.show()

In [None]:
# ls output\*.png

In [None]:
from IPython.display import Image

Image(filename = 'output//iris_tree1.png')

### 세부 속성 제어 
- plot_tree(모델명, max_depth=n, filled=True, feature_names=컬럼명리스트)
- max_depth 트리의 깊이
- filled=True 클래스에 맞게 색상화 
- feature_names = 리스트 매개변수에 특성의 이름을 전달
- class_names = 리스트. 타겟 클래스

In [None]:
# 라벨명
iris_data.target_names

In [None]:
# 컬럼명
iris_data.feature_names

In [None]:
plt.figure(figsize=(10,7))

plot_tree(model_dt, max_depth=1, filled=True, feature_names=iris_data.feature_names)
plt.savefig('output/iris_tree2.png')
plt.show()

In [None]:
df_iris = pd.DataFrame(data=iris_data.data, columns=iris_data.feature_names)
df_iris['label'] = iris_data.target
df_iris.head()

In [None]:
X_train_df = pd.DataFrame(data=X_train, columns=iris_data.feature_names) 
X_train_df['label'] = y_train
X_train_df.head()

In [None]:
plt.figure(figsize=(10,7))
sns.scatterplot(x='petal length (cm)', y='petal width (cm)', hue='label', data=X_train_df);

In [None]:
plt.figure(figsize=(10,7))
sns.scatterplot(x='sepal length (cm)', y='sepal width (cm)', hue='label', data=X_train_df);

### 가지치기

- 결정트리의 하이퍼파라미터를 지정하여 트리를 제한한다. 
- 시간 단축 및 과적합 방지 

In [None]:
plt.figure(figsize=(20,14))
plot_tree(model_dt, max_depth=3, filled=True, feature_names=iris_data.feature_names)
plt.savefig('output/iris_tree3.png')
plt.show()

### 중요 속성

- feature_importances_

In [None]:
model_dt.feature_importances_

In [None]:
for name, value in zip(iris_data.feature_names , model_dt.feature_importances_):
    print('{0} : {1:.3f}'.format(name, value))

In [None]:
sns.barplot(x=model_dt.feature_importances_ , y=iris_data.feature_names)

In [None]:
from sklearn.metrics import classification_report

In [None]:
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test , model_dt.predict(X_test)))
print(accuracy_score(y_train , model_dt.predict(X_train)))

In [None]:
print(classification_report(y_test, model_dt.predict(X_test)))

In [None]:
model_dt.get_params()

### 그리드서치 적용 

In [None]:
from sklearn.model_selection import GridSearchCV

params = {
    'max_depth' : [ 4, 6, 8 ,10, 12, 16 ,20, 24]
}


grid_cv = GridSearchCV(model_dt, param_grid=params, scoring='accuracy', cv=5, verbose=1 )
grid_cv.fit(X_train , y_train)

print('GridSearchCV 최고 평균 정확도 수치:{0:.4f}'.format(grid_cv.best_score_))
print('GridSearchCV 최적 하이퍼 파라미터:', grid_cv.best_params_)


In [None]:
model_dt2 = DecisionTreeClassifier(max_depth=6)
model_dt2.fit(X_train , y_train)

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, model_dt2.predict(X_test)))

In [None]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, model_dt2.predict(X_test))

In [None]:
plt.figure(figsize=(20,14))
plot_tree(model_dt2, max_depth=8, filled=True, feature_names=iris_data.feature_names)
plt.savefig('output/iris_tree5.png')
plt.show()

In [None]:
print(dir(grid_cv))

In [None]:
max_depths = [ 4, 6, 8 ,10, 12, 16 ,20, 24]

for depth in max_depths:
    dt_clf = DecisionTreeClassifier(max_depth=depth, random_state=156)
    dt_clf.fit(X_train , y_train)
    pred = dt_clf.predict(X_test)
    accuracy = accuracy_score(y_test , pred)
    print('max_depth = {0} 정확도: {1:.4f}'.format(depth , accuracy))

In [None]:
params = {
    'max_depth' : [ 8 , 12, 16 ,20], 
    'min_samples_split' : [16,24],
}

grid_cv = GridSearchCV(dt_clf, param_grid=params, scoring='accuracy', cv=5, verbose=1 )
grid_cv.fit(X_train , y_train)
print('GridSearchCV 최고 평균 정확도 수치: {0:.4f}'.format(grid_cv.best_score_))
print('GridSearchCV 최적 하이퍼 파라미터:', grid_cv.best_params_)


In [None]:
best_df_clf = grid_cv.best_estimator_

pred1 = best_df_clf.predict(X_test)
accuracy = accuracy_score(y_test , pred1)
print('결정 트리 예측 정확도:{0:.4f}'.format(accuracy))