### 의사결정나무(DT)
- IF-ELSE 방식의 질문에 대한 답변으로 문제를 해결하는 알고리즘
- 피쳐(특성)중에서 선택한 기준으로 데이터 분할
    * 엔트로피 (불순정도) => 낮아지는 방향
    * 정보이득 : 1-엔트로피 => 높아지는 방향
    * 지니계수 : 불평등수치값 => 낮아지는 방향
- 단점 : 과대적합이 될 가능성 높음! 성능이 좋지 않음
- 장점 : 전처리 영향을 받지 않음 / 직관성이 높음 / 피쳐들 중 주요 피쳐 확인 가능
- 주의
    * 여기서의 주요 피쳐는 데이터 분할을 위한 주요 피쳐
    * 100% 데이터의 주요 피쳐가 아닐 수도 있음 => 다른 검사(상관계수, 시각화 등등)와 함께 평가

[1] 모듈 로딩 및 데이터 준비 <hr>

In [101]:
# 모듈 로딩
import pandas as pd

In [102]:
irisDF=pd.read_csv('../data/iris.csv')
irisDF

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


[2] 학습용 데이터셋 준비 <hr>

[2-1] 피쳐와 타겟 분리

In [103]:
feature=irisDF[irisDF.columns[:4]]
target=irisDF[irisDF.columns[4]]

[2-2] 훈련용과 테스트용 데이터셋 분리

In [104]:
from sklearn.model_selection import train_test_split

In [105]:
X_train, X_test, y_train, y_test = train_test_split(feature,
                                                   target,
                                                   test_size=0.2,
                                                   stratify=target)

[3] 기계학습 진행 <hr>
- 타겟 데이터 확인 결과 : 3개의 분류
- 학습 유형 : 지도학습 + 분류
    * 분류 알고리즘 => KNN, LogisticRegression, SVM-SVC, DecisionTree

[3-1] 의사결정 알고리즈으로 분류

In [106]:
from sklearn.tree import DecisionTreeClassifier

In [107]:
# 인스턴스 생성 및 학습
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

In [108]:
# 생성된 모델 구조 시각화
from sklearn.tree import export_graphviz

In [109]:
model.classes_

array(['Setosa', 'Versicolor', 'Virginica'], dtype=object)

In [110]:
# DT 모델의 시각화 정보를 dot언어로 작성해서 파일로 저장 
print(export_graphviz(model, 'iris_dt_model.dot', filled=True, max_depth=2))

None


In [111]:
# dot 언어로 작성된 내용을 시각화 해주는 모듈
import graphviz as gz

In [112]:
#gz.Source.from_file('./iris_dt_model.dot')

[4] 모델 평가<hr>

In [113]:
train_score = model.score(X_train, y_train)
test_score = model.score(X_test, y_test)

print(f'[Train] {train_score}, [Test] {test_score}')

[Train] 1.0, [Test] 1.0


[5] 문제 해결 및 성능 향상 즉, 튜닝 <hr>
- 원인 예상
    * 데이터셋 부족 => cv
    * DT의 여러가지 하이퍼파라미터 기본값으로만 사용 => 다양한 값 조절
- 해결 방법
    * 2개의 원인을 한꺼번에 해결하기 위해서 GridSearchCV

In [114]:
# 모듈 로딩
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

In [115]:
# 모델 조합 조건
# cv => 기본 5, ...
# DT의 하이퍼파라미터 => max_depth, ..
dt_model = DecisionTreeClassifier()
n_cv = 5
prams = {
    'criterion' : ['gini', 'entropy', 'log_loss'],
    'max_depth' : [5,10,15],
    'min_samples_split':[2,4,6]
    }

# 하이퍼파라미터 조합된 모델 생성 후 교착검증 데이터셋으로 학습
# 진행해주는 인스턴스
gs=GridSearchCV(dt_model, param_grid=prams, cv=n_cv)

In [116]:
# 조합된 모델들의 학습 진행
result = gs.fit(X_train, y_train)

In [117]:
# 결과확인
result

In [118]:
# 학습 후 저장된 모델 파라미터 확인
# 교차학습 결과 => 조합된 모델의 갯수 만큼
cv_resultsDF = pd.DataFrame(gs.cv_results_)
cv_resultsDF

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_criterion,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.002317,0.002913,0.002332,0.003169,gini,5,2,"{'criterion': 'gini', 'max_depth': 5, 'min_sam...",0.958333,0.875,1.0,0.916667,0.958333,0.941667,0.042492,18
1,0.0,0.0,0.0,0.0,gini,5,4,"{'criterion': 'gini', 'max_depth': 5, 'min_sam...",0.958333,0.875,1.0,0.916667,0.958333,0.941667,0.042492,18
2,0.002662,0.005324,0.001422,0.002843,gini,5,6,"{'criterion': 'gini', 'max_depth': 5, 'min_sam...",1.0,0.875,1.0,0.916667,0.958333,0.95,0.048591,3
3,0.000312,0.000623,0.001616,0.003233,gini,10,2,"{'criterion': 'gini', 'max_depth': 10, 'min_sa...",0.958333,0.875,1.0,0.916667,0.958333,0.941667,0.042492,18
4,0.001323,0.002647,0.0,0.0,gini,10,4,"{'criterion': 'gini', 'max_depth': 10, 'min_sa...",0.958333,0.875,1.0,0.916667,0.958333,0.941667,0.042492,18
5,0.003252,0.003983,0.0,0.0,gini,10,6,"{'criterion': 'gini', 'max_depth': 10, 'min_sa...",1.0,0.875,1.0,0.916667,0.958333,0.95,0.048591,3
6,0.0,0.0,0.0,0.0,gini,15,2,"{'criterion': 'gini', 'max_depth': 15, 'min_sa...",0.958333,0.875,1.0,0.916667,0.958333,0.941667,0.042492,18
7,0.0,0.0,0.0,0.0,gini,15,4,"{'criterion': 'gini', 'max_depth': 15, 'min_sa...",0.958333,0.875,1.0,0.916667,0.958333,0.941667,0.042492,18
8,0.003125,0.00625,0.0,0.0,gini,15,6,"{'criterion': 'gini', 'max_depth': 15, 'min_sa...",1.0,0.875,1.0,0.916667,0.958333,0.95,0.048591,3
9,0.0,0.0,0.0,0.0,entropy,5,2,"{'criterion': 'entropy', 'max_depth': 5, 'min_...",0.958333,0.875,0.958333,0.916667,0.958333,0.933333,0.033333,27


In [119]:
# 조합된 모델 중 최고의 성능을 내는 하이퍼파라미터 값
gs.best_params_

{'criterion': 'entropy', 'max_depth': 10, 'min_samples_split': 2}

In [120]:
# 조합된 모델 중 최고의 성능을 내는 모델 인스턴스
my_best_model = gs.best_estimator_

In [121]:
# 조합된 모델 중 최고의 점수
gs.best_score_

0.9583333333333333

[6] 학습 및 튜닝 후 모델 저장 <hr>
- 다른 파일에서 활용이 가능한 파일 형태로 저장
- 웹/앱 원하는 곳에서 활용 가능
- scikit-learn에서는 pickle 포맷으로 저장
- joblib 모듈에 해당 기능 포함되어 있음

In [122]:
import joblib
import os

In [123]:
# 모델 저장
model_dir='../model/'
model_filename = model_dir+'iris_dt.pkl'

# 저장 폴더 존재여부 확인 후 저장
if not os.path.exists(model_dir):
    os.mkdir(model_dir)


In [124]:
# 모델 파일을 지정된 경로에 저장
joblib.dump(my_best_model, model_filename)

['../model/iris_dt.pkl']