# Decision Tree 학습모델

<img src='https://user-images.githubusercontent.com/127171630/226094024-8fe71023-3196-43b6-b982-170a121ebdad.png' />

* Decision Tree 모델은 __분류__ 와 __회귀__ 모두 가능한 __지도학습__ 모델
* 변수 X를 넣어주면 모델이 알아서 조건과 결과값을 학습함.
* 위 모델은 Root Node(첫 번째 분류 기준)로부터 질문에 대한 Y/N에 따라 가지를 뻗쳐나감.
* __Root Node__ 다음부터 나오는 분류기준은 __Decision Node__ , 그에 따른 최종 결과값은 __Leaf Node__ 라고 함.

## <font color=red>장점</font>

1. 전처리 과정이 복잡하지 않음
2. multi-output을 갖는 데이터를 핸들링하기에 용이
3. 결과 해석이 용이

## <font color=red>단점</font>

1. max_depth가 너무 크면 과적합(overfitting) 문제 발생
2. max_depth가 너무 작으면 과소적합 문제 발생
3. 아주 작은 variation으로도 불안정해질 수 있음
4. 특정 class 가 dominant 하다면 편향 문제 발생
5. 변수들이 independent하지 않은 경우 multi-output 문제 발생

## <font color=red>학습 메커니즘</font>

__불순도(impurity)__ 는 해당 범주 안에 서로 다른 데이터가 얼마나 섞여 있는지를 나타냄
__엔트로피(Entropy)__ 는 불순도를 수치로 나타낸 것 (__엔트로피가 높다 = 불순도가 높다__)

해당 모델은 불순도를 최소화 하는 방법으로 학습된다

In [2]:
import sklearn
from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt
import pandas as pd

# Decision Tree 학습 모델 로드
from sklearn.tree import DecisionTreeClassifier

In [3]:
# 평가지표 모듈 로드
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score, roc_auc_score, precision_score, recall_score, f1_score

def evaluate_classifier(y_test, y_pred, roc = False):
    
    print(f"Accuracy: {accuracy_score(y_test, y_pred): .4f}")
    print(f"Precision: {precision_score(y_test, y_pred, average = 'macro'): .4f}")
    print(f"Recall: {recall_score(y_test, y_pred, average = 'macro'): .4f}")
    print(f"F_SCORE: {f1_score(y_test, y_pred, average = 'macro'): .4f}")
    if roc:
        print(f"ROC_AUC: {roc_auc_score(y_test, y_pred, average = 'macro', multi_class = 'ovr'): .4f}")
    print(classification_report(y_test, y_pred))

## 데이터셋_digits

In [4]:
from sklearn.datasets import load_digits
digits = load_digits() 
digits_data = digits.data
digits_label = digits.target

In [5]:
import pandas as pd

X_train, X_test, y_train, y_test = train_test_split(digits_data, digits_label, test_size=0.2, random_state = 15)

In [6]:
decision_tree = DecisionTreeClassifier(criterion='gini', max_depth=4, random_state=15)

In [7]:
decision_tree.fit(X_train, y_train)
y_pred1 = decision_tree.predict(X_test)
evaluate_classifier(y_test, y_pred1)

Accuracy:  0.5639
Precision:  0.5733
Recall:  0.5828
F_SCORE:  0.5276
              precision    recall  f1-score   support

           0       0.93      0.90      0.92        31
           1       0.35      0.18      0.24        38
           2       0.00      0.00      0.00        38
           3       0.18      0.89      0.30        27
           4       0.70      0.93      0.80        41
           5       0.91      0.89      0.90        35
           6       0.89      0.84      0.86        38
           7       0.76      0.94      0.84        34
           8       0.00      0.00      0.00        35
           9       1.00      0.26      0.41        43

    accuracy                           0.56       360
   macro avg       0.57      0.58      0.53       360
weighted avg       0.59      0.56      0.53       360



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


* 전체적인 평가지표 수치가 많이 낮음

In [8]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred1)

array([[28,  0,  0,  2,  1,  0,  0,  0,  0,  0],
       [ 0,  7,  0, 20,  8,  0,  0,  3,  0,  0],
       [ 0, 10,  0, 22,  0,  0,  4,  2,  0,  0],
       [ 0,  2,  0, 24,  0,  0,  0,  1,  0,  0],
       [ 0,  0,  0,  0, 38,  1,  0,  2,  0,  0],
       [ 1,  0,  1,  0,  1, 31,  0,  1,  0,  0],
       [ 0,  1,  0,  1,  3,  1, 32,  0,  0,  0],
       [ 0,  0,  0,  1,  1,  0,  0, 32,  0,  0],
       [ 1,  0,  0, 32,  0,  1,  0,  1,  0,  0],
       [ 0,  0,  1, 29,  2,  0,  0,  0,  0, 11]], dtype=int64)

* max_depth를 줄이니 leaf node가 네번째에 생성이 됨. 이때, max_depth=default (가지수 12) 로 했을 때 보다 뻗어나간 가지개수가 현저히 적기 때문에 분류가 잘 수행되지 않은 것으로 보임.
* max_depth를 30으로 늘려보면?

In [9]:
decision_tree = DecisionTreeClassifier(criterion='gini', max_depth=30, random_state=15)

In [10]:
decision_tree.fit(X_train, y_train)
y_pred2 = decision_tree.predict(X_test)
evaluate_classifier(y_test, y_pred2)

Accuracy:  0.8444
Precision:  0.8482
Recall:  0.8451
F_SCORE:  0.8450
              precision    recall  f1-score   support

           0       1.00      0.90      0.95        31
           1       0.84      0.82      0.83        38
           2       0.73      0.87      0.80        38
           3       0.71      0.74      0.73        27
           4       0.94      0.80      0.87        41
           5       0.87      0.94      0.90        35
           6       0.87      0.89      0.88        38
           7       0.91      0.94      0.93        34
           8       0.79      0.77      0.78        35
           9       0.80      0.77      0.79        43

    accuracy                           0.84       360
   macro avg       0.85      0.85      0.84       360
weighted avg       0.85      0.84      0.85       360



In [11]:
confusion_matrix(y_test, y_pred2)

array([[28,  0,  1,  0,  0,  0,  0,  0,  2,  0],
       [ 0, 31,  2,  2,  1,  0,  1,  0,  1,  0],
       [ 0,  0, 33,  1,  0,  1,  0,  0,  2,  1],
       [ 0,  1,  1, 20,  0,  1,  1,  0,  1,  2],
       [ 0,  0,  0,  1, 33,  0,  3,  2,  0,  2],
       [ 0,  0,  1,  0,  0, 33,  0,  1,  0,  0],
       [ 0,  1,  2,  0,  1,  0, 34,  0,  0,  0],
       [ 0,  0,  0,  1,  0,  0,  0, 32,  0,  1],
       [ 0,  1,  3,  1,  0,  1,  0,  0, 27,  2],
       [ 0,  3,  2,  2,  0,  2,  0,  0,  1, 33]], dtype=int64)

* Max_depth를 2배 이상 높였을 때 평가지표가 전체적으로 아주 미미하게 향상된 것으로 보아 이미 default로 돌린 max_depth이후로는 분류성능이 saturation된 듯 하다.
* 분류 기준을 default인 gini에서 entropy로 바꿔보면?

In [12]:
decision_tree = DecisionTreeClassifier(criterion='entropy', max_depth=30, random_state=15)

In [13]:
decision_tree.fit(X_train, y_train)
y_pred3 = decision_tree.predict(X_test)
evaluate_classifier(y_test, y_pred3)

Accuracy:  0.8444
Precision:  0.8472
Recall:  0.8432
F_SCORE:  0.8440
              precision    recall  f1-score   support

           0       0.97      0.90      0.93        31
           1       0.86      0.79      0.82        38
           2       0.87      0.89      0.88        38
           3       0.81      0.78      0.79        27
           4       0.89      0.80      0.85        41
           5       0.81      0.83      0.82        35
           6       0.92      0.92      0.92        38
           7       0.80      0.82      0.81        34
           8       0.69      0.83      0.75        35
           9       0.86      0.86      0.86        43

    accuracy                           0.84       360
   macro avg       0.85      0.84      0.84       360
weighted avg       0.85      0.84      0.85       360



In [15]:
confusion_matrix(y_test, y_pred3)

array([[28,  0,  0,  0,  1,  0,  1,  0,  1,  0],
       [ 0, 30,  0,  0,  0,  1,  0,  2,  3,  2],
       [ 0,  1, 34,  1,  0,  1,  0,  0,  1,  0],
       [ 0,  1,  0, 21,  0,  0,  0,  0,  3,  2],
       [ 0,  1,  0,  0, 33,  1,  0,  3,  3,  0],
       [ 0,  0,  1,  1,  1, 29,  2,  1,  0,  0],
       [ 1,  0,  1,  0,  0,  1, 35,  0,  0,  0],
       [ 0,  0,  2,  3,  0,  1,  0, 28,  0,  0],
       [ 0,  1,  1,  0,  2,  0,  0,  0, 29,  2],
       [ 0,  1,  0,  0,  0,  2,  0,  1,  2, 37]], dtype=int64)

* 분류기준을 gini impurity에서 entropy로 바꿔도 큰 차이가 없음


# 회고

* 의사결정 모델은(random forest 포함) impurity(혹은 entropy)가 0이 될 경우, 즉, 분류한 클래스에 다른 클래스의 요소가 포함되어있지 않다고 판단되면 학습은 끝이난다.
<br>
<br>
* 궁금증
    * 의사결정 모델이 digits 분류를 잘 못하는 이유는 뭘까.
        1. 특정 클래스가 dominant해서 편향된 것은 아님 (데이터 10개 차이남)
        2. max_depth가 작아서 과소적합이 일어난것도 아님. 이미 saturation됨을 위에서 확인.
        3. training data수가 부족했거나, 분류해야 할 클래스 개수가 너무 많아서?
        4. 단순히 해당 모델이 적합하지 않아서? 그렇다면 왜 적합하지 않은건지?
    * 하나의 데이터셋으로 여러가지 모델을 학습시킨 후, 단순히 평가지표 수치가 높으면 적합한 모델, 그렇지 찮으면 부적합한 모델이라 여기고 넘어가는게 모델을 학습하고 평가할 때 일반적인 과정인가?
    * 왜 해당 모델이 적합하고, 적합하지 않은지 분석하는 방법이 있나?
    * 이미지 데이터를 보면 분류하기 어려울만 하게 생겼는데, 이미지를 전처리 하는 방식은 뭐가 있는지?