# 의사결정나무 실습

##### 
---

#####  8.7.5 wine 데이터를 활용하여 wine 종류를 구분하는 실습

# Dataset import
## 데이터 불러오기

In [1]:
import pandas as pd
import numpy as np

from sklearn import datasets
raw_wine = datasets.load_wine()

In [2]:
# 데이터 셋 내 피처 살펴보기
raw_wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [3]:
raw_wine.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

# 피처, 타깃 데이터 지정

In [4]:
X = raw_wine.data
y = raw_wine.target

## 트레이닝, 테스트 데이터 분할

In [5]:
from sklearn.model_selection import train_test_split
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state = 1)

## 데이터 표준화

In [6]:
from sklearn.preprocessing import StandardScaler

std_scale = StandardScaler()
std_scale.fit(X_tn)                                 # X 트레이닝 데이터 기준으로 std scaler fitting, Xtn Xte모두.
X_tn_std = std_scale.transform(X_tn)
X_te_std = std_scale.transform(X_te)

# 의사결정나무 분류모델


## 모델링
### 데이터 학습

In [7]:
from sklearn import tree                            # Tree 모형 import
clf_tree = tree.DecisionTreeClassifier(random_state = 0)
clf_tree.fit(X_tn_std, y_tn)

DecisionTreeClassifier(random_state=0)

### 데이터 예측

In [8]:
tree_pred = clf_tree.predict(X_te_std)
print(tree_pred)

[2 1 0 1 0 2 1 0 2 1 0 0 1 0 1 1 2 0 1 0 0 1 2 1 0 2 0 0 0 2 1 2 2 0 1 1 2
 0 1 0 0 1 2 0 0]


## 정확도 평가

f1 스코어를 확인해본다.

In [9]:
from sklearn.metrics import f1_score

f1 = f1_score(y_te, tree_pred, average = 'macro')
f1

0.9542846417846418

다른 것들도 확인해볼까.

In [10]:
from sklearn.metrics import recall_score

recall = recall_score(y_te, tree_pred, average = 'macro')
recall

0.9607843137254902

In [11]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_te, tree_pred)
accuracy

0.9555555555555556

틀린게 몇가지 있는 것으로 보인다.

### confusion matrix 확인

confusion matrix를 통해 예측값과 실제값의 일치 정도를 확인해본다.

In [12]:
from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_te, tree_pred)
conf_matrix

array([[18,  0,  0],
       [ 1, 15,  1],
       [ 0,  0, 10]])

### 분류 리포트 확인


In [13]:
from sklearn.metrics import classification_report

class_rep = classification_report(y_te, tree_pred)
print(class_rep)

              precision    recall  f1-score   support

           0       0.95      1.00      0.97        18
           1       1.00      0.88      0.94        17
           2       0.91      1.00      0.95        10

    accuracy                           0.96        45
   macro avg       0.95      0.96      0.95        45
weighted avg       0.96      0.96      0.95        45



# 맥스뎁스를 정해주고 만든 모형

이번엔 임의로 트리의 맥스 깊이를 정해주고 만들어본다. 

### 데이터 학습

In [14]:
from sklearn import tree
clf_tree_d5 = tree.DecisionTreeClassifier(random_state = 0, max_depth = 5)
clf_tree_d5.fit(X_tn_std, y_tn)

DecisionTreeClassifier(max_depth=5, random_state=0)

### 데이터 예측

In [16]:
tree_d5_pred = clf_tree_d5.predict(X_te_std)
print(tree_d5_pred)

[2 1 0 1 0 2 1 0 2 1 0 0 1 0 1 1 2 0 1 0 0 1 2 1 0 2 0 0 0 2 1 2 2 0 1 1 2
 0 1 0 0 1 2 0 0]


## 정확도 평가

f1 스코어를 확인해본다.

In [17]:
from sklearn.metrics import f1_score

f1 = f1_score(y_te, tree_d5_pred, average = 'macro')
f1

0.9542846417846418

In [18]:
from sklearn.metrics import recall_score

recall = recall_score(y_te, tree_d5_pred, average = 'macro')
recall

0.9607843137254902

In [11]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_te, tree_d5_pred)
accuracy

0.9555555555555556

정확히 같은 수들이 나오고 있다.

### confusion matrix 확인

confusion matrix를 통해 예측값과 실제값의 일치 정도를 확인해보지만, 이전것과 완전히 일치한다.

In [19]:
from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_te, tree_d5_pred)
conf_matrix

array([[18,  0,  0],
       [ 1, 15,  1],
       [ 0,  0, 10]])

# criterion = 'gini' 가 아닌 'entropy'로 했을 때

> gini = The gini score is a metric that quantifies the purity of the node/leaf (more about leaves in a bit). A gini score greater than zero implies that samples contained within that node belong to different classes. A gini score of zero means that the node is pure, that within that node only a single class of samples exist. You can find out more about impurity measures here. Notice that we have a gini score greater than zero; therefore, we know that the samples contained within the root node belong to different classes.
_출처: https://towardsdatascience.com/scikit-learn-decision-trees-explained-803f3812290d_

> 지니와 엔트로피: 6.5 지니 불순도 또는 엔트로피  : 
기본적으로 지니 불순도가 사용되지만 criterion 매개변수를 entropy로 지정해주면 entropy 불순도를 사용할 수 있습니다. 엔트로피는 분자의 무질서함을 측정하는 것으로 원래 열역학의 개념입니다. 정확히 잘 예측했다면 entropy는 0이 됩니다. 즉 어떤 세트가 한 클래스의 샘플만 담고 있다면 엔트로피가 0이 됩니다. 지니와 엔트로피 중 어느 것을 사용해야 한다 물어본다면 실제로는 큰차이가 없습니다. 일반적으로는 지니가 속도가 더 빠릅니다. 하지만 지니는 일반적으로 한쪽 가지로 고립시키는 경향이 있는 반면에 엔트로피는 조금 더 균형 잡힌 트리를 만듭니다. _출처: https://hoony-gunputer.tistory.com/entry/핸즈온-머신러닝-6강-결정트리-Decision-tree [후니의 컴퓨터]_

DecisionTreeClassifier 의 가장 첫번째 하이퍼파라미터는 criterion이다. 이를 바꿔보고싶었다.

In [20]:
from sklearn import tree
clf_tree_ent = tree.DecisionTreeClassifier(random_state = 0, criterion = 'entropy')
clf_tree_ent.fit(X_tn_std, y_tn)

DecisionTreeClassifier(criterion='entropy', random_state=0)

### 데이터 예측

In [21]:
tree_ent_pred = clf_tree_ent.predict(X_te_std)
print(tree_ent_pred)

[2 1 0 1 0 2 1 0 2 1 0 1 1 0 1 1 2 0 1 0 0 1 2 0 0 2 0 0 0 2 1 2 2 0 1 1 1
 1 1 0 0 1 2 0 0]


## 정확도 평가

f1 스코어를 확인해본다.

In [22]:
from sklearn.metrics import f1_score

f1 = f1_score(y_te, tree_ent_pred, average = 'macro')
f1

0.9618736383442266

In [23]:
from sklearn.metrics import recall_score

recall = recall_score(y_te, tree_ent_pred, average = 'macro')
recall

0.9618736383442266

In [24]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_te, tree_ent_pred)
accuracy

0.9555555555555556

이 역시 정확히 같은 수들이 나오고 있다. 모델에게 너무 쉬운 데이터셋인가보다.

### confusion matrix 확인

그러나 컨퓨전 매트릭스를 확인하자 틀렸던 클래스가 다르게 나타난다.

In [25]:
from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_te, tree_ent_pred)
conf_matrix

array([[17,  1,  0],
       [ 1, 16,  0],
       [ 0,  0, 10]])

```
array([[18,  0,  0],
       [ 1, 15,  1],
       [ 0,  0, 10]])
```
으로 나타났던 이전의 트리모형과는 달리 첫번째 클래스를 오분류하는 것이 생겼다. 

entropy의 경우 gini와 달리 트리의 모형을 좀더 균형잡히게 만들게 되어있다고 했다.

지니가 '하지만 지니는 일반적으로 한쪽 가지로 고립시키는 경향이 있는 반면'이라고 했다. 

gini가 해당 경향 때문에 이전에 두 번째 클래스를 분류하는데에서만 오류가 생기게 분류 방식을 만들었다면, 결과가 조금은 쉽게 이해가 가는 것 같다. 

말하자면 이전의 분류 오류는 클래스2를 1과 3으로 잘 못 분류를 했다. 즉 세 가지 클래스 모두 사이에서 헷갈렸다는 말이다.

그러나 entropy로 설정을 한 경우 똑같이 두번의 오분류가 있었지만 클래스 1과 2사이에서만 일어났다. 두 가지 클래스 사이에서만 헷갈렸다는 말이다. 

데이터에 따라서 어떤 것을 선택할 지도 달라지겠지만, **후에 디시전 트리 모형을 쓰게 되면 가장 먼저 이 파라미터를 만져보게 될 것 같다.**