# 의사결정나무 실습

## 데이터 불러오기
- 데이터 셋을 사용하기 위해 필요한 함수를 불러옵니다.
- 이번 실습에서는 "와인 데이터 셋"을 사용합니다.

In [1]:
from sklearn import datasets

In [2]:
raw_wine = datasets.load_wine()

## 피쳐, 타겟 데이터 지정
- 와인 데이터에서 피처에 해당하는 데이터를 대문자 X라고 지정합니다.
- 타깃 데이터를 소문자 y라고 지정합니다.

In [3]:
X = raw_wine.data
y = raw_wine.target

## 트레이닝/테스트 데이터 분할
- 전체 데이터를 트레이닝/테스트 데이터로 분할하기 위해 필요한 함수를 불러옵니다.
- 피쳐 데이터 X와 타깃 데이터 y를 넣고 랜덤 시드값(random_state)을 지정합니다.

In [4]:
from sklearn.model_selection import train_test_split
X_tn, X_te, y_tn,y_te = train_test_split(X, y, random_state=0)

## 데이터 표준화
- 데이터 표준화를 위해 필요한 함수를 불러옵니다.
- 사용할 표준화 스케일러를 지정합니다.
- fit : 스케일러에 트레이닝 피쳐 데이터 X_tn을 적합시켜 표준화 모델을 생성합니다.
- transform : 트레이닝 피쳐 데이터 X_tn, 테스트 피쳐 데이터 X_te를 표준화시킵니다.

In [5]:
from sklearn.preprocessing import StandardScaler
std_scale = StandardScaler()
std_scale.fit(X_tn)
X_tn_std = std_scale.transform(X_tn)
X_te_std = std_scale.transform(X_te)

## 데이터 학습
- 필요한 함수를 불러옵니다. 의사 결정 나무를 사용하기 위해서는 tree라는 함수를 사용합니다.
- 참고로, 이번 실습은 분류 문제를 푸는 것이 목적이므로 DecisionTreeClassifier 메소드를 사용하지만,  만약 회귀 문제라면 DecisionTreeRegressor를 사용합니다.
- 의사 결정 나무에 표준화된 트레이닝 피쳐 데이터 X_tn_std와 트레이닝 타겟 데이터 y_tn을 이용해 적합시킵니다.

In [6]:
from sklearn import tree
clf_tree = tree.DecisionTreeClassifier(random_state=0)
clf_tree.fit(X_tn_std, y_tn)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=0, splitter='best')

## 데이터 예측
- 적합시킨 의사 결정 나무 모형으로 표준화된 테스트 피쳐 데이터 X_tn_std를 이용해 예측합니다.
- 예측 결과를 출력(print)합니다.

In [7]:
pred_tree = clf_tree.predict(X_te_std)
print(pred_tree)

[0 2 1 0 1 1 0 2 1 1 2 2 0 1 2 1 0 0 2 0 1 0 1 1 1 1 1 1 1 2 0 0 1 0 0 0 2
 1 1 2 1 0 1 1 1]


## 모형 평가
- 실제 테스트 타깃 데이터 y_te와 모형을 통해 예측한 값 pred_tree를 넣고 실행합니다.

### 1) F1 Score 평가

In [8]:
from sklearn.metrics import f1_score
f1 = f1_score(y_te, pred_tree, average = 'macro') # macro는 단순평균을 의미함.
print(f1)

0.9349141206870346


### 2) Confusion Matrix 확인

In [9]:
from sklearn.metrics import confusion_matrix
conf_matrix = confusion_matrix(y_te, pred_tree)
print(conf_matrix)

[[14  2  0]
 [ 0 20  1]
 [ 0  0  8]]


###  3) 분류 리포트 확인

In [10]:
from sklearn.metrics import classification_report
class_report = classification_report(y_te, pred_tree)
print(class_report)

              precision    recall  f1-score   support

           0       1.00      0.88      0.93        16
           1       0.91      0.95      0.93        21
           2       0.89      1.00      0.94         8

    accuracy                           0.93        45
   macro avg       0.93      0.94      0.93        45
weighted avg       0.94      0.93      0.93        45



In [None]:
# 시각화 가능하나