In [None]:
import numpy as np
import pandas as pd
import scipy as sp

import matplotlib
import matplotlib.pyplot as plt
import sklearn

%matplotlib inline

print("NumPy: {0} / Pandas: {1} / SciPy: {2} / Matplotlib: {3} / Sklearn: {4}"
      .format(np.__version__,
              pd.__version__,
              sp.__version__, 
              matplotlib.__version__,
              sklearn.__version__))

# <center>의사결정트리: 숫자 디지트 모델</center>

[sklearn.datasets.load_digits](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html#sklearn.datasets.load_digits) 는 8x8 크기의 숫자 데이터이다.

In [None]:
from sklearn.datasets import load_digits
digits_dataset = load_digits()

In [None]:
#print(digits_dataset['DESCR'])

In [None]:
digits_dataset.keys()

이 데이터 세트의 키 값 이다:
- DESCR: 데이터세트 설명
- data: 1797 이미지 데이터. 64개 8x8 이미지
- target: Label
- feature_names: 각각의 특징을 묘사하는 문자열 리스트
- target: 데이터 배열에서 행은 꽃에 해당하고, 컬럼은 각 꽃이 가진 측정치이다.
- images: 8x8의 이미지

### 데이터 살펴보기

In [None]:
# 데이터
digits_dataset['data'][:1],digits_dataset['data'].shape

In [None]:
# 데이터 라벨
digits_dataset['target'],digits_dataset['target'].shape

In [None]:
# 컬럼
digits_dataset['target_names']

In [None]:
# 실 데이터
digits_dataset['images'][:2], digits_dataset['images'].shape

### 이미지 보기



이미지 하나는 8x8 크기가 data 필드에 리스트 한 요소로 표현하고 있다

In [None]:
digits_dataset['data'][0].shape

이미지를 보기 위해 numpy.reshape() 를 사용:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

plt.figure(figsize=(20,4))

for i, (image, label) in enumerate(
    zip(digits_dataset['data'][0:5],digits_dataset['target'][0:5])):
    plt.subplot(1,5,i + 1)
    plt.imshow(np.reshape(image, (8,8)), cmap=plt.cm.gray)
    plt.title('Training: %i\n' % label, fontsize=20)

---

## 의사결정트리에 의한 학습

이제 학습 데이터와 테스트 데이터를 준비해 의사결정트리 판단을 해보자,

### 1) 학습 데이터와 테스트 데이터 세트로 분리

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    digits_dataset['data'], digits_dataset['target'], random_state=0)

### 2). 모델 학습

의사결정트리 `fit()`에 학습용 피처 데이터 속성과 결정 값 데이터 세트를 입력하면 학습을 한다.

In [None]:
from sklearn.tree import DecisionTreeClassifier

df_clf = DecisionTreeClassifier(random_state=11)
# 학습수행
df_clf.fit(X_train, y_train)

## Tree 그리기

In [None]:
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree

plt.figure(figsize=(20,15))
plot_tree(df_clf, max_depth=5, filled=True)
plt.show()

### 3). 예측 수행

predict() 메서드에 테스트용 피처 데이터 세트를 입력해 호출하면 학습된 모델 기반에서 테스트 데이터 세트에 대한 예측 값을 반환한다.

In [None]:
pred = df_clf.predict(X_test)

### 4). 평가



In [None]:
from sklearn.metrics import accuracy_score
print(f"예측 정확도: {accuracy_score(y_test, pred):.4f}")

In [None]:
X_test.shape

In [None]:
digits_dataset['data'][3].shape

In [None]:
digits_dataset['data'][3].reshape(1,-1).shape

In [None]:
pred = df_clf.predict(digits_dataset['data'][2].reshape(1,-1))

pred

---

## 참고

 - [machine learning with scikit-learn: digits](https://www.codementor.io/@mgalarny/making-your-first-machine-learning-classifier-in-scikit-learn-python-db7d7iqdh)