In [None]:
from IPython.display import Image
import warnings

# 경고 메시지 출력 표기 생략
warnings.filterwarnings('ignore')

# 결정트리 or 의사결정나무 (Decision Tree)

결정트리를 가장 단수하게 표현하자면, **Tree 구조를 가진 알고리즘**입니다.

의사결정나무는 데이터를 분석하여 데이터 사이에서 패턴을 예측 가능한 규칙들의 조합으로 나타내며, 이 과정을 시각화 해 본다면 마치 **스무고개** 놀이와 비슷합니다.

In [None]:
Image(url='https://miro.medium.com/max/2960/1*dc_342kIsHCzuko1TtyEGQ.png', width=500)

결정트리의 기본 아이디어는 sample이 가장 섞이지 않은 상태로 완전히 분류되는 것, 다시 말해서 **엔트로피(Entropy)를 낮추도록** 만드는 것입니다.

## 엔트로피 (Entropy)

엔트로피는 쉽게 말해서 **무질서한 정도를 정량화(수치화)한 값**입니다.

다음은 **엔트로피 지수를 방이 어질러있는 정도를 예시로 들어 표현**되었습니다.

In [None]:
Image(url='https://image.slidesharecdn.com/entropyandthe2ndlaw-120327062903-phpapp02/95/103-entropy-and-the-2nd-law-3-728.jpg?cb=1335190079', width=500)

### 엔트로피 수식의 이해

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')

In [None]:
# 샘플데이터를 생성합니다.
group_1 = np.array([0.3, 0.4, 0.3])
group_2 = np.array([0.7, 0.2, 0.1])
group_3 = np.array([0.01, 0.01, 0.98])

In [None]:
fig, axes = plt.subplots(1, 3)
fig.set_size_inches(12, 4)
axes[0].bar(np.arange(3), group_1, color='blue')
axes[0].set_title('Group 1')
axes[1].bar(np.arange(3), group_2, color='red')
axes[1].set_title('Group 2')
axes[2].bar(np.arange(3), group_3, color='green')
axes[2].set_title('Group 3')
plt.show()

$\Large Entropy(p) = -\sum_{i=1}^{n}{p_i\log_2p_i}$

함수 `entropy(p)`를 정의하고 위의 공식을 구현해 주세요

In [None]:
# 코드를 입력해 주세요
def entropy(p):
    return 

### Entropy 계산 및 시각화

In [None]:
entropy_1 = entropy(group_1)
entropy_2 = entropy(group_2)
entropy_3 = entropy(group_3)

print(f'Group 1: {entropy_1:.3f}\nGroup 2: {entropy_2:.3f}\nGroup 3: {entropy_3:.3f}')

In [None]:
plt.figure(figsize=(5, 5))
plt.bar(['Group 1', 'Group 2', 'Group 3'], [entropy_1, entropy_2, entropy_3])
plt.title('Entropy', fontsize=15)
plt.show()

## 지니 계수 (Gini Index)

- 클래쓰들이 공평하게 섞여 있을 수록 **지니 계수**는 올라갑니다.
- Decision Tree는 지니 불순도를 낮추는 방향으로 가지치기를 진행합니다.

$\Large Gini = 1 - \sum_{i=1}^{n}{(\frac{x_i}{\sum_{i=1}^{n}{x_i}})^2}$

`gini(x)` 함수를 정의하고 내부를 위의 공식에 맞게 구현해 주세요

In [None]:
# 코드를 구현해 주세요
def gini(x):
    return 1 - ((x / x.sum())**2).sum()

In [None]:
# 샘플데이터를 생성합니다.
group_1 = np.array([50, 50])
group_2 = np.array([30, 70])
group_3 = np.array([0, 100])

In [None]:
fig, axes = plt.subplots(1, 3)
fig.set_size_inches(12, 4)
axes[0].bar(['Positive', 'Negative'], group_1, color='blue')
axes[0].set_title('Group 1')
axes[1].bar(['Positive', 'Negative'], group_2, color='red')
axes[1].set_title('Group 2')
axes[2].bar(['Positive', 'Negative'], group_3, color='green')
axes[2].set_title('Group 3')
plt.show()

In [None]:
gini_1 = gini(group_1)
gini_2 = gini(group_2)
gini_3 = gini(group_3)

print(f'Group 1: {gini_1:.3f}\nGroup 2: {gini_2:.3f}\nGroup 3: {gini_3:.3f}')

In [None]:
plt.figure(figsize=(5, 5))
plt.bar(['Group 1', 'Group 2', 'Group 3'], [gini_1, gini_2, gini_3])
plt.title('Gini Index', fontsize=15)
plt.show()

## Decision Tree 구현

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

SEED = 123

`cancer` 변수에 `load_breast_cancer()`를 로드합니다.

In [None]:
# 코드를 입력해 주세요
cancer = 

데이터를 분할합니다.
- stratify는 `target`으로 지정합니다.
- random_state=SEED로 설정합니다.
- 기타 설정은 default를 따릅니다.

In [None]:
# 코드를 입력해 주세요
x_train, x_test, y_train, y_test = 

`x_train`, `x_test`의 shape를 확인합니다.

In [None]:
# 코드검증
x_train.shape, x_test.shape

<p><strong>[출력 결과]</strong></p><pre>((426, 30), (143, 30))</pre>

DecisionTreeClassifier를 정의하고 `tree` 변수에 대입합니다.

- random_state=SEED로 설정합니다.

In [None]:
# 코드를 입력해 주세요
tree = 

학습(fit) 합니다.

In [None]:
# 코드를 입력해 주세요
tree.

<p><strong>[출력 결과]</strong></p><pre>DecisionTreeClassifier()</pre>

`tree` 알고리즘을 활용하여 `x_test`에 대한 예측을 수행하고 결과를 `pred` 변수에 대입합니다.

In [None]:
# 코드를 입력해 주세요
pred = 

정확도를 측정합니다.

In [None]:
# 코드를 입력해 주세요
accuracy = 
print(f'정확도: {accuracy:.3f}')



<p><strong>[출력 결과]</strong></p><pre>정확도: 0.937
</pre>

## 의사결정나무 시각화

In [None]:
from sklearn.tree import export_graphviz
from sklearn.metrics import accuracy_score
from subprocess import call
import graphviz

def show_trees(tree):   
    export_graphviz(tree, 
                    out_file='tree.dot', 
                    class_names=["악성", "양성"],
                    feature_names=cancer['feature_names'], 
                    precision=3, 
                    node_ids=True,
                    filled=True)
    # 이미지 생성 코드 추가
    call(['dot', '-Tpng', 'tree.dot', '-o', 'decistion-tree.png', '-Gdpi=300'])
    
    with open("tree.dot") as f:
        dot_graph = f.read()
    pred = tree.predict(x_test)
    print('정확도: {:.2f} %'.format(accuracy_score(y_test, pred) * 100))
    display(graphviz.Source(dot_graph), )

In [None]:
show_trees(tree)

## Hyper Parameter

### max_depth

`max_depth`는 최대 트리의 깊이를 제한 합니다.

기본 값은 None, 제한 없음 입니다.

In [None]:
tree = DecisionTreeClassifier(max_depth=3, random_state=SEED)
tree.fit(x_train, y_train)
show_trees(tree)

### max_features

최적의 분할을 찾기 위해 고려할 피처의 수

0.8 은 80% 의 feature 만 고려하여 분할 알고리즘 적용

기본 값은 None, 모두 사용입니다.

In [None]:
tree = DecisionTreeClassifier(max_depth=7, max_features=0.8, random_state=SEED)
tree.fit(x_train, y_train)
show_trees(tree)

## feature의 중요도 파악

`feature_importances_` 변수를 통해서 tree 알고리즘이 학습시 고려한 feature 별 중요도를 확인할 수 있습니다.

In [None]:
tree.feature_importances_

DataFrame으로 만들면 **중요도(feature importances) 순서로 정렬**할 수 있습니다.

In [None]:
# 코드를 입력해 주세요
df = 

df.head(15)

<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>feature</th>
      <th>importance</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>worst perimeter</td>
      <td>0.698891</td>
    </tr>
    <tr>
      <th>1</th>
      <td>worst concave points</td>
      <td>0.127184</td>
    </tr>
    <tr>
      <th>2</th>
      <td>mean texture</td>
      <td>0.051780</td>
    </tr>
    <tr>
      <th>3</th>
      <td>worst area</td>
      <td>0.035233</td>
    </tr>
    <tr>
      <th>4</th>
      <td>worst texture</td>
      <td>0.026716</td>
    </tr>
    <tr>
      <th>5</th>
      <td>worst concavity</td>
      <td>0.017373</td>
    </tr>
    <tr>
      <th>6</th>
      <td>mean concavity</td>
      <td>0.012042</td>
    </tr>
    <tr>
      <th>7</th>
      <td>mean area</td>
      <td>0.011468</td>
    </tr>
    <tr>
      <th>8</th>
      <td>mean perimeter</td>
      <td>0.009407</td>
    </tr>
    <tr>
      <th>9</th>
      <td>mean concave points</td>
      <td>0.006690</td>
    </tr>
    <tr>
      <th>10</th>
      <td>area error</td>
      <td>0.003217</td>
    </tr>
    <tr>
      <th>11</th>
      <td>mean radius</td>
      <td>0.000000</td>
    </tr>
    <tr>
      <th>12</th>
      <td>worst radius</td>
      <td>0.000000</td>
    </tr>
    <tr>
      <th>13</th>
      <td>worst compactness</td>
      <td>0.000000</td>
    </tr>
    <tr>
      <th>14</th>
      <td>worst smoothness</td>
      <td>0.000000</td>
    </tr>
  </tbody>
</table>
</div>

In [None]:
plt.figure(figsize=(10, 10))
sns.barplot(y='feature', x='importance', data=df)
plt.show()