## 의사결정나무(Decision Tree) 구현하기

이번 수업에서는 머신러닝 알고리즘 중 하나인 의사결정나무(이하 Decision Tree)에 대해서 알아보고 이를 구현해보겠습니다.

Decision Tree는 지도 학습(이하 Supervised Learning)의 한 종류로서, Feature와 Label이 주어지면 이 데이터 사이의 패턴을 예측합니다. 이 과정에서 나오는 결과물을 시각화하면, 그 그림이 마치 나무(Tree)같다고 하여 의사결정나무라는 명칭을 사용하고 있습니다.

![Decision Tree](http://engineering.pivotal.io/images/interpreting-decision-trees-and-random-forests/reg_dt_path.png)

[scikit-learn](http://scikit-learn.org/)의 의사결정나무([DecisionTreeRegressor](http://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html)를 [graphviz](https://www.graphviz.org/)라는 툴로 시각화한 결과물. 그림이 마치 나무가 가치를 치듯이 뻗어내려간다는 의미에서 의사결정나무라는 표현을 사용합니다.

이러한 머신러닝 알고리즘을 잘 이해하는 방법은, 알고리즘을 파이썬과 같은 프로그래밍 언어로 직접 구현해보는 것입니다. 그러므로 이번 시간에는 주어진 데이터와 문제를 Decision Tree를 활용하여 풀되, [scikit-learn](http://scikit-learn.org/)과 같은 패키지를 사용하지 않고 파이썬으로 직접 구현해서 풀어보는 시간을 가질 것입니다.

In [3]:
# 파이썬의 데이터 분석 패키지 판다스(pandas.pydata.org)를 읽어옵니다.
# 이 패키지를 pd라는 축약으로 사용합니다.
import pandas as pd

## Generate Dataset

먼저 Decision Tree라는 알고리즘의 원리를 잘 이해할 수 있는 데이터셋을 생성해보겠습니다.

이번에 다룰 데이터셋은 [인스타그램(Instagram)](https://www.instagram.com/)의 해시태그 데이터입니다. 인스타그램의 포스팅에는 크게 1) 사진, 2) 글, 3) 해시태그, 4) 코멘트, 5) 좋아요(like) 횟수가 있습니다. ([예시](https://www.instagram.com/p/BnML40RH-Wg)) 이 중 좋아요 횟수는 인스타그램 포스팅의 유명세를 나타내는 척도 중 하나입니다.

그러므로 이번에는 3) 해시태그와 5) 좋아요(like)의 상관관계를 Decision Tree로 예측해보겠습니다. 수강생은 주어진 인스타그램 포스팅 데이터 중, 해시태그와 좋아요를 바탕으로 어떤 해시태그를 사용하는 사람이 좋아요를 받을지를 예측하는 모델을 만들겠습니다. 먼저 이를 위한 예시 데이터셋을 생성한 뒤, 이 데이터셋을 바탕으로 Decision Tree를 구현해봅니다.

In [7]:
# 먼저 데이터를 생성합니다.
# 데이터에는 크게 이름, 해시태그(데일리룩, 패션스타그램, 우산), followers 인원 수, 좋아요(like) 여부가 들어가 있습니다.
data = {
    '이름': ["Kang", "Kim", "Choi", "Park", "Yoon", "Lee"],
    '데일리룩': [True, False, False, False, False, False],
    '패션스타그램': [False, False, True, False, False, True],
    '우산': [False, False, False, False, False, False],
    'like': [True, False, True, True, False, True]
}

# 이 데이터를 Pandas의 DataFrame으로 변환해줍니다.
data = pd.DataFrame(data)

# 이후 이 DataFrame에서 이름을 Index로 지정해줍니다.
data = data.set_index("이름")

# data의 컬럼 순서를 정렬해줍니다. 해시태그가 제일 앞에, 그 다음으로 followers와 like가 오게 합니다.
data = data[["패션스타그램", "데일리룩", "우산", "like"]]

# .shape로 data의 세로와 가로를 출력합니다.
# 세로는 총 6개, 가로는 총 5개, 그러므로 (6, 5)가 나와야 합니다.
print(data.shape)

# 이 데이터를 출력합니다.
data

(6, 4)


Unnamed: 0_level_0,패션스타그램,데일리룩,우산,like
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kang,False,True,False,True
Kim,False,False,False,False
Choi,True,False,False,True
Park,False,False,False,True
Yoon,False,False,False,False
Lee,True,False,False,True


## Preprocessing

Decision Tree를 구현하기 전에, 간단한 설정(configuration)을 미리 해두겠습니다. Decision Tree는 Supervised Learning 알고리즘이기 때문에, 크게 다음의 데이터가 필요합니다.

* Label - 우리가 맞춰야 하는 정답에 해당합니다. 이번에는 좋아요(like)를 Label로 지정하겠습니다.
* Feature - 우리가 정답을 맞추는데 필요한 정보입니다. 인스태그램 해시태그들이 대표적인 예가 되겠죠.

In [8]:
# Label로는 좋아요(like)를 지정합니다.
label_name = "like"
label_name

'like'

In [9]:
# 위에서 설정한 Label을 제외한 나머지를 feature라고 판단합니다.
# 이를 feature_names라는 이름의 변수에 할당합니다.
feature_names = data.columns.difference([label_name])
feature_names

Index(['데일리룩', '우산', '패션스타그램'], dtype='object')

## Prerequisites

Decision Tree를 구현하기 전에, 구현에 도움이 되는 몇 가지 기능을 먼저 준비해놓겠습니다. 먼저 1) Decision Tree를 시각화하는 기능, 2) 그리고 Decision Tree를 통해 정답을 예측하는 기능, 이렇게 두 가지를 먼저 구현해놓은 뒤 시작하겠습니다.

### Visualize Tree

먼저 Decision Tree를 시각화하는 기능입니다. 트리를 성공적으로 만들었다면, 다음의 코드를 통해 트리를 시각화해서 육안으로 확인할 수 있습니다.

<br />

<div style="text-align: center">
```display_tree(tree)```
</div>

<br />


시각화를 하는데는 [graphviz](https://www.graphviz.org/)라는 기능을 사용합니다. 이를 사용하기 위해서는 Graphviz라는 툴을 설치해야 하는데, Graphviz를 설치하는 방법은 다음과 같습니다.

1. 컴퓨터에 아나콘다(Anaconda)로 파이썬을 설치했을 경우 - 1) 컴퓨터에서 아나콘다 네비게이터(Anaconda Navigator)를 실행하면, 2) 좌측에 환경(Environment) 탭이 있습니다. 3) 이 탭에서 'installed'라고 되어있는 콤보 박스를 'not installed'라고 변경한 뒤 4) graphviz로 검색하면 설치가 필요한 graphviz 관련 패키지 리스트들이 나옵니다. 이를 전부 설치하시면 됩니다.

1. 컴퓨터에 아나콘다로 파이썬을 설치하지 않은 경우 - 먼저 다음의 링크에서 [Graphviz](http://graphviz.org/download/)를 설치합니다. 이후 쥬피터 노트북에서 !pip install graphviz를 실행하면 Graphviz가 성공적으로 설치될 것입니다.

In [10]:
# graphviz 패키지를 읽어옵니다.
import graphviz

# graphviz 패키지에서, 트리 시각화의 가장 기본이 되는 Digraph를 가져옵니다.
from graphviz import Digraph

# 트리의 각 노드 하나를 시각화하는 함수를 정의합니다.
def display_node(dot, key, node):
    # node가 잎(leaf)인지 아닌지에 따라 다른 방식으로 시각화해야 합니다.
    if node["leaf"] == True:
        # node에서 확률(probability)값을 가져옵니다.
        probability = node['probability']
        
        # 확률값을 예쁘게 출력하기 위해, 소숫점을 4자리까지 자릅니다.
        probability = round(probability, 4)
        
        # 소숫점을 자른 뒤, 시각화를 위해 실수형(float)에서 문자열(string)으로 변환합니다.
        probability = str(probability)
        
        # 이를 Digraph 안에 삽입합니다.
        dot.node(key, probability)
    # 잎(leaf)이 아닐 경우는 다른 방식으로 시각화해야 합니다.
    else:
        # 구체적으로 어떤 조건으로 가르게 되었는지 설명(description)을 가져옵니다.
        description = node['description']
        
        # 이 설명을 시각화에 집어넣습니다.
        dot.node(key, description)
        
        # 트리의 노드에 좌측 노드가 있으면 이를 시각화합니다.
        if "left" in node:
            # 현재 키에 'L'마크를 뒤에 추가합니다. 이를 좌측 노드라고 가정합니다.
            left_key = key + "L"
            
            # 이 좌측 노드를 시각화합니다.
            display_node(dot, left_key, node['left'])
            
            # 좌측 노드를 시각화한 결과를 현재 노드와 연결합니다.
            dot.edge(key, left_key)

        # 비슷하게 트리의 노드에 우측 노드가 있으면 이를 시각화합니다.
        if "right" in node:
            # 현재 키에 'R'마크를 뒤에 추가합니다. 이를 우측 노드라고 가정합니다.
            right_key = key + "R"
            
            # 이 우측 노드를 시각화합니다.
            display_node(dot, right_key, node['right'])
            
            # 우측 노드를 시각화한 결과를 현재 노드와 연결합니다.
            dot.edge(key, right_key)

# 트리 전체를 시각화하는 함수를 정의합니다.
def display_tree(tree):
    # 시각화의 기본이 되는 Digraph를 정의합니다.
    dot = Digraph(comment='Decision Tree')

    # 트리의 맨 위를 노드(node)라고 가정하고 시각화합니다.
    display_node(dot, "Root", tree)

    # 이 결과를 graphviz로 출력합니다.
    return graphviz.Source(dot.source)

### Predict

다음은 트리를 활용해 결과를 예측(predict)하는 함수입니다. 트리를 성공적으로 만들었다면, 여기에 있는 ```predict_tree```라는 함수를 활용하여 결과를 예측할 수 있습니다.

<br />

<div style="text-align: center">
```predictions = predict_tree(data, tree)```
</div>

<br />

In [11]:
# 트리의 노드(node) 하나에서 예측값을 가져오는 함수를 정의합니다.
def predict_node(data, node):
    # 노드(node)가 잎인지 아닌지에 따라 예측 방식이 달라집니다
    if node['leaf'] == True:
        # 만일 잎이라면, 해당 잎에서의 확률(probability)을 가져옵니다.
        probability = node["probability"]
        
        # 이 확률을 판다스 DataFrame의 index와 1 on 1 매칭을 합니다. 이를 예측 결과(result)라고 가정합니다.
        # 이 결과를 result라는 이름의 변수에 넣습니다.
        result = dict(zip(data.index, len(data) * [probability]))
    else:
        # 잎이 아니라면, 가지를 치는 조건(condition)을 가져옵니다.
        condition = node['condition']
        
        # 이 조건이 참(True)일 경우의 데이터를 가져옵니다. 이를 left_data라는 이름의 변수에 할당합니다.
        left_data = data[condition(data)]
        
        # 현재 노드의 좌측 노드(node)를 가져와, 좌측 노드에 left_data를 집어넣고 예측합니다.
        # 이를 left_result라는 변수에 할당합니다.
        left_result = predict_node(left_data, node['left'])
        
        # 이 조건이 거짓(False)일 경우의 데이터를 가져옵니다. 이를 right_data라는 이름의 변수에 할당합니다.
        right_data = data[~condition(data)]
        
        # 현재 노드의 우측 노드(node)를 가져와, 우측 노드에 right_result를 집어넣고 예측합니다.
        # 이를 right_result라는 변수에 할당합니다.
        right_result = predict_node(right_data, node['right'])    
    
        # 좌측 노드의 예측 결과와, 우측 노드의 예측 결과를 하나로 합칩니다.
        return {**left_result, **right_result}

    # 이 결과를 반환합니다.
    return result

# 트리 전체를 활용해 결과를 예측하는 함수를 만듭니다.
def predict_tree(data, tree):
    # 트리의 제일 위(root)를 첫 번쨰 노드라고 가정한 뒤, 주어진 데이터(data)를 활용하여 예측합니다.
    predictions = predict_node(data, tree)
    
    # 이를 판다스(Pandas)의 Series로 변환합니다.
    predictions = pd.Series(predictions)
    
    # 이 예측 결과를 반환합니다.
    return predictions

## Implement a Decision Tree

사전에 도움이 되는 내용을 미리 구현했다면, 이제부터는 본격적으로 Decision Tree를 구현하겠습니다.

Decision Tree의 핵심은 크게 세 가지입니다. 1) Feature를 활용해 조건(condition)을 만드는 것, 2) 만들어진 조건(condition)의 리스트를 가져와, 평가 기준(ex: gini impurity)을 활용해 중요한 조건과 중요하지 않은 조건을 나누는 것, 3) 중요한 조건 위주로 가치를 친 뒤 나무(Tree)로 만드는 것입니다

### Make Conditions

먼저 조건을 만드는 것 부터 보겠습니다. Decision Tree는 처음 학습을 시작할 때 주어진 feature를 활용해 조건(condition)을 만듭니다. 가령 feature로 키(cm), 몸무게(kg), 성별(gender)을 받았다면,

* 성별(gender) == 남자
* 성별(gender) == 여자
* 키(cm) < 150 cm
* 키(cm) < 157 cm
* 키(cm) < 163 cm

...

* 키(cm) < 192 cm
* 키(cm) < 200 cm
* 몸무게(kg) < 40 kg
* 몸무게(kg) < 42 kg
* 몸무게(kg) < 48 kg

...

* 몸무게(kg) < 98 kg
* 몸무게(kg) < 103 kg
* 몸무게(kg < 108 kg

이런 식으로 feature들을 조건(condition)화 하게 됩니다. 그러므로 여기서는 1) 하나의 feature를 하나 이상의 조건으로 만드는 함수(```make_condition```)와 2) 여러 개의 feature를 받으면 모든 feature를 활용해 이론상으로 존재 가능한 모든 조건을 만드는 함수(```make_condition_list```)를 만들어보겠습니다.

In [7]:
# Write your code here!

## Implement Criterion Methods

다음으로는 평가 기준(이하 criterion)을 구현하겠습니다. criterion은 주어진 조건들에서 중요한 조건과 중요하지 않은 조건을 구분하는 역할을 합니다. Decision Tree는 criterion을 통해 중요한 조건을 먼저 사용하여 가지를 치고, 중요하지 않은 조건은 나중에 사용하거나 아예 사용하지 않는 쪽으로 유도합니다.

이번 시간에는 Decision Tree에 쓰이는 가장 보편적인 criterion인 지니 불순도(이하 Gini Impurity)를 구현해보겠습니다.

### Gini Impurity

Gini Impurity는 주어진 데이터에서 불순물이 얼마나 섞여있는지를 측정하는 공식입니다. 구체적인 공식은 다음과 같습니다.

$$
{\displaystyle \operatorname I_{G}(p) = 1 - (p_{true})^{2} - (p_{false})^{2}}
$$

여기서 $(p_{true})^{2}$ 는 주어진 결과가 True일 확률, $(p_{false})^{2}$는 주어진 결과가 False일 확률을 나타냅니다. 즉, 1에서 True일 확률의 제곱을 뺀 뒤, 다시 False일 확률의 제곱을 빼면 됩니다.

이 공식은 데이터에서 불순물이 섞여있지 않을수록 0에 가까운 숫자가 나오고, 불순물이 섞여있을수록 0.5에 가까운 숫자가 나옵니다. 예를 들어 100개의 데이터 중 True가 100개, False가 0개라면 Gini Impurity의 결과는 다음과 같습니다.

$$
{\displaystyle \operatorname I_{G}(p) = 1 - (p_{true})^{2} - (p_{false})^{2}} = 1 - \big( \frac{100}{100} \big)^{2} - \big( \frac{0}{100} \big)^{2} = 0
$$

반면 100개의 데이터 중 True가 50개, False가 50개라면 Gini Impurity의 결과는 다음과 같습니다.

$$
{\displaystyle \operatorname I_{G}(p) = 1 - (p_{true})^{2} - (p_{false})^{2}} = 1 - \big( \frac{50}{100} \big)^{2} - \big( \frac{50}{100} \big)^{2} = 0.5
$$

Decision Tree에서는 주어진 데이터에서 불순도(impurity)가 낮아지도록 가지를 칩니다. 즉, 데이터의 Gini Impurity가 0일수록 좋은 상황이고, 0.5일 수록 좋지 않은 상황이라고 판단하며, Gini Impurity가 0이 될 때 까지 끊임없이 가지를 치고 나무를 키워나갑니다.

그러므로 Gini Impurity 공식을 구현한 뒤, 이 공식을 활용해 Decision Tree를 구현해보도록 하겠습니다.

### Evaluate Gini Impurity

In [12]:
# Write your code here!

### Evaluate Average Gini Impurity

이번에는 Gini Impurity를 활용해, 조건(condition)의 평균 Gini Impurity를 구하는 코드를 작성해보겠습니다. 조건마다의 평균 Gini Impurity는 1) 해당 조건의 참일 경우와, 2) 해당 조건이 거짓일 경우의 Gini Impurity를 구해서 이 score의 평균을 내면 됩니다. 이 score가 가장 낮은 조건이 가장 좋은 조건이라고 간주합니다.

In [13]:
# Write your code here!

### Find the Best Condition

조건마다의 평균 Gini Impurity를 구했다면, 남은 건 이를 활용해 가장 좋은 조건을 찾는 것입니다. 주어진 조건의 Gini Impurity를 구한 뒤, 이 Gini Impurity가 가장 낮은 조건을 가장 좋은 조건이라고 판단합니다. 코드는 다음과 같습니다.

In [14]:
# Write your code here!

### Make a Tree

조건(condition)을 만드는 부분과 Gini Impurity를 계산하는 부분이 만들어졌으면, 남은 건 이를 조합해서 Decision Tree를 구현하는 것만 남았습니다. Decision Tree를 구현하는 순서는 다음과 같습니다.

1. 데이터와 feature, label을 가져옵니다.
2. 주어진 feature들로 이론상으로 만들 수 있는 모든 조건(condition)을 만듭니다.
3. 이 조건마다의 평균 Gini Impurity를 구합니다.
4. 평균 Gini Impurity가 가장 낮은 조건을 가장 좋은 조건이라 판단하고, 이 조건으로 가지를 칩니다.
5. 2 ~ 4를 끊임없이 반복합니다.
6. 더이상 가지를 칠 수 없는 경우를 잎(leaf)이라고 가정하고 가지를 치는 것을 중단합니다.

코드는 다음과 같습니다.

In [16]:
# Write your code here!

### Prediction

Decision Tree가 만들어졌으면, 만들어진 tree를 활용해서 결과를 예측할 수 있습니다. 예측은 ```predict_tree```라는 함수를 통해 할 수 있습니다.

In [41]:
# 주어진 데이터와 트리로 결과를 예측(predict)합니다.
# 이 결과를 predictions 이라는 이름의 변수에 할당합니다.
predictions = predict_tree(data, tree)

# 현재 데이터셋을 복사(copy)한 뒤 result라는 이름의 변수에 할당합니다.
result = data.copy()

# 이 result라는 변수에 할당한 DataFrame에 방금 예측할 결과를 새로운 컬럼으로 추가합니다.
result[f"{label_name}(predict)"] = predictions

# result를 화면에 출력합니다.
result

Unnamed: 0_level_0,패션스타그램,데일리룩,우산,followers,like,like(predict)
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Kang,False,True,False,10,True,1.0
Kim,False,False,False,21,False,0.0
Choi,True,False,False,80,True,1.0
Park,False,False,False,210,True,1.0
Yoon,False,False,False,101,False,0.0
Lee,True,False,False,72,True,1.0


ModuleNotFoundError: No module named 'graphviz'