# Decision Tree (Árvore de Decisão)
**[EN-US]**

The algorithm starts at the root node, where we select the best feature to make the split at this node based on `Information Gain`, where the values are divided between the left and right node, where we select other features to divide the data in these decision nodes, and so on, until the final node/leaf node where the algorithm makes the prediction.

**[PT-BR]**

O algoritmo começa no nó raiz (root node), onde selecionamos a melhor feature para fazer a divisão nesse nó com base no `Information Gain`, onde os valores são divididos entre o nó da esquerda e da direita, onde selecionamos outras features para dividir os dados nesses nós (decision nodes), e assim por diante, até o nó final (leaf node) onde o algoritmo faz a previsão. 

## Table of Contents
* [Libraries](#Libraries)
* [Decision Tree (Árvore de Decisão)](#Decision-Tree-Algorithm-(Algoritmo-Árvore-de-Decisão))
    * [Entropy (Entropia)](#Entropy-(Entropia))
    * [Information Gain (Ganho de Informação)](#Information-Gain-(Ganho-de-Informação))

## Libraries

In [1]:
import numpy as np

## Decision Tree Algorithm (Algoritmo Árvore de Decisão)

In [49]:
X_train = np.array([[1, 1, 1],
[0, 0, 1],
 [0, 1, 0],
 [1, 0, 1],
 [1, 1, 1],
 [1, 1, 0],
 [0, 0, 0],
 [1, 1, 0],
 [0, 1, 0],
 [0, 1, 0]])

y_train = np.array([1, 1, 0, 0, 1, 1, 0, 1, 0, 0])

### Entropy (Entropia)
$$H(p_1) = -p_1 \text{log}_2(p_1) - (1- p_1) \text{log}_2(1- p_1)$$
**[EN-US]**

It is the measurement of the impurity of a dataset, it starts at 0, goes to 1 and returns to 0 depending on the fraction of positive examples in our sample.
* $p_1$ = fraction of positive examples.
* $p_0 = 1 - p_1$ = fraction of negative examples.

We measure purity using a function called Entropy ($H(p_1)$). When our set is divided into 50%, that is, 50% label 1 and 50% label 0, we have $p_1 = 0.5$ and $H(p_1) = 1$, the worst possible value. When our set is divided into 100% with label 1 or 100% with label 0, we have $H(p_1) = 0$, an impurity of 0.

Calculating entropy, we take the logs to base 2, rather than to $e$. We use $\log_2$ just to make the peak of the curve equal to 1, if we used $\log_e$, the base of natural lagarithms, this just scales this function vertically, it will still work, but the numbers become a little difficult to interpret, because the peak of the function is no longer a nice integer like 1.

**[PT-BR]**

É a medição da impureza (`Measuring Impurity`) de um dataset, começa em 0, vai até 1 e volta para 0 em função da fração de exemplos positivos em nossa amostra.
* $p_1$ = fração dos exemplos positivos.
* $p_0 = 1 - p_1$: Fração de exemplos negativos.

Medimos a pureza usando uma função chamada Entropy ($H(p_1)$). Quando nosso set está dividido em 50%, ou seja, 50% label 1 e 50% label 0, temos $p_1 = 0.5$ e $H(p_1) = 1$, o pior valor possível. Quando nosso set está dividido em 100% com label 1 ou 100% com label 0, temos $H(p_1) = 0$, uma impureza de 0.

Calculando a entropia, levamos os logs com base de 2, ao invés de para $e$. Usamos $\log_2$ apenas para tornar o pico da curva igual a 1, caso usássemos $\log_e$, a base dos lagaritmos naturais, isso apenas dimensiona verticalmente essa função, ainda funcionará, mas os números se tornam um pouco difíceis de interpretar, porque o pico da função não é mais um bom número inteiro como 1.

In [1]:
def entropy(y):
    entropy = .0

    if len(y) != 0 or type(y) != numpy.float64:
        p = len(y[y == 1]) / len(y)
    
        if p == 0 or p == 1:
            entropy = .0
        else:
            entropy = -p * np.log2(p) - (1 - p) * np.log2(1 - p)

    return entropy

In [51]:
entropy(np.array([0.5, 1]))

1.0

In [2]:
def split_indices(X, index_feature):
    left_indices = []
    right_indices = []
    for i, x in enumerate(X):
        if x[index_feature] == 1:
            left_indices.append(i)
        else:
            right_indices.append(i)
    return left_indices, right_indices

In [3]:
def weighted_entropy(X, y, index_feature):
    left_indices, right_indices = split_indices(X, index_feature)
    
    w_left = len(left_indices) / len(X)
    w_right = len(right_indices) / len(X)
    p_left = sum(y[left_indices]) / len(left_indices)
    p_right = sum(y[right_indices]) / len(right_indices)

    weighted_entropy = w_left * entropy(p_left) + w_right * entropy(p_right)
    return weighted_entropy

In [None]:
left_indices, right_indices = split_indices(X_train, 0)
weighted_entropy(X_train, y_train, 0)

### Information Gain (Ganho de Informação)
$$\text{Information Gain} = H(p_1^\text{node})- (w^{\text{left}}H(p_1^\text{left}) + w^{\text{right}}H(p_1^\text{right}))$$
**[EN-US]**

The way we decide which feature to split into a node will be based on choosing the feature that reduces entropy the most. The reduction in entropy is called Information Gain.

With this definition of entropy we can calculate the information gain associated with choosing any specific feature to divide at the node and choose the one with the highest information gain, increasing the purity of the data subsets in the left and right sub-branches.

**[PT-BR]**

A forma como decidiremos em qual feature dividir em um nó será baseada na escolha da feature que mais reduz a entropia. A redução da entropia é chamada de ganho de informação (Information Gain).

Com essa definição de entropia podemos calcular o information gain associado à escolha de qualquer feature específica para dividir no nó e, escolher a que tem maior information gain, aumentando a pureza dos subsets dos dados nos sub-galhos da esquerda e direia.

In [4]:
def information_gain(X, y, index_feature):
    p_node = sum(y) / len(y)
    h_node = entropy(p_node)
    w_entropy = weighted_entropy(X, y, index_feature)
    return h_node - w_entropy

In [17]:
information_gain(X_train, y_train, left_indices, right_indices, entropy, weighted_entropy)

0.2780719051126377

In [5]:
def best_split(X, y):
    _, features = X.shape[1]
    best_feature = -1

    max_info_gain = 0
    for feature in range(features):
        gain = information_gain(X, y, feature)

        if gain > max_infor_gain:
            max_info_gain = gain
            best_feature = feature

    return best_feature

In [6]:
def tree_recursive(X, y, branch_name, max_depth, current_depth):
    if current_depth == max_depth:
        formatting = ' ' * current_depth + '-' * current_depth
        print(f'{formatting} {branch_name} leaf node with indices {list(range(X.shape[0]))}')
        return

    best_feature = best_split(X, y)
    formatting = '-' * current_depth
    print(f'{formatting} Depth {current_depth}, {branch_name}: Split on feature: {best_feature}')

    left_indices, right_indices = split_indices(X, best_feature)
    tree.append((left_indices, right_indices, best_feature))

    tree_recursive(X[left_indices], y, 'Left', max_depth, current_depth+1)
    tree_recursive(X[right_indices], y, 'Right', max_depth, current_depth+1)