As árvores de decisão são um tipo importante de algoritmo para o aprendizado de 
máquina de modelagem preditiva^1.


Os algoritmos clássicos de árvore de decisão existem há décadas (ex. ID3, C4.5, CART, etc). Podem ser utilizados para 

1.   Classificação
2.   Regressão

Algumas variantes mais modernas, tais como Random Forest, extendem o poder deste tipo de preditores.


A representação para o modelo **CART é uma árvore binária**.

1. Cada nó raiz representa uma única variável de entrada (x) e um ponto de divisão nessa variável (assumindo que a variável seja numérica).
2. Os nós das folhas da árvore contêm uma variável de saída (y) que é usada para fazer uma previsão.


1. A modelagem preditiva é um processo que usa dados e estatísticas para prever resultados com modelos.

**Exemplo:**

Sobrevivência dos passageiros no Titanic. Os valores nas folhas mostram a probabilidade de sobrevivência e a porcentagem de instâncias cobertas pela regra.

![](https://upload.wikimedia.org/wikipedia/commons/e/eb/Decision_Tree.jpg)

Resumindo: Suas chances de sobrevivência eram boas se você fosse (i) uma mulher ou (ii) um homem com menos de 9,5 anos e estritamente menos de três irmãos.

**Vantagens:**

1. Rápido e eficiente (baixo custo computacional, log_2(features))
2. Simples de entender e interpretar. Árvores podem ser visualizadas.
3.   São modelos autoexplicativos (ranking de regras e features, "caixa branca")
4. Capaz de lidar com dados numéricos e categóricos (outras técnicas conseguem lidar com apenas um tipo de variável).
5.   O algoritmo CART fornece uma base para algoritmos importantes, como bagging.
6. Extensão multioutput trivial.

**Desvantagens:**

1. Criação de árvores super complexas que não generalizam bem os dados (overfiting). Solução: podar a árvore, limitar o crescimento, etc.
2. Tendencia a representar melhor as classes dominantes.
3. As árvores de decisão podem ser instáveis ​​porque pequenas variações nos dados podem resultar na geração de uma árvore completamente diferente.
4. Árvore de decisão são baseados em algoritmos heurísticos (greedy, decisões localmente são tomadas em cada nó).


**Teoria - Greedy Splitting**

Criar uma árvore de decisão **binária** é um processo de dividir o espaço de entrada em splits binários de forma recursova. Uma abordagem para escolher a feature que será utilizada no split é adotado um método guloso.

A avaliação gulosa requer que exista uma métrica chamada custo. O custo de cada feature é avaliado e aquela com menor custo é escolhida para realizar o split.

---

Para problemas de modelagem preditiva de regressão, a função de custo minimizada para escolher pontos de divisão é a soma dos erros ao quadrado:

$ e = \sum(y - prediction)^2$

onde y é o valor da variable de saída na regressão.

---

Para problemas de **classificação** é utilizado o **coeficiente de Gini**, que fornece uma indicativo de quão **"puros"** são os nós das folhas (quão misturados são os dados de treinamento atribuídos a cada nó).

$G = \sum(p_k * (1 – p_k))$

onde $G$ é o Gini para todas as classes, $p_k$ é a proporção de instancias em cada classe $k$ cobertas pela regra de split. 

Um nodo no qual todas as amostras são da mesma classe (máxima "purity") terá $G=0$, entretanto um nó com 50-50 split em duas classes terá $G=0.5$.

Se o problema for classificação binária, então podemos reescrever Gini da seguinte forma:

$ G = 2 * p_1 * p_2 = 1 - (p_1^2 + p_2^2)$

O cálculo do índice Gini para cada nó é ponderado pelo número total de instâncias no nó pai. O valor final de Gini para um ponto de divisão escolhido em um problema de classificação binária é, portanto, calculada da seguinte maneira:

$G = ((1 - (g1_1^2 + g1_2^2)) * (ng1/n)) + ((1 - (g2_1^2 + g2_2^2)) * (ng2/n))$

onde $g1_1$ é a proporção de instâncias no grupo 1 para a classe 1, $g1_2$ para a classe 2, $g2_1$ para o grupo 2 e classe 1, $g2_2$, grupo 2, classe 2, $ng1$ e $ng2$ são o número total das instâncias nos grupos 1 e 2 e $n$ é o número total de instâncias que estamos tentando agrupar no nó pai.

In [1]:
# load dataset


In [2]:
# Tree

In [3]:
# visualização


In [4]:
# feature mais importantes


In [5]:
# mean accuracy


In [6]:
# função de decisão

In [7]:
# Examinando a melhor regra 

import numpy as np
import matplotlib.pyplot as plt

# Parameters
n_classes = 3
plot_colors = "ryb"
plot_step = 0.02

# Load data
iris = load_iris()

plt.figure(figsize=(15,12))

for pairidx, pair in enumerate([[0, 1], [0, 2], [0, 3],
                                [1, 2], [1, 3], [2, 3]]):
    # We only take the two corresponding features
    X = iris.data[:, pair]
    y = iris.target

    # Train
    DT = DecisionTreeClassifier().fit(X, y)

    # Plot the decision boundary
    plt.subplot(2, 3, pairidx + 1)

    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
                         np.arange(y_min, y_max, plot_step))
    plt.tight_layout(h_pad=0.5, w_pad=0.5, pad=2.5)

    Z = DT.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    cs = plt.contourf(xx, yy, Z, cmap=plt.cm.RdYlBu)

    plt.xlabel(iris.feature_names[pair[0]])
    plt.ylabel(iris.feature_names[pair[1]])

    # Plot the training points
    for i, color in zip(range(n_classes), plot_colors):
        idx = np.where(y == i)
        plt.scatter(X[idx, 0], X[idx, 1], c=color, label=iris.target_names[i],
                    cmap=plt.cm.RdYlBu, edgecolor='black', s=15)

plt.suptitle("Decision surface of a decision tree using paired features")
plt.legend(loc='lower right', borderpad=0, handletextpad=0)
plt.axis("tight")
plt.show()

NameError: ignored

**Avaliando a regularização do pruning (poda)**

O DecisionTreeClassifier fornece parâmetros como min_samples_leaf e max_depth para impedir overfiting. O Pruning fornece outra opção para controlar o tamanho de uma árvore. 

* No DecisionTreeClassifier, essa técnica de remoção é parametrizada pelo parâmetro **ccp_alpha**. 
* Valores elevados de ccp_alpha aumentam o número de nós removidos. 


**Minimal cost-complexity pruning** é um algoritmo utilizado para podar uma árvore e evitar overfitting

Esse algoritmo é parametrizado pelo parâmetro de complexidade $\alpha >= 0$. O objetivo da poda é encontrar uma árvore $T$ que minimiza:

$R_{\alpha}(T) = R(T) + \alpha |T|$,

onde $|T|$ é o número de nós folhas e $R(T)$ é a taxa total de classificação incorreta dos nós terminais. 


Vamos entender o efeito deste parâmetro na regularização das árvores e como escolher um ccp_alpha com base nos scores de validação.

In [8]:
# Evitando overfitting

In [9]:
# nodes vs alpha, Depth vs alpha


In [10]:
# acuracy vs alpha


Resultado esperado em outro dataset

![exemplo em outro dataset](https://scikit-learn.org/stable/_images/sphx_glr_plot_cost_complexity_pruning_003.png)

**Grid search**

In [11]:
# Ajuste de parâmetros


In [12]:
# examinando resultados


In [16]:
# o score é a acuracia

In [14]:
# ranking das combinações de parâmetros


In [15]:
# verificar a melhor combinação
