# **Árvore de Decisão**
Nos algoritmos de árvore de decisão, uma árvore de decisão é gerada com base nas características mais relevantes dos dados, determinadas pelo próprio algoritmo. A cada nova entrada, o algoritmo percorre a árvore, seguindo as regras estabelecidas, para realizar a classificação ou regressão.

Atraves de calculos matematicos, o proprio algoritmo verifica quais caracteristicas serao utilizadas na construcao da arvore, qual caracteristica dara inicio a arvore, e tambem determina a separacao dos ramos da arvore.

A estrutura da arvore de decisao eh composta por: **nós**, **ramos**, e **folhas**.

**Nós**: Sao as decisoes/testes feitos baseados em caracteristicas (variaveis) dos dados. Cada nó interno da arvore representa alguma condicao, como "Idade > 30?". Onde, a depender do resultado dessa condicao, a arvore segue um caminho ou outro.

**Ramos**: Sao as conexoes entre os nós. Representam os resultados possiveis de um teste ou decisao feita por um nó. Por exemplo, se o nó verifica que a idade eh maior que 30, o ramo indicara o caminho a seguir, como "sim" ou "nao".

**Folhas**: Sao os nós finais da arvore, quenão se dividem mais. Elas representam as classes ou valores finais após todas as verificações. Por exemplo, "tratamento 01" ou "tratamento 02".

![Árvore de Decisão](https://blog.somostera.com/hs-fs/hubfs/Blog_free_images/decision-tree.png?width=1007&name=decision-tree.png)

## **Processo de treinamento/geração de uma árvore de decisão**
Para decidir quais características serão utilizadas no algoritmo, e também sua ordem de procedência, existem cálculos que podem ser utilizados, que são a **Entropia** (medida de falta de homogeneidade), o **índice Gini** (medida do grau de heterogeneidade), e o **Ganho de Informação**:
- $$ \text{Entropia}(S) = - \sum_{i=1}^{c} p_i \log_2 p_i $$

- $$ Gini(S) = 1 - \sum_{i_1}^{c} p_i^2 $$

- $$ \text{Gini para característica(S, A)} = \sum_{v \in \text{Valores}(A)} \frac{|S_v|}{|S|} Gini(S_v) $$

- $$ \text{Ganho com Entropia}(S, A) = \text{Entropia}(S) - \sum_{v \in \text{Valores}(A)} \frac{|S_v|}{|S|} \text{Entropia}(S_v) $$

- $$ \text{Ganho com Gini}(S, A) = Gini(S) - \sum_{v \in \text{Valores}(A)} \frac{|S_v|}{|S|}Gini(S_v) $$

<br>

A __entropia__, basicamente, mede o grau de desorganização ou incerteza nos dados. quanto menor a entropia, mais homogênea é a distribuição dos dados em relação à classe alvo. É a probabilidade de cada classe no conjunto de dados.

Quanto menor for o valor da entropia, __melhor é a distribuição dos dados__. Ou seja, torna mais fácil de fazer a classificação de uma classe, pois todos os valores estão dentro de uma única classe.

<br>

O __Gini__, também é uma métrica para medir a pureza dos dados. É a proporção de cada classe no conjunto de dados. Para os valores Gini, quanto menor for seu valor, maior pureza existe nos dados.

<br>

O __ganho__, basicamente, calcula o peso dos atributos. Ou seja, ele determina o quanto uma característica reduz a incerteza nos dados. O atributo que tem a maior redução de incerteza é usado como primeiro nó da árvore. Realização do cálculo:

- Primeiro, calculamos a __Entropia__ ou __Gini__ do conjunto de dados.
- Após, para cada atributo, calculamos a __Entropia__ ou __Gini__ dos subconjuntos gerados ao dividir os dados pelo atributo.
- Então, ponderamos a __Entropia__ ou __Gini__ de cada subconjunto pela proporção original no conjunto de dados.
- Dessa forma, o __GI__ é a diferença entre a __Entropia__ e o __Gini__ original e a soma ponderada dos subconjuntos.


Ou seja, calculamos a __entropia__ ou __gini__ para cada subconjunto de dados (após a divisão por um atributo) e ponderamos essa entropia pela proporção de elementos em cada subconjunto. Somamos os valores ponderados e, em seguida, subtraimos essa soma da entropia ou gini inicial.


Para conseguirmos realizar o cálculo de ganho de informação, primeiro precisamos realizar o cálculo da entropia.

## **Podagem das Árvores**
Para diminuir a probabilidade de overfitting, existem duas técnicas de podagem da árvore que podemos aplicar:
- Pré-podagem: A pré-podagem interrompe o crescimento da árvore antes que ela se torne muito complexa, evitando um excesso de divisões. É uma técnica utilizada para evitar o overfitting.
- Pós-podagem: A pós-podagem reduz a complexidade da árvore após a sua construção completa, removendo nós que não trazem mais valor ao modelo.

**Como funciona o processo de podagem:**
- Percorre-se a árvore em profundidade;
- Para cada nó de decisão, calcula-se o erro no nó e a soma dos erros nos nós descendentes;
- Caso o erro do nó seja menor ou igual à soma dos erros dos nós descendentes, então o nó é transformado em folha.

# Codificação da Árvore de Decisão

In [None]:
# Importação do google drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Imporação de bibliotecas

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pickle
import warnings
warnings.filterwarnings('ignore')
plt.style.use('ggplot')

from sklearn.model_selection import train_test_split, KFold, cross_val_score, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.tree import DecisionTreeClassifier

In [None]:
alvo = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas manualmente, sem escalonamento
previsores = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart2.pkl')

# previsores_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart3.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder.
previsores2 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart4.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder e OneHotEncoder, sem escalonamento.
previsores3 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart5.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas pelo LabelEncoder e OHE, com escalonamento.
previsores3_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart6.pkl')

In [None]:
# Divisao entre treino e teste
X_tr, X_ts, y_tr, y_ts = train_test_split(previsores3_esc, alvo, test_size=.3, shuffle=True, random_state=0)

In [None]:
X_tr.shape, y_tr.shape

((641, 20), (641,))

In [None]:
X_ts.shape, y_ts.shape

((276, 20), (276,))

In [None]:
# Instanciar a árvore de decisão
tree = DecisionTreeClassifier(criterion='entropy', random_state=0)

# Ajuste dos dados à árvore de decisão nos dados de TREINO
tree.fit(X_tr, y_tr)

In [None]:
# Previsão nos dados de TESTE
previsoes_tree = tree.predict(X_ts)
previsoes_tree

array([1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1,
       0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1,
       1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0,
       1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1,
       1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0,
       1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0,
       1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0,
       1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0,
       1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1])

In [None]:
# Acurácia
print(f'Acurácia: {accuracy_score(y_ts, previsoes_tree)*100:.2f}%')

Acurácia: 79.71%


In [None]:
confusion_matrix(y_ts, previsoes_tree)

array([[ 93,  28],
       [ 28, 127]])

In [None]:
# Previsões nos dados de treino
previsoes_tree_tr = tree.predict(X_tr)

In [None]:
print(f'Acurácia: {accuracy_score(y_tr, previsoes_tree_tr)*100:.2f}%')

Acurácia: 100.00%


In [None]:
confusion_matrix(y_tr, previsoes_tree_tr)

array([[289,   0],
       [  0, 352]])

Podemos observar que essa árvore que geramos acabou em uma situação de overfitting. Dessa forma, vamos seguir para alguns ajustes e testes de parâmetros para melhorar o seu desempenho e evitar esse overfitting.

Para isso, vamos usar a **GridSearchCV**

In [None]:
# Valores a serem testados
params = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [None, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'min_samples_split': [2, 3, 4, 5, 10],
    'min_samples_leaf': [1, 2, 3, 4, 5]
}

In [None]:
# Validação cruzada KFold
kfold = KFold(n_splits=10, shuffle=True, random_state=0)

In [None]:
# Instanciar o modelo
model = DecisionTreeClassifier()

# Instanciar a Randomized, passando os valores a serem testados e a função kfold.
search = GridSearchCV(model, param_grid=params, cv=kfold)

In [None]:
# Ajuste do modelo nos dados de TREINO
search.fit(X_tr, y_tr)

In [None]:
# Exibir as melhores métricas encontradas
print(f'Melhores parâmetros: {search.best_params_}')
print(f'Melhor acurácia: {search.best_score_}')

Melhores parâmetros: {'criterion': 'gini', 'max_depth': 3, 'min_samples_leaf': 1, 'min_samples_split': 4}
Melhor acurácia: 0.8408413461538462


## Aplicação dessa configuração para prever os dados de teste

In [None]:
# Aplicando os melhores parametros
best_tree = DecisionTreeClassifier(criterion='gini',
                                   max_depth=3,
                                   min_samples_split=4,
                                   min_samples_leaf=1)
best_tree.fit(X_tr, y_tr)

In [None]:
# Avaliação do modelo com os melhores parâmetros nos dados de TESTE
y_pred = best_tree.predict(X_ts)

resultado = cross_val_score(best_tree, previsores3_esc, alvo, cv=kfold)

print(f"Acurácia com os melhores parâmetros: {accuracy_score(y_ts, y_pred)*100:.2f}%")
print(f"Acurácia média com os melhores parâmetros: {resultado.mean()*100:.2f}%")

Acurácia com os melhores parâmetros: 83.70%
Acurácia média com os melhores parâmetros: 83.42%


In [None]:
confusion_matrix(y_ts, y_pred)

array([[ 98,  23],
       [ 22, 133]])

In [None]:
print(classification_report(y_ts, y_pred))

              precision    recall  f1-score   support

           0       0.82      0.81      0.81       121
           1       0.85      0.86      0.86       155

    accuracy                           0.84       276
   macro avg       0.83      0.83      0.83       276
weighted avg       0.84      0.84      0.84       276



In [None]:
# Previsao nos dados de TREINO
y_pred_tr = best_tree.predict(X_tr)

print(f"Acurácia com os melhores parâmetros: {accuracy_score(y_tr, y_pred_tr)*100:.2f}%")

Acurácia com os melhores parâmetros: 86.58%
