# Algoritmo de Árvore de Decisão

Um algoritmo de árvore de decisão é um método de aprendizado de máquina supervisionado usado para classificação e regressão. Aqui está um resumo básico do algoritmo:

**Construção da Árvore**:
   - Começa com um nó raiz que contém todo o conjunto de dados.
   - Escolhe o melhor atributo para dividir os dados com base em critérios como entropia, ganho de informação ou índice Gini.
   - Divide o conjunto de dados em subconjuntos com base nos valores do atributo selecionado.
   - Repete recursivamente esse processo para cada nó filho, até que:
     - Todos os pontos de dados em um nó pertençam à mesma classe (no caso de classificação) ou alcançar um critério de parada (por exemplo, profundidade máxima da árvore).
   - É possível também podar a arvoré para generalizar mais seus resultados, evitando overfitting, podendo ser pré-poda (parando a construção da árvore mais cedo) ou pós-poda (removendo partes da árvore após a construção)

Em resumo, as árvores de decisão são poderosas ferramentas de aprendizado de máquina, conhecidas por sua capacidade de lidar com interpretação e facilidade de uso. No entanto, elas requerem cuidados adequados para evitar problemas de overfitting e podem não ser a melhor escolha em todos os casos de modelagem.

### 1.1 Entropia:

A entropia é uma medida de desordem ou incertezas, ela alterna de 0 (ordem, puro) até 1 (desordem).

No contexto de árvores de decisão, a entropia é usada para avaliar a pureza de um nó. Cada nó representa uma divisão nos dados com base em um atributo (classe de alguma coluna). A fórmula para calcular a entropia de um nó é dada por:

$$ E(S) = - \sum_{i=1}^{c} p_i \log_2(p_i) $$

Onde $ E(S) $ é a entropia do nó, $ c $ é o número de classes, e $ p_i $ é a proporção de exemplos no nó pertencentes à classe $ i $. **Quanto mais próximo $ E(S) $ estiver de zero, mais puro é o nó, melhor ele discrimina a variável target**.

### 1.2 Ganho de Informação:

O objetivo em árvores de decisão é encontrar a melhor maneira de dividir os dados para maximizar a homogeneidade nos nós filhos. O ganho de informação é usado para medir a eficácia de uma divisão. É calculado subtraindo a entropia ponderada dos nós filhos da entropia do nó pai:

$$ \text{Ganho de Informação} = E(\text{Nó Pai}) - \sum_{j=1}^{k} \frac{N_j}{N} \cdot E(\text{Nó Filho}_j) $$

Onde $ k $ é o número de nós filhos, $ N_j $ é o número de amostras no $ j $-ésimo nó filho e $ N $ é o número total de amostras no nó pai. **Quanto maior o Ganho de Informação melhor**.

### 1.3 Índice Gini

O índice de Gini é outro critério utilizado em árvores de decisão para medir a impureza de um nó. Ele é frequentemente usado em alternância com a entropia, e ambos os critérios buscam encontrar divisões nos dados que resultem em subconjuntos mais homogêneos.

A fórmula para calcular o índice Gini $Gini(t)$ de um nó $t$ com $K$ classes é dada por:

$$ Gini(t) = 1 - \sum_{i=1}^{K} p_i^2 $$

Onde $p_i$ é a proporção de exemplos da classe $i$ no nó $t$. Quanto menor o índice Gini, mais homogêneo é o nó.

### 1.4 Ganho Gini

O ganho Gini é usado para avaliar a eficácia de uma divisão em um nó. Ele é calculado subtraindo o índice Gini ponderado dos nós filhos do índice Gini do nó pai:

$$  Gini(\text{Nó Pai}) = \sum_{j=1}^{k} \frac{N_j}{N} \cdot Gini(\text{Nó Filho}_j) $$

Onde $k$ é o número de nós filhos, $N_j$ é o número de exemplos no $j$-ésimo nó filho e $N$ é o número total de exemplos no nó pai. A escolha da divisão é feita maximizando o ganho Gini.

**Quanto menor o Índice Gini do Nó melhor**.

### Critério de Parada:

Durante a construção da árvore, a divisão é interrompida quando um determinado critério é atendido, como atingir uma profundidade máxima (quantos nós teremos), ter um número mínimo de amostras em um nó ou alcançar um ganho de informação insuficiente.

Em resumo, em árvores de decisão, a entropia é usada para avaliar a impureza de um conjunto de dados e guiar as decisões de divisão para criar uma árvore que melhor classifica os dados de maneira eficiente. O algoritmo procura dividir os dados de uma maneira que maximize o ganho de informação e, assim, minimize a entropia nos nós filhos e saber qual a ordem que cada várivael preditora irá aparecer.

<h3>Quando a base é desbalanceada </h3>

Se o conjunto de dados é balanceado, significa que as classes da variável target têm aproximadamente a mesma quantidade de casos. Nesse caso, a entropia inicial do conjunto de dados pode ser relativamente alta, já que não há uma classe dominante que tornaria o conjunto mais homogêneo. Além disso as divisões podem ter dificuldade em aumentar significativamente o ganho de informação, pois não há uma classe dominante que proporcione uma direção clara para a divisão.

In [9]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings("ignore")

import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
x_iris = pd.DataFrame(iris.data, columns= [iris.feature_names])
y_iris = pd.Series(iris.target)

x_iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [10]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.tree import DecisionTreeClassifier

#Separando dados em folds
skfold = StratifiedKFold(n_splits=5, random_state=8, shuffle=True)

#Criação do modelo
modelo = DecisionTreeClassifier()
resultado = cross_val_score(modelo, x_iris, y_iris, cv = skfold)

#Acurácia
print("Acurácia:",round(resultado.mean(),2))

Acurácia: 0.95


In [4]:
import graphviz 
from sklearn.tree import export_graphviz

arquivo = 'example.dot'
modelo.fit(x_iris, y_iris)

export_graphviz(modelo, out_file=arquivo, feature_names= iris.feature_names)
with open(arquivo) as aberto:
    grafico_dot = aberto.read()
h = graphviz.Source(grafico_dot)
h.view()

'Source.gv.pdf'

### Estudo de Parâmetros

**max_depth:** Define a profundidade máxima da árvore. Isso limita o número de níveis ou ramos.

**min_samples_split:** Especifica o número mínimo de amostras necessárias para dividir um nó interno.

**min_samples_leaf:** Define o número mínimo de amostras necessário em uma folha (nó final).

 "split" ocorre quando um nó é dividido em subnós, enquanto "leaf" é um nó final que não é dividido mais, representando uma decisão final ou um valor previsto.

In [11]:
from sklearn.model_selection import GridSearchCV

parametros_grid = {
    'criterion': ['gini','entropy'],
    'max_depth': [3,4,5,6],
    'min_samples_split': [2, 3, 4, 5, 6, 7, 8]
    ##'min_samples_leaf': [1, 2, 3]
}

modelo_1 = DecisionTreeClassifier(random_state= 10)

gridDecisionTree = GridSearchCV(estimator= modelo_1, param_grid= parametros_grid, cv = 5, scoring='accuracy')
gridDecisionTree.fit(x_iris, y_iris)

#Imprimindo melhores parâmetros
print("Mínimo Split:", gridDecisionTree.best_estimator_.min_samples_split)
print("Máxima Profundidade:",gridDecisionTree.best_estimator_.max_features_)
print("Algoritmo Escolhido:",gridDecisionTree.best_estimator_.criterion)
print("Acurácia:",round(gridDecisionTree.best_score_,2))

Mínimo Split: 2
Máxima Profundidade: 4
Algoritmo Escolhido: gini
Acurácia: 0.97


In [34]:
melhor_modelo = DecisionTreeClassifier(min_samples_split= 2, max_depth=4, criterion='gini', scoring='accuracy')
melhor_modelo.fit(x_iris,y_iris)

export_graphviz(melhor_modelo, out_file='exemplo2.dot', feature_names= iris.feature_names)
with open('exemplo2.dot') as aberto:
    grafico_dot = aberto.read()
h = graphviz.Source(grafico_dot)
h.view()

'Source.gv.pdf'

## Exemplo de Regressão

In [12]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold

# Dados Admissão de Alunos
df_adm = pd.read_csv('C:/GIT/Data_Science/01_Regressao_linear/Admission_Predict.csv')

df_admiss = (df_adm.drop(['Serial No.'], axis='columns')).copy()

x_admiss = df_admiss.loc[:, df_admiss.columns != 'Chance of Admit ']
y_admiss = df_admiss.loc[:, df_admiss.columns == 'Chance of Admit ']

# Separando em folds
kfold = KFold(n_splits=5, random_state=7, shuffle=True)

modelo_2 = DecisionTreeRegressor()
resultado = cross_val_score(modelo_2, x_admiss, y_admiss, cv = kfold)

print("Coeficiente de determinaçãoR2:", round(resultado.mean(),2))

Coeficiente de determinaçãoR2: 0.57


In [14]:
# Definindo Parâmetros
parametros_grid_1 = {
    'criterion': ['mse','friedman_mse','mae'],
    'max_depth': [3,4,5,6,7],
    'min_samples_split': [2, 3, 4, 5, 6, 7, 8]
    ##'min_samples_leaf': [1, 2, 3]
}

# Modelo
modelo_3 = DecisionTreeRegressor()

# Criando Grids
GridSearchRegressor = GridSearchCV(estimator= modelo_3,  cv = 5, param_grid = parametros_grid_1)
GridSearchRegressor.fit(x_admiss, y_admiss)

#Imprimindo melhores parâmetros
print("Mínimo Split:", GridSearchRegressor.best_estimator_.min_samples_split)
print("Máxima Profundidade:",GridSearchRegressor.best_estimator_.max_features_)
print("Algoritmo Escolhido:",GridSearchRegressor.best_estimator_.criterion)
print("Coeficiente R2:",round(GridSearchRegressor.best_score_,2))

Mínimo Split: 5
Máxima Profundidade: 7
Algoritmo Escolhido: friedman_mse
Coeficiente R2: 0.71
