# ExtraTrees (__Extremely Randomized Trees__)
É uma variação do algoritmo Random Forest. Nele, também são criadas várias árvores de decisão, mas a principal diferença está no fato de que, no ExtraTree, a escolha dos pontos de split das árvores é feita de forma __completamente aleatória__ dentro de um conjunto de variáveis, enquanto que na Random Forest a escolha é baseada na busca do melhor split. Esse funcionadomento da ExtraTree torna ele mais rápido, pois menos otimizações são realizadas, mas também podendo resultar em um modelo menos preciso a depender do conjunto de dados.

Conforme mencionamos anteriormente, enquanto na Random Forest é realizada uma busca pela variável que realizará o melhor split, aqui no __ExtraTree__ será selecionada a variável que fará o split e o ponto de divisão de forma completamente aleatória, ou seja, não irá buscar pela melhor variável ou melhor split para realizar a divisão.

Essa grande quantidade de aleatoriedade faz com que as árvores tenham uma menor correlação entre si, o que pode melhorar sua capacidade de generalização nos problemas.

## __Funcionamento__
- 1) __Subamostragem:__ Trabalha com amostras aleatórias dos dados para cada árvore criada. Isso ajuda a reduzir overfitting e aumenta a diversidade entre as árvores.
- 2) __Divisão aleatória dos nós:__ Durante a construção da árvore, ao invés de calcular a divisão ótima da variável, o ExtraTree escolhe uma variável aleatoriamente e depois seleciona o ponto de split também de forma aleatória. Fazer esse processo evite que a árvore se ajuste muito aos dados de treino, que a levaria a um possível overfitting.
- 3) __Construção de múltiplas árvores:__ O ExtraTree constrói diversas árvores de maneira independente, usando diferentes amostras dos dados e diferentes splits aleatórios. O número de árvores construídas é um hiperparâmetro que podemos ajustar.
- 4) __Agregação (ensemble):__ Para realizar a previsão final, é combinada as saídas de todas as árvores no ensemble. Em problemas de __classificação__, utiliza a média da previsão das probabilidades ou voto da maioria. Para __regressão, utiliza a média das previsões das árvores.

## __Processamento__
Para a ExtraTree, pode ser necessário realizar __normalização__ ou __padronização__ dos dados, tratamento de nulos, e conversão de variáveis categóricas em numéricas (aplicando algo como OHE).

Também pode ser necessário realizar ajuste dos hiperparâmetros do modelo, como número de árvores e sua profundidade, quantidade de amostras, mínimo split, entre outros.

Para tentar evitar o overfitting, é uma boa ideia utilizarmos validação cruzada.

## __Casos de uso__
- 1) Dados com alta dimensionalidade
- 2) Dados ruidosos
- 3) Otimização do tempo de treinamento
- 4) Problemas de classificação e tregressão

## __Vantagens x Desvantagens__
__Vantagens:__
- Reduz o overfitting: Por causa da grande aleatoriedade envolvida no ExtraTree, é mais difícil que as árvores se sobreajustem aos dados de treino.
- Rápido: Devido a essa aleatoriedade e em não buscar um ponto ótimo, o processo de construção da árvore é mais rápido.
- Diversificação: O modelo cria árvores muito diversas, o que melhora a robustez do ensemble.

__Desvantagens:__
- Baixa interpretabilidade: Tanta aleatoriedade torna mais difícil de interpretar os resultados do modelo, já que as divisões não são ótimas em termos de significância estatística.
- Desempenho incosistente: Essa grande aleatoriedade pode gerar um desempenho inferior quando comparado a outros métodos de ensemble.

In [None]:
# Importação do google drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Importações
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pickle
import warnings
warnings.filterwarnings('ignore')
plt.style.use('ggplot')

from sklearn.tree import ExtraTreeClassifier
from sklearn.model_selection import cross_val_score, StratifiedKFold

In [None]:
alvo = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas manualmente, sem escalonamento
previsores = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart2.pkl')

# previsores_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart3.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder.
previsores2 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart4.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder e OneHotEncoder, sem escalonamento.
previsores3 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart5.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas pelo LabelEncoder e OHE, com escalonamento.
previsores3_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart6.pkl')

In [None]:
# Criação do modelo
tree = ExtraTreeClassifier(random_state = 42)
skfold = StratifiedKFold(n_splits = 5, shuffle = True, random_state = 42)
resultado = cross_val_score(tree, previsores3_esc, alvo, cv=skfold)
print(f'Acurácia média: {resultado.mean()*100:.2f}%')

Acurácia média: 78.84%


Vamos testar diferentes parametros.

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
# Valores a testar
params = {
    'max_depth': [3, 4, 5, 6],
    'criterion': ['gini', 'entropy'],
    'min_samples_split': [2, 3, 4, 5],
    'min_samples_leaf': [1, 2, 3, 4, 5]
}

In [None]:
grid = GridSearchCV(tree, param_grid=params, cv=skfold)

In [None]:
grid.fit(previsores3_esc, alvo)

In [None]:
# Verificação dos melhores parâmetros
print(f'Melhores parâmetros: {grid.best_params_}')
print(f'Melhor acurácia (validacao cruzada no treino): {grid.best_score_}')

Melhores parâmetros: {'criterion': 'entropy', 'max_depth': 5, 'min_samples_leaf': 2, 'min_samples_split': 2}
Melhor acurácia (validacao cruzada no treino): 0.8320681872178664
