# Machine Learning e Ensemble 
por [Anderson França](https://www.andersonfranca.me/)

Os modelos ensemble são uma técnica de aprendizado de máquina que consiste em combinar vários modelos individuais para produzir uma previsão mais precisa do que um único modelo. Em vez de confiar em um único modelo para tomar uma decisão, o ensemble utiliza a sabedoria coletiva de vários modelos diferentes para produzir uma previsão mais precisa e robusta.

Existem vários tipos de modelos ensemble, incluindo:

- **Bagging:** utiliza modelos diferentes treinados em diferentes subconjuntos aleatórios dos dados de treinamento.

- **Boosting:** treina modelos sequencialmente, dando mais peso aos exemplos de dados que foram mal previstos pelo modelo anterior.


Os modelos ensemble são frequentemente usados em competições de ciência de dados e em problemas de aprendizado de máquina em que a precisão é crítica, como detecção de fraudes, previsão de demanda e previsão de preços de ações.

- AdaBoost: diferente do que vimos nos dois algoritmos anteriores, no AdaBoost não teremos a construção de árvores de decisões, mas sim de “tocos”, ou stumps. Estes tocos são como árvores de decisão com apenas um nó, sendo que a construção de cada um dependerá do toco anterior. Ou seja, existe uma dependência entre cada toco, situação que não acontece nas árvores do RandomForest e do ExtraTrees. Esta é uma característica dos algoritmos de boosting, que utilizam o resultado de um modelo para criação do próximo, buscando um aperfeiçoamento a cada iteração, aprendendo com os erros do modelo anterior.

- GradientBoosting: um dos mais poderosos algoritmos de boosting. Ele cria árvores decisões com o objetivo de prever o valor dos erros da árvore anterior, e utiliza o valor do erro previsto na definição de seu resultado final.

- Bagging: seu principal objetivo é evitar o overfitting, através da criação de diferentes modelos de machine learning, utilizando como resultado final a média das respostas encontradas. O Bagging nos permite escolher qualquer algoritmo de machine learning para realizar este processo. Ou seja, poderemos utilizar Regressão Linear, Knn, Árvore de Decisão, e assim por diante, sendo que muitos modelos serão criados com o algoritmo escolhido. Cada modelo criado será diferente dos demais, pois serão escolhidas amostras aleatórias para criação destes modelos, não sendo utilizada a totalidade dos dados de treino em um único modelo.

### Bagging 

Modelos Bagging (Bootstrap Aggregating) são um tipo de técnica ensemble que envolve a combinação de múltiplos modelos de aprendizado de máquina treinados em amostras aleatórias dos dados de treinamento.

O processo de bagging envolve a criação de várias amostras de bootstrap dos dados de treinamento. Em seguida, um modelo é treinado em cada amostra. Os modelos individuais são treinados independentemente uns dos outros, e suas previsões são combinadas para produzir uma previsão final.

O objetivo do bagging é reduzir a variância dos modelos individuais, o que ajuda a melhorar a precisão e a estabilidade da previsão. Ao treinar cada modelo em um conjunto de dados diferente, o bagging pode ajudar a reduzir o _overfitting_ e aumentar a generalização do modelo.


O Bagging pode ser usado com vários algoritmos de aprendizado de máquina, incluindo árvores de decisão, SVMs (Support Vector Machines), redes neurais e outros. É particularmente útil para reduzir o overfitting em modelos complexos, aumentando a estabilidade e a precisão das previsões.

Alguns dos benefícios do Bagging incluem:

- Redução do overfitting, tornando o modelo mais geral e robusto;
- Aumento da estabilidade das previsões;
- Possibilidade de avaliar a importância de cada variável de entrada no modelo.

## Random Forest


O Random Forest é um algoritmo do tipo ensemble que usa um conjunto de árvores de decisão para fazer previsões. O modelo de Random Forest é uma extensão da técnica de Bagging (Bootstrap Aggregating), que envolve a criação de múltiplos modelos de aprendizado de máquina treinados em subconjuntos aleatórios dos dados de treinamento. 


A criação de cada árvore de decisão no modelo segue o mesmo processo da criação de uma árvore de decisão em um modelo individual. A diferença é que, no caso do Random Forest, o processo é repetido várias vezes para criar várias árvores de decisão que são combinadas para gerar uma previsão final.

Cada árvore de decisão no modelo é construída a partir de um subconjunto aleatório dos dados de treinamento e um subconjunto aleatório dos recursos (variáveis). Esse processo de amostragem aleatória ajuda a reduzir a correlação entre as árvores de decisão, tornando o modelo de Random Forest menos propenso a _overfitting_ do que um único modelo de árvore de decisão.

Para fazer uma previsão usando um modelo de Random Forest, as previsões de cada árvore de decisão no modelo são combinadas para produzir uma previsão final. As árvores de decisão podem ser combinadas usando média ou votação, dependendo do tipo de problema que está sendo resolvido.


<img src="https://drive.google.com/uc?id=1ZQnOvzm6KS5VjlnGP9H0Bu-1J97KqjLo" width="400" align="center"/>

Imagem: [Random Forest Simplified](https://en.wikipedia.org/wiki/Random_forest)


O modelo de Random Forest é frequentemente usado para problemas de classificação e regressão e é popular devido à sua facilidade de uso, robustez, e alta precisão de previsão. Para problemas de classificação, cada árvore de decisão no modelo faz uma previsão sobre a classe de saída, e a **classe mais frequente é escolhida** como a previsão final do modelo. Para problemas de regressão, cada árvore de decisão no modelo faz uma previsão sobre o valor de saída, e a **média das previsões** é usada como a previsão final do modelo.


Podemos citar como vantagens do random forest a:

- Robustez a dados ausentes ou ruidosos;
- Tolerância a overfitting;
- Possibilidade de avaliar a importância de cada variável de entrada no modelo;
- Alta precisão em previsões.


É importante notar que o modelo de Random Forest pode ser computacionalmente intensivo, especialmente com grandes bases de dados. Além disso, a interpretabilidade do modelo pode ser limitada devido à complexidade das árvores de decisão individuais no modelo.


Para treinar o modelo, é necessário seguir as etapas de modelagem:
- Tratar e selecionar as melhores variáveis
- Dividir a base de dados
- Treinar o modelos
- Ajustar os hiperparâmetros
- Avaliar a performance


No Python, o modelo de Random Forest pode ser implementado usando a biblioteca scikit-learn. A classe **RandomForestClassifier** é usada para problemas de classificação e a classe **RandomForestRegressor** é usada para problemas de regressão.

sklearn.ensemble.**RandomForestClassifier**(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='sqrt', max_leaf_nodes=None, min_impurity_decrease=0.0, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None)

Confira a definição completa dos hiperparâmetros em: [Scikitlearn - Random Forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier)

In [3]:
#Carregar base de Dados
import pandas as pd
base = pd.read_excel('Base Dados.xlsx')

In [4]:
x = pd.DataFrame(base[['VAL_SH','VAL_SP','QT_DIARIAS','DIAR_ACOM']])
y = base['MORTE']

In [5]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [14]:
#Particionar base de dados
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

In [8]:
# Definir parâmetros do modelo
modelo = RandomForestClassifier(n_estimators=100, random_state=0)

Os principais hiperparâmetros que podem ser ajustados no modelo de Random Forest são:

- **n_estimators:** O número de árvores de decisão que serão criadas no modelo. Quanto mais árvores, mais estável e robusto é o modelo, mas também pode levar a um aumento no tempo de treinamento.

- **max_depth:** A profundidade máxima da árvore de decisão. Controla a complexidade do modelo. Uma profundidade muito grande pode levar a overfitting, enquanto uma profundidade muito baixa pode levar ao _underfitting_.

- **max_features:** O número máximo de recursos (variáveis) considerados para cada divisão da árvore. Um valor menor pode reduzir a correlação entre as árvores, mas também pode reduzir a precisão do modelo.

- **min_samples_split:** O número mínimo de amostras necessárias para dividir um nó interno da árvore. Um valor muito pequeno pode levar a overfitting, enquanto um valor muito grande pode levar a underfitting.

- **min_samples_leaf:** O número mínimo de amostras necessárias para serem consideradas em uma folha da árvore. Controla a complexidade da árvore. Valores muito baixos podem levar a overfitting, enquanto valores muito altos podem levar a underfitting.

- **bootstrap:** Controla se as amostras são retiradas do conjunto de treinamento com ou sem reposição. Quando definido como "True", as amostras são retiradas com reposição, o que aumenta a variabilidade do modelo e pode levar a uma melhor precisão.

- **Random_state:** Define a semente aleatória para garantir que os resultados sejam reproduzíveis. O modelo sempre produzirá os mesmos resultados se tiver um valor definido de estado aleatório e receber os mesmos hiperparâmetros e dados de treinamento.

- **n_jobs:** informa ao mecanismo quantos processadores ele pode usar. Se o valor for 1, pode usar apenas um processador, mas se o valor for -1, não há limite.

In [13]:
#Ajustar o modelo
modelo.fit(X_train, y_train)

RandomForestClassifier(random_state=0)

In [11]:
y_pred = modelo.predict(X_test)

In [12]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.91      0.97      0.94      3541
           1       0.50      0.26      0.34       459

    accuracy                           0.88      4000
   macro avg       0.70      0.61      0.64      4000
weighted avg       0.86      0.88      0.87      4000



Ao ajustar um modelo de Random Forest, é importante ajustar os hiperparâmetros do modelo, como o número de árvores, a profundidade máxima da árvore e o número máximo de recursos usados para cada divisão da árvore, para obter a melhor precisão possível. A biblioteca Scikit-learn fornece funções úteis, como GridSearchCV, para encontrar os melhores hiperparâmetros automaticamente.

### ExtraTrees

O ExtraTrees (Extremely Randomized Trees) é um algoritmo que utiliza a técnica de bagging para construir várias árvores de decisão aleatórias independentes. Ele é uma variação do algoritmo Random Forest, porém com algumas diferenças no processo de construção das árvores.

Enquanto no Random Forest o algoritmo utiliza um subconjunto aleatório de características (variáveis) para cada nó da árvore durante o processo de construção, o ExtraTrees utiliza um subconjunto aleatório de características em cada nó e, além disso, seleciona aleatoriamente os pontos de divisão nos dados para cada subconjunto.

Essa abordagem aleatória de seleção de pontos de divisão faz com que o ExtraTrees seja ainda mais resistente ao overfitting do que o Random Forest. Além disso, o processo de treinamento é mais rápido, uma vez que não é necessário calcular a medida de impureza para cada ponto de divisão.

Assim como no Random Forest, o resultado final do ExtraTrees é uma média das previsões de cada árvore individual. O algoritmo é bastante versátil e pode ser utilizado em problemas de classificação e regressão.

Uma desvantagem do ExtraTrees em relação ao Random Forest é que, por ser mais aleatório, ele pode ter uma tendência a gerar modelos menos interpretáveis. No entanto, em muitos casos, o aumento da precisão compensa essa desvantagem.

In [19]:
#Carregar biblioteca ExtraTreesClassifier
from sklearn.ensemble import ExtraTreesClassifier

In [23]:
# Cria o modelo ExtraTreesClassifier
modelo = ExtraTreesClassifier(n_estimators=100, random_state=0)

In [24]:
# Treina o modelo com o conjunto de treinamento
modelo.fit(X_train, y_train)

ExtraTreesClassifier(random_state=0)

In [25]:
# Faz as previsões com o conjunto de teste
y_pred = modelo.predict(X_test)

In [26]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.91      0.96      0.93      3541
           1       0.47      0.27      0.35       459

    accuracy                           0.88      4000
   macro avg       0.69      0.62      0.64      4000
weighted avg       0.86      0.88      0.87      4000



### Feature Importance

o **Feature importance**, ou importância das variáveis, é uma medida que indica a importância relativa de cada característica ou variável de entrada para o modelo. De forma simples, o _feature importance_ mostra quais características tiveram mais influência na tomada de decisão do modelo.

Existem diferentes maneiras de calcular o feature importance, dependendo do algoritmo utilizado. No caso do ExtraTrees, RandomForest e outros algoritmos baseados em árvores de decisão, uma das medidas mais comuns é o Gini Importance, que calcula a redução média de impureza (ou ganho de informação) que cada característica fornece ao modelo ao ser utilizada em cada nó da árvore. As características que fornecem maior ganho de informação têm uma importância maior para o modelo.

A utilização da _feature importance_ em modelos como o Random Forest, pode trazer diversas vantagens:

- **Seleção de features:** A partir da importância das features, podemos identificar as que mais influenciam na predição do modelo. Isso nos ajuda a selecionar as features mais importantes e reduzir o conjunto de features para um modelo mais simples e eficiente.

- **Interpretabilidade:** A feature importance pode ser usada para entender quais são as características mais importantes para a tomada de decisões do modelo, o que pode ser útil para explicar o modelo para terceiros e para realizar análises exploratórias dos dados.

- **Detecção de ruídos:** A feature importance pode ajudar a detectar variáveis que estão adicionando ruído ao modelo, ou seja, que estão atrapalhando a capacidade do modelo de generalizar os dados. Com essa informação, podemos remover ou reajustar essas features para melhorar o desempenho do modelo.

- **Seleção de modelos:** A feature importance também pode ser usada para comparar o desempenho de diferentes modelos e identificar qual modelo é o mais adequado para um determinado conjunto de dados.

In [34]:
importancia_bd = pd.DataFrame({
    'feature': modelo.feature_names_in_,
    'importancia': modelo.feature_importances_
})

In [38]:
# Ordenar o dataframe pela importância das features
importancia_bd = importancia_bd.sort_values('importancia', ascending=False)
importancia_bd

Unnamed: 0,feature,importancia
0,VAL_SH,0.440342
1,VAL_SP,0.349919
2,QT_DIARIAS,0.15346
3,DIAR_ACOM,0.056278


# Boosting

Boosting é uma técnica que consiste em construir um modelo forte a partir de vários modelos fracos. A ideia central do boosting é treinar uma sequência de modelos que são capazes de aprender com os erros dos modelos anteriores, de forma que o modelo final seja mais preciso e robusto.

<img src="https://drive.google.com/uc?id=1WRLxndSy7yEg5ZgI_JzqDcA3qZDGqo7h" width="500" align="center"/>

Imagem: [Random Forest Algorithms](https://www.analyticsvidhya.com/blog/2021/06/understanding-random-forest/)


O processo de boosting começa com a construção de um modelo simples, que pode ser uma árvore de decisão ou um modelo linear, por exemplo. Em seguida, o modelo é treinado e os erros são analisados. A partir dos erros, um segundo modelo é construído, dando mais peso aos exemplos que foram classificados erroneamente pelo primeiro modelo. Esse processo é repetido várias vezes, com cada novo modelo sendo treinado para corrigir os erros dos modelos anteriores.

O boosting é especialmente útil quando lidamos com problemas de classificação com dados desbalanceados, onde uma classe é muito mais frequente do que a outra. Nesses casos, um modelo simples pode ter dificuldade em detectar padrões na classe minoritária, e o boosting pode ajudar a melhorar o desempenho do modelo.

Existem vários modelos de Boosting disponíveis, cada um com suas características próprias. Abaixo estão listados alguns dos principais modelos de Boosting:

- **AdaBoost (Adaptive Boosting):** É o modelo de Boosting mais conhecido e utilizado. Ele ajusta pesos para cada exemplo de treinamento de acordo com a dificuldade de classificação, e atribui maior peso aos exemplos que foram classificados erroneamente. No final, o modelo é formado pela combinação ponderada dos modelos individuais.

- **Gradient Boosting:** É um modelo de Boosting em que cada modelo sucessivo é treinado para corrigir os erros do modelo anterior, usando o gradiente da função de perda como orientação. Este modelo é amplamente utilizado em competições de ciência de dados, devido ao seu desempenho superior em muitos problemas.

- **XGBoost (Extreme Gradient Boosting):** É uma implementação otimizada do Gradient Boosting que utiliza algumas técnicas para reduzir o tempo de treinamento e melhorar o desempenho, como o uso de aproximações de segundo grau para calcular o gradiente.

- **LightGBM:** É outra implementação otimizada do Gradient Boosting, que utiliza uma estrutura de árvore diferente da utilizada no XGBoost para tornar o treinamento mais rápido e eficiente.

- **CatBoost:** É um modelo de Boosting que utiliza algumas técnicas especiais para lidar com variáveis categóricas, que são comuns em muitos problemas do mundo real.

### AdaBoost

O AdaBoost funciona ajustando um conjunto de pesos para cada exemplo de treinamento, com base em quão bem o modelo atual está classificando os exemplos. Na primeira iteração, todos os exemplos têm o mesmo peso. Em seguida, um modelo fraco é treinado em todo o conjunto de treinamento, e os pesos são ajustados para que os exemplos que foram classificados incorretamente tenham maior peso na próxima iteração. O processo é repetido várias vezes, adicionando modelos fracos sucessivos ao conjunto, e ajustando os pesos a cada iteração.

No final, os modelos fracos são combinados em um modelo forte, atribuindo a cada um deles um peso, de acordo com sua precisão em relação aos pesos dos exemplos. O modelo final é então usado para fazer previsões em novos dados.

O AdaBoost é uma técnica eficaz para melhorar a precisão de modelos fracos, e tem sido amplamente utilizado em problemas de classificação binária e multiclasse. Ele tem a vantagem de ser fácil de implementar e não requer muitos hiperparâmetros para serem ajustados.



In [41]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

In [48]:
# Criando um classificador base (modelo fraco)
base_estimator = DecisionTreeClassifier(max_depth=1)

In [49]:
# Criando o modelo AdaBoost
ada_boost = AdaBoostClassifier(base_estimator=base_estimator, 
                               n_estimators=50, 
                               random_state=0)

In [50]:
# Treinando o modelo
ada_boost.fit(X_train, y_train)

AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=1),
                   random_state=0)

In [51]:
# Fazendo previsões no conjunto de teste
y_pred = ada_boost.predict(X_test)

In [52]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.90      0.99      0.94      3541
           1       0.63      0.12      0.20       459

    accuracy                           0.89      4000
   macro avg       0.76      0.56      0.57      4000
weighted avg       0.87      0.89      0.86      4000



Para mais modelos disponíveis no Sklearn, acesse a documentação em: [Ensemble Methods](https://scikit-learn.org/stable/modules/ensemble.html)