# Modelos de Ensemble
Ensemble, em Machine Learning, refere-se a uma abordagem onde múltiplos modelos (geralmente chamados de "modelos fracos" ou "modelos base") são treinados e combinados para resolver um problema específico. A ideia central é que, ao combinar vários modelos, o conjunto resultante (ensemble) pode superar o desempenho de qualquer modelo individual.

Essa técnica baseia-se no princípio de que diferentes modelos podem capturar diferentes padrões ou erros nos dados. Ao agregá-los, os erros individuais tendem a se cancelar, enquanto os sinais (informações corretas) são reforçados.

- **Melhoria do Desempenho:** Modelos de ensemble geralmente têm melhor performance em termos de precisão e robustez em comparação com modelos individuais.
- **Redução de Variância e Viés:**
    -Redução de Variância: Combinações como o Bagging ajudam a reduzir a variabilidade dos modelos, tornando as previsões mais estáveis.
    -Redução de Viés: Técnicas como o Boosting focam em corrigir os erros dos modelos anteriores, reduzindo o viés total.
- **Robustez:** Modelos de ensemble são menos propensos a overfitting, especialmente quando os modelos individuais são diversos.



### Bagging
- Bagging é uma abreviação de Bootstrap Aggregating.
Bagging é uma técnica de ensemble que combina múltiplos modelos de aprendizado de máquina para aumentar a precisão do modelo. 

- **Objetivo:** Reduzir a variância do modelo, aumentando a estabilidade e a precisão.

- **Random Forest** é um ensemble de árvores de decisão onde cada árvore é treinada em um subconjunto aleatório dos dados e, adicionalmente, utiliza uma seleção aleatória de características em cada divisão.




In [None]:
#exemplo de random forest

from sklearn.ensemble import RandomForestClassifier

# Cria o modelo com 100 árvores
modelo_rf = RandomForestClassifier(n_estimators=100, random_state=42)
modelo_rf.fit(X_train, y_train)

# Previsão
y_pred = modelo_rf.predict(X_test)


### Boosting

- Boosting é uma técnica de ensemble que combina múltiplos modelos de aprendizado de máquina para aumentar a precisão do modelo. Boosting treina modelos sequencialmente, onde cada modelo tenta corrigir os erros do anterior. 

- O modelo final é uma combinação ponderada de todos os modelos.

- Exemplos de algoritmos de Boosting incluem AdaBoost, Gradient Boosting e XGBoost.


In [None]:
#AdaBoost

from sklearn.ensemble import AdaBoostClassifier

# Cria o modelo com 50 estimadores base
modelo_adaboost = AdaBoostClassifier(n_estimators=50, random_state=42)
modelo_adaboost.fit(X_train, y_train)

# Previsão
y_pred = modelo_adaboost.predict(X_test)


In [None]:
#Gradient Boosting
from sklearn.ensemble import GradientBoostingClassifier

# Cria o modelo com 100 estimadores
modelo_gb = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)
modelo_gb.fit(X_train, y_train)

# Previsão
y_pred = modelo_gb.predict(X_test)


### Função de Perda: Entropia Cruzada

- A entropia cruzada é uma métrica comum para avaliar a qualidade de um modelo de classificação.

- A entropia cruzada mede a divergência entre duas distribuições de probabilidade: a distribuição real dos dados e a distribuição prevista pelo modelo.

- A entropia cruzada é frequentemente usada como função de perda em problemas de classificação binária e multiclasse.

A fórmula de perda de entropia cruzada para classificação binária é dada por:

\begin{equation}
loss = 1/N \sum_{i=1}^{N} -[y_i * log(\hat{y}_i) + (1-y_i) * log(1-\hat{y}_i)]
\end{equation}






### Como os Ensembles Melhoram o Desempenho?

**1. Diversidade dos Modelos Importância da Diversidade:** 
Para que o ensemble seja eficaz, os modelos base devem ser diversos, ou seja, cometer erros diferentes em diferentes partes dos dados.
- Como Alcançar Diversidade:
    - Diferentes Subconjuntos de Dados: Usando técnicas como bagging, onde cada modelo é treinado em um subconjunto diferente.

    - Diferentes Conjuntos de Características: Selecionando diferentes conjuntos de características para cada modelo.

    - Diferentes Hiperparâmetros ou Algoritmos: Usando diferentes configurações ou até mesmo diferentes algoritmos de aprendizado.

**2. Combinação de Previsões Votação Majoritária:**
Na classificação, cada modelo vota na classe prevista, e a classe com mais votos é escolhida.

Média das Previsões: Na regressão, as previsões são combinadas calculando a média.

**3. Redução de Overfitting Cancelamento de Erros:** Os erros individuais dos modelos tendem a se anular quando combinados, especialmente se os erros não forem correlacionados.

Maior Generalização: O ensemble tende a generalizar melhor em dados não vistos.

![](../photos/bagging-boosting.png)
