## 🤖 O que são métodos de ensemble

🧠 Métodos de *ensemble* são técnicas de aprendizado de máquina que combinam as previsões de múltiplos modelos para melhorar a performance geral do modelo final, em comparação com a de qualquer modelo individual.

🔗 A premissa fundamental por trás dos métodos de *ensemble* é que, ao combinar diferentes modelos, é possível compensar as fraquezas de um modelo com as forças de outros — resultando em um desempenho mais **robusto**, **preciso** e **generalizável**.

🛠️ Na essência, os métodos de *ensemble* buscam agrupar modelos de base (*preditores fracos*) para gerar um modelo mais **robusto** (*preditor forte*).

## 📊 Casos de uso

### 💸 Previsão Financeira e Decisões de Investimento

📈 No setor financeiro, os métodos de *ensemble* são amplamente utilizados para **melhorar a precisão das previsões** e **informar decisões de investimento**.

🧠 Ao combinar as previsões de vários modelos de *deep learning* treinados em diferentes conjuntos de dados, os métodos de *ensemble* conseguem **capturar padrões e tendências de mercado complexos** de forma mais eficaz.

✅ Isso resulta em **previsões mais confiáveis** para:
- Preços de ações 📉📈  
- Movimentos de mercado 📊  
- Avaliações de risco ⚠️

### 🕵️‍♂️ Detecção de Anomalias e Fraudes

🔍 Os métodos de *ensemble* se destacam em tarefas de **detecção de anomalias e fraudes**, combinando as saídas de múltiplos modelos para **diferenciar padrões normais de comportamentos incomuns ou suspeitos**.

🚨 Essa abordagem ajuda a identificar:
- Potenciais fraudes 💳  
- Ataques cibernéticos 🛡️  
- Falhas de sistema ⚙️  

💼 Domínios de aplicação: bancos, segurança cibernética e processos industriais.

### 🏥 Diagnóstico Médico e Descoberta de Medicamentos

🧬 Na área da saúde, os métodos de *ensemble* são utilizados para **diagnóstico de doenças** e **descoberta de medicamentos**.

🤖 Ao combinar previsões de múltiplos modelos de aprendizado de máquina, os métodos de *ensemble* podem **melhorar a precisão na detecção de doenças** e ajudar a **identificar candidatos a medicamentos potenciais** de forma mais eficaz.

⚠️ Isso é particularmente importante em **cenários médicos complexos**, onde modelos individuais podem ter limitações.

### 🎯 Sistemas de Recomendação

🧠 Os métodos de *ensemble* são empregados em **sistemas de recomendação** para fornecer **recomendações mais precisas e personalizadas** aos usuários.

🔄 Ao combinar as saídas de múltiplos modelos de aprendizado profundo, os métodos de *ensemble* podem:
- Capturar diversas preferências dos usuários 🎯  
- Lidar com problemas de *cold start* ❄️  
- Melhorar a qualidade das recomendações em várias indústrias, como:
  - Comércio eletrônico 🛍️  
  - Entretenimento 🎬

### 🗣️ Tarefas de Processamento de Linguagem Natural (NLP)

🧠 No campo do *NLP*, os métodos de *ensemble* são usados para **aprimorar o desempenho em tarefas** como:
- Análise de sentimentos ❤️😡  
- Classificação de texto 🏷️  
- Geração de linguagem 📝

🤖 Ao combinar as previsões de múltiplos modelos de *deep learning* treinados em diferentes arquiteturas ou conjuntos de dados de NLP, os métodos de *ensemble* conseguem:
- Alcançar **maior precisão**  
- Obter **robustez na compreensão**  
- Gerar **texto semelhante ao humano**

## ⚠️ Desafios

### 🧩 Seleção e Ponderação dos Modelos

🎯 Selecionar a combinação certa de modelos a serem incluídos no *ensemble*, determinar a ponderação ideal das previsões de cada modelo e **gerenciar os recursos computacionais** necessários para treinar e avaliar múltiplos modelos simultaneamente.

⚠️ Além disso, o *ensemble learning* **nem sempre melhora o desempenho** se:
- Os modelos forem muito semelhantes 🤖🤖  
- Os dados de treinamento tiverem muito ruído 🔊

🌐 A **diversidade dos modelos** — em algoritmos, dados e perspectivas — é essencial para:
- Cobrir um espectro mais amplo de padrões  
- Garantir o poder preditivo coletivo 💡  
- Ponderar a contribuição de cada modelo com base em **métricas de desempenho** 📊

🧪 Portanto, **consideração e experimentação cuidadosas** são cruciais para alcançar os melhores resultados com *ensemble learning*.

### 🖥️ Complexidade Computacional

⚙️ O *ensemble learning*, por envolver múltiplos algoritmos e conjuntos de recursos, **requer mais recursos computacionais** do que modelos individuais.

🧵 Embora o **processamento paralelo** ofereça uma solução, **orquestrar um ensemble em múltiplos processadores** pode introduzir **complexidade na implementação e manutenção**.

🚫 Além disso, **mais computação nem sempre significa melhor desempenho**, especialmente se:
- O ensemble não for bem configurado ⚠️  
- Os modelos amplificarem erros uns dos outros em **dados ruidosos** 📉

### 🌈 Diversidade e Overfitting

🔄 O *ensemble learning* requer **modelos diversos** para evitar viés e melhorar a precisão.  
🧠 Ao incorporar diferentes algoritmos, conjuntos de recursos e dados de treinamento, o *ensemble* consegue capturar uma gama mais ampla de padrões.

⚠️ No entanto, se:
- Os modelos forem **muito diferentes entre si**, ou  
- Os dados de treinamento tiverem **ruído excessivo**,  
o *ensemble* pode sofrer de **overfitting**, generalizando mal para novos dados 📉.

🎯 Portanto, é crucial encontrar um **equilíbrio entre a diversidade dos modelos e a qualidade dos dados** para obter os melhores resultados com o *ensemble learning*.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## 🧺 Bagging

### ✅ Vantagens no Uso
- 📉 Redução da variância e do overfitting  
- ⚙️ Facilidade de paralelização  
- 🛡️ Aumento da robustez e precisão do modelo

### ❌ Desvantagens no Uso
- 💸 Maior custo computacional devido ao treinamento de múltiplos modelos  
- 🔁 Pode não ser tão eficaz se os modelos base tiverem alta correlação

---

## 🔄 Variações do Bagging

### 📦 Pasting
Você extrai amostras do dataset, considerando um subconjunto de registros, **sem reposição**.

### ♻️ Bagging
Você extrai amostras do dataset, considerando um subconjunto de registros, **com reposição**.

### 🧩 Random Subspaces
Você extrai amostras do dataset, considerando um **subconjunto de features**.

### 🧬 Random Patches
Você extrai amostras do dataset, considerando um **subconjunto de registros e de features**.


![image-2.png](attachment:image-2.png)

## 🔁 Boosting

### ✅ Vantagens no Uso
- 🔍 **Alta precisão** devido à redução do viés  
- 🧠 **Eficaz para problemas complexos** e conjuntos de dados ruidosos  
- ⚙️ **Flexibilidade** para ajustar parâmetros e melhorar a performance  

### ⚠️ Desvantagens no Uso
- 🧪 **Maior suscetibilidade ao overfitting** se não ajustado corretamente  
- 💻 **Custo computacional mais alto** e tempo de treinamento mais longo  

---

## 🔀 Variações do Boosting

### 🟨 Adaptive Boosting (AdaBoost)
No **AdaBoost**, a ênfase está em ajustar o peso das observações mal classificadas em cada iteração.  
Cada modelo subsequente é treinado para focar mais nas instâncias que os modelos anteriores falharam em prever corretamente.  
🔗 O modelo final é uma combinação ponderada de vários modelos fracos.

### 🟩 Gradient Boosting
O **Gradient Boosting** constrói modelos sequenciais, onde cada novo modelo tenta corrigir os erros residuais dos modelos anteriores.  
Ele utiliza a otimização de gradiente para ajustar as previsões, visando minimizar o erro global.

![image.png](attachment:image.png)