## 🌟 O que é LightGBM

**LightGBM** é um algoritmo de aprendizado de máquina baseado em árvores de decisão que também utiliza a técnica de **boosting por gradiente**, assim como o **Catboost** ou **XGBoost**, mas que é especializado em:

- 📊 Grandes volumes de dados  
- 🧠 Cenários de alta dimensionalidade  
- ⚡ Otimização para **velocidade** e **eficiência**

🛠️ O **LightGBM** foi desenvolvido pela **Microsoft**, mais especificamente pela equipe da **Microsoft Research**, mantido como um projeto **open-source**, disponível no GitHub desde **2016**.

## 🔍 Principais características:

### 🌿 Crescimento de Árvore baseado em Folhas (*Leaf-wise*):
Ao invés do método tradicional baseado em níveis (*level-wise*), essa abordagem expande a **folha** que maximiza o ganho de informação, resultando em:

- 🔄 Um treinamento mais eficiente  
- 🤖 Modelos capazes de capturar padrões complexos nos dados

---

### 📊 Suporte a Histogramas:
O **LightGBM** utiliza uma técnica de discretização baseada em **histogramas**, onde os valores contínuos das *features* são agrupados em *bins* (faixas).

✅ Isso resulta em:

- 💸 Redução significativa do custo computacional  
- ⚡ Maior performance durante o treinamento  
- 📈 Eficiência em *datasets* grandes e com alta dimensionalidade

### ⚙️ Paralelismo e Suporte a GPU
O **LightGBM** suporta paralelismo integrado, permitindo o uso eficiente de múltiplos núcleos de **CPU**.  
Além disso, oferece treinamento acelerado por **GPU**, o que é particularmente útil para:

- 🧠 Datasets grandes  
- 🔬 Cenários de alta complexidade

---

### 🎯 Regularização e Configuração Avançada de Hiperparâmetros
O **LightGBM** possui uma robusta configuração de **regularização** e **ajuste de hiperparâmetros**, como:

- `num_leaves`
- `min_data_in_leaf`
- `feature_fraction`
- `bagging_fraction`

🧩 Essas opções ajudam a:

- 🚫 Evitar *overfitting*  
- 🎯 Permitir ajustes precisos  
- ⚖️ Garantir equilíbrio entre performance e generalização

## 🪜 Etapas do LightGBM

### 🔍 Visão Geral

- 🟢 Inicializa com uma **previsão base**
- 🧮 Calcula os **resíduos** (erros)
- 🌳 Cria uma **árvore de decisão** para ajustar os resíduos
- 🔄 Atualiza as **previsões** com base na nova árvore
- ♻️ Repete o processo até atingir o **critério de parada**
- 🛡️ Aplica **regularização** e **validação** para garantir generalização
- ✅ Realiza **validação e ajustes**
- 🏁 Gera o **modelo final**

### 🟢 Inicializa com uma previsão base

O algoritmo começa com uma **previsão inicial simples**, geralmente:

- A **média dos valores do alvo** (para regressão)  
- Ou a **probabilidade inicial** (para classificação binária)

🧮 Essa previsão é usada como **base para calcular os resíduos iniciais**, que representam o **erro entre as previsões e os valores reais**.

### 📉 Calcula os resíduos (erros)

Os **resíduos**, ou **erros**, são calculados como a **diferença entre os valores reais e as previsões atuais**.

🎯 Esses resíduos se tornam o **novo alvo** para as próximas árvores, pois o objetivo do algoritmo é **ajustar essas diferenças**.

### 🌳 Cria uma árvore de decisão para ajustar os resíduos

#### 📌 Método *Leaf-wise*

Nesta etapa, uma nova árvore de decisão é criada para ajustar os resíduos.  
O **LightGBM** utiliza o método de crescimento de árvore *leaf-wise*, que:

- 📈 Prioriza a **expansão das folhas** que oferecem maior ganho de informação (redução do erro)

⚠️ No método *leaf-wise*, a árvore cresce de forma **desbalanceada**, expandindo seletivamente **as folhas mais importantes**.

#### 📊 Divisão por Histogramas

Para aumentar a eficiência, o **LightGBM** converte os valores contínuos das variáveis em **bins** (grupos ou faixas), construindo um **histograma de frequência**.

🔍 Em vez de avaliar todas as possíveis divisões, o algoritmo analisa as divisões com base nesses bins, o que:

- 💡 **Reduz significativamente o custo computacional**

#### ⚖️ Cálculo dos Pesos (Gradientes)

Após construir a árvore, o algoritmo ajusta os **pesos das folhas** para **minimizar os resíduos**.  
Esses ajustes são feitos com base no **gradiente da função de perda**, que:

- 📉 Mede o impacto dos pesos no erro

📈 O **gradiente** indica a **direção e magnitude da mudança** necessária para melhorar a previsão.

### 🔁 Atualiza as previsões com base na nova árvore

Com a nova árvore construída, as **previsões do modelo são atualizadas** somando-se as **contribuições da nova árvore** às previsões anteriores.

⚙️ Essa atualização é controlada pelo hiperparâmetro `learning_rate`, que determina o **impacto da nova árvore no modelo global**.

### 🔁 Repete o processo até atingir o critério de parada

O processo de **calcular resíduos**, **construir árvores** e **atualizar previsões** é repetido diversas vezes.

O número de iterações é controlado por um **critério de parada**, que pode ser:

- 🌲 O número máximo de árvores (`n_estimators`)
- 🎯 Um erro mínimo atingido
- ⏹️ O uso de `early stopping`, que **interrompe o treinamento** caso o desempenho no conjunto de validação **não melhore** após um número pré-definido de iterações

### 🛡️ Regularização

Durante o treinamento, o **LightGBM** aplica técnicas de regularização para **controlar a complexidade do modelo** e **evitar overfitting**. Algumas delas incluem:

- 🍃 **Limitação do número de folhas** (`num_leaves`):  
  Restringe a complexidade das árvores.

- 📊 **Mínimo de amostras por folha** (`min_data_in_leaf`):  
  Evita folhas pequenas, que podem gerar overfitting.

- ⚖️ **Regularização L1 e L2** (`lambda_l1` e `lambda_l2`):  
  Penaliza pesos excessivamente grandes ou complexos.

### ✅ Validação e Ajuste

O modelo é **avaliado periodicamente** em um **conjunto de validação** para monitorar seu desempenho e evitar *overfitting*.

🛑 Se o desempenho no conjunto de validação **não melhorar após um número determinado de iterações**, o treinamento pode ser **interrompido antecipadamente** (*early stopping*).

### 🧠 Modelo Final

Ao final do processo, o modelo **combina todas as árvores criadas em um ensemble**.

🌲 Ele utiliza essas árvores para **prever novos dados**, aplicando a **soma ponderada das contribuições de cada uma**.

![image.png](attachment:image.png)

## 🚧 Desafios e Limitações do LightGBM

O **LightGBM**, apesar de eficiente e poderoso, apresenta alguns pontos que devem ser considerados:

- 🎛️ **Sensibilidade a hiperparâmetros**  
  Ajustes inadequados podem comprometer significativamente o desempenho.

- 🌿 **Risco de overfitting pelo método *leaf-wise***  
  Embora seja eficiente, esse crescimento desbalanceado pode superajustar em *datasets* pequenos ou com poucas amostras por classe.

- 🗂️ **Tratamento de variáveis categóricas**  
  O LightGBM não lida nativamente com categorias, exigindo pré-processamento ou transformação dos dados, o que adiciona complexidade ao fluxo de trabalho.

- 🧠 **Consumo de memória elevado**  
  Ao lidar com grandes volumes de dados e usar histogramas para discretização, o uso de memória pode ser bastante alto.

- ⚖️ **Classes desbalanceadas**  
  Pode exigir ajustes adicionais (introdução de pesos ou técnicas de amostragem), tornando a configuração mais desafiadora em cenários de desbalanceamento severo.

## 🛠️ Principais Hiperparâmetros

### 🔢 `n_estimators`

- 🎯 Define o **número total de árvores** no modelo.  
- ⚙️ Controla o **tamanho do ensemble**, impactando diretamente no desempenho e no tempo de treinamento.  
- 💡 **Valor inicial sugerido:** 100  
- 📈 **Justificativa:** Para a maioria dos problemas, 100 árvores são suficientes para alcançar uma boa performance inicial. Esse valor pode ser ajustado dependendo da **taxa de aprendizado** (`learning_rate`) e do **tamanho do dataset**.

### 🚀 `learning_rate`

- 🎚️ Controla o **impacto de cada árvore** no modelo final.  
  Valores menores reduzem o ajuste excessivo, mas exigem mais iterações.

- ⚙️ Sua principal função é determinar **a taxa com que o modelo converge** para uma solução ideal.

- 💡 **Valor inicial sugerido:** 0.1

- 📏 **Justificativa:**  
  Um valor de 0.1 equilibra velocidade de aprendizado e estabilidade do modelo.  
  Para maior precisão, reduza para 0.01 ou 0.001 — mas lembre-se de aumentar o número de iterações.

### 🌳 `max_depth`

- 📏 Limita a **profundidade máxima** das árvores, restringindo a complexidade.  
- 🛡️ Controla o **overfitting** em problemas de baixa dimensionalidade ou com poucos dados.  
- 💡 **Valor inicial sugerido:** `-1` (sem limite)  
- ✅ **Justificativa:** O padrão permite que o modelo cresça livremente; em datasets menores, definir um limite pode ajudar a evitar overfitting.

### 🍃 `num_leaves`

- 🌿 Define o **número máximo de folhas** em cada árvore, controlando a complexidade do modelo.  
- ⚖️ Determina a **capacidade de aprendizado** da árvore, influenciando diretamente o overfitting ou underfitting.  
- 💡 **Valor inicial sugerido:** 31  
- 📈 **Justificativa:**  
  É um bom ponto de partida para problemas gerais.  
  Aumentar esse valor permite capturar padrões mais complexos, mas valores muito altos podem levar ao overfitting.

### 🌱 `min_data_in_leaf`

- 🧮 Define o **número mínimo de amostras necessárias** em cada folha da árvore.  
- 🚫 Evita a criação de folhas pequenas que podem causar **overfitting**.  
- 💡 **Valor inicial sugerido:** 20  
- 📝 **Justificativa:**  
  Este valor reduz divisões excessivas em folhas pequenas, melhorando a **generalização**, especialmente em datasets menores.

### 🪶 `feature_fraction`

- 🔢 Especifica a **proporção de features** usadas para treinar cada árvore.  
- ⚙️ Introduz variabilidade no treinamento, **reduzindo o risco de overfitting**.  
- 💡 **Valor inicial sugerido:** 0.8  
- 📊 **Justificativa:**  
  Utilizar 80% das features em cada iteração é eficiente para a maioria dos problemas.  
  Em *datasets* muito grandes, reduzir esse valor pode ajudar a economizar tempo e memória.

### 🧺 `bagging_fraction`

- 🔢 Especifica a **proporção de amostras** usadas em cada iteração do treinamento.  
- ⚙️ Introduz diversidade nas árvores, **reduzindo o risco de overfitting**.  
- 💡 **Valor inicial sugerido:** 0.8  
- 📈 **Justificativa:**  
  Amostrar 80% dos dados geralmente equilibra diversidade e desempenho.  
  Pode ser ajustado para **datasets** muito grandes.

### ⚖️ `lambda_l1`

- 🏷️ Coeficiente de **regularização L1** que adiciona penalização ao modelo para reduzir complexidade.  
- ✂️ Simplifica o modelo, **eliminando pesos irrelevantes**.  
- 💡 **Valor inicial sugerido:** 0.0  
- 📝 **Justificativa:**  
  Ative a regularização L1 para lidar com overfitting, especialmente em **datasets** com muitas features.

### ⚖️ `lambda_l2`

- 🏷️ Coeficiente de **regularização L2** que adiciona penalização aos pesos para reduzir sua magnitude.  
- 🛡️ Estabiliza o modelo e **previne overfitting**.  
- 💡 **Valor inicial sugerido:** 0.0  
- 📝 **Justificativa:**  
  Assim como na L1, a regularização L2 é útil em modelos complexos.  
  Ativar este parâmetro é uma boa prática ao lidar com overfitting.  

### 🗂️ `max_bin`

- 🔢 Define o **número máximo de bins** usados para discretizar variáveis contínuas.  
- ⚙️ Controla a **granularidade da representação** dos dados, impactando o custo computacional.  
- 💡 **Valor inicial sugerido:** 255  
- 📝 **Justificativa:**  
  O padrão é eficiente para a maioria dos casos. Aumentar o número de bins pode melhorar a precisão, mas eleva o uso de memória e o tempo de treinamento.

## 🤼 Diferenças entre CatBoost e LightGBM

### 🗃️ Manipulação de Dados Categóricos

**LightGBM**  
- 🔧 Requer **pré-processamento manual** de variáveis categóricas.  
- 🔢 Transforma categorias em inteiros ou usa **one-hot encoding**.  
- ⚠️ Suporte limitado: o desempenho não é otimizado nativamente para dados categóricos.

**CatBoost**  
- 🤖 Suporte **nativo** para variáveis categóricas.  
- 🎯 Usa **Target-Based Encoding** com regularização para lidar com viés e overfitting.  
- 🌟 Ideal para datasets com muitas features categóricas.

## ⚡ Eficiência no Treinamento

**LightGBM**  
- 🚀 Muito rápido para datasets grandes e de alta dimensionalidade, graças ao uso de histogramas e crescimento *leaf-wise*.  
- 🔄 Geralmente mais rápido que o CatBoost, mas requer **pré-processamento** adicional dos dados.

**CatBoost**  
- 🐢 Mais lento que o LightGBM devido ao cálculo iterativo para evitar overfitting.  
- 🔧 Utiliza **Ordered Boosting**, dividindo os dados em subconjuntos aleatórios para calcular gradientes sem vazamento de informação, aumentando a robustez.  

## 🛡️ Prevenção de Overfitting

**LightGBM**  
- 🛠️ Utiliza regularizações como L1, L2, `min_data_in_leaf` e *early stopping* para evitar overfitting.  
- 🌿 O crescimento *leaf-wise* é eficiente, mas pode levar a sobreajuste em datasets pequenos.

**CatBoost**  
- 🎯 Desenvolvido com foco em minimizar overfitting.  
- 🔄 Sua abordagem de *Ordered Boosting* é mais robusta e reduz vazamento de informação nos gradientes.  
- 🔒 Mais confiável para dados com alto risco de sobreajuste, especialmente em datasets menores.  

### ⚖️ Sensibilidade a Classes Desbalanceadas

**LightGBM**  
- 🏋️ Pode lidar ajustando pesos das classes (`class_weight`) ou usando parâmetros como `scale_pos_weight`.  
- 🔧 Depende de ajustes manuais, exigindo mais experimentação.

**CatBoost**  
- 🤖 Suporte integrado para classes desbalanceadas, sem necessidade de muitos ajustes manuais.  
- ✅ Lida automaticamente com desbalanceamento graças à sua otimização nativa.

### 🧩 Interpretação e Facilidade de Uso

**LightGBM**  
- 🔧 Oferece boa flexibilidade, mas exige maior esforço do usuário para pré-processamento, ajuste de hiperparâmetros e controle de overfitting.

**CatBoost**  
- 🤗 Mais user-friendly, com pré-processamento mínimo.  
- 🚀 Configurações padrão bem ajustadas, ideal para iniciantes ou quem deseja resultados rápidos sem muita experimentação.

### 🎮 Treinamento em GPU

**LightGBM**  
- 🖥️ Suporta GPU, mas apenas para algumas funções de perda (ex.: classificação binária).  
- ⚙️ A aceleração em GPU é limitada a configurações específicas e pode exigir otimizações adicionais.

**CatBoost**  
- 🚀 Suporte completo e otimizado para GPU.  
- 💪 Mais eficiente que o LightGBM em problemas complexos ou em datasets grandes quando usa hardware acelerado.

### 📊 Suporte a Dados Ordenados

**LightGBM**  
- 🚫 Não possui estratégias específicas para dados ordenados; trata todas as amostras igualmente.

**CatBoost**  
- 🌟 É particularmente eficiente com dados sequenciais ou temporais, graças ao seu **Ordered Boosting**.

### 🚀 Desempenho Geral

**LightGBM**  
- 🌐 Se destaca em problemas de **alta dimensionalidade** e **datasets muito grandes** devido à sua velocidade e eficiência.

**CatBoost**  
- 🎯 Mais indicado para **datasets menores**, dados **categóricos complexos** e cenários com **alto risco de overfitting**.

## 📋 Resumo: Qual escolher?

### 👉 Use **LightGBM** se:
- 🌐 O dataset for **grande e contínuo**.  
- ⏳ Você tiver tempo para **ajustar hiperparâmetros** e **pré-processar** os dados.  
- ⚡ Desempenho e velocidade forem **prioridades absolutas**.

### 👉 Use **CatBoost** se:
- 🗂️ O dataset contiver muitas **variáveis categóricas**.  
- 📏 O dataset for **pequeno ou moderado**.  
- 🤖 Você desejar um algoritmo **robusto** com **menos ajustes manuais**.

## 🔍 Otimização Bayesiana

A **Otimização Bayesiana** é uma técnica para encontrar o conjunto ideal de hiperparâmetros de um modelo, com base na maximização ou minimização de uma função objetivo. É especialmente útil quando:

- 💰 A função objetivo é cara de avaliar (ex.: treinar um modelo complexo).  
- 🔢 O espaço de busca de hiperparâmetros é contínuo e/ou discreto.  
- ❓ Não há uma expressão explícita para derivar a melhor solução.

🧠 **Ideia central:**  
Usar um modelo probabilístico (geralmente um **Processo Gaussiano**) para estimar a relação entre os hiperparâmetros e a métrica de avaliação, iterando para refinar essa estimativa com base nos resultados obtidos.

### 🚀 Etapas da Otimização Bayesiana

1. 🎯 **Definir a Função Objetivo**  
2. 🧠 **Modelar a Função com um Processo Gaussiano**  
3. 🔍 **Selecionar a Próxima Combinação de Hiperparâmetros**  
4. 🏷️ **Avaliar os Hiperparâmetros**  
5. 🔄 **Atualizar o Modelo Probabilístico**  
6. ♾️ **Repetir até Convergir**

---

### 🎯 Definir a Função Objetivo

- A **métrica** que você quer otimizar (ex.: AUC, Log Loss, Accuracy).  
- Os **hiperparâmetros** do modelo são os **inputs** dessa função.

---

### 🧠 Modelar a Função com um Processo Gaussiano

- O modelo cria uma **distribuição de probabilidade** sobre a função objetivo,  
  representando a **incerteza** no espaço de busca.

---

### 🔍 Selecionar a Próxima Combinação de Hiperparâmetros

Um **Critério de Aquisição** é usado para determinar onde buscar a próxima avaliação.  
Critérios comuns:

- 🎯 **Expected Improvement (EI):** Seleciona o ponto que maximiza a melhoria esperada.  
- 🎲 **Probability of Improvement (PI):** Maximiza a probabilidade de obter uma métrica melhor.  
- ⚖️ **Upper Confidence Bound (UCB):** Faz um trade-off entre **exploration** e **exploitation**.

---

### 🏷️ Avaliar os Hiperparâmetros

O modelo é treinado com a nova combinação de hiperparâmetros e o resultado da métrica é registrado.  

---

### 🔄 Atualizar o Modelo Probabilístico

A **função objetivo** é ajustada com base nos **novos resultados** obtidos.

---

### ♾️ Repetir até Convergir

O processo continua até atingir o **número máximo de iterações** ou satisfazer o **critério de parada**.