<img src="logoINPE.png">

# XGBoost

**Definição:**
XGBoost (Extreme Gradient Boosting) é uma biblioteca otimizada de aprendizado de máquina que implementa o algoritmo de boosting de gradiente. Criada por Tianqi Chen, ela é conhecida por sua eficiência, desempenho e capacidade de ajuste. XGBoost tem sido amplamente adotada em competições de ciência de dados e aplicações no mundo real devido ao seu poder de previsão e flexibilidade.

### Estrutura e Funcionamento

**Boosting de Gradiente:**
Boosting de gradiente é uma técnica de ensemble que combina a previsão de vários modelos fracos (geralmente árvores de decisão) para formar um modelo forte. O processo é iterativo e cada novo modelo é treinado para corrigir os erros dos modelos anteriores.

**Componentes Principais do XGBoost:**

1. **Árvores de Decisão:**
   - Modelos base utilizados no XGBoost. Elas são construídas sequencialmente, com cada árvore tentando corrigir os erros da anterior.

2. **Função de Objetivo:**
   - Combina a função de perda (que mede o quão bem o modelo está se saindo) e o termo de regularização (que penaliza a complexidade do modelo para evitar o sobreajuste). A função de objetivo é minimizada durante o treinamento.

**Processo de Treinamento:**
1. **Inicialização:**
   - Começa com uma previsão inicial, geralmente a média dos valores alvo no caso de regressão.

2. **Adição de Árvores:**
   - Em cada iteração, uma nova árvore é adicionada para corrigir os erros das previsões anteriores.
   - A função de perda é derivada para encontrar a direção e magnitude dos ajustes necessários.
   - O algoritmo ajusta os pesos dos exemplos de treinamento para focar nos exemplos mais difíceis.

3. **Regularização:**
   - Regularização é aplicada para evitar o sobreajuste, penalizando árvores muito complexas.

4. **Parada:**
   - O treinamento continua até que um número predefinido de árvores tenha sido adicionada ou uma condição de parada precoce (early stopping) seja satisfeita.

### Vantagens do XGBoost

1. **Eficiência e Velocidade:**
   - Implementação otimizada para velocidade e uso eficiente de recursos computacionais.
   - Suporte a paralelismo e execução distribuída.

2. **Precisão:**
   - Alto desempenho preditivo, frequentemente superando outros algoritmos de aprendizado de máquina em competições e benchmarks.

3. **Flexibilidade:**
   - Suporta várias funções de perda personalizáveis, o que o torna aplicável a uma ampla gama de problemas (regressão, classificação, ranking, etc.).

4. **Regularização:**
   - Técnicas avançadas de regularização para evitar sobreajuste, como L1 e L2.

5. **Suporte a Dados Faltantes:**
   - Capacidade de lidar com valores faltantes automaticamente durante o treinamento.

6. **Importância das Características:**
   - Fornece medidas de importância das características, ajudando na interpretabilidade do modelo.

### Aplicações do XGBoost

XGBoost tem sido utilizado em diversas áreas e aplicações, incluindo:
- Competição de ciência de dados (como Kaggle).
- Finanças (previsão de risco de crédito, detecção de fraude).
- Saúde (previsão de doenças, análise de imagens médicas).
- Marketing (previsão de churn de clientes, segmentação de mercado).
- Manutenção preditiva (previsão de falhas em máquinas e equipamentos).

### Conclusão

XGBoost é uma poderosa ferramenta de aprendizado de máquina que combina eficiência, precisão e flexibilidade. Sua implementação otimizada e capacidade de ajuste fino de parâmetros o tornam uma escolha popular para cientistas de dados e engenheiros de machine learning. Embora possa exigir uma cuidadosa sintonização de parâmetros para obter os melhores resultados, suas vantagens em termos de desempenho preditivo e capacidade de generalização fazem do XGBoost uma escolha excelente para uma ampla variedade de tarefas de previsão.

# Parâmetros do `XGBoost`:

**Parâmetros Gerais:**

1. `booster`: Define o tipo de modelo a ser usado. Pode ser "gbtree" para árvore de decisão, "gblinear" para modelo linear ou "dart" para adição de dropout à árvore de decisão.

2. `verbosity`: Controla o nível de verbosidade ao imprimir mensagens. Pode ser 0 (silencioso), 1 (informações detalhadas) ou 2 (informações detalhadas e mensagens de depuração).

3. `nthread`: Número de threads a serem usados para rodar XGBoost. Se definido como -1, o máximo de threads disponíveis será usado.

**Parâmetros de Booster (Árvore):**

1. `eta` (ou `learning_rate`): Taxa de aprendizado. Controla a contribuição de cada árvore no modelo.

2. `gamma`: Mínima redução da perda necessária para fazer uma nova partição em um nó da árvore.

3. `max_depth`: Profundidade máxima de cada árvore. Maior profundidade pode levar a overfitting.

4. `min_child_weight`: Soma mínima dos pesos das amostras necessária em um nó para continuar dividindo.

5. `max_delta_step`: Limite para a atualização do peso de cada árvore. Pode ajudar a tornar o treinamento mais conservador.

6. `subsample`: Fração de observações a serem amostradas aleatoriamente para cada árvore. Reduzir pode evitar overfitting.

7. `colsample_bytree`: Fração de features a serem amostradas aleatoriamente para cada árvore.

8. `lambda` (ou `reg_lambda`): Parâmetro de regularização L2.

9. `alpha` (ou `reg_alpha`): Parâmetro de regularização L1.

10. `scale_pos_weight`: Controla o balanceamento de classes para classificação desequilibrada.

**Parâmetros de Treinamento:**

1. `num_boost_round`: Número de iterações de boosting (número de árvores a serem criadas).

2. `early_stopping_rounds`: Se a métrica de avaliação não melhorar por esse número de rodadas, o treinamento será interrompido.

3. `eval_metric`: A métrica de avaliação a ser usada.

**Parâmetros de Avaliação:**

1. `eval_set`: Conjunto de dados de validação a serem usados para avaliação durante o treinamento.

2. `verbose_eval`: Controla a verbosidade da saída durante a avaliação.

**Parâmetros de Regressão Linear (para `gblinear`):**

1. `lambda`: Parâmetro de regularização L2.

2. `alpha`: Parâmetro de regularização L1.

3. `lambda_bias`: Parâmetro de regularização adicional para o termo de viés.

**Parâmetros específicos do Dart:**

1. `sample_type`: Tipo de amostra a ser usada. Pode ser "uniform" para amostras uniformes ou "weighted" para amostras ponderadas.

2. `normalize_type`: Tipo de normalização a ser usada. Pode ser "tree" para normalização por árvore ou "forest" para normalização por floresta.

3. `rate_drop`: Fração das árvores a serem eliminadas aleatoriamente a cada iteração.

4. `skip_drop`: Probabilidade de que uma árvore seja eliminada aleatoriamente.