# XGBoost

XGBoost significa "Extreme Gradient Boosting". O XGBoost é um algoritmo de aprendizado de máquina popular e eficaz baseado na estrutura do "gradient boosting". A ideia básica do gradient boosting é combinar muitos modelos simples, conhecidos como "weak learners", para criar um conjunto robusto e altamente preciso, ou um "strong learner".

**EXEMPLO**

Imagine que você esteja tentando prever se um cliente de um banco vai ou não se inscrever para um novo produto de cartão de crédito (tarefa de classificação binária). Temos várias características para cada cliente. O objetivo poderia ser prever a coluna "Produto de Cartão de Crédito" com base nas outras colunas. 

| ID | Idade | Salario Anual (R$) | Pontuação de Crédito | Cartão de Crédito Existente (Sim=1, Não=0) | Emprestimo Ativo (Sim=1, Não=0) | Produto de Cartão de Crédito (Sim=1, Não=0) |
|-----------|-------|---------------------|-----------------------|----------------------------------------------|----------------------------------|----------------------------------------|
| 1         | 35    | 70,000              | 670                   | 0                                            | 1                                | 0                                      |
| 2         | 45    | 85,000              | 740                   | 1                                            | 0                                | 1                                      |
| 3         | 50    | 120,000             | 710                   | 1                                            | 1                                | 1                                      |
| 4         | 23    | 35,000              | 580                   | 0                                            | 0                                | 0                                      |
| 5         | 44    | 75,000              | 700                   | 0                                            | 1                                | 0                                      |
| 6         | 34    | 65,000              | 680                   | 1                                            | 1                                | 0                                      |
| 7         | 36    | 90,000              | 730                   | 1                                            | 0                                | 1                                      |
| 8         | 40    | 85,000              | 690                   | 0                                            | 1                                | 1                                      |
| 9         | 29    | 45,000              | 650                   | 1                                            | 0                                | 0                                      |
| 10        | 31    | 55,000              | 660                   | 0                                            | 1                                | 0                                      |

## Considerações

Algumas considerações sobre o XGBoost:

1. **Regularização:** O XGBoost possui um parâmetro de regularização que pode ajudar a prevenir o overfitting. Essa é uma vantagem em relação a outros algoritmos de boosting.

2. **Paralelização:** Enquanto o processo de boosting em si é sequencial (cada modelo é construído com base nos erros do anterior), o XGBoost consegue paralelizar a construção das árvores dentro de cada modelo, o que torna o algoritmo mais rápido.

3. **Handling Missing Values:** O XGBoost pode lidar automaticamente com valores ausentes.

4. **Flexibilidade:** Pode ser usado para problemas de classificação, regressão, ranking e personalização de funções de perda.

5. **Tree Pruning:** Ao contrário do GBM (Gradient Boosting Machine), que para quando um número fixo de divisões é alcançado, o XGBoost cresce a árvore até um máximo especificado e então retrocede e remove as divisões além do qual não ocorre nenhum ganho positivo.

6. **Built-in Cross-Validation:** O XGBoost permite que o usuário execute uma validação cruzada a cada iteração do processo de boosting e, assim, é fácil obter o número ideal de iterações de boosting em uma única execução.

## O Algoritmo na Prática

**Instalação**

In [2]:
%pip install xgboost

Collecting xgboost
  Downloading xgboost-1.7.6-py3-none-manylinux2014_x86_64.whl (200.3 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m200.3/200.3 MB[0m [31m15.2 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m
Installing collected packages: xgboost
Successfully installed xgboost-1.7.6
Note: you may need to restart the kernel to use updated packages.


**Bibliotecas**

In [4]:
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

**Ingestão**

In [None]:
df = pd.read_csv('caminho-para-o-dataset.csv')

# Dividir o DataFrame em features (X) e target (y)
X = df[['Idade', 'Salario Anual (R$)', 'Pontuação de Crédito', 'Cartão de Crédito Existente', 'Emprestimo Ativo']]
y = df['Produto de Cartão de Crédito']

**Preparação**

In [None]:
# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

**Treinamento**

In [None]:
# Criar uma instância do modelo
model = xgb.XGBClassifier(use_label_encoder=False, objective='binary:logistic', eval_metric='logloss')

# Treinar o modelo
model.fit(X_train, y_train)

**Testes**

In [None]:
# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Calcular a precisão do modelo
accuracy = accuracy_score(y_test, y_pred)
print("Acurácia: %.2f%%" % (accuracy * 100.0))