# Extreme Gradient Boosting (XGBoost)
---
## 1. Formulation mathématique

XGBoost est basé sur le gradient boosting, une méthode qui consiste à minimiser l'espérance d'une fonction de perte $\mathcal{L}(Y,\hat{Y})$ ou $Y \in \mathbb{R}^{n}$ est le vecteur représentant les valeurs à estimer et $\hat{Y} = \hat{f}(X) \in \mathbb{R}^{n}, X \in \mathbb{R}^{n}$ le vecteur des valeurs estimées et $X$ un vecteur qui vit dans l'espace des observations tel que  $\exists Y^{*} \in {\mathbb{R}^{n}}$:

$$
\mathbb{E} [\mathcal{L}(Y,Y^{*})] = \min_{\hat{Y} \in {\mathbb{R}^{n}}} \mathbb{E} [\mathcal{L}(Y,\hat{Y})]
$$

On se ramène alors à un problème d'optimisation que l'on résoud en considérant $\mathbb{E} [\mathcal{L}(Y,\hat{Y})]$ à la $n$-ième étape $\mathbb{E} [\mathcal{L}_{n}(Y,\hat{Y})] = \hat{F}_{n}(\hat{Y})$, qui représente **la prédiction à l'étape n** comme une suite récurrente définie par :

\begin{equation*}
     \begin{cases}
         F_{0}(\hat{Y}) &= \mathbb{E}(\hat{Y}) \\
         F_{n}(\hat{Y})  &= F_{n-1}(\hat{Y}) + \gamma_{n}h_{n}(\hat{Y}) 
     \end{cases}
\end{equation*}

Avec : 

1. $h_{n}(\hat{Y})$ le modèle à l'étape $n$, qui représente un arbre de décision faible
2. $\gamma_{n}$ un coefficient d'ajustement (appelé step size)

Le modèle (arbre de décision $h_{n}(\hat{Y})$ est actualisé à chaque étapes de l'algorithme sur les données $(x_{i}, r_{i}^{n})_{i \in \mathbb{N}}$ ou $ r_{i}^{n}$ est la direction du gradient pour une donnée $i$ à l'étape $n$, élément $i$ du vecteur $R^{(n)}$ définit par :

$$
R^{(n)} = - \frac{\partial \hat{F}_{n}(\hat{Y})}{\partial \hat{Y}} = - \frac{\partial  \mathbb{E} [\mathcal{L}_{n}(Y,\hat{Y})]}{\partial \hat{Y}}
$$

On trouve le meilleur coefficient d'actualisation $\gamma_{n}$ grâce à la relation : 

$$
\gamma_{n} = \arg\min_{\gamma} \sum_{i=1}^{n} \mathcal{L}(y_{i}, F_{n-1}(x_{i}) + \gamma h_{n}(x_{i}))
$$

#### Exemple avec la MSE (Mean Squared Error)

Prenons la fonction de perte quadratique :

$$
L(y, F(x)) = \frac{1}{2}(y - F(x))^2
$$

On calcule alors le gradient de la focntion de perte :

$$
\frac{\partial L}{\partial F(x)} = F(x) - y
$$

Ce qui donne les pseudo-résidus :

$$
r_i^{(n)} = -\frac{\partial L}{\partial F(x_i)} = y_i - F_{n-1}(x_i)
$$

À chaque étape $n$ :

1. On ajuste un modèle $h_n(x)$ (arbre de décision) pour prédire les résidus $r_i^{(n)}$.
2. On cherche le meilleur coefficient $\gamma_m$ qui minimise la fonction de perte :

$$
\gamma_m = \arg\min_{\gamma} \sum_{i=1}^{n} L\left(y_i, F_{n-1}(x_i) + \gamma h_n(x_i)\right)
$$

3. On met à jour le modèle :

$$
F_n(x) = F_{n-1}(x) + \gamma_n h_n(x)
$$

Plus $n$ est grand, plus le modèle est précis. Le choix du $n$ dépend de la précision souhaitée et le temps de calcul de l'algorithme.

## 2. Deux exemples en Python
## 2.1 XGBoost en régression
---
### 2.1.1 Import des librairies 

In [1]:
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.metrics import mean_squared_error

### 2.1.2 Import du dataset
Ici, on importe un dataset built-in de seaborn sur les diamants.

In [2]:
warnings.filterwarnings("ignore")
diamonds = sns.load_dataset("diamonds")

diamonds.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [3]:
diamonds.describe()

Unnamed: 0,carat,depth,table,price,x,y,z
count,4311.0,4311.0,4311.0,4311.0,4311.0,4310.0,4310.0
mean,0.749981,61.842171,57.604013,2852.244955,5.762735,5.765587,3.562633
std,0.198477,1.611467,2.34224,854.440926,0.58709,0.575005,0.376913
min,0.2,53.0,50.1,326.0,3.79,3.75,0.0
25%,0.7,61.0,56.0,2856.0,5.69,5.71,3.52
50%,0.75,61.9,57.0,3081.0,5.84,5.85,3.6
75%,0.9,62.7,59.0,3323.0,6.09,6.09,3.78
max,1.52,71.6,70.0,3594.0,7.56,7.42,4.78


### 2.1.3 Gestion des variables
Ici, on cherche à déterminer le prix des diamants en fonction des autres covariables. Le XGBoost gère les classes et le dataset est propre car importé depuis seaborn, pas besoin donc de traiter les données manquantes.

In [4]:
X, y = diamonds.drop('price', axis=1), diamonds[['price']]

In [5]:
X

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,4.20,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...
4306,0.82,Very Good,D,SI1,61.3,56.0,6.02,6.06,3.70
4307,0.99,Fair,H,VS2,71.6,57.0,5.94,5.80,4.20
4308,1.05,Premium,J,VS2,59.4,62.0,6.66,6.58,3.93
4309,0.74,Ideal,F,VS1,62.0,57.0,5.81,5.78,3.60


In [6]:
y

Unnamed: 0,price
0,326
1,326
2,327
3,334
4,335
...,...
4306,3593
4307,3593
4308,3593
4309,3593


### 2.1.4 Séparation des données de test et de train 

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

### 2.1.5 Matrices de régression

In [8]:
dtrain_reg = xgb.DMatrix(X_train, y_train, enable_categorical=True)
dtest_reg = xgb.DMatrix(X_test, y_test, enable_categorical=True)

## 2.1.6 Entraînement du modèle

In [9]:
# Init
params = {"objective": "reg:squarederror", "tree_method": "gpu_hist"} # Définition des hyperparamètres
n = 100 # Nombre d'itérations 
evals = [(dtest_reg, "validation"), (dtrain_reg, "train")]

model = xgb.train( # Initialisation du modèle
   params=params,
   dtrain=dtrain_reg,
   num_boost_round=n,
   evals=evals,
   verbose_eval=10 # Evaluation bavarde toute les 10 itérations (pour éviter le surplus de lignes pour un n grand)
)

[0]	validation-rmse:612.48080	train-rmse:615.97947
[10]	validation-rmse:183.22110	train-rmse:157.35500
[20]	validation-rmse:180.68343	train-rmse:134.64993
[30]	validation-rmse:181.54041	train-rmse:120.85595
[40]	validation-rmse:182.36504	train-rmse:109.39365
[50]	validation-rmse:182.76138	train-rmse:98.93981
[60]	validation-rmse:185.40079	train-rmse:87.77643
[70]	validation-rmse:186.03990	train-rmse:81.75870
[80]	validation-rmse:186.53694	train-rmse:76.44395
[90]	validation-rmse:187.21020	train-rmse:71.05267
[99]	validation-rmse:187.63038	train-rmse:64.50372


### 2.1.7 Evaluation du modèle

In [10]:
model.predict(dtest_reg)

array([3219.0024,  567.145 , 3382.0132, ..., 2993.309 , 2773.3645,
       3365.2234], dtype=float32)

## 2.2 XGBoost en classification

https://www.datacamp.com/tutorial/xgboost-in-python

# AdaBOOST
---