# XGBoost : La technique de mod√©lisation la plus pr√©cise pour les donn√©es structur√©es

Dans ce tutoriel, vous apprendrez √† construire et optimiser des mod√®les avec le **gradient boosting**. Cette m√©thode domine de nombreuses comp√©titions Kaggle et offre des r√©sultats de pointe sur une vari√©t√© de jeux de donn√©es.

---


# Introduction
Dans une grande partie de ce cours, vous avez fait des pr√©dictions avec la m√©thode des for√™ts al√©atoires, qui offrent de meilleures performances qu'un seul arbre de d√©cision simplement en moyennant les pr√©dictions de plusieurs arbres.

Nous appelons la m√©thode des for√™ts al√©atoires une m√©thode d'ensemble (ensemble method). Par d√©finition, les m√©thodes d'ensemble combinent les pr√©dictions de plusieurs mod√®les (par exemple, plusieurs arbres, dans le cas des for√™ts al√©atoires).

Ensuite, nous allons apprendre une autre m√©thode d'ensemble appel√©e **gradient boosting**.

---

# Gradient Boosting
Le gradient boosting est une m√©thode qui fonctionne en ajoutant des mod√®les dans un ensemble de mani√®re it√©rative.

### 1. Initialisation : 
L'ensemble commence avec un seul mod√®le, dont les pr√©dictions peuvent √™tre tr√®s basiques. (M√™me si ses pr√©dictions sont tr√®s inexactes, les ajouts suivants corrigeront ces erreurs.)

### 2. Cycle it√©ratif :
- Utilisez l'ensemble actuel pour g√©n√©rer des pr√©dictions pour chaque observation dans les donn√©es.
- Calculez une fonction de perte (comme l'erreur quadratique moyenne) avec ces pr√©dictions.
- Ajustez un nouveau mod√®le pour r√©duire la perte en d√©terminant ses param√®tres via la descente de gradient.
- Ajoutez ce nouveau mod√®le √† l'ensemble et recommencez le cycle.

---

### Exemple
Nous commen√ßons par charger les donn√©es d'entra√Ænement et de validation dans X_train, X_valid, y_train, et y_valid.

Dans cet exemple, vous utiliserez la biblioth√®que XGBoost, qui signifie **"extreme gradient boosting"**. C'est une impl√©mentation de gradient boosting avec des fonctionnalit√©s suppl√©mentaires ax√©es sur la performance et la rapidit√©.

**Code de base pour XGBoost :**

In [12]:
pip install xgboost

Defaulting to user installation because normal site-packages is not writeable
Collecting xgboost
  Downloading xgboost-2.1.3-py3-none-win_amd64.whl.metadata (2.1 kB)
Downloading xgboost-2.1.3-py3-none-win_amd64.whl (124.9 MB)
   ---------------------------------------- 0.0/124.9 MB ? eta -:--:--
    --------------------------------------- 2.4/124.9 MB 16.8 MB/s eta 0:00:08
   -- ------------------------------------- 6.6/124.9 MB 19.2 MB/s eta 0:00:07
   --- ------------------------------------ 12.3/124.9 MB 22.7 MB/s eta 0:00:05
   ---- ----------------------------------- 14.9/124.9 MB 19.6 MB/s eta 0:00:06
   ------ --------------------------------- 20.7/124.9 MB 21.5 MB/s eta 0:00:05
   -------- ------------------------------- 27.3/124.9 MB 23.7 MB/s eta 0:00:05
   ----------- ---------------------------- 35.4/124.9 MB 25.8 MB/s eta 0:00:04
   -------------- ------------------------- 44.0/124.9 MB 28.0 MB/s eta 0:00:03
   ---------------- ----------------------- 50.9/124.9 MB 28.7 MB

In [8]:
# Importation des biblioth√®ques n√©cessaires
from sklearn.compose import ColumnTransformer  # Pour transformer les colonnes sp√©cifiques
from sklearn.impute import SimpleImputer  # Pour g√©rer les valeurs manquantes
from sklearn.preprocessing import OneHotEncoder  # Pour encoder les colonnes cat√©goriques
from sklearn.pipeline import Pipeline  # Pour cr√©er un pipeline d'√©tapes
from sklearn.model_selection import train_test_split  # Pour diviser les donn√©es en ensembles d'entra√Ænement et de validation
from sklearn.metrics import mean_absolute_error  # Pour √©valuer le mod√®le avec l'erreur absolue moyenne
from xgboost import XGBRegressor  # Mod√®le de r√©gression XGBoost
import pandas as pd  # Pour manipuler les donn√©es

# √âtape 1 : Chargement des donn√©es
# Le chemin du fichier CSV contenant les donn√©es de Melbourne
melbourne_file_path = 'melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)

# √âtape 2 : Pr√©paration des donn√©es
# Supprimer les lignes o√π la cible ('Price') est manquante
melbourne_data.dropna(axis=0, subset=['Price'], inplace=True)

# S√©parer la cible (y) des pr√©dicteurs (X)
y = melbourne_data['Price']  # Variable cible
X = melbourne_data.drop(['Price'], axis=1)  # Donn√©es pr√©dicteurs

# Identifier les colonnes num√©riques et cat√©goriques dans X
numerical_cols = X.select_dtypes(include=['int64', 'float64']).columns
categorical_cols = X.select_dtypes(include=['object']).columns

# √âtape 3 : Transformation des donn√©es
# Cr√©ation d'un transformateur pour g√©rer les colonnes num√©riques et cat√©goriques
preprocessor = ColumnTransformer(
    transformers=[
        # Pour les colonnes num√©riques : remplacer les valeurs manquantes par la moyenne
        ('num', SimpleImputer(strategy='mean'), numerical_cols),
        # Pour les colonnes cat√©goriques : appliquer un encodage OneHot en ignorant les cat√©gories inconnues
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_cols)
    ]
)

# √âtape 4 : Cr√©ation du pipeline
# Le mod√®le utilis√© dans ce pipeline est XGBRegressor
model = XGBRegressor(random_state=0)  # R√©gression XGBoost avec un param√®tre d'al√©atoire fix√©
my_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),  # √âtape de pr√©traitement
    ('model', model)  # √âtape de mod√©lisation
])

# √âtape 5 : Division des donn√©es
# Diviser les donn√©es en ensembles d'entra√Ænement et de validation
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

# √âtape 6 : Entra√Ænement du pipeline
# Le pipeline applique le pr√©traitement et entra√Æne le mod√®le en une seule commande
my_pipeline.fit(X_train, y_train)

# √âtape 7 : Pr√©diction et √©valuation
# Pr√©dire les valeurs cibles pour l'ensemble de validation
predictions = my_pipeline.predict(X_valid)

# Calculer l'erreur absolue moyenne (Mean Absolute Error)
print("Erreur absolue moyenne : " + str(mean_absolute_error(predictions, y_valid)))


Erreur absolue moyenne : 164091.43196566642


---

**Code de base pour XGBoost :**

```python
from xgboost import XGBRegressor

# Mod√®le initial
my_model = XGBRegressor()
my_model.fit(X_train, y_train)

# √âvaluation
from sklearn.metrics import mean_absolute_error

predictions = my_model.predict(X_valid)
print("Erreur absolue moyenne : " + str(mean_absolute_error(predictions, y_valid)))
```


---

### Param√®tres √† ajuster dans XGBoost

#### **n_estimators**
- Sp√©cifie combien de fois le cycle de mod√©lisation est ex√©cut√© (nombre de mod√®les ajout√©s √† l'ensemble).
- Valeurs typiques : 100-1000 (selon la taille des donn√©es et la valeur de `learning_rate`).

Exemple :
```python
my_model = XGBRegressor(n_estimators=500)
my_model.fit(X_train, y_train)
```

---

#### **early_stopping_rounds**
- Interrompt automatiquement l'entra√Ænement si le score de validation ne s'am√©liore plus apr√®s un certain nombre d'it√©rations.
- Utilise un ensemble de validation pour calculer les scores (`eval_set`).

Exemple avec arr√™t anticip√© :
```python
my_model = XGBRegressor(n_estimators=500)
my_model.fit(X_train, y_train, 
             early_stopping_rounds=5, 
             eval_set=[(X_valid, y_valid)], 
             verbose=False)
```

---

#### **learning_rate**
- Contr√¥le l'impact de chaque mod√®le dans l'ensemble.
- Une petite valeur de `learning_rate` combin√©e √† un grand `n_estimators` donne des mod√®les plus pr√©cis mais prend plus de temps √† entra√Æner.
- Valeur par d√©faut : `learning_rate=0.1`.

Exemple :
```python
my_model = XGBRegressor(n_estimators=1000, learning_rate=0.05)
my_model.fit(X_train, y_train, 
             early_stopping_rounds=5, 
             eval_set=[(X_valid, y_valid)], 
             verbose=False)
```

---

#### **n_jobs**
- Permet d'utiliser le parall√©lisme pour acc√©l√©rer l'entra√Ænement.
- Configurez `n_jobs` au nombre de c≈ìurs de votre machine.

Exemple :
```python
my_model = XGBRegressor(n_estimators=1000, learning_rate=0.05, n_jobs=4)
my_model.fit(X_train, y_train, 
             early_stopping_rounds=5, 
             eval_set=[(X_valid, y_valid)], 
             verbose=False)
```

---

### Conclusion

XGBoost est une biblioth√®que puissante pour les donn√©es tabulaires (celles stock√©es dans des DataFrames Pandas). Avec un ajustement minutieux des param√®tres, vous pouvez entra√Æner des mod√®les tr√®s pr√©cis.

---

### √Ä vous de jouer¬†!

Entra√Ænez votre propre mod√®le avec XGBoost dans le prochain exercice ! üòä