Hyper-paramètres Clés de XGBoost<br><br>

**Learning Rate (taux d'apprentissage)** : Affecte la contribution de chaque arbre à la prédiction finale. Un taux plus faible et plus d'arbres peuvent améliorer la généralisation.<br>
**N_estimators** : Nombre d'arbres séquentiels à construire. Plus il y a d'arbres, plus le modèle peut être précis, mais attention au surajustement.<br>
**Max_depth** : Profondeur maximale de chaque arbre. Contrôle la complexité de chaque arbre, avec un risque plus élevé de surajustement pour des valeurs plus grandes.<br>
**Min_child_weight** : Somme minimale des poids d'instance nécessaire dans un enfant. Utilisé pour contrôler le surajustement.<br>
**Subsample** : Fraction des échantillons à utiliser pour entraîner chaque arbre. Un faible subsample peut conduire à un sous-ajustement, tandis qu'un subsample élevé à un surajustement.<br>
**Colsample_bytree** : Fraction des caractéristiques à utiliser pour chaque arbre. Une valeur plus faible peut améliorer la performance en prévenant le surajustement.<br><br>

**XGBoost** :<br>
Extrêmement efficace, flexible et portable. Idéal pour les grands ensembles de données.<br>
Supporte à la fois le boosting séquentiel et le parallélisme pour une formation rapide.<br>
Offre un contrôle avancé sur l'ajustement du modèle et l'ingénierie des fonctionnalités.<br>
Bien adapté pour les compétitions de data science et les problèmes complexes.<br><br>

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from xgboost import XGBClassifier
from sklearn.preprocessing import LabelEncoder

# Charger les données
data = pd.read_csv('datasets/titanic.csv')

# Prétraitement des données
label_encoder = LabelEncoder()
data['sex'] = label_encoder.fit_transform(data['sex'].fillna('NA'))
data['embarked'] = label_encoder.fit_transform(data['embarked'].fillna('NA'))
data['age'] = data['age'].fillna(data['age'].median())
data['fare'] = data['fare'].fillna(data['fare'].median())
data['pclass'] = data['pclass'].fillna(data['pclass'].median())
data['sibsp'] = data['sibsp'].fillna(data['sibsp'].median())
data['parch'] = data['parch'].fillna(data['parch'].median())

# Sélectionner les caractéristiques et la cible
features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']
target = 'survived'

X = data[features]
y = data[target].ffill()  # Remplacer les NaN dans la cible par la valeur précédente

# Diviser les données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Définir le modèle XGBoost et le GridSearch
xgb_model = XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss')

param_grid = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.05, 0.1, 0.2],
    'max_depth': [3, 4, 5, 6],
    
}

grid_search = GridSearchCV(xgb_model, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train, y_train)

# Afficher les meilleurs paramètres et le meilleur score
print("Meilleurs paramètres: ", grid_search.best_params_)
print("Meilleur score: ", grid_search.best_score_)


Meilleurs paramètres:  {'learning_rate': 0.01, 'max_depth': 6, 'n_estimators': 300}
Meilleur score:  0.82630667578036


Vous devez allez voir la documentation du XGBoost Classifier et jouer avec les hyperparamètres , vous n'avez pour le moment que les 3 principaux.