In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split,GridSearchCV
from xgboost import XGBClassifier
from sklearn.preprocessing import LabelEncoder

# Charger les données
data = pd.read_csv('datasets/titanic.csv')

# Prétraitement des données
label_encoder = LabelEncoder()
data['sex'] = label_encoder.fit_transform(data['sex'].fillna('NA'))
data['embarked'] = label_encoder.fit_transform(data['embarked'].fillna('NA'))
data['age'] = data['age'].fillna(data['age'].median())
data['fare'] = data['fare'].fillna(data['fare'].median())
data['pclass'] = data['pclass'].fillna(data['pclass'].median())
data['sibsp'] = data['sibsp'].fillna(data['sibsp'].median())
data['parch'] = data['parch'].fillna(data['parch'].median())

# Sélectionner les caractéristiques et la cible
features = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']
target = 'survived'

X = data[features]
y = data[target].ffill()  # Remplacer les NaN dans la cible par la valeur précédente

# Diviser les données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Définir le modèle XGBoost et le GridSearch
xgb_model = XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss', early_stopping_rounds=10)

param_grid = {
    'n_estimators': [100, 200, 300, 400],
    'learning_rate': [0.01, 0.05, 0.1, 0.2, 0.3],
    'max_depth': [3, 4, 5, 6, 7],
    'gamma': [0, 0.1, 0.2, 0.3],
    'min_child_weight': [1, 2, 5, 10],
    'subsample': [0.6, 0.7, 0.8, 0.9, 1],
    'colsample_bytree': [0.6, 0.7, 0.8, 0.9, 1],
    'reg_alpha': [0, 0.1, 0.5, 1],
    
    
}

grid_search = GridSearchCV(xgb_model, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train, y_train, )

# Afficher les meilleurs paramètres et le meilleur score
print("Meilleurs paramètres: ", grid_search.best_params_)
print("Meilleur score: ", grid_search.best_score_)

TypeError: Parameter grid for parameter 'early_stopping_rounds' needs to be a list or a numpy array, but got 10 (of type int) instead. Single values need to be wrapped in a list with one element.

Meilleurs paramètres:  {'colsample_bytree': 0.8, 'gamma': 0.1, 'learning_rate': 0.05, 'max_depth': 6, 'min_child_weight': 5, 'n_estimators': 400, 'reg_alpha': 0, 'subsample': 1}
Meilleur score:  0.8310868079289133