In [1]:
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

train = pd.read_csv("train_simp_fixedOrdinal_FE_newScaleCorr.csv")
test = pd.read_csv("test_simp_fixedOrdinal_FE_newScaleCorr.csv")

y = train["SalePrice"] 
train = train.drop(columns=["SalePrice"])
X = train  # Features pour l'entraînement


# Séparer les données en ensembles d'entraînement et de test (80% - 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialisation du modèle XGBoost
model = xgb.XGBRegressor(
    objective="reg:squarederror",  # Pour une tâche de régression
    n_estimators=2000,  # Nombre d'arbres
    learning_rate=0.05,  # Taux d'apprentissage
    max_depth=6,  # Profondeur maximale de chaque arbre
    subsample=0.8,  # Fraction des données utilisées pour chaque arbre
    colsample_bytree=0.8,  # Fraction des caractéristiques utilisées pour chaque arbre
    random_state=42
)

# Entraîner le modèle
model.fit(X_train, y_train)

# Prédictions sur l'ensemble de test
y_pred = model.predict(X_test)

# Évaluation du modèle
mse = mean_squared_error(y_test, y_pred)
# rmse = mean_squared_error(y_test, y_pred, squared=False)  # racine de l'erreur quadratique moyenne
rmse = mse ** 0.5
r2 = r2_score(y_test, y_pred)

# Affichage des résultats
print(f"MSE (XGBoost): {mse}")
print(f"RMSE (XGBoost): {rmse}")
print(f"R² (XGBoost): {r2}")


MSE (XGBoost): 3128182272.0
RMSE (XGBoost): 55930.155301053834
R² (XGBoost): 0.33708614110946655


In [2]:
# Prédiction sur le dataset de test (fichier test.csv de Kaggle)
y_pred_test = model.predict(test)

# Préparer la soumission
submission = pd.DataFrame({
    'Id': test['Id'],
    'SalePrice': y_pred_test
})
submission.to_csv('submission_noscale_FE_newScaleCorr.csv', index=False)