In [None]:
# Importations essentielles
import numpy as np
import pandas as pd

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns

# Machine Learning
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import xgboost as xgb
from catboost import CatBoostRegressor

# Suppression des warnings inutiles
import warnings
warnings.simplefilter(action="ignore", category=FutureWarning)


print("Jupyter Notebook est bien configur√© ! üöÄ")

In [None]:
# Charger le dataset
df = pd.read_csv("train.csv") 

# Aper√ßu des donn√©es
print(df.head())

# Informations g√©n√©rales sur les colonnes
print(df.info())

# Statistiques sur les variables num√©riques
print(df.describe())

In [None]:
# V√©rifier combien de colonnes ont des valeurs manquantes
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]  # Afficher uniquement les colonnes concern√©es

print("Colonnes avec valeurs manquantes :")
print(missing_values.sort_values(ascending=False))

# Visualiser les valeurs manquantes avec seaborn

plt.figure(figsize=(10, 6))
sns.heatmap(df.isnull(), cmap="viridis", cbar=False, yticklabels=False)
plt.title("Carte des valeurs manquantes")
plt.show()

In [None]:
# Suppression des colonnes avec trop de valeurs manquantes
df = df.drop(columns=["PoolQC", "MiscFeature", "Alley", "Fence"])

# Remplacement des NaN pour les variables cat√©goriques (remplace NaN par "None")
cols_cat = ["GarageType", "GarageFinish", "GarageQual", "GarageCond",
            "BsmtQual", "BsmtCond", "BsmtExposure", "BsmtFinType1", "BsmtFinType2",
            "MasVnrType"]
df[cols_cat] = df[cols_cat].fillna("None")

# Remplacement des NaN pour les variables num√©riques (remplace NaN par la m√©diane)
cols_num = ["LotFrontage", "MasVnrArea", "GarageYrBlt"]
for col in cols_num:
    df[col] = df[col].fillna(df[col].median())

# Remplacement des NaN pour Electrical par la valeur la plus fr√©quente
df["Electrical"] = df["Electrical"].fillna(df["Electrical"].mode()[0])

# Remplacement des NaN pour FireplaceQu (qualit√© de la chemin√©e)
df["FireplaceQu"] = df["FireplaceQu"].fillna("None")

# V√©rifier qu'il ne reste plus de valeurs manquantes
print("Valeurs manquantes apr√®s nettoyage :")
print(df.isnull().sum().sum())  # Doit afficher 0 si tout est bien nettoy√©

In [None]:
# Remplacement des NaN pour FireplaceQu (qualit√© de la chemin√©e)
df["FireplaceQu"] = df["FireplaceQu"].fillna("None")

print(df.isnull().sum().sum())  # Doit afficher 0 si tout est bien nettoy√©

In [None]:
# S√©lectionner uniquement les colonnes num√©riques
df_numeric = df.select_dtypes(include=["number"])

# Calculer la matrice de corr√©lation uniquement sur ces colonnes
correlation_matrix = df_numeric.corr()

# Trier les variables les plus corr√©l√©es avec SalePrice
correlation_with_price = correlation_matrix["SalePrice"].sort_values(ascending=False)

# Afficher les 15 variables les plus corr√©l√©es avec SalePrice
print("Top 15 des variables les plus corr√©l√©es avec SalePrice :")
print(correlation_with_price.head(15))

# Visualisation de la heatmap de corr√©lation

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, cmap="coolwarm", annot=False, fmt=".2f")
plt.title("Matrice de corr√©lation des variables num√©riques")
plt.show()

In [None]:
cat_cols = ["MSZoning", "Neighborhood", "BldgType", "HouseStyle",
            "RoofStyle", "Heating", "GarageType", "SaleCondition"]

# Compter le nombre de cat√©gories uniques pour chaque colonne
for col in cat_cols:
    print(f"{col} : {df[col].nunique()} cat√©gories uniques")

In [None]:
# Liste des colonnes cat√©goriques √† encoder
cat_cols = ["MSZoning", "Neighborhood", "BldgType", "HouseStyle",
            "RoofStyle", "Heating", "GarageType", "SaleCondition"]

# Appliquer l'encodage One-Hot et supprimer la premi√®re colonne de chaque cat√©gorie (drop_first=True)
df_encoded = pd.get_dummies(df, columns=cat_cols, drop_first=True)

# V√©rifier le nouveau nombre de colonnes
print("Nombre de colonnes apr√®s encodage :", df_encoded.shape[1])

# Afficher un aper√ßu des nouvelles colonnes
print(df_encoded.head())

In [None]:
# S√©lectionner uniquement les colonnes num√©riques apr√®s encodage
df_numeric = df_encoded.select_dtypes(include=["number"])

# Calculer la matrice de corr√©lation
correlation_matrix = df_numeric.corr()

# Trier les variables les plus corr√©l√©es avec SalePrice
correlation_with_price = correlation_matrix["SalePrice"].sort_values(ascending=False)

# Afficher les 15 variables les plus corr√©l√©es avec SalePrice
print("Top 15 des variables les plus corr√©l√©es avec SalePrice :")
print(correlation_with_price.head(15))

# Visualisation de la heatmap de corr√©lation
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, cmap="coolwarm", annot=False, fmt=".2f")
plt.title("Matrice de corr√©lation des variables apr√®s encodage")
plt.show()

In [None]:
A = correlation_matrix

print(A)

In [None]:
# S√©lection des variables les plus pertinentes
features = ["OverallQual", "GrLivArea", "GarageCars", "GarageArea",
            "TotalBsmtSF", "1stFlrSF", "FullBath", "TotRmsAbvGrd",
            "YearBuilt", "YearRemodAdd", "MasVnrArea", "Fireplaces",
            "GarageYrBlt", "BsmtFinSF1"]

# Cr√©ation du dataset final avec les variables s√©lectionn√©es
X = df_encoded[features]  # Variables explicatives
y = df_encoded["SalePrice"]  # Variable cible

# Division des donn√©es en entra√Ænement (80%) et test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Taille de l'ensemble d'entra√Ænement :", X_train.shape)
print("Taille de l'ensemble de test :", X_test.shape)

In [None]:
# Initialiser et entra√Æner le mod√®le
model = LinearRegression()
model.fit(X_train, y_train)

# Pr√©dictions sur l'ensemble de test
y_pred = model.predict(X_test)

# √âvaluer le mod√®le
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
r2 = r2_score(y_test, y_pred)

# Afficher les r√©sultats
print(f"Mean Absolute Error (MAE) : {mae}")
print(f"Mean Squared Error (MSE) : {mse}")
print(f"Root Mean Squared Error (RMSE) : {rmse}")
print(f"R¬≤ Score : {r2}")

In [None]:
# Initialiser le mod√®le Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Entra√Æner le mod√®le sur l'ensemble d'entra√Ænement
rf_model.fit(X_train, y_train)

# Pr√©dictions sur l'ensemble de test
y_pred_rf = rf_model.predict(X_test)

# √âvaluer le mod√®le
mae_rf = mean_absolute_error(y_test, y_pred_rf)
mse_rf = mean_squared_error(y_test, y_pred_rf)
rmse_rf = mse_rf ** 0.5
r2_rf = r2_score(y_test, y_pred_rf)

# Afficher les r√©sultats
print(f"Random Forest - Mean Absolute Error (MAE) : {mae_rf}")
print(f"Random Forest - Mean Squared Error (MSE) : {mse_rf}")
print(f"Random Forest - Root Mean Squared Error (RMSE) : {rmse_rf}")
print(f"Random Forest - R¬≤ Score : {r2_rf}")

In [None]:
# R√©cup√©rer l'importance des variables
importances = rf_model.feature_importances_

# Cr√©er un DataFrame pour les afficher proprement
feature_importance_df = pd.DataFrame({'Feature': X.columns, 'Importance': importances})
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

# Afficher les 10 variables les plus importantes
plt.figure(figsize=(10, 6))
sns.barplot(x=feature_importance_df.Importance[:10], y=feature_importance_df.Feature[:10], palette="viridis")
plt.xlabel("Importance")
plt.ylabel("Feature")
plt.title("Top 10 des variables les plus importantes")
plt.show()

# Afficher le classement complet
print(feature_importance_df)

In [None]:
# D√©finir la grille de param√®tres √† tester
param_grid = {
    'n_estimators': [100, 200, 300],  # Nombre d'arbres
    'max_depth': [None, 10, 20],  # Profondeur max des arbres
    'min_samples_split': [2, 5, 10],  # Nombre min d‚Äô√©chantillons pour diviser un n≈ìud
    'min_samples_leaf': [1, 2, 4]  # Nombre min d‚Äô√©chantillons dans une feuille
}

# Initialiser le mod√®le
rf = RandomForestRegressor(random_state=42)

# GridSearchCV pour tester toutes les combinaisons
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

# Meilleurs param√®tres trouv√©s
print("Meilleurs param√®tres :", grid_search.best_params_)

# Tester avec ces param√®tres optimis√©s
best_rf = RandomForestRegressor(**grid_search.best_params_, random_state=42)
best_rf.fit(X_train, y_train)
y_pred_best_rf = best_rf.predict(X_test)

# √âvaluer le mod√®le optimis√©
r2_best_rf = r2_score(y_test, y_pred_best_rf)
print("R¬≤ Score apr√®s optimisation :", r2_best_rf)

In [None]:
# Pr√©dictions avec le mod√®le optimis√©
y_pred_optimized = best_rf.predict(X_test)

# √âvaluation des erreurs
mae_optimized = mean_absolute_error(y_test, y_pred_optimized)
mse_optimized = mean_squared_error(y_test, y_pred_optimized)
rmse_optimized = mse_optimized ** 0.5

# Afficher les r√©sultats
print(f"Optimized Random Forest - Mean Absolute Error (MAE) : {mae_optimized}")
print(f"Optimized Random Forest - Mean Squared Error (MSE) : {mse_optimized}")
print(f"Optimized Random Forest - Root Mean Squared Error (RMSE) : {rmse_optimized}")

In [None]:
# Initialiser le mod√®le XGBoost
xgb_model = XGBRegressor(n_estimators=300, learning_rate=0.05, max_depth=6, random_state=42)

# Entra√Æner le mod√®le
xgb_model.fit(X_train, y_train)

# Pr√©dictions
y_pred_xgb = xgb_model.predict(X_test)

# √âvaluation XGBoost
mae_xgb = mean_absolute_error(y_test, y_pred_xgb)
mse_xgb = mean_squared_error(y_test, y_pred_xgb)
rmse_xgb = mse_xgb ** 0.5
r2_xgb = r2_score(y_test, y_pred_xgb)

# Afficher les r√©sultats
print(f"XGBoost - Mean Absolute Error (MAE) : {mae_xgb}")
print(f"XGBoost - Mean Squared Error (MSE) : {mse_xgb}")
print(f"XGBoost - Root Mean Squared Error (RMSE) : {rmse_xgb}")
print(f"XGBoost - R¬≤ Score : {r2_xgb}")

In [None]:
# D√©finir une grille d'hyperparam√®tres √† tester
param_grid = {
    'n_estimators': [200, 300, 400],
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 6, 9]
}

# Cr√©ation du mod√®le XGBoost
xgb = XGBRegressor(random_state=42)

# GridSearchCV pour tester les combinaisons
grid_search_xgb = GridSearchCV(xgb, param_grid, cv=5, n_jobs=-1, verbose=2)
grid_search_xgb.fit(X_train, y_train)

# Afficher les meilleurs param√®tres
print("Meilleurs param√®tres XGBoost :", grid_search_xgb.best_params_)

# Tester avec ces param√®tres optimis√©s
best_xgb = XGBRegressor(**grid_search_xgb.best_params_, random_state=42)
best_xgb.fit(X_train, y_train)
y_pred_best_xgb = best_xgb.predict(X_test)

# √âvaluer le mod√®le optimis√©
r2_best_xgb = r2_score(y_test, y_pred_best_xgb)
print("R¬≤ Score apr√®s optimisation de XGBoost :", r2_best_xgb)

In [None]:
# Comparer pr√©dictions et vraies valeurs
errors = np.abs(y_test - y_pred_best_xgb)

# Afficher les 10 pires erreurs
worst_predictions = pd.DataFrame({"Actual": y_test, "Predicted": y_pred_best_xgb, "Error": errors})
worst_predictions = worst_predictions.sort_values(by="Error", ascending=False)
print("üîç Top 10 des pires erreurs :")
print(worst_predictions.head(10))

In [None]:
plt.figure(figsize=(8,6))
plt.scatter(y_test, y_pred_best_xgb, alpha=0.5)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], '--', color='red')  # Ligne id√©ale y = x
plt.xlabel("Prix r√©el ($)")
plt.ylabel("Prix pr√©dit ($)")
plt.title("üîç Comparaison des pr√©dictions vs prix r√©els")
plt.show()

In [None]:
joblib.dump(best_xgb, "xgboost_model.pkl")
print("‚úÖ Mod√®le XGBoost sauvegard√© sous 'xgboost_model.pkl'")

In [None]:
print("Maisons √† plus de 500K$ :", sum(y_train > 500000))

In [None]:
# Transformation log du prix
y_train_log = np.log(y_train)
y_test_log = np.log(y_test)

# R√©entra√Æner XGBoost avec les prix transform√©s
xgb_log = XGBRegressor(n_estimators=300, learning_rate=0.05, max_depth=3, random_state=42)
xgb_log.fit(X_train, y_train_log)
y_pred_log = xgb_log.predict(X_test)

# Reconvertir les pr√©dictions avec exp()
y_pred_final = np.exp(y_pred_log)

# Recalculer les erreurs
mae_log = mean_absolute_error(y_test, y_pred_final)
r2_log = r2_score(y_test, y_pred_final)

print(f"‚úÖ MAE apr√®s transformation log : {mae_log}")
print(f"‚úÖ R¬≤ Score apr√®s transformation log : {r2_log}")

In [None]:
# Extraire les maisons √† plus de 500K$
expensive_houses = X_train[y_train > 500000]
expensive_prices = y_train[y_train > 500000]

# Ajouter ces maisons plusieurs fois dans l'entra√Ænement
X_train_balanced = pd.concat([X_train] + [expensive_houses] * 10, axis=0)
y_train_balanced = pd.concat([y_train] + [expensive_prices] * 10, axis=0)

# R√©entra√Æner XGBoost avec ces nouvelles donn√©es
xgb_balanced = XGBRegressor(n_estimators=300, learning_rate=0.05, max_depth=3, random_state=42)
xgb_balanced.fit(X_train_balanced, y_train_balanced)
y_pred_balanced = xgb_balanced.predict(X_test)

# √âvaluer
r2_balanced = r2_score(y_test, y_pred_balanced)
print(f"‚úÖ R¬≤ Score apr√®s augmentation des maisons ch√®res : {r2_balanced}")

In [None]:
# Initialiser le mod√®le
catboost_model = CatBoostRegressor(iterations=300, depth=6, learning_rate=0.05, random_seed=42, verbose=0)

# Entra√Æner le mod√®le
catboost_model.fit(X_train, y_train)

# Pr√©dictions
y_pred_catboost = catboost_model.predict(X_test)

# √âvaluation
r2_catboost = r2_score(y_test, y_pred_catboost)
print(f"‚úÖ R¬≤ Score avec CatBoost : {r2_catboost}")

In [None]:
joblib.dump(catboost_model, "catboost_best_model.pkl")
print("‚úÖ Mod√®le CatBoost sauvegard√© sous 'catboost_best_model.pkl'")