In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('../data/appartements-data-db.csv')
df.info()
df.head(2)

In [None]:
#statistiques descriptives
df.describe()

In [None]:
# valeurs manquantes
missing = df.isnull().sum()
print("les valeurs manquantes : \n", missing)

In [None]:
doublons= df.duplicated()
print(f"Nombre de doublons : {doublons.sum()}")
print(f"Nombre de lignes : {df[doublons==True]}")
df=df.drop_duplicates()
doublons= df.duplicated()
print(f"Nombre de doublons : {doublons.sum()}")


In [None]:
# Analyser la distribution des variables numériques.


In [None]:
# Étudier les relations entre variables à l’aide de matrices de corrélation et de visualisations.

# Prétraitement des données

In [None]:
df.shape

In [None]:
plt.figure(figsize=(16,9))
sns.heatmap(df.isnull())
plt.savefig("../eda_img/df_null_values.png")

**Nettoyage & Transformation**

In [None]:
#Extraire les équipements (equipment) dans des colonnes booléennes à l’aide de str.get_dummies().
if 'equipment' in df.columns : 
    equip=df["equipment"].str.get_dummies(sep='/')
    df= pd.concat([df.drop("equipment",axis=1),equip],axis=1)
print("colone avant 9 -> colonnes apres ", df.shape[1])

In [None]:
df.head(2)

In [None]:
#Convertir la colonne price (de type objet) en type float, en supprimant les caractères non numériques.
df["price"]= df["price"].str.replace(r'[^\d.]', '', regex=True).astype(float)
df["price"].head(2)

In [None]:
#Supprimer les colonnes inutiles telles que equipment et link.
df=df.drop("link", axis=1)
df.head(0)

In [None]:
#Traitement de la colonne city_name. Uniformiser les noms de villes : convertir les noms en arabe vers leur équivalent français
arabic_to_french = {
    "الدار البيضاء": "Casablanca",
    "دار بوعزة": "Dar Bouazza",
    "الرباط": "Rabat",
    "مراكش": "Marrakech",
    "أصيلة": "Asilah",
    "بوسكورة": "Bouskoura",
    "القنيطرة": "Kénitra",
    "المحمدية": "Mohammedia",
    "أكادير": "Agadir",
    "تمارة الجديدة": "Tamesna",
    "سلا": "Salé",
    "حد سوالم": "Had Soualem",
    "تمارة": "Temara",
    "بن سليمان": "Benslimane",
    "طنجة": "Tanger",
    "بوزنيقة": "Bouznika",
    "مكناس": "Meknès",
    "فاس": "Fès",
    "الجديدة": "El Jadida",
    "المنصورية": "El Mansouria",
    "مرتيل": "Martil",
    "الفنيدق": "Fnideq",
    "تطوان": "Tétouan",
    "السعيدية": "Saidia",
    "النواصر": "Nouaceur",
    "تماريس": "Tamaris",
    "كابو نيكرو": "Cabo Negro",
    "سيدي علال البحراوي": "Sidi Allal El Bahraoui",
    "بني ملال": "Béni Mellal",
    "غير معروف": "Unknown",
    "الصويرة": "Essaouira",
    "المهدية": "Mehdia",
    "وجدة": "Oujda",
    "وادي لاو": "Oued Laou",
    "الدشيرة": "Dcheira",
    "سيدي رحال": "Sidi Rahal",
    "دروة": "Deroua",
    "عين عتيق": "Ain Attig",
    "آسفي": "Safi",
    "إنزكان": "Inzegan",
    "إفران": "Ifrane",
    "الداخلة": "Dakhla",
    "الدشيرة الجهادية": "Dcheïra El Jihadia",
    "تغازوت": "Taghazout",
    "سيدي بوكنادل": "Sidi Bouknadel",
    "الصخيرات": "Skhirat",
    "خريبكة": "Khouribga",
    "بركان": "Berkane",
    "مرس الخير": "Mers El Kheir",
    "برشيد": "Berrechid",
    "تيزنيت": "Tiznit",
    "أكادير ملول": "Agadir Melloul",
    "الناظور": "Nador",
    "المنزه": "El Menzeh",
    "بني أنصار": "Bni Ansar",
    "المضيق": "Mdiq",
    "تيط مليل": "Tit Mellil",
    "سوق أربعاء": "Souk El Arbaa",
    "بيوڭرى": "Biougra",
    "سطات": "Settat",
    "عين عودة": "Ain Aouda",
    "تازة": "Taza",
    "الخميسات": "Khemisset",
    "وادي زم": "Oued Zem",
    "صفرو": "Sefrou",
    "مرزوكة": "Merzouga",
    "الحاجب": "El Hajeb",
    "سلوان": "Selouane",
    "تاونات": "Taounate",
    "سيدي بنور": "Sidi Bennour",
    "القصيبة": "El Ksiba"
}
df["city_name"]= df["city_name"].replace(arabic_to_french)
# Remplacer les valeurs manquantes dans city_name par "Unknown".
df["city_name"]= df["city_name"].fillna("Unknown")

**Gestion des valeurs manquantes:**

In [None]:
# extraire les colonnes num et categoroes
col_num= df.select_dtypes(include=['float64']).columns
col_cat= df.select_dtypes(include=["object"]).columns
print("col num: \n", col_num.tolist())
print("col cat: \n", col_cat.tolist())

In [None]:
perce_null=df[col_num].isnull().sum() / df.shape[0] * 100
print("les valeurs manquantes :\n",perce_null )

In [None]:
#Pour les colonnes numériques : imputer les valeurs manquantes par la médiane.
for col in col_num : 
    df[col]=df[col].fillna(df[col].median())


In [None]:
#Pour les colonnes catégorielles (chaînes de caractères) : imputer avec "Unknown"
for col in col_cat : 
    df[col]=df[col].fillna("Unknown")

In [None]:
df.isnull().sum()

In [None]:
plt.figure(figsize=(16,9))
sns.heatmap(df.isnull())
plt.savefig("../eda_img/df_after_hundel_null.png")

In [None]:
df.describe()

**Détection et suppression des valeurs aberrantes:**

In [None]:
# Utiliser des méthodes statistiques (boîtes à moustaches, z-score, IQR) pour détecter les outliers.
# Supprimer les lignes contenant des valeurs aberrantes sur des colonnes clés (ex: price, surface_area, etc.).

def find_remove_outliers(dataframe, column):
  
    Q1 = dataframe[column].quantile(0.25)
    Q3 = dataframe[column].quantile(0.75)
    IQR = Q3 - Q1
    min_val = Q1 - 1.5 * IQR
    max_val = Q3 + 1.5 * IQR

    initial_rows = len(dataframe)
    outliers_condition = (dataframe[column] < min_val) | (dataframe[column] > max_val)
    print(f"Nombre de valeurs aberrantes détectées dans '{column}': {outliers_condition.sum()}")

    df_cleaned = dataframe[~outliers_condition]
    print(f"{initial_rows - len(df_cleaned)} lignes ont été supprimées.")

    return df_cleaned


In [None]:
# Appliquer la fonction sur les colonnes clés
df_cleaned = find_remove_outliers(df.copy(), 'price')


In [None]:
df_cleaned = find_remove_outliers(df_cleaned, 'nb_rooms')   

In [None]:
df_cleaned = find_remove_outliers(df_cleaned, "nb_baths")

In [None]:
df_cleaned = find_remove_outliers(df_cleaned, 'surface_area')

In [None]:
df_cleaned=find_remove_outliers(df_cleaned,"salon")

In [None]:
df["salon"]

In [None]:
print(f"\nDimensions du DataFrame avant suppression des outliers : {df.shape}")
print(f"Dimensions du DataFrame après suppression des outliers : {df_cleaned.shape}")

df = df_cleaned # Remplacer le df original par le df nettoyé

**Encodage des variables catégorielles:**


In [None]:
#Appliquer un Label Encoding selon le modèle utilisé, en particulier sur city_name.
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
df["city_name"]=encoder.fit_transform(df["city_name"])

In [None]:
df["city_name"]

**Mise à l’échelle des variables:**

In [None]:
# Appliquer une normalisation (MinMaxScaler) ou une standardisation (StandardScaler) sur les variables numériques pour harmoniser les échelles.
from sklearn.preprocessing import MinMaxScaler
numeric_features_for_scaling = col_num.drop('price') # Exclure la cible
scaler = MinMaxScaler()
df[numeric_features_for_scaling] = scaler.fit_transform(df[numeric_features_for_scaling])
print("\nDataFrame après encodage et mise à l'échelle :")
print(df[col_num])


**Sélection des variables explicatives:**

In [None]:
#Choisir les variables numériques corrélées au prix (corr > 0.15).
matrice_de_correlation = df.corr(numeric_only=True)
price_correlation = matrice_de_correlation['price'].abs().sort_values(ascending=False)
print("\nCorrélation des variables avec le prix :")
print(price_correlation)

In [None]:
# Sélectionner les variables avec une corrélation > 0.15 (sauf le prix lui-même)
features = price_correlation[price_correlation > 0.15].index.drop('price').tolist()
print(f"\nVariables sélectionnées pour le modèle : \n{features}")


**Séparation des données:**

In [None]:
# Définir la variable cible y = df["price"].
from sklearn.model_selection import train_test_split
Y = df["price"]
# Définir les variables explicatives X à partir des colonnes sélectionnées.
X=df[features]
#  Diviser les données en ensemble d’entraînement et de test (80% / 20%) avec train_test_split.
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

print(f"\nTaille de l'ensemble d'entraînement : {X_train.shape}")
print(f"Taille de l'ensemble de test : {X_test.shape}")

# Entraînement des modèles de régression

**Entraîner plusieurs modèles :**

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import cross_val_score, KFold
import joblib # Pour sauvegarder le modèle

In [None]:
#Entraîner plusieurs modèles :
models = {
    "Linear Regression": LinearRegression(),
    "Random Forest": RandomForestRegressor(random_state=42),
    "SVR": SVR(),
    "Gradient Boosting": GradientBoostingRegressor(random_state=42)
}
for name, model in models.items():
    model.fit(X_train, y_train)
    print(f"✅ {name} entraîné avec succès.")



**Évaluer les modèles à l’aide de métriques adaptées à la régression :**

MSE (Mean Squared Error) / RMSE (Root Mean Squared Error) / MAE (Mean Absolute Error) / R² Score


In [None]:
results = {}
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)
    results[name] = {'RMSE': rmse, 'R2 Score': r2}
    print(f"--- {name} ---")
    print(f"RMSE: {rmse:.2f}")
    print(f"R² Score: {r2:.2f}\n")

**Validation croisée:**

Utiliser la validation croisée (cross-validation) pour évaluer la robustesse des modèles sur différentes portions du jeu de données.


In [None]:
# Configuration de la validation croisée : K-Fold 5 plis avec mélange et seed fixe
cv = KFold(n_splits=5, shuffle=True, random_state=42)

# Dictionnaire pour stocker les scores moyens
cv_results = {}

# Boucle sur chaque modèle pour calculer le score R² moyen en validation croisée
for name, model in models.items():
    # Calcul des scores R² sur les 5 plis
    scores = cross_val_score(model, X_train, y_train, cv=cv, scoring='r2')
    
    # Calcul de la moyenne des scores
    mean_score = np.mean(scores)
    
    # Sauvegarde du score moyen
    cv_results[name] = mean_score
    
    # Affichage clair du résultat
    print(f"{name} — R² moyen CV : {mean_score:.3f}")



**Optimisation des hyperparamètres:**

Utiliser GridSearchCV ou RandomizedSearchCV pour rechercher les meilleurs hyperparamètres pour chaque modèle.


In [None]:
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# 1. Définir les grilles d'hyperparamètres
param_grids = {
    "Random Forest": {
        "n_estimators": [100, 200, 400],
        "max_depth": [None, 10, 20],
        "min_samples_split": [2, 5]
    },
    "SVR": {
        "C": [0.1, 1, 10, 100],
        "gamma": ['scale', 'auto'],
        "kernel": ['rbf', 'linear']
    }
}

# # 2. Exemple pour Random Forest avec GridSearchCV
# rf = RandomForestRegressor(random_state=42)
# grid_search_rf = GridSearchCV(
#     estimator=rf,
#     param_grid=param_grids["Random Forest"],
#     scoring='neg_mean_squared_error',   # Minimiser l'erreur quadratique moyenne
#     cv=5,
#     n_jobs=-1,
#     verbose=1
# )
# grid_search_rf.fit(X_train, y_train)
# print("Meilleurs paramètres RF :", grid_search_rf.best_params_)

# 3. Exemple pour SVR avec RandomizedSearchCV (plus rapide quand grille grande)
svr = SVR()
random_search_svr = RandomizedSearchCV(
    estimator=svr,
    param_distributions=param_grids["SVR"],
    n_iter=10,                         # nombre d'itérations aléatoires
    scoring='neg_mean_squared_error',
    cv=5,
    n_jobs=-1,
    verbose=1,
    random_state=42
)
random_search_svr.fit(X_train, y_train)
print("Meilleurs paramètres SVR :", random_search_svr.best_params_)


**Sélection du meilleur modèle :**

Comparer les performances des modèles et sélectionner celui avec les meilleurs scores (ex: R² élevé, RMSE faible).

Sauvegarder le modèle entraîné (model.pkl)


In [None]:
# Dictionnaire pour stocker résultats de chaque modèle
results = {}

# Entraîner et évaluer chaque modèle
for name, model in models.items():
    model.fit(X_train, y_train)               # entraînement
    y_pred = model.predict(X_test)            # prédiction
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))  # calcul RMSE
    results[name] = {'model': model, 'RMSE': rmse}

# Trouver le meilleur modèle (celui avec le RMSE le plus faible)
best_model_name = min(results, key=lambda k: results[k]['RMSE'])
best_model = results[best_model_name]['model']
best_rmse = results[best_model_name]['RMSE']

print(f"✅ Meilleur modèle : {best_model_name} avec RMSE = {best_rmse:.2f}")

# Sauvegarder le meilleur modèle dans un fichier .pkl
joblib.dump(best_model, '../models/model.pkl')
print("Modèle sauvegardé sous 'model.pkl'")
