# Projet MLOps ‚Äî Pr√©diction du prix des maisons

**Objectif :** Construire un pipeline complet de *Data Science* pour pr√©dire le prix d‚Äôune maison.

Le projet suit les √©tapes suivantes :

- **Collecte des donn√©es**
- **Nettoyage**
- **Feature Engineering**
- **Mod√©lisation**
- **√âvaluation**



In [3]:
import os
import pandas as pd
import numpy as np


1. Collecte des donn√©es
Dans cette partie, on r√©cup√®re le dataset depuis une source publique (CSV) et on sauvegarde une copie ‚Äúbrute‚Äù dans data/raw/.

In [4]:
os.makedirs("data/raw", exist_ok=True)
os.makedirs("data/processed", exist_ok=True)
os.makedirs("models", exist_ok=True)


In [6]:
url = "https://raw.githubusercontent.com/ageron/handson-ml/master/datasets/housing/housing.csv"
df = pd.read_csv(url)

print("Dataset shape:", df.shape)
df.head()


Dataset shape: (20640, 10)


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


Sauvegarde des donn√©es brutes

On enregistre le dataset dans data/raw/ pour conserver une version non modifi√©e, utile pour la reproductibilit√© du projet.

In [7]:
df.to_csv("data/raw/housing_raw.csv", index=False)
print("‚úÖ Saved to data/raw/housing_raw.csv")


‚úÖ Saved to data/raw/housing_raw.csv


## 2) Nettoyage des donn√©es (*Data Preparation*)

Dans cette √©tape, on pr√©pare les donn√©es avant l‚Äôentra√Ænement du mod√®le.

On va :

- v√©rifier les valeurs manquantes
- s√©parer la variable √† pr√©dire
- faire un train/test split
- sauvegarder les donn√©es nettoy√©es dans data/processed/

 Objectif : obtenir un dataset pr√™t pour le feature engineering et l‚Äôentra√Ænement.


In [8]:
import pandas as pd

df = pd.read_csv("data/raw/housing_raw.csv")
print("Shape:", df.shape)
df.head()


Shape: (20640, 10)


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


### V√©rification des valeurs manquantes

Avant d'entra√Æner un mod√®le, on v√©rifie si certaines colonnes contiennent des valeurs nulles.

Les mod√®les de Machine Learning ne g√®rent g√©n√©ralement pas les valeurs manquantes directement, il faut donc les traiter.


In [9]:
missing = df.isna().sum().sort_values(ascending=False)
missing[missing > 0]


total_bedrooms    207
dtype: int64

###  S√©paration des variables explicatives et de la cible

Dans ce dataset :

- la variable cible (**y**) est : **`median_house_value`**
- les variables explicatives (**X**) sont toutes les autres colonnes

On s√©pare X et y pour pr√©parer l'entra√Ænement.


In [10]:
X = df.drop(columns=["median_house_value"])
y = df["median_house_value"]

print("X shape:", X.shape)
print("y shape:", y.shape)


X shape: (20640, 9)
y shape: (20640,)


###  S√©paration Train / Test

On divise le dataset en deux parties :

- **train** : utilis√© pour entra√Æner le mod√®le
- **test** : utilis√© pour √©valuer la performance sur des donn√©es jamais vues

 Ici on prend 80% train / 20% test.


In [11]:
#######Faire la modification pour eviter l'erreur de sklearn#######
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42
)

print("Train:", X_train.shape, y_train.shape)
print("Test :", X_test.shape, y_test.shape)


Train: (16512, 9) (16512,)
Test : (4128, 9) (4128,)


###  Sauvegarde des donn√©es pr√©par√©es

On sauvegarde les donn√©es *train/test* s√©par√©es dans data/processed/.

Cela permet de r√©utiliser directement ces fichiers dans les jobs suivants (features, train, evaluate).


In [12]:
import os

os.makedirs("data/processed", exist_ok=True)

X_train.to_csv("data/processed/X_train.csv", index=False)
X_test.to_csv("data/processed/X_test.csv", index=False)
y_train.to_csv("data/processed/y_train.csv", index=False)
y_test.to_csv("data/processed/y_test.csv", index=False)

print("Saved processed files in data/processed/")


Saved processed files in data/processed/


## 3)  Feature Engineering

Maintenant que les donn√©es sont s√©par√©es en *train* et *test*, il faut les rendre utilisables par un mod√®le.

Le dataset contient :

- des colonnes **num√©riques** (ex: median_income, housing_median_age, etc.)
- une colonne **cat√©gorielle** : ocean_proximity

Comme les mod√®les ne comprennent pas les textes, on va :

- remplacer les valeurs manquantes
- encoder ocean_proximity
- standardiser les variables num√©riques

Pour √©viter les erreurs, on fait tout √ßa avec un **Pipeline**.


In [13]:
import pandas as pd

X_train = pd.read_csv("data/processed/X_train.csv")
X_test = pd.read_csv("data/processed/X_test.csv")
y_train = pd.read_csv("data/processed/y_train.csv").squeeze()
y_test = pd.read_csv("data/processed/y_test.csv").squeeze()

print(X_train.shape, X_test.shape)
X_train.head()


(16512, 9) (4128, 9)


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,ocean_proximity
0,-117.03,32.71,33.0,3126.0,627.0,2300.0,623.0,3.2596,NEAR OCEAN
1,-118.16,33.77,49.0,3382.0,787.0,1314.0,756.0,3.8125,NEAR OCEAN
2,-120.48,34.66,4.0,1897.0,331.0,915.0,336.0,4.1563,NEAR OCEAN
3,-117.11,32.69,36.0,1421.0,367.0,1418.0,355.0,1.9425,NEAR OCEAN
4,-119.8,36.78,43.0,2382.0,431.0,874.0,380.0,3.5542,INLAND


### Pipeline de transformation

L‚Äôid√©e c‚Äôest de pr√©parer les donn√©es **de la m√™me fa√ßon** pour le train et le test.

On va faire :

- **num√©riques** ‚Üí remplissage des valeurs manquantes + standardisation
- **cat√©gorielles** ‚Üí encodage *OneHot*

√áa √©vite de faire des transformations ‚Äú√† la main‚Äù et √ßa rend le projet plus propre.


In [14]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

num_features = X_train.drop(columns=["ocean_proximity"]).columns
cat_features = ["ocean_proximity"]

num_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])

cat_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("onehot", OneHotEncoder(handle_unknown="ignore"))
])

preprocessor = ColumnTransformer([
    ("num", num_pipeline, num_features),
    ("cat", cat_pipeline, cat_features)
])


### Transformation des donn√©es

On applique le pipeline :

- `fit_transform` sur le train (apprendre + transformer)
- `transform` sur le test (juste transformer)

Comme √ßa, on ne ‚Äútriche‚Äù pas avec les donn√©es de test.


In [15]:
X_train_prepared = preprocessor.fit_transform(X_train)
X_test_prepared = preprocessor.transform(X_test)

print("X_train_prepared:", X_train_prepared.shape)
print("X_test_prepared :", X_test_prepared.shape)


X_train_prepared: (16512, 13)
X_test_prepared : (4128, 13)


### Sauvegarde

Je sauvegarde aussi le pipeline de transformation, parce qu‚Äôil faudra refaire exactement les m√™mes transformations au moment de l‚Äô√©valuation (ou si on veut pr√©dire sur de nouvelles donn√©es).


In [16]:
import joblib
import os

os.makedirs("models", exist_ok=True)

joblib.dump(preprocessor, "models/preprocessor.joblib")
print("‚úÖ Preprocessor saved in models/preprocessor.joblib")


‚úÖ Preprocessor saved in models/preprocessor.joblib


## 4) üß† Entra√Ænement du mod√®le

Maintenant que les donn√©es sont pr√™tes, on peut entra√Æner un mod√®le.

Je vais commencer avec un mod√®le **Random Forest Regressor**, parce qu‚Äôil marche bien sur ce type de dataset et qu‚Äôil ne demande pas trop de r√©glages au d√©but.

L‚Äôobjectif ici c‚Äôest d‚Äôavoir un premier mod√®le fonctionnel, puis on regardera les performances.


In [17]:
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(
    n_estimators=200,
    random_state=42,
    n_jobs=-1
)

model.fit(X_train_prepared, y_train)

print("‚úÖ Model trained")


‚úÖ Model trained


### Sauvegarde du mod√®le

Je sauvegarde le mod√®le entra√Æn√© dans le dossier `models/` pour pouvoir le r√©utiliser plus tard (√©valuation, pr√©dictions, etc.).


In [18]:
import joblib

joblib.dump(model, "models/model.joblib")
print("‚úÖ Model saved in models/model.joblib")


‚úÖ Model saved in models/model.joblib


### V√©rification rapide

On fait une premi√®re pr√©diction sur le *test* juste pour voir si tout fonctionne bien.


In [19]:
y_pred = model.predict(X_test_prepared)

print("Quelques pr√©dictions :", y_pred[:5])
print("Valeurs r√©elles      :", y_test.values[:5])


Quelques pr√©dictions : [ 50921.   70244.5 464703.4 258147.5 267298. ]
Valeurs r√©elles      : [ 47700.  45800. 500001. 218600. 278000.]


## 5) üìä √âvaluation du mod√®le

Maintenant on mesure la performance du mod√®le sur le jeu de test.

On utilise deux m√©triques classiques en r√©gression :

- **MAE** (*Mean Absolute Error*) : erreur moyenne en valeur absolue  
- **RMSE** (*Root Mean Squared Error*) : p√©nalise plus les grosses erreurs

Plus ces valeurs sont **petites**, mieux c‚Äôest.


In [20]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print(f"MAE  : {mae:,.2f}")
print(f"RMSE : {rmse:,.2f}")


MAE  : 31,465.25
RMSE : 48,781.91


### Sauvegarde des r√©sultats

Je sauvegarde les m√©triques dans un fichier pour garder une trace des performances du mod√®le.
√áa peut √™tre utile si on teste plusieurs mod√®les ensuite.


In [21]:
import json
import os

os.makedirs("report", exist_ok=True)

results = {
    "model": "RandomForestRegressor",
    "mae": float(mae),
    "rmse": float(rmse)
}

with open("report/metrics.json", "w") as f:
    json.dump(results, f, indent=4)

print("‚úÖ Metrics saved in report/metrics.json")


‚úÖ Metrics saved in report/metrics.json


### Conclusion rapide

Le mod√®le est entra√Æn√© et √©valu√© avec succ√®s üéâ  
On a maintenant un pipeline complet qui va :

1. r√©cup√©rer les donn√©es
2. pr√©parer les donn√©es
3. transformer les features
4. entra√Æner un mod√®le
5. mesurer la performance

La prochaine √©tape (pour rendre √ßa encore plus propre) sera de transformer ce notebook en **jobs Python** comme demand√© dans la consigne.


# ‚öôÔ∏è Partie Jobs (scripts Python)

Dans cette partie, je transforme le notebook en **jobs** (scripts `.py`) comme dans l‚Äôexemple *foodcast*.

Chaque job correspond √† une √©tape du pipeline :

1. `01_collect.py` ‚Üí collecte des donn√©es  
2. `02_clean.py` ‚Üí nettoyage + split train/test  
3. `03_features.py` ‚Üí transformations (encodage + scaling)  
4. `04_train.py` ‚Üí entra√Ænement du mod√®le  
5. `05_evaluate.py` ‚Üí √©valuation + sauvegarde des m√©triques  

Ensuite je peux ex√©cuter les jobs dans l‚Äôordre avec `python jobs/...`.


In [22]:
import os

os.makedirs("data/raw", exist_ok=True)
os.makedirs("data/processed", exist_ok=True)
os.makedirs("models", exist_ok=True)
os.makedirs("report", exist_ok=True)
os.makedirs("jobs", exist_ok=True)

print("‚úÖ Dossiers cr√©√©s")


‚úÖ Dossiers cr√©√©s


## Job 01 ‚Äî Collecte des donn√©es

Ce job t√©l√©charge le dataset et le sauvegarde dans `data/raw/`.


In [None]:
code = """
import os
import pandas as pd

def main():
    os.makedirs("data/raw", exist_ok=True)

    url = "https://raw.githubusercontent.com/ageron/handson-ml/master/datasets/housing/housing.csv"
    df = pd.read_csv(url)

    print("Dataset shape:", df.shape)

    df.to_csv("data/raw/housing_raw.csv", index=False)
    print("‚úÖ Saved: data/raw/housing_raw.csv")

if __name__ == "__main__":
    main()
"""

with open("jobs/01_collect.py", "w", encoding="utf-8") as f:
    f.write(code)

print("‚úÖ Fichier cr√©√© : jobs/01_collect.py")


UnicodeEncodeError: 'charmap' codec can't encode character '\u2705' in position 333: character maps to <undefined>

In [26]:
!python jobs/01_collect.py


Dataset shape: (20640, 10)
‚úÖ Saved: data/raw/housing_raw.csv


## Job 02 ‚Äî Nettoyage + Train/Test split

Ce job charge les donn√©es brutes, s√©pare la cible (`median_house_value`) et cr√©e un split **80% train / 20% test**.
Ensuite il sauvegarde les fichiers dans `data/processed/`.


In [None]:
code = """
import os
import pandas as pd
from sklearn.model_selection import train_test_split

def main():
    os.makedirs("data/processed", exist_ok=True)

    df = pd.read_csv("data/raw/housing_raw.csv")

    X = df.drop(columns=["median_house_value"])
    y = df["median_house_value"]

    X_train, X_test, y_train, y_test = train_test_split(
        X, y,
        test_size=0.2,
        random_state=42
    )

    X_train.to_csv("data/processed/X_train.csv", index=False)
    X_test.to_csv("data/processed/X_test.csv", index=False)
    y_train.to_csv("data/processed/y_train.csv", index=False)
    y_test.to_csv("data/processed/y_test.csv", index=False)

    print("‚úÖ Saved processed files in data/processed/")

if __name__ == "__main__":
    main()
"""

with open("jobs/02_clean.py", "w", encoding="utf-8") as f:
    f.write(code)

print("‚úÖ Fichier cr√©√© : jobs/02_clean.py")


‚úÖ Fichier cr√©√© : jobs/02_clean.py


In [28]:
!python jobs/02_clean.py


‚úÖ Saved processed files in data/processed/


## Job 03 ‚Äî Feature Engineering

Ce job pr√©pare les donn√©es pour le mod√®le :

- colonnes num√©riques ‚Üí remplissage des valeurs manquantes + standardisation
- colonne cat√©gorielle `ocean_proximity` ‚Üí encodage *OneHot*

On sauvegarde ensuite le **preprocessor** dans `models/` pour pouvoir le r√©utiliser plus tard.


In [None]:
code = """
import os
import pandas as pd
import joblib

from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

def main():
    os.makedirs("models", exist_ok=True)

    X_train = pd.read_csv("data/processed/X_train.csv")
    X_test = pd.read_csv("data/processed/X_test.csv")

    num_features = X_train.drop(columns=["ocean_proximity"]).columns
    cat_features = ["ocean_proximity"]

    num_pipeline = Pipeline([
        ("imputer", SimpleImputer(strategy="median")),
        ("scaler", StandardScaler())
    ])

    cat_pipeline = Pipeline([
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("onehot", OneHotEncoder(handle_unknown="ignore"))
    ])

    preprocessor = ColumnTransformer([
        ("num", num_pipeline, num_features),
        ("cat", cat_pipeline, cat_features)
    ])

    # fit sur train uniquement
    preprocessor.fit(X_train)

    joblib.dump(preprocessor, "models/preprocessor.joblib")
    print("‚úÖ Saved preprocessor: models/preprocessor.joblib")

if __name__ == "__main__":
    main()
"""

with open("jobs/03_features.py", "w", encoding="utf-8") as f:
    f.write(code)

print("‚úÖ Fichier cr√©√© : jobs/03_features.py")


‚úÖ Fichier cr√©√© : jobs/03_features.py


In [30]:
!python jobs/03_features.py


‚úÖ Saved preprocessor: models/preprocessor.joblib


## Job 04 ‚Äî Entra√Ænement du mod√®le

Ce job :

- charge les donn√©es train
- applique le preprocessor
- entra√Æne un mod√®le `RandomForestRegressor`
- sauvegarde le mod√®le dans `models/`


In [None]:
code = """
import os
import pandas as pd
import joblib

from sklearn.ensemble import RandomForestRegressor

def main():
    os.makedirs("models", exist_ok=True)

    # load data
    X_train = pd.read_csv("data/processed/X_train.csv")
    y_train = pd.read_csv("data/processed/y_train.csv").squeeze()

    # load preprocessor
    preprocessor = joblib.load("models/preprocessor.joblib")

    # transform
    X_train_prepared = preprocessor.transform(X_train)

    # train model
    model = RandomForestRegressor(
        n_estimators=200,
        random_state=42,
        n_jobs=-1
    )

    model.fit(X_train_prepared, y_train)

    joblib.dump(model, "models/model.joblib")
    print("‚úÖ Saved model: models/model.joblib")

if __name__ == "__main__":
    main()
"""

with open("jobs/04_train.py", "w", encoding="utf-8") as f:
    f.write(code)

print("‚úÖ Fichier cr√©√© : jobs/04_train.py")


‚úÖ Fichier cr√©√© : jobs/04_train.py


In [33]:
!python jobs/04_train.py


Traceback (most recent call last):
  File "/content/jobs/04_train.py", line 34, in <module>
    main()
  File "/content/jobs/04_train.py", line 28, in main
    model.fit(X_train_prepared, y_train)
object address  : 0x786c23765f60
object refcount : 3
object type     : 0xa2a4e0
object type name: KeyboardInterrupt
object repr     : KeyboardInterrupt()
lost sys.stderr
^C


## Job 05 ‚Äî √âvaluation

Ce job :

- charge le mod√®le entra√Æn√©
- transforme les donn√©es test
- calcule les m√©triques (**MAE** et **RMSE**)
- sauvegarde les r√©sultats dans `report/metrics.json`


In [None]:
code = """
import os
import json
import numpy as np
import pandas as pd
import joblib

from sklearn.metrics import mean_absolute_error, mean_squared_error

def main():
    os.makedirs("report", exist_ok=True)

    # load data
    X_test = pd.read_csv("data/processed/X_test.csv")
    y_test = pd.read_csv("data/processed/y_test.csv").squeeze()

    # load preprocessor + model
    preprocessor = joblib.load("models/preprocessor.joblib")
    model = joblib.load("models/model.joblib")

    # transform + predict
    X_test_prepared = preprocessor.transform(X_test)
    y_pred = model.predict(X_test_prepared)

    # metrics
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))

    print(f"MAE  : {mae:,.2f}")
    print(f"RMSE : {rmse:,.2f}")

    results = {
        "model": "RandomForestRegressor",
        "mae": float(mae),
        "rmse": float(rmse)
    }

    with open("report/metrics.json", "w") as f:
        json.dump(results, f, indent=4)

    print("‚úÖ Saved metrics: report/metrics.json")

if __name__ == "__main__":
    main()
"""

with open("jobs/05_evaluate.py", "w", encoding="utf-8") as f:
    f.write(code)

print("‚úÖ Fichier cr√©√© : jobs/05_evaluate.py")


‚úÖ Fichier cr√©√© : jobs/05_evaluate.py


In [35]:
!python jobs/05_evaluate.py


MAE  : 31,465.25
RMSE : 48,781.91
‚úÖ Saved metrics: report/metrics.json
