![Lille](img/lille.jpeg)

# Avant-propos
___

Ce notebook utilise un petit jeu de donn√©es fictif, inspir√© du march√© immobilier lillois. Il a √©t√© cr√©√© pour apprendre pas √† pas comment fonctionne la r√©gression lin√©aire.

L‚Äôid√©e est de pr√©dire le prix d‚Äôun logement en fonction d'une information simple, sa surface. C‚Äôest un exemple facile √† comprendre, parfait pour s‚Äôinitier √† la mod√©lisation.

# Introduction
___

Nous allons d√©couvrir comment le machine learning peut √™tre utilis√© pour **pr√©dire une valeur num√©rique** √† partir de donn√©es d‚Äôentr√©e. C‚Äôest ce qu‚Äôon appelle un probl√®me de **r√©gression**.

Nous allons nous int√©resser √† un cas simple mais tr√®s concret :  

`Pr√©dire le prix d‚Äôun bien immobilier en fonction de sa surface.`

Ce type de question est au c≈ìur de nombreux usages du ML :
- pr√©dire un salaire selon l‚Äôexp√©rience,
- estimer la consommation d‚Äô√©nergie selon la taille d‚Äôun logement,
- estimer la valeur d‚Äôun v√©hicule selon son kilom√©trage‚Ä¶

Notre objectif n‚Äôest pas seulement d‚Äôobtenir une pr√©diction correcte, mais surtout de comprendre et exp√©rimenter les √©tapes fondamentales d‚Äôun projet de **machine learning supervis√©**.

üí° Le machine learning (ML) n'est pas uniquement choisir un mod√®le, lui donner des donn√©es, et obtenir des pr√©dictions.
En r√©alit√©, un projet ML suit un processus rigoureux, avec plusieurs √©tapes interd√©pendantes. Ce processus n‚Äôest pas fig√©, mais il suit une logique que l‚Äôon retrouve dans tous les projets, quel que soit le type de donn√©es ou de mod√®le.

Ce notebook pr√©sente un **pipeline** (d√©marche structur√©e), compos√©e de plusieurs **√©tapes cl√©s**, que l‚Äôon retrouve dans la majorit√© des projets de **machine learning supervis√©**.

| √âtapes                        | Description                                                                                               |
|-------------------------------| ----------------------------------------------------------------------------------------------------------|
| 1 - Data Loading              | Chargement des donn√©es (CSV, base de donn√©es, API, etc.)                                                  |
| 2 - Exploration               | Analyse des donn√©es : types, statistiques, corr√©lations, visualisations                                   |
| 3 - Data preparation          | Suppression des doublons, traitement des valeurs manquantes, cr√©ation de features (sur tout le dataset)   |
| 4 - Train/Test Split          | S√©paration des donn√©es pour √©valuation (g√©n√©ralement 80/20 ou 70/30)                                      |
| 5 - Preprocessing             | Encodage, standardisation, etc. (fit sur le train, puis transform sur le test)                            |
| 6 - Model Training            | Entra√Ænement du mod√®le sur les donn√©es d‚Äôentra√Ænement                                                     |
| 7 - Evaluation                | Mesure des performances : MAE, MSE, R¬≤, accuracy, confusion matrix, etc..                                 |

# Import des biblioth√®ques
___

On commence par importer toutes les biblioth√®ques dont nous allons avoir besoin dans ce projet.

- **Pandas** : pour charger les donn√©es, les explorer et les modifier
- **NumPy** : pour effectuer des calculs num√©riques, notamment sur les tableaux
- **Matplotlib.pyplot** : pour cr√©er des visualisations (nuages de points, courbes, histogrammes...)
- **Scikit-learn (sklearn)** :
  - `LinearRegression` : pour entra√Æner un mod√®le de r√©gression lin√©aire
  - `train_test_split` : pour s√©parer les donn√©es en jeu d'entra√Ænement et de test
  - `mean_squared_error`, `r2_score` : pour √©valuer la performance du mod√®le
  - `StandardScaler` : pour standardiser les donn√©es si n√©cessaire
- **Joblib** : pour sauvegarder ou recharger un mod√®le d√©j√† entra√Æn√©

In [26]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
import joblib

# 1. üìö Data loading
___

La premi√®re √©tape de tout projet de machine learning consiste √† charger les donn√©es dans l‚Äôenvironnement de travail. Dans ce notebook, nous utilisons un fichier au format CSV. Pour cela, nous utilisons la fonction read_csv() fournie par la biblioth√®que Pandas, qui permet de lire le fichier et de le transformer en **DataFrame**.

üí° Les donn√©es peuvent provenir de nombreuses sources diff√©rentes : des fichiers **Excel** (.xlsx), des fichiers **JSON** (.json), des formats optimis√©s comme **Parquet** (.parquet), ou encore directement de **BDD** ou d‚Äô**API**.

In [27]:
# Code

# 2. üîç Exploration
___

### 2.1 Inspection rapide du dataset

Une fois les donn√©es charg√©es, il est important de commencer par en examiner un **aper√ßu rapide** pour s‚Äôassurer que le fichier a bien √©t√© lu, que les colonnes sont correctement nomm√©es et que les premi√®res lignes ont du sens.

In [28]:
# Code

Nous utilisons ensuite `df.info()` pour obtenir un r√©sum√© de la structure du DataFrame.  
Cette commande permet de v√©rifier :
- le nombre de lignes
- le type de chaque colonne (entier, flottant, objet, etc.)
- et de rep√©rer la pr√©sence de valeurs manquantes.

In [29]:
# Code

Nous utilisons ensuite `df.describe()` pour obtenir un r√©sum√© statistique des variables num√©riques.  

Cette √©tape nous permet de mieux comprendre la structure des donn√©es : 
- on regarde les ordres de grandeur
- les valeurs typiques (comme la moyenne ou la m√©diane)
- on rep√®re les √©ventuelles anomalies (comme des minimums ou maximums anormalement √©lev√©s).  

C‚Äôest une fa√ßon rapide de valider la coh√©rence globale du jeu de donn√©es avant d‚Äôaller plus loin.

In [30]:
# Code

### 2.2. Traitement des donn√©es manquantes

Pour traiter les valeurs manquantes nous devons choisir une strat√©gie adapt√©e : 
- soit les supprimer si elles sont peu nombreuses et non critiques (`.dropna()`)
- soit les remplacer par une valeur par d√©faut (comme la moyenne ou la m√©diane), selon le contexte (`.filla()`)

In [31]:
# Code

### 2.3. Anlayses univari√©es et bivari√©es

Maintenant que nous avons un aper√ßu g√©n√©ral de notre dataset, nous allons passer √† l‚Äôanalyse exploratoire proprement dite  (EDA : **Exploratory Data Analysis**), en combinant des analyses **univari√©es** et **bivari√©es**.

L‚Äô**analyse univari√©e** consiste √† √©tudier **une variable √† la fois**. Elle permet de :
- **comprendre la distribution d‚Äôune variable**
- **rep√©rer des tendances**
- **rep√©rer des valeurs atypiques** (outliers)
- **d√©tecter des incoh√©rences** (par exemple : pas de surface n√©gative, prix trop faibles, etc.).

L‚Äô**analyse bivari√©e**, quant √† elle, vise √† **explorer la relation entre deux variables**. Elle permet par exemple de :
- visualiser l‚Äô**effet d‚Äôune variable** (comme la surface) sur une autre (comme le prix)
- **identifier des corr√©lations ou des d√©pendances**

#### a. Surface des biens immobiliers

Nous pouvons visualiser la variable `surface_m2` sous forme d‚Äôhistogramme, ce qui nous permet de voir comment les biens sont r√©partis en fonction de leur surface.

In [32]:
# Code

Apr√®s un histogramme qui montre la distribution globale, le boxplot nous donne une synth√®se statistique visuelle : m√©diane, √©tendue, quartiles, et surtout les valeurs qui sortent du cadre.
Les deux graphiques sont compl√©mentaires, surtout quand on veut rep√©rer rapidement d‚Äô√©ventuelles anomalies.

In [33]:
# Code

#### b. Prix des biens immobiliers

Nous visualisons ici la variable `prix_euros` √† l‚Äôaide d‚Äôun histogramme, ce qui permet de comprendre comment les biens sont r√©partis selon leur prix.

In [34]:
# Code

In [35]:
# Code

#### c. Relation entre la surface et le prix des biens

Un **nuage de points (scatter plot)** permet de visualiser chaque bien comme une paire (surface, prix). Ce type de graphique permet de :
- identifier des tendances g√©n√©rales
- identifier des des groupements de donn√©es
- identifier d‚Äô√©ventuelles relations lin√©aires

Dans notre cas, on observe visuellement qu‚Äôune augmentation de la surface semble g√©n√©ralement associ√©e √† une augmentation du prix. 

‚ö†Ô∏è Il ne s‚Äôagit ici que d'une analyse bivari√©e visuelle. Ceci constitue une premi√®re √©tape avant d‚Äô√©valuer plus formellement cette relation √† l‚Äôaide d‚Äôun mod√®le ou d‚Äôun indicateur statistique.

In [36]:
# Code

#### d. Correlations

Afin d‚Äôexplorer les **relations lin√©aires** entre les variables de notre jeu de donn√©es, nous calculons la matrice de corr√©lation de Pearson. Cette m√©thode permet d‚Äôestimer dans quelle mesure deux variables num√©riques **varient ensemble**.

La matrice ci-dessous met en √©vidence une corr√©lation tr√®s forte entre la surface en m√®tres carr√©s (surface_m2) et le prix en euros (prix_euros).

In [37]:
# Code

# 3. Data preparation
___

### D√©tection des valeurs aberrantes (outliers)

Avant d‚Äôentra√Æner un mod√®le, il est important d‚Äôidentifier les **valeurs aberrantes**, c‚Äôest-√†-dire des donn√©es qui sont tr√®s √©loign√©es des autres et qui pourraient **fausser les r√©sultats**.

Ici, nous utilisons une m√©thode simple et classique bas√©e sur l‚Äô**√©cart interquartile (IQR)**.

In [38]:
# Code

In [39]:
# Code

# 4. Train/Test split
___

Avant d‚Äôentra√Æner notre mod√®le de r√©gression, il est essentiel de s√©parer nos donn√©es en deux ensembles distincts :
- un **ensemble d‚Äôentra√Ænement** (**train set**), qui sera utilis√© pour **ajuster le mod√®le**,
- un **ensemble de test** (**test set**), qui servira √† **√©valuer les performances du mod√®le sur des donn√©es jamais vues**.

Dans notre cas, nous avons choisi une r√©partition classique de 80 % pour l‚Äôentra√Ænement et 20 % pour le test.
Cette s√©paration permet de v√©rifier si notre mod√®le est capable de g√©n√©raliser √† de nouvelles donn√©es, et non simplement de m√©moriser les exemples qu‚Äôil a vus.

In [40]:
# Code

# 5. Preprocessing
___

Avant d‚Äôentra√Æner un mod√®le, il est important de **mettre toutes les variables √† la m√™me √©chelle**.  
La standardisation consiste √† transformer les donn√©es pour qu‚Äôelles aient une moyenne de 0 et un √©cart-type de 1.

Cela permet au mod√®le d‚Äôapprendre plus efficacement, surtout quand les variables n‚Äôont pas les m√™mes unit√©s (par exemple : surface en m¬≤, prix en euros).

On utilise ici le `StandardScaler` pour **apprendre la moyenne et l‚Äô√©cart-type** sur les donn√©es d‚Äôentra√Ænement, puis on applique cette transformation aux donn√©es d‚Äôentra√Ænement et de test.

In [41]:
# Code

# 6. Model training
___

### a. Apprentissage

Nous allons maintenant **entra√Æner** notre mod√®le de r√©gression lin√©aire **√† partir des donn√©es d‚Äôentra√Ænement** pr√©alablement standardis√©es.  
Le mod√®le va apprendre la **relation** entre la surface du bien (`X_train_scaled`) et son prix (`y_train_scaled`) en ajustant une droite qui minimise l‚Äôerreur quadratique (**MSE**).

Cette √©tape est essentielle : c‚Äôest ici que le mod√®le **apprend** √† pr√©dire en se basant sur les exemples fournis.

In [42]:
# Code

### b. Visualisation du mod√®le entra√Æn√©

In [43]:
# Code

# 7. Evaluation
___

Apr√®s l‚Äôentra√Ænement il est crucial d‚Äô√©valuer le mod√®le sur un jeu de donn√©es qu‚Äôil n‚Äôa jamais vu : c‚Äôest ce qu‚Äôon appelle le **jeu de test**.  
L‚Äôobjectif est de mesurer sa performance c'est √† dire sa **capacit√© du mod√®le √† g√©n√©raliser** ses pr√©dictions √† de nouvelles donn√©es r√©elles.
On affiche ici :
- la **MSE** (Mean Squared Error) : l‚Äôerreur quadratique moyenne entre les pr√©dictions et les vraies valeurs
- la **RMSE** (Root Mean Squared Error) : la racine carr√©e de la MSE, plus interpr√©table car dans la m√™me unit√© que la variable cible
- le **R¬≤ score** : appel√© aussi **coefficient de d√©termination**, est un indicateur de performance compris entre 0 et 1, qui mesure la proportion de la variance expliqu√©e par le mod√®le

### a. Scores

In [44]:
# Code

### b. Visualisation des pr√©dictions

In [45]:
# Code

# 8. Sauvegarde du mod√®le et des standardiseurs (scalers)
___

Une fois notre mod√®le entra√Æn√©, il est important de le sauvegarder pour pouvoir le r√©utiliser plus tard, **sans devoir le r√©entra√Æner**.  
Nous sauvegardons √©galement les objets `StandardScaler` utilis√©s pour la standardisation, ‚ö†Ô∏è **car toute nouvelle donn√©e devra √™tre transform√©e avec les m√™mes param√®tres (moyenne et √©cart-type) que ceux appris sur les donn√©es d‚Äôentra√Ænement**.

La sauvegarde se fait ici avec la biblioth√®que `joblib`, qui permet de **s√©rialiser des objets Python** dans des fichiers .pkl.

In [46]:
# Code

# Comment utiliser le mod√®le ?
___

In [47]:
# Code