# Phase 1 ‚Äî Mod√©lisation du prix au m¬≤ √† Lille (2022) pour les logements de 4 pi√®ces

Dans cette premi√®re phase, vous allez construire un¬†**mod√®le de pr√©diction du prix au m¬≤**¬†√† partir de donn√©es issues des¬†**ventes immobili√®res √† Lille**, en vous concentrant sur les¬†**logements de 4 pi√®ces**¬†vendus en¬†**2022**.

Deux √©tudes s√©par√©es seront men√©es :

- L‚Äôune sur les¬†**appartements**
- L‚Äôautre sur les¬†**maisons**

---

### Objectifs

- Comprendre les relations entre certaines caract√©ristiques des biens (surface, nombre de lots, etc.) et leur prix au m¬≤
- Comparer les dynamiques de prix entre appartements et maisons
- Mettre en ≈ìuvre un pipeline de mod√©lisation supervis√©e
- S√©lectionner les mod√®les les plus performants par type de bien
- Poser les bases d‚Äôun futur service d‚Äôestimation diff√©renci√© par cat√©gorie de logement

### Consignes

1. **Charger les donn√©es**¬†depuis le fichier¬†`data/lille_2022.csv`

In [None]:
import pandas as pd
import numpy as np

data_lille = pd.read_csv("../data/lille_2022.csv")

# Afficher les 5 premi√®res lignes
print("Aper√ßu des 5 premi√®res lignes :")
print(data_lille.head())

# Afficher les informations sur le DataFrame
print("\nInformations sur le DataFrame :")
print(data_lille.info())

# Afficher les dimensions du DataFrame
print("\nDimensions du DataFrame (lignes, colonnes) :")
print(data_lille.shape)

Aper√ßu des 5 premi√®res lignes :
   Identifiant de document  Reference document  1 Articles CGI  \
0                      NaN                 NaN             NaN   
1                      NaN                 NaN             NaN   
2                      NaN                 NaN             NaN   
3                      NaN                 NaN             NaN   
4                      NaN                 NaN             NaN   

   2 Articles CGI  3 Articles CGI  4 Articles CGI  5 Articles CGI  \
0             NaN             NaN             NaN             NaN   
1             NaN             NaN             NaN             NaN   
2             NaN             NaN             NaN             NaN   
3             NaN             NaN             NaN             NaN   
4             NaN             NaN             NaN             NaN   

   No disposition Date mutation Nature mutation  ...  Nombre de lots  \
0               1    03/01/2022           Vente  ...               0   
1         


2. **Filtrer les biens de 4 pi√®ces uniquement**¬†:¬†`Nombre pieces principales == 4`

In [None]:
print("Valeurs uniques du nombre de pi√®ces :")
print(data_lille["Nombre pieces principales"].unique())
print("\nNombre de biens par nombre de pi√®ces :")
print(data_lille["Nombre pieces principales"].value_counts().sort_index())

data_4pieces = data_lille[data_lille["Nombre pieces principales"] == 4]

# V√©rifier le r√©sultat
print("\nNombre de biens de 4 pi√®ces :", len(data_4pieces))
print("\nAper√ßu des biens de 4 pi√®ces :")
print(data_4pieces.head())

Valeurs uniques du nombre de pi√®ces :
[ 5.  3.  0.  2.  1.  4.  7.  6.  8. 10. 14.  9. 12. 11. 13.]

Nombre de biens par nombre de pi√®ces :
Nombre pieces principales
0.0     5596
1.0     1471
2.0     1635
3.0     1273
4.0      789
5.0      379
6.0      139
7.0       42
8.0       11
9.0        9
10.0       4
11.0       2
12.0       1
13.0       1
14.0       2
Name: count, dtype: int64

Nombre de biens de 4 pi√®ces : 789

Aper√ßu des biens de 4 pi√®ces :
    Identifiant de document  Reference document  1 Articles CGI  \
18                      NaN                 NaN             NaN   
23                      NaN                 NaN             NaN   
26                      NaN                 NaN             NaN   
58                      NaN                 NaN             NaN   
62                      NaN                 NaN             NaN   

    2 Articles CGI  3 Articles CGI  4 Articles CGI  5 Articles CGI  \
18             NaN             NaN             NaN             NaN  


3. **Cr√©er deux jeux de donn√©es distincts**¬†:

    - Un jeu avec uniquement les¬†**appartements**
    - Un jeu avec uniquement les¬†**maisons**


In [14]:
print("Types de biens disponibles :")
print(data_4pieces["Type local"].unique())

data_appartements_4pieces = data_4pieces[data_4pieces["Type local"] == "Appartement"]

data_maisons_4pieces = data_4pieces[data_4pieces["Type local"] == "Maison"]

# V√©rifier le r√©sultat
print("\nNombre de appartements de 4 pi√®ces :", len(data_appartements_4pieces))
print("\nAper√ßu des appartements de 4 pi√®ces :")
print(data_appartements_4pieces.head())
print("\nNombre de maisons de 4 pi√®ces :", len(data_maisons_4pieces))
print("\nAper√ßu des maisons de 4 pi√®ces :")
print(data_maisons_4pieces.head())

Types de biens disponibles :
['Maison' 'Appartement']

Nombre de appartements de 4 pi√®ces : 435

Aper√ßu des appartements de 4 pi√®ces :
     Identifiant de document  Reference document  1 Articles CGI  \
23                       NaN                 NaN             NaN   
26                       NaN                 NaN             NaN   
58                       NaN                 NaN             NaN   
62                       NaN                 NaN             NaN   
113                      NaN                 NaN             NaN   

     2 Articles CGI  3 Articles CGI  4 Articles CGI  5 Articles CGI  \
23              NaN             NaN             NaN             NaN   
26              NaN             NaN             NaN             NaN   
58              NaN             NaN             NaN             NaN   
62              NaN             NaN             NaN             NaN   
113             NaN             NaN             NaN             NaN   

     No disposition Date m


4. Pour chaque jeu, ne conservez que les colonnes suivantes :
    - `Surface reelle bati`
    - `Nombre pieces principales`
    - `Type local`
    - `Surface terrain`¬†(si disponible)
    - `Nombre de lots`
    - `Valeur fonciere`¬†(pour calculer le¬†`prix_m2`)

In [19]:
colonnes_√†_garder = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',
    'Nombre de lots',
    'Valeur fonciere'
]

df_appartements_4pieces = data_appartements_4pieces[colonnes_√†_garder].copy()
print(df_appartements_4pieces.columns)
print(df_appartements_4pieces.info())

df_maisons_4pieces = data_maisons_4pieces[colonnes_√†_garder].copy()
print(df_maisons_4pieces.columns)
print(df_maisons_4pieces.info())

Index(['Surface reelle bati', 'Nombre pieces principales', 'Type local',
       'Surface terrain', 'Nombre de lots', 'Valeur fonciere'],
      dtype='object')
<class 'pandas.core.frame.DataFrame'>
Index: 435 entries, 23 to 11351
Data columns (total 6 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Surface reelle bati        435 non-null    float64
 1   Nombre pieces principales  435 non-null    float64
 2   Type local                 435 non-null    object 
 3   Surface terrain            49 non-null     float64
 4   Nombre de lots             435 non-null    int64  
 5   Valeur fonciere            435 non-null    float64
dtypes: float64(4), int64(1), object(1)
memory usage: 23.8+ KB
None
Index(['Surface reelle bati', 'Nombre pieces principales', 'Type local',
       'Surface terrain', 'Nombre de lots', 'Valeur fonciere'],
      dtype='object')
<class 'pandas.core.frame.DataFrame'>
Index: 354 entries, 18 to 

5. **Cr√©er la variable cible**¬†:
    
    ```python
    prix_m2 = Valeur fonciere / Surface reelle bati
    ```


In [21]:
# Ajouter la colonne prix_m2
df_appartements_4pieces['prix_m2'] = df_appartements_4pieces['Valeur fonciere'] / df_appartements_4pieces['Surface reelle bati']
df_maisons_4pieces['prix_m2'] = df_maisons_4pieces['Valeur fonciere'] / df_maisons_4pieces['Surface reelle bati']

# V√©rifier les r√©sultats
print("Statistiques prix/m¬≤ appartements :")
print(df_appartements_4pieces['prix_m2'].describe())
print("\nStatistiques prix/m¬≤ maisons :")
print(df_maisons_4pieces['prix_m2'].describe())

Statistiques prix/m¬≤ appartements :
count      435.000000
mean      4989.066032
std       7087.899307
min          0.011494
25%       2617.078231
50%       3285.714286
75%       4310.382231
max      52065.934066
Name: prix_m2, dtype: float64

Statistiques prix/m¬≤ maisons :
count     354.000000
mean     3003.594635
std      1116.900260
min       144.144144
25%      2291.390977
50%      2847.948718
75%      3481.995492
max      9192.073171
Name: prix_m2, dtype: float64


6. **Nettoyer les donn√©es**¬†:
    - Supprimer les lignes avec valeurs manquantes sur les colonnes utilis√©es
    - Identifier et retirer les valeurs aberrantes (prix au m¬≤ trop faible ou trop √©lev√©)


**7. Pr√©parer les donn√©es pour l'entra√Ænement**

- Variables explicatives :¬†`X`
- Variable cible :¬†`y = prix_m2`
- Division en jeu d'entra√Ænement (80%) et test (20%) avec¬†`train_test_split`

**8. Entra√Æner les mod√®les de base avec¬†`scikit-learn`**

- `LinearRegression`
- `DecisionTreeRegressor`
- `RandomForestRegressor`

**9. Optimiser les mod√®les d‚Äôarbres avec¬†`GridSearchCV`**

- Appliquer une recherche d‚Äôhyperparam√®tres sur les arbres pour am√©liorer les r√©sultats

**10. Ajouter un mod√®le moderne :¬†`XGBRegressor`**

üßëüèª‚Äçüíª¬†**Lien utile** : [https://www.ibm.com/fr-fr/think/topics/xgboost#:~:text=XGBoost (eXtreme Gradient Boosting) est,utilise la descente de gradient](https://www.ibm.com/fr-fr/think/topics/xgboost#:~:text=XGBoost%20(eXtreme%20Gradient%20Boosting)%20est,utilise%20la%20descente%20de%20gradient)

- Utilis√© aujourd‚Äôhui dans de nombreux projets industriels
- Formation avec les m√™mes donn√©es d'entra√Ænement
- Pr√©diction et √©valuation sur les donn√©es de test

**11. √âvaluer les performances de tous les mod√®les**

- Utiliser la m√©trique¬†**MSE**¬†(`mean_squared_error`)
- Comparer les performances de tous les mod√®les test√©s
- Afficher un¬†**tableau comparatif clair**¬†pour :
    - les¬†**appartements**
    - les¬†**maisons**