# üîç Exploration des donn√©es - Annonces immobili√®res Notaires

**Objectif** : Explorer et documenter les donn√©es brutes pour pr√©parer le script `clean_data.py`

**Source** : Scraping de https://www.immobilier.notaires.fr/

**Note importante** : Ce notebook est un outil d'exploration. Il ne produit aucun fichier.  
Les transformations identifi√©es seront impl√©ment√©es dans `src/clean_data.py`.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

# Configuration
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

# Chargement des donn√©es brutes
df = pd.read_csv("../data/annonces_raw.csv")
print(f"{len(df)} annonces charg√©es")

1292 annonces charg√©es


---
## 1. Aper√ßu g√©n√©ral des donn√©es

In [3]:
df.head(3)

Unnamed: 0,Departement,URL,Titre,Type_Bien,Localisation,Prix,Surface_m2,Nb_Pieces,Description
0,75,https://www.immobilier.notaires.fr/fr/annonce-...,Achat :Appartement T4- Paris 8 - Paris (75),Appartement T4,- Paris 8 - Paris (75),955000,72.12,4,Notaire - F4 Rue Berryer PARIS VIII√®me.¬†Au coe...
1,75,https://www.immobilier.notaires.fr/fr/annonce-...,Achat :Appartement T2- Paris 16 - Paris (75),Appartement T2,- Paris 16 - Paris (75),745500,70.0,2,Notaire vend un appartement T2 de 70.58m¬≤ Carr...
2,75,https://www.immobilier.notaires.fr/fr/annonce-...,Achat :Appartement T4- Paris 15 - Paris (75),Appartement T4,- Paris 15 - Paris (75),600000,74.15,4,"Exclusivit√©, au sein d'un bel immeuble d'angle..."


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1292 entries, 0 to 1291
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Departement   1292 non-null   int64  
 1   URL           1292 non-null   object 
 2   Titre         1292 non-null   object 
 3   Type_Bien     1292 non-null   object 
 4   Localisation  1292 non-null   object 
 5   Prix          1292 non-null   int64  
 6   Surface_m2    1142 non-null   float64
 7   Nb_Pieces     1292 non-null   int64  
 8   Description   1292 non-null   object 
dtypes: float64(1), int64(3), object(5)
memory usage: 91.0+ KB


In [5]:
df.describe()

Unnamed: 0,Departement,Prix,Surface_m2,Nb_Pieces
count,1292.0,1292.0,1142.0,1292.0
mean,43.382353,346283.8,115.702898,3.493034
std,22.573112,395754.3,70.421674,1.697708
min,1.0,19000.0,6.55,0.0
25%,30.0,156282.5,72.0,2.0
50%,42.0,249900.0,102.88,3.0
75%,62.0,397400.0,144.0,4.0
max,83.0,4935000.0,858.0,22.0


### üìã Observations
- **1292 annonces** sur 22 d√©partements
- **9 colonnes** : Departement, URL, Titre, Type_Bien, Localisation, Prix, Surface_m2, Nb_Pieces, Description
- Types de donn√©es corrects (int64 pour les num√©riques, object pour le texte)

---
## 2. Qualit√© des donn√©es

### 2.1 Doublons

In [6]:
print(f"Doublons complets : {df.duplicated().sum()}")
print(f"Doublons sur URL : {df['URL'].duplicated().sum()}")

Doublons complets : 0
Doublons sur URL : 0


**Aucun doublon** - Le scraper a bien fonctionn√©

### 2.2 Valeurs manquantes

In [7]:
missing = df.isna().sum()
missing_pct = (missing / len(df) * 100).round(1)

pd.DataFrame({
    'Manquantes': missing,
    'Pourcentage': missing_pct
})

Unnamed: 0,Manquantes,Pourcentage
Departement,0,0.0
URL,0,0.0
Titre,0,0.0
Type_Bien,0,0.0
Localisation,0,0.0
Prix,0,0.0
Surface_m2,150,11.6
Nb_Pieces,0,0.0
Description,0,0.0


**150 valeurs manquantes sur Surface_m2** (11.6%)

‚Üí √Ä traiter dans `clean_data.py`

---
## 3. Traitement des surfaces manquantes

Hypoth√®se : La surface peut √™tre extraite de la colonne `Description` via regex

### 3.1 Test du pattern regex principal

In [8]:
# Extraction de la surface depuis le texte √† l'aide d'une expression r√©guli√®re

pattern_m2 = r"(\d+(?:[.,]\d+)?)\s*m¬≤"


missing_surface = df[df['Surface_m2'].isna()]


for i, row in missing_surface.head(3).iterrows():
    desc = row['Description'][:200]
    match = re.search(pattern_m2, desc)
    print(f"Description: {desc}...")
    print(f"Surface extraite : {match.group(1) if match else 'NON'}\n")

Description: APPARTEMENT A VENDRE A PARIS 15EME EN EXCLUSIVITE ! N'attendez plus pour d√©couvrir cet agr√©able appartement de type 3 d'environ 67 m2, au troisi√®me √©tage avec ascenseur d'un immeuble datant de 1976 et...
Surface extraite : NON

Description: Vendu LOU√â. Paris 20√®me, Gambetta, dans un immeuble ancien √† deux pas de la Place, appartement de 33,6m¬≤ au 5√®me √©tage avec ascenseur. Plan en √©toile pour cet appartement vendu lou√© 987¬Ä +105¬Ä de char...
Surface extraite : 33,6

Description: √Ä VENDRE : Appartement id√©alement situ√© dans le 15√®me arrondissement de Paris, √† 5 minutes de la M√©diath√®que Marguerite-Yourcenar, √† 4 minutes du m√©tro Vaugirard, et √† seulement 22 minutes √† pied de l...
Surface extraite : NON



### 3.2 Patterns alternatifs identifi√©s

Certaines annonces utilisent des formats diff√©rents :

In [9]:
# Test de patterns alternatifs
patterns_test = [
    (r"(\d+(?:[.,]\d+)?)\s*m¬≤", "m¬≤ (standard)"),
    (r"(\d+(?:[.,]\d+)?)\s*m2", "m2 (sans accent)"),
    (r"environ\s*(\d+)", "'environ X'"),
]

for pattern, name in patterns_test:
    count = missing_surface['Description'].str.contains(pattern, regex=True, na=False).sum()
    print(f"{name}: {count} matches")

m¬≤ (standard): 93 matches
m2 (sans accent): 17 matches
'environ X': 34 matches


  count = missing_surface['Description'].str.contains(pattern, regex=True, na=False).sum()


Lors de l'analyse des descriptions d'annonces, nous avons constat√© que la surface n'est pas toujours √©crite de la m√™me mani√®re. En effet, selon les annonceurs, on retrouve diff√©rentes conventions d'√©criture :
Le format le plus courant utilise le symbole "m¬≤" avec l'exposant (par exemple "75 m¬≤"). Ce pattern standard nous permet de r√©cup√©rer 93 descriptions parmi celles o√π la surface est manquante.
Cependant, certains r√©dacteurs utilisent "m2" sans accent, probablement par facilit√© de saisie au clavier. Ce format alternatif concerne 17 descriptions suppl√©mentaires.
Enfin, une formulation plus litt√©raire appara√Æt dans certaines annonces avec l'expression "environ" suivie d'un nombre (par exemple "environ 80 m√®tres carr√©s"). Ce cas de figure repr√©sente 34 occurrences.
Cette analyse pr√©liminaire nous permet de d√©finir une strat√©gie d'extraction multi-patterns : plut√¥t que de chercher un seul format, notre script clean_data.py testera successivement ces trois patterns pour maximiser le taux de r√©cup√©ration des surfaces manquantes.

### 3.3 R√©sultat de l'extraction multi-patterns

In [10]:
def extract_surface_smart(description, type_bien=None):
    """
    Extraction INTELLIGENTE de la surface.
    
    ATTENTION : Les descriptions mentionnent souvent plusieurs surfaces :
    - Surface de l'appartement (ce qu'on veut)
    - Surface du balcon (6-15 m¬≤)
    - Surface de la cave (4-10 m¬≤)
    - Surface de la terrasse (10-30 m¬≤)
    
    Strat√©gie d'extraction (par ordre de priorit√©) :
    1. Surface Carrez (mention l√©gale, la plus fiable)
    2. Surface 'habitable'
    3. Formulation 'de X m¬≤' ou 'd'environ X m¬≤'
    4. Plus grande surface au-dessus d'un seuil minimum
    
    Le seuil minimum est adapt√© au type de bien :
    - T0/T1 (studios) : 12 m¬≤ minimum
    - T2+ : 25 m¬≤ minimum
    """
    desc = str(description)
    pattern = r"(\d+(?:[.,]\d+)?)\s*m[¬≤2]"
    
    # Seuil adapt√© au type de bien
    if type_bien and ('T0' in str(type_bien) or 'T1' in str(type_bien)):
        seuil_min = 12
    else:
        seuil_min = 25
    
    # Priorit√© 1 : Surface Carrez
    carrez = re.search(r"(\d+(?:[.,]\d+)?)\s*m[¬≤2]\s*(?:carrez|loi carrez)", desc, re.IGNORECASE)
    if carrez:
        return float(carrez.group(1).replace(',', '.'))
    
    # Priorit√© 2 : Surface habitable
    habitable = re.search(r"(\d+(?:[.,]\d+)?)\s*m[¬≤2]\s*habitables?", desc, re.IGNORECASE)
    if habitable:
        return float(habitable.group(1).replace(',', '.'))
    
    # Priorit√© 3 : Formulation standard
    formulation = re.search(r"(?:de|d'environ|d'une surface de)\s*(\d+(?:[.,]\d+)?)\s*m[¬≤2]", desc, re.IGNORECASE)
    if formulation:
        val = float(formulation.group(1).replace(',', '.'))
        if val >= seuil_min:
            return val
    
    # Priorit√© 4 : Plus grande surface > seuil
    matches = re.findall(pattern, desc, re.IGNORECASE)
    if matches:
        values = [float(m.replace(',', '.')) for m in matches]
        valid = [v for v in values if v >= seuil_min]
        if valid:
            return max(valid)
        return max(values)
    
    return None

# Test sur cas probl√©matiques
test_cases = [
    ('Appartement T3', 'balcon de 9 m¬≤, appartement de 63 m¬≤ avec cave de 4 m¬≤'),
    ('Appartement T1', 'studio de 18 m¬≤ avec balcon de 3 m¬≤'),
    ('Appartement T4', '85 m¬≤ Carrez avec terrasse 15 m¬≤'),
]

print("Test de l'extraction intelligente :\n")
for type_bien, desc in test_cases:
    result = extract_surface_smart(desc, type_bien)
    print(f"{type_bien}: {result} m¬≤ ‚Üê '{desc[:50]}...'")

Test de l'extraction intelligente :

Appartement T3: 63.0 m¬≤ ‚Üê 'balcon de 9 m¬≤, appartement de 63 m¬≤ avec cave de ...'
Appartement T1: 18.0 m¬≤ ‚Üê 'studio de 18 m¬≤ avec balcon de 3 m¬≤...'
Appartement T4: 85.0 m¬≤ ‚Üê '85 m¬≤ Carrez avec terrasse 15 m¬≤...'


In [11]:
# Application sur les donn√©es manquantes
missing_surface['surface_smart'] = missing_surface.apply(
    lambda row: extract_surface_smart(row['Description'], row['Type_Bien']), 
    axis=1
)

recovered = missing_surface['surface_smart'].notna().sum()
still_missing = len(missing_surface) - recovered

print(f"Sur 150 surfaces manquantes :")
print(f"  ‚úÖ R√©cup√©rables (extraction intelligente) : {recovered}")
print(f"  ‚ùå Irr√©cup√©rables : {still_missing}")
print(f"  üìä Taux de r√©cup√©ration : {recovered/150*100:.1f}%")

Sur 150 surfaces manquantes :
  ‚úÖ R√©cup√©rables (extraction intelligente) : 110
  ‚ùå Irr√©cup√©rables : 40
  üìä Taux de r√©cup√©ration : 73.3%


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  missing_surface['surface_smart'] = missing_surface.apply(


L'extraction intelligente des surfaces applique une strat√©gie √† plusieurs niveaux pour √©viter les erreurs. Plut√¥t que de prendre la premi√®re surface trouv√©e dans la description (qui pourrait √™tre celle d'un balcon ou d'une cave), la fonction cherche d'abord les mentions l√©gales fiables comme la surface Carrez, puis les formulations explicites comme "appartement de X m¬≤". En dernier recours, elle s√©lectionne la plus grande surface qui d√©passe un seuil minimum adapt√© au type de bien. Cette approche permet de r√©cup√©rer correctement 110 surfaces sur les 150 manquantes, soit un taux de r√©cup√©ration de 73.3%.

### ‚ö†Ô∏è Point d'attention document√©

**Probl√®me identifi√©** : Certaines descriptions mentionnent plusieurs surfaces (balcon, cave, terrasse).  
Une extraction na√Øve (premi√®re valeur trouv√©e) donnerait des r√©sultats erron√©s.

**Exemple** : "balcon de 9 m¬≤, appartement de 63 m¬≤"  
- ‚ùå Extraction na√Øve ‚Üí 9 m¬≤ (FAUX)
- ‚úÖ Extraction intelligente ‚Üí 63 m¬≤ (CORRECT)

**Solution impl√©ment√©e dans `clean_data.py`** :
1. Chercher d'abord la surface Carrez (fiable l√©galement)
2. Sinon, chercher la formulation "de X m¬≤"
3. En dernier recours, prendre la plus grande surface > seuil minimum
4. Adapter le seuil au type de bien (12m¬≤ pour studios, 25m¬≤ pour T2+)

### 3.4 Analyse des cas irr√©cup√©rables

In [12]:
# Identification des cas restants
# On utilise la colonne d√©j√† calcul√©e 'surface_smart'
irrecuperables = missing_surface[missing_surface['surface_smart'].isna()]

print(f"R√©partition des {len(irrecuperables)} cas irr√©cup√©rables :\n")
print("Par d√©partement :")
print(irrecuperables['Departement'].value_counts().head(10))

R√©partition des 40 cas irr√©cup√©rables :

Par d√©partement :
Departement
74    8
33    4
35    4
51    4
76    3
6     3
59    2
83    2
29    2
21    2
Name: count, dtype: int64


In [13]:
print("Par type de bien :")
print(irrecuperables['Type_Bien'].value_counts())

Par type de bien :
Type_Bien
Appartement T2    15
Appartement T3    12
Appartement T4     7
Appartement T5     4
Appartement T1     2
Name: count, dtype: int64


### üìã D√©cision pour les ~40 cas irr√©cup√©rables

**Option retenue : SUPPRESSION**

Justification :
- 40 lignes = 3.1% des donn√©es ‚Üí impact minimal
- Sans surface, impossible de calculer le prix/m¬≤ (variable cl√© de l'analyse)
- L'imputation par m√©diane biaiserait les r√©sultats
- Donn√©es restantes (1252 lignes) = largement suffisant pour l'analyse

‚Üí **√Ä impl√©menter dans `clean_data.py`** : suppression des lignes sans surface apr√®s extraction regex

---
## 4. Analyse de la colonne Localisation

Objectif : Extraire le nom de la ville pour le g√©ocodage

In [14]:
# Exemples de localisations
df['Localisation'].head(40)

0      - Paris 8 - Paris (75)
1     - Paris 16 - Paris (75)
2     - Paris 15 - Paris (75)
3     - Paris 14 - Paris (75)
4     - Paris 16 - Paris (75)
5      - Paris 5 - Paris (75)
6     - Paris 15 - Paris (75)
7     - Paris 12 - Paris (75)
8      - Paris 4 - Paris (75)
9     - Paris 16 - Paris (75)
10     - Paris 6 - Paris (75)
11    - Paris 14 - Paris (75)
12    - Paris 15 - Paris (75)
13    - Paris 13 - Paris (75)
14    - Paris 15 - Paris (75)
15     - Paris 7 - Paris (75)
16    - Paris 14 - Paris (75)
17    - Paris 15 - Paris (75)
18    - Paris 14 - Paris (75)
19    - Paris 20 - Paris (75)
20    - Paris 15 - Paris (75)
21    - Paris 12 - Paris (75)
22    - Paris 18 - Paris (75)
23     - Paris 9 - Paris (75)
24     - Paris 5 - Paris (75)
25    - Paris 18 - Paris (75)
26    - Paris 15 - Paris (75)
27     - Paris 8 - Paris (75)
28     - Paris 1 - Paris (75)
29    - Paris 20 - Paris (75)
30     - Paris 9 - Paris (75)
31    - Paris 11 - Paris (75)
32     - Paris 4 - Paris (75)
33     - P

In [15]:
# Pattern observ√© : "- Ville - D√©partement (XX)"
# Exemple : "- Paris 8 - Paris (75)"

def extraire_ville(localisation):
    """Extrait le nom de la ville depuis la localisation"""
    # Retirer le tiret initial
    texte = localisation.lstrip('- ').strip()
    # Prendre la partie avant le second tiret
    if ' - ' in texte:
        return texte.split(' - ')[0].strip()
    return texte

# Test
print("Test d'extraction de ville :\n")
for loc in df['Localisation'].head(5):
    print(f"{loc} ‚Üí {extraire_ville(loc)}")

Test d'extraction de ville :

- Paris 8 - Paris (75) ‚Üí Paris 8
- Paris 16 - Paris (75) ‚Üí Paris 16
- Paris 15 - Paris (75) ‚Üí Paris 15
- Paris 14 - Paris (75) ‚Üí Paris 14
- Paris 16 - Paris (75) ‚Üí Paris 16


In [16]:
# Nombre de villes uniques
villes = df['Localisation'].apply(extraire_ville)
print(f"Nombre de villes uniques : {villes.nunique()}")
print(f"\nTop 10 des villes :")
print(villes.value_counts().head(10))

Nombre de villes uniques : 674

Top 10 des villes :
Localisation
Reims          31
Grenoble       29
Dijon          22
St Etienne     18
Montpellier    17
Angers         15
Uzes           14
Bordeaux       14
Nantes         12
Paris 15       11
Name: count, dtype: int64


### üìã Note pour le g√©ocodage

Les villes Paris/Lyon/Marseille sont avec arrondissement (ex: "Paris 8", "Lyon 3").  
‚Üí Le script `clean_data.py` devra g√©rer ces cas sp√©ciaux pour Nominatim (conversion en code postal)

---
## 5. R√©sum√© des transformations √† impl√©menter

### Fichier `clean_data.py` devra :

1. **Charger** `data/annonces_raw.csv`

2. **Extraire les surfaces manquantes** avec extraction INTELLIGENTE :
   - Priorit√© 1 : Surface Carrez (la plus fiable)
   - Priorit√© 2 : Surface habitable
   - Priorit√© 3 : Formulation "de X m¬≤"
   - Priorit√© 4 : Plus grande surface > seuil minimum
   - ‚ö†Ô∏è Adapter le seuil au type de bien (12m¬≤ T0/T1, 25m¬≤ T2+)

3. **Supprimer les lignes** o√π Surface_m2 reste NaN (~40 lignes, 3.1%)

4. **Cr√©er la colonne Ville** √† partir de Localisation

5. **Cr√©er la colonne prix_m2** = Prix / Surface_m2

6. **G√©ocoder les villes** (latitude, longitude) avec Nominatim
   - G√©rer les arrondissements Paris/Lyon/Marseille (conversion en CP)
   - Utiliser un cache pour optimiser

7. **Sauvegarder** `data/annonces_clean.csv`

### Colonnes finales attendues :
```
Departement, URL, Titre, Type_Bien, Localisation, Prix, Surface_m2, 
Nb_Pieces, Description, Ville, prix_m2, latitude, longitude
```

---
*Notebook d'exploration - Ne produit aucun fichier*  
*Les transformations sont impl√©ment√©es dans `src/clean_data.py`*

---
# PARTIE 2 : ANALYSES SUR DONN√âES NETTOY√âES
---

Apr√®s ex√©cution de `clean_data.py`, nous disposons du fichier `annonces_clean.csv`.  
Cette partie pr√©sente les analyses statistiques et visualisations sur les donn√©es propres.

## 6. Analyses et visualisations

In [17]:
# Chargement des donn√©es NETTOY√âES
df_clean = pd.read_csv("../data/annonces_clean.csv")

print(f"‚úÖ {len(df_clean)} annonces nettoy√©es charg√©es")
print(f"Colonnes : {list(df_clean.columns)}")

‚úÖ 1252 annonces nettoy√©es charg√©es
Colonnes : ['Departement', 'URL', 'Titre', 'Type_Bien', 'Localisation', 'Prix', 'Surface_m2', 'Nb_Pieces', 'Description', 'Ville', 'Nom_Departement', 'prix_m2', 'latitude', 'longitude']


In [18]:
# Aper√ßu des donn√©es nettoy√©es
df_clean.head()

Unnamed: 0,Departement,URL,Titre,Type_Bien,Localisation,Prix,Surface_m2,Nb_Pieces,Description,Ville,Nom_Departement,prix_m2,latitude,longitude
0,75,https://www.immobilier.notaires.fr/fr/annonce-...,Achat :Appartement T4- Paris 8 - Paris (75),Appartement T4,- Paris 8 - Paris (75),955000,72.12,4,Notaire - F4 Rue Berryer PARIS VIII√®me.¬†Au coe...,Paris 8,Paris,13241.82,48.873379,2.311153
1,75,https://www.immobilier.notaires.fr/fr/annonce-...,Achat :Appartement T2- Paris 16 - Paris (75),Appartement T2,- Paris 16 - Paris (75),745500,70.0,2,Notaire vend un appartement T2 de 70.58m¬≤ Carr...,Paris 16,Paris,10650.0,48.854928,2.25533
2,75,https://www.immobilier.notaires.fr/fr/annonce-...,Achat :Appartement T4- Paris 15 - Paris (75),Appartement T4,- Paris 15 - Paris (75),600000,74.15,4,"Exclusivit√©, au sein d'un bel immeuble d'angle...",Paris 15,Paris,8091.71,48.84143,2.296165
3,75,https://www.immobilier.notaires.fr/fr/annonce-...,Vente en viager :Appartement T3- Paris 14 - Pa...,Appartement T3,- Paris 14 - Paris (75),995000,87.59,3,VENTE DE LA NUE-PROPRI√âT√â\nPrix : 995 000 ‚Ç¨ FA...,Paris 14,Paris,11359.74,48.829558,2.323974
4,75,https://www.immobilier.notaires.fr/fr/annonce-...,Achat :Appartement T8- Paris 16 - Paris (75),Appartement T8,- Paris 16 - Paris (75),2961150,245.96,8,Paris 16e ‚Äì La Muette / Passy\nAppartement de ...,Paris 16,Paris,12039.15,48.854928,2.25533


In [19]:
# V√©rification : plus de valeurs manquantes sur les colonnes cl√©s
print("Valeurs manquantes :")
print(df_clean[['Prix', 'Surface_m2', 'prix_m2', 'latitude', 'longitude']].isna().sum())

Valeurs manquantes :
Prix          0
Surface_m2    0
prix_m2       0
latitude      0
longitude     0
dtype: int64


---
*Notebook d'exploration*  
*Donn√©es nettoy√©es par `src/clean_data.py` ‚Üí Visualisation interactive dans `src/dashboard.py`*