# Notebook explicatif du code Scraping, Cleaning et Analyse

# Scraping d'annonces immobili√®res sur ParuVendu


## Objectif du notebook

Ce notebook a pour objectif d'expliquer la partie scraping des annonces immobili√®res en vente sur le site **ParuVendu**, pour plusieurs villes fran√ßaises.

Les donn√©es r√©cup√©r√©es sont :
- le titre de l‚Äôannonce
- le lien
- la description
- le prix
- la localisation
- les d√©tails du bien (surface, pi√®ces, etc.)

Les r√©sultats sont stock√©s dans un fichier CSV, avec un syst√®me de reprise automatique en cas d‚Äôarr√™t du script (checkpoint).


## Choix du site ParuVendu

Le site ParuVendu a √©t√© retenu pour plusieurs raisons :

- il propose un grand nombre d‚Äôannonces immobili√®res
- les annonces sont accessibles sans authentification
- la structure des pages est relativement stable
- les informations cl√©s sont pr√©sentes d√®s la page de liste


## Choix des villes fran√ßaises

Le scraping porte sur une s√©lection de **20 villes fran√ßaises**.

Ce choix vise √† obtenir :
- une couverture g√©ographique nationale
- une diversit√© de march√©s immobiliers
- un √©quilibre entre grandes m√©tropoles et villes moyennes

Les villes s√©lectionn√©es sont :

- Paris
- Marseille
- Lyon
- Toulouse
- Nice
- Nantes
- Montpellier
- Strasbourg
- Bordeaux
- Lille
- Rennes
- Reims
- Toulon
- Saint-√âtienne
- Le Havre
- Grenoble
- Dijon
- Angers
- N√Æmes
- Clermont-Ferrand


## Import des biblioth√®ques

Cette section permet d‚Äôimporter l‚Äôensemble des biblioth√®ques n√©cessaires au fonctionnement du scraping.

Chaque biblioth√®que a un r√¥le sp√©cifique :
- `requests` : envoi de requ√™tes HTTP vers le site
- `BeautifulSoup` : analyse et navigation dans le code HTML
- `csv` : lecture et √©criture des donn√©es dans un fichier CSV
- `time` : gestion des pauses entre les requ√™tes
- `os` : gestion des chemins et des fichiers
- `json` : sauvegarde et lecture du checkpoint

In [7]:
import requests
from bs4 import BeautifulSoup
import csv
import time
import os
import re
import json

## Configuration g√©n√©rale du scraping

Cette section regroupe les param√®tres globaux du script.

D√®s cette √©tape, l‚Äôobjectif est de limiter les risques de blocage en simulant le comportement d‚Äôun navigateur r√©el.

In [8]:
headers = {
    "User-Agent": "Mozilla/5.0",
    "Accept-Language": "fr-FR,fr;q=0.9,en;q=0.8",
}

## S√©lection des villes fran√ßaises

Le scraping est r√©alis√© ville par ville afin de :
- structurer la collecte
- contr√¥ler le volume de donn√©es
- limiter la charge envoy√©e au site

Les villes s√©lectionn√©es repr√©sentent diff√©rents march√©s immobiliers.

In [9]:
villes = [
    "paris-75", "marseille", "lyon", "toulouse", "nice",
    "nantes", "montpellier", "strasbourg", "bordeaux", "lille",
    "rennes", "reims", "toulon", "saint-etienne", "le-havre",
    "grenoble", "dijon", "angers", "nimes", "clermont-ferrand"
]

## Param√®tres de contr√¥le et de s√©curit√©

Ces param√®tres permettent de :
- limiter le nombre de pages parcourues
- √©viter une collecte trop agressive
- encadrer chaque ex√©cution du script

In [10]:
nb_pages = 5
url_base = "https://www.paruvendu.fr/immobilier/vente/"

MAX_ANNONCES_PAR_RUN = 1000
CHECKPOINT_FILE = "checkpoint.json"

## Gestion du fichier CSV

Un probl√®me rapidement identifi√© est la perte de donn√©es en cas d‚Äôarr√™t brutal du script (blocage, CAPTCHA, erreur r√©seau).

Pour √©viter cela, le script recharge les annonces d√©j√† collect√©es avant d‚Äôen ajouter de nouvelles.

In [11]:
BASE_DIR = os.getcwd()
csv_file = os.path.join(BASE_DIR, "..", "DATA", "ANNONCES_RAW.csv")

existing_rows = []

if os.path.exists(csv_file):
    with open(csv_file, "r", encoding="utf-8") as f:
        reader = csv.DictReader(f)
        for row in reader:
            existing_rows.append(row)

scraped_rows = []

## Probl√®me cl√© : r√©cup√©ration de la localisation

Les pages de r√©sultats permettent de r√©cup√©rer :
- titre
- prix
- description

En revanche, la localisation pr√©cise (quartier, arrondissement) n‚Äôest disponible que sur la page individuelle de chaque annonce.

## Mise en place du syst√®me de checkpoint

L‚Äôacc√®s r√©p√©t√© aux pages de d√©tail d√©clenche un blocage du site.
Un simple ralentissement ne suffit pas.

La solution retenue consiste √† fragmenter le scraping gr√¢ce √† un syst√®me de checkpoint.

In [12]:
def load_checkpoint():
    if os.path.exists(CHECKPOINT_FILE):
        try:
            with open(CHECKPOINT_FILE, "r", encoding="utf-8") as f:
                data = json.load(f)
                return {
                    "ville_index": int(data.get("ville_index", 0)),
                    "page": int(data.get("page", 1)),
                }
        except Exception:
            pass
    return {"ville_index": 0, "page": 1}


def save_checkpoint(ville_index, page):
    data = {"ville_index": ville_index, "page": page}
    with open(CHECKPOINT_FILE, "w", encoding="utf-8") as f:
        json.dump(data, f)


## D√©tection du blocage (CAPTCHA)

Lorsque le site d√©tecte un trafic inhabituel, il affiche une page de protection.

Cette fonction permet d‚Äôidentifier ce blocage et d‚Äôarr√™ter imm√©diatement le scraping.


In [13]:
def is_captcha(html: str) -> bool:
    return (
        "Nos syst√®mes ont d√©tect√© un trafic inhabituel" in html
        or "Je ne suis pas un robot" in html
    )

## Cr√©ation de la session HTTP

Une session permet de conserver les param√®tres et d‚Äôam√©liorer la stabilit√© des requ√™tes.

In [14]:
session = requests.Session()
session.headers.update(headers)

## Initialisation du scraping

Le script reprend automatiquement √† partir du dernier checkpoint enregistr√©.

In [15]:
checkpoint = load_checkpoint()
start_ville_index = checkpoint["ville_index"]
start_page = checkpoint["page"]

stop_scraping = False
nb_annonces_run = 0

## Boucle principale de scraping

Cette boucle constitue le c≈ìur du script.

Elle parcourt :
1. les villes
2. les pages de r√©sultats
3. les annonces individuelles

C‚Äôest √† cette √©tape que les blocages apparaissent.

In [16]:
for i_ville, ville in enumerate(villes):
    if stop_scraping:
        break

    if i_ville < start_ville_index:
        continue

    for page in range(1, nb_pages + 1):
        if stop_scraping:
            break

        if i_ville == start_ville_index and page < start_page:
            continue

        url_ville = f"{url_base}{ville}/?p={page}&allp=1"

        response = session.get(url_ville, timeout=10)

        if is_captcha(response.text):
            save_checkpoint(i_ville, page)
            stop_scraping = True
            break

        soup = BeautifulSoup(response.text, "lxml")
        annonces = soup.find_all("div", class_="blocAnnonce")

        for a in annonces:
            if nb_annonces_run >= MAX_ANNONCES_PAR_RUN:
                save_checkpoint(i_ville, page)
                stop_scraping = True
                break

            annonce_h3 = a.find("h3")
            if not annonce_h3:
                continue

            annonce_title = annonce_h3.find("a")
            if not annonce_title or not annonce_title.has_attr("href"):
                continue

            title = annonce_title.get("title", "").strip()
            lien = "https://www.paruvendu.fr" + annonce_title["href"]

            description_tag = a.find("p", class_="text-justify")
            description = description_tag.get_text(strip=True) if description_tag else ""

            price_tag = a.find("div", class_="encoded-lnk")
            price = price_tag.get_text(strip=True) if price_tag else ""

            detail = session.get(lien, timeout=10)

            if is_captcha(detail.text):
                save_checkpoint(i_ville, page)
                stop_scraping = True
                break

            soup_loc = BeautifulSoup(detail.text, "lxml")
            loc_tag = soup_loc.find("span", id="detail_loc")
            if not loc_tag:
                loc_tag = soup_loc.find("span", class_="ttldetail_loc1h")

            localisation = loc_tag.get_text(strip=True) if loc_tag else ""

            details = [d.get_text(strip=True) for d in a.select("div.flex.flex-wrap.gap-x-3 > *")]

            scraped_rows.append({
                "Ville": ville,
                "Titre": title,
                "Lien": lien,
                "Description": description,
                "Prix": price,
                "Localisation": localisation,
                "D√©tails": ", ".join(details),
            })

            nb_annonces_run += 1
            time.sleep(1)

        save_checkpoint(i_ville, page + 1)
        time.sleep(2)


KeyboardInterrupt: 

## Fusion et sauvegarde finale

Les donn√©es sont fusionn√©es, les doublons supprim√©s, et le fichier CSV est mis √† jour.

In [None]:
all_rows = existing_rows + scraped_rows

seen = set()
unique_rows = []

for r in all_rows:
    lien = r.get("Lien")
    if lien and lien not in seen:
        unique_rows.append(r)
        seen.add(lien)

os.makedirs(os.path.dirname(csv_file), exist_ok=True)

with open(csv_file, "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(
        f,
        fieldnames=["Ville", "Titre", "Lien", "Description", "Prix", "Localisation", "D√©tails"],
    )
    writer.writeheader()
    writer.writerows(unique_rows)

## Conclusion

Le d√©veloppement de ce script montre que le scraping n√©cessite une adaptation constante aux contraintes du site.

Le principal obstacle a √©t√© le blocage lors de l‚Äôacc√®s aux pages de d√©tail n√©cessaires √† la r√©cup√©ration de la localisation.

Le syst√®me de checkpoint constitue la r√©ponse centrale √† ce probl√®me.

# ------------------------------------------------------------------------------------------------------

# Explication CLEAN_DATA.py

# Nettoyage et structuration des donn√©es immobili√®res

Apr√®s la phase de scraping, les donn√©es collect√©es sont brutes et h√©t√©rog√®nes.

Ce notebook pr√©sente l‚Äôensemble du processus de nettoyage, de standardisation et d‚Äôenrichissement des donn√©es, afin d‚Äôobtenir une base exploitable pour l‚Äôanalyse statistique.


## Import des biblioth√®ques

Les biblioth√®ques utilis√©es permettent :
- la manipulation des donn√©es (pandas, numpy)
- le traitement de texte (re)
- la gestion des fichiers
- le g√©ocodage optionnel des localisations

In [None]:
import pandas as pd
import re
import os
import numpy as np
from geopy.geocoders import Nominatim
from time import sleep


## Chargement des fichiers CSV

Les donn√©es issues du scraping sont stock√©es dans un fichier CSV brut.
Un second fichier est g√©n√©r√© apr√®s nettoyage.

Cette s√©paration permet de conserver une trace des donn√©es originales et d‚Äô√©viter toute perte d‚Äôinformation.

In [None]:
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
csv_file = os.path.join(BASE_DIR, "..", "DATA", "ANNONCES_RAW.csv")
clean_csv_file = os.path.join(BASE_DIR, "..", "DATA", "ANNONCES_CLEAN.csv")

print("Chemin CSV raw :", os.path.abspath(csv_file))
print("Fichier existe ?", os.path.exists(csv_file))

df = pd.read_csv(csv_file)

## Standardisation des noms de villes

Lors du scraping, certaines villes contiennent un suffixe correspondant au d√©partement (exemple : paris-75).

Ces variations emp√™chent une analyse coh√©rente.
Les noms de villes sont donc standardis√©s.

In [None]:
df["Ville"] = (
    df["Ville"]
    .str.replace(r"-\d+$", "", regex=True)
    .str.replace("-", " ")
    .str.title()
)

## Nettoyage des champs texte

Les champs Description et D√©tails contiennent :
- des sauts de ligne
- des caract√®res sp√©ciaux
- des espaces multiples

Ces √©l√©ments compliquent l‚Äôextraction d‚Äôinformations
et doivent √™tre supprim√©s.

In [None]:
df["D√©tails"] = (
    df["D√©tails"]
    .astype(str)
    .str.replace("\n"," ")
    .str.replace("\xa0"," ")
)

df["Description"] = (
    df["Description"]
    .astype(str)
    .str.replace("\n"," ")
    .str.replace("_", " ")
    .str.replace(" -", " ")
    .str.replace(r"\s+", " ", regex=True)
)

## Probl√®me des d√©tails non structur√©s

Les informations importantes (nombre de pi√®ces, chambres, garage, DPE) sont pr√©sentes dans une seule cha√Æne de texte non structur√©e.

Il est donc n√©cessaire de cr√©er une fonction sp√©cifique pour extraire ces informations de mani√®re fiable.

In [None]:
def parse_details(details_str):
    details_str = str(details_str)
    out = {
        "Pieces": None,
        "Chambres": None,
        "Garage": 0,
        "Balcon": 0,
        "Ascenseur": 0,
        "Terrain_m2": None,
        "DPE": None,
    }

    pieces_match = re.search(r"(\d+)\s*pi[e√®]ce", details_str, re.I)
    if pieces_match:
        out["Pieces"] = int(pieces_match.group(1))

    chambres_match = re.search(r"(\d+)\s*chambre", details_str, re.I)
    if chambres_match:
        out["Chambres"] = int(chambres_match.group(1))

    for col in ["Garage", "Balcon", "Ascenseur"]:
        if col.lower() in details_str.lower():
            out[col] = 1

    terrain_match = re.search(r"terrain\s*(\d+)", details_str, re.I)
    if terrain_match:
        out["Terrain_m2"] = float(terrain_match.group(1))

    dpe_match = re.search(r"DPE\s*:\s*([A-G])", details_str, re.I)
    if dpe_match:
        out["DPE"] = dpe_match.group(1).upper()

    return out

## Probl√®me du prix

Le champ Prix contient plusieurs informations :
- le prix total
- parfois le prix au m√®tre carr√©
- des caract√®res sp√©ciaux

Ces informations doivent √™tre s√©par√©es et converties en valeurs num√©riques.

In [None]:
# Prix au m¬≤
df["Prix_m2"] = (
    df["Prix"]
    .str.extract(r"([\d\s\u202f\xa0]+)\s*‚Ç¨\s*/\s*m2")[0]
    .str.replace(r"[\s\u202f\xa0]", "", regex=True)
    .astype(float)
)

In [None]:
# Prix de vente
df["Prix"] = df["Prix"].str.replace(r"\*?\d[\d\s\u202f]+‚Ç¨ / m2", "", regex=True)
df["Prix"] = (
    df["Prix"]
    .str.strip()
    .str.replace("‚Ç¨", "", regex=False)
    .str.replace(" ", "", regex=False)
    .str.replace("*", "", regex=False)
    .replace("NC", np.nan)
    .astype(float)
)

df = df.rename(columns={"Prix": "Prix_de_vente"})


## Application du parsing

La fonction de parsing est appliqu√©e √† l‚Äôensemble du DataFrame.
Chaque information devient une colonne distincte.

In [None]:
details_df = df["D√©tails"].apply(parse_details).apply(pd.Series)

## Extraction de la surface

La surface du bien est souvent pr√©sente uniquement dans le titre.
Une extraction par expression r√©guli√®re est donc n√©cessaire.

In [None]:
def extract_surface(title):
    if pd.isna(title):
        return None
    match = re.search(r"(\d+)\s*m¬≤", title.replace("\xa0",""))
    return int(match.group(1)) if match else None

df["Surface_m2"] = df["Titre"].apply(extract_surface)

## Identification du type de bien

Le type de bien est d√©duit du d√©but du titre.
Certaines cat√©gories sont regroup√©es pour homog√©n√©iser l‚Äôanalyse et se concentre sur Appartement ou Maison

In [None]:
df["type"] = df["Titre"].str.split("-").str[0].str.strip()
df["type"] = df["type"].str.replace("loft", "Appartement", case=False)
df["type"] = df["type"].str.replace("villa", "Maison", case=False)
df["type"] = df["type"].str.replace("Duplex/triplex", "Appartement", case=False)


## Fusion des donn√©es

Les colonnes extraites sont fusionn√©es avec le DataFrame principal sans cr√©er de doublons.

In [None]:
df_final = pd.concat(
    [df.drop(columns=["D√©tails"], errors="ignore"), details_df],
    axis=1
)

## Typage des variables

Les variables num√©riques sont converties dans des formats adapt√©s afin de permettre les analyses statistiques.

In [None]:
cols_int = ["Pieces", "Chambres", "Garage", "Balcon", "Ascenseur"]
cols_float = ["Terrain_m2", "Surface_m2", "Prix_m2", "Prix_de_vente"]

for col in cols_int:
    if col in df_final.columns:
        df_final[col] = pd.to_numeric(df_final[col], errors="coerce").astype("Int64")

for col in cols_float:
    if col in df_final.columns:
        df_final[col] = pd.to_numeric(df_final[col], errors="coerce")


## Exclusion des biens non r√©sidentiels

Certains types de biens ne sont pas pertinents pour l‚Äôanalyse du march√© r√©sidentiel et sont donc exclus.

In [None]:
types_a_exclure = [
    "terrain", "hotel", "h√¥tel", "peniche", "p√©niche", "garage", "boutique",
    "commerce", "bureau", "immeuble", "chateau", "ch√¢teau", "grange",
    "hangar", "parking", "box", "ferme", "plateau",
    "Parking / Garage", "H√¥tel Particulier", "Propri√©t√©/ch√¢teau"
]

df_final = df_final[
    ~df_final["type"].str.lower().isin([t.lower() for t in types_a_exclure])
]


## G√©ocodage des localisations

Le g√©ocodage permet d‚Äôobtenir des coordonn√©es GPS √† partir des localisations textuelles.

In [None]:
RUN_GEOCODING = False

## Nettoyage des valeurs aberrantes

Les valeurs extr√™mes peuvent biaiser l‚Äôanalyse.
Une premi√®re filtration est effectu√©e, puis une m√©thode bas√©e sur l‚ÄôIQR est appliqu√©e.

In [None]:
df_final = df_final[
    (df_final["Prix_m2"] >= 500) & (df_final["Prix_m2"] <= 20000)
]

def remove_outliers_iqr(df_final, col):
    Q1 = df_final[col].quantile(0.25)
    Q3 = df_final[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    return df_final[(df_final[col] >= lower) & (df_final[col] <= upper)]

df_final = remove_outliers_iqr(df_final, "Prix_m2")
df_final = remove_outliers_iqr(df_final, "Prix_de_vente")

## Sauvegarde du jeu de donn√©es final

Le jeu de donn√©es propre est sauvegard√© et pr√™t pour l‚Äôanalyse statistique.

In [None]:
df_final.to_csv(clean_csv_file, index=False, encoding="utf-8")
print("‚úÖ ANNONCES_CLEAN.csv g√©n√©r√© :", os.path.abspath(clean_csv_file))

# ---------------------------------------------------------------------------------------------------------------------------------------------

# EXPLICATION ANALYSE

# Analyse exploratoire du march√© immobilier

Apr√®s les phases de scraping et de nettoyage, les donn√©es sont suffisamment structur√©es pour permettre une analyse exploratoire.

L‚Äôobjectif de cette analyse est double :
- comprendre les grandes tendances du march√© immobilier
- identifier les relations entre les caract√©ristiques des biens et leur prix

Pour faciliter l‚Äôexploration, une application interactive a √©t√© d√©velopp√©e √† l‚Äôaide de la biblioth√®que Streamlit.

## Import des biblioth√®ques

Les biblioth√®ques utilis√©es couvrent :
- l‚Äôinterface utilisateur (Streamlit)
- la manipulation des donn√©es (pandas, numpy)
- la visualisation (matplotlib, seaborn)

In [None]:
import streamlit as st
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

## Configuration de l‚Äôapplication

La page est configur√©e en mode large afin d‚Äôam√©liorer la lisibilit√© des graphiques et des indicateurs cl√©s.


In [None]:
st.set_page_config(page_title="Analyse Immobilier", layout="wide")
st.title("üìä Analyse du march√© immobilier")

## Chargement des donn√©es nettoy√©es

Les donn√©es utilis√©es proviennent du fichier nettoy√© issu de la phase pr√©c√©dente.

Un syst√®me de cache est utilis√© afin d‚Äôoptimiser les performances de l‚Äôapplication.

Probl√®me rencontr√© :
Les noms de colonnes contenaient des espaces et des majuscules,
ce qui compliquait leur manipulation.

Solution :
Standardisation syst√©matique des noms de colonnes.

In [None]:
@st.cache_data
def load_data():
    base_dir = os.path.dirname(os.path.abspath(__file__))
    csv_path = os.path.join(base_dir, "..", "..", "DATA", "ANNONCES_CLEAN.CSV")
    df = pd.read_csv(csv_path)
    df.columns = df.columns.str.strip().str.replace(" ", "_").str.lower()
    return df

df = load_data()

## Filtres interactifs

L‚Äôanalyse repose sur des filtres dynamiques
permettant d‚Äôexplorer diff√©rentes configurations du march√©.

Ces filtres permettent de simuler
le comportement d‚Äôun utilisateur ou d‚Äôun acheteur.

In [None]:
st.sidebar.header("Filtres")

villes = st.sidebar.multiselect(
    "Ville",
    options=sorted(df["ville"].unique()),
    default=sorted(df["ville"].unique())
)


In [None]:
surface_min, surface_max = st.sidebar.slider(
    "Surface (m¬≤)",
    int(df["surface_m2"].min()),
    int(df["surface_m2"].max()),
    (int(df["surface_m2"].min()), int(df["surface_m2"].max()))
)


In [None]:
pieces = st.sidebar.multiselect(
    "Nombre de pi√®ces",
    options=sorted(df["pieces"].dropna().unique()),
    default=sorted(df["pieces"].dropna().unique())
)


In [None]:
dpe_selected = st.sidebar.multiselect(
    "DPE",
    options=sorted(df["dpe"].dropna().unique()),
    default=sorted(df["dpe"].dropna().unique())
)


In [None]:
garage_filter = st.sidebar.checkbox("Avec garage")
balcon_filter = st.sidebar.checkbox("Avec balcon")
ascenseur_filter = st.sidebar.checkbox("Avec ascenseur")


## R√©initialisation des filtres

L‚Äôaccumulation de filtres pouvait conduire
√† des sous-√©chantillons vides.

Un bouton de r√©initialisation a √©t√© ajout√©
pour am√©liorer l‚Äôexp√©rience utilisateur.

In [None]:
if st.sidebar.button("üîÑ R√©initialiser les filtres"):
    st.session_state.clear()
    st.experimental_rerun()


## Filtrage du DataFrame

Les filtres s√©lectionn√©s sont appliqu√©s
directement au DataFrame principal.

Cette √©tape est centrale car
toutes les analyses suivantes
reposent sur ce sous-ensemble.


In [None]:
df_filtre = df[
    (df["ville"].isin(villes)) &
    (df["surface_m2"].between(surface_min, surface_max)) &
    (df["prix_de_vente"].between(prix_min, prix_max)) &
    (df["pieces"].isin(pieces)) &
    (df["type"].isin(types_bien)) &
    (df["dpe"].isin(dpe_selected))
]

if garage_filter:
    df_filtre = df_filtre[df_filtre["garage"] > 0]
if balcon_filter:
    df_filtre = df_filtre[df_filtre["balcon"] > 0]
if ascenseur_filter:
    df_filtre = df_filtre[df_filtre["ascenseur"] > 0]


## Indicateurs cl√©s par type de bien

Les indicateurs permettent de r√©sumer
les caract√©ristiques principales du march√©
selon le type de bien.


In [None]:
st.subheader("üìå Indicateurs cl√©s par type de bien")

for t in types_bien:
    df_type = df_filtre[df_filtre["type"] == t]
    if df_type.empty:
        continue

    with st.expander(f"{t}", expanded=True):
        col1, col2, col3, col4 = st.columns(4)
        col1.metric("Annonces", f"{len(df_type):,}")
        col2.metric("Prix m√©dian", f"{int(df_type['prix_de_vente'].median()):,} ‚Ç¨")
        col3.metric("Prix m√©dian ‚Ç¨/m¬≤", f"{int(df_type['prix_m2'].median()):,} ‚Ç¨")
        col4.metric("Surface m√©diane", f"{int(df_type['surface_m2'].median())} m¬≤")


## Structuration de l‚Äôanalyse

Pour am√©liorer la lisibilit√©,
l‚Äôanalyse est organis√©e en plusieurs onglets,
chacun correspondant √† une dimension du march√©.


In [None]:
tab1, tab2, tab3, tab4, tab5, tab6 = st.tabs([
    "üìä Vue d‚Äôensemble",
    "üìê Prix & Surfaces",
    "üèôÔ∏è Localisation",
    "üè† Caract√©ristiques",
    "‚ö° DPE",
    "üîó Corr√©lations"
])


NameError: name 'st' is not defined

## Vue d‚Äôensemble

Cette premi√®re analyse permet
d‚Äôobserver la distribution globale
des prix et des surfaces.


In [None]:
with tab1:
    col1, col2 = st.columns(2)
    with col1:
        fig, ax = plt.subplots()
        sns.histplot(df_filtre["prix_de_vente"], bins=30, kde=True, ax=ax)
        st.pyplot(fig)
    with col2:
        fig, ax = plt.subplots()
        sns.histplot(df_filtre["surface_m2"], bins=30, kde=True, ax=ax)
        st.pyplot(fig)


NameError: name 'tab1' is not defined

## Relation entre surface et prix

Cette analyse permet de visualiser
la relation entre la taille du bien
et son prix de vente.


In [None]:
with tab2:
    fig, ax = plt.subplots(figsize=(7,5))
    sns.scatterplot(
        data=df_filtre,
        x="surface_m2",
        y="prix_de_vente",
        hue="type",
        alpha=0.6,
        ax=ax
    )
    sns.regplot(
        data=df_filtre,
        x="surface_m2",
        y="prix_de_vente",
        scatter=False,
        color="black",
        ax=ax
    )
    st.pyplot(fig)


## Analyse par ville

Le prix au m√®tre carr√© est compar√© entre les villes,
ce qui permet d‚Äôidentifier les disparit√©s g√©ographiques.


In [None]:
with tab3:
    order = df_filtre.groupby("ville")["prix_m2"].median().sort_values().index
    fig, ax = plt.subplots(figsize=(8,4))
    sns.barplot(
        data=df_filtre,
        x="ville",
        y="prix_m2",
        order=order,
        estimator=np.median,
        errorbar=None,
        ax=ax
    )
    plt.xticks(rotation=45)
    st.pyplot(fig)


## Impact des caract√©ristiques du bien

Cette analyse permet d‚Äô√©valuer
la valorisation associ√©e √† certains √©quipements.


In [None]:
with tab4:
    for opt in ["balcon", "garage", "ascenseur"]:
        fig, ax = plt.subplots()
        sns.boxplot(
            data=df_filtre,
            x=df_filtre[opt].map({0: "Non", 1: "Oui"}),
            y="prix_m2",
            ax=ax
        )
        st.pyplot(fig)


## Impact du DPE

Le Diagnostic de Performance √ânerg√©tique
constitue un crit√®re de plus en plus structurant
sur le march√© immobilier.


In [None]:
with tab5:
    fig, ax = plt.subplots()
    sns.boxplot(
        data=df_filtre,
        x="dpe",
        y="prix_m2",
        order=["A","B","C","D","E","F","G"],
        ax=ax
    )
    st.pyplot(fig)


## Analyse des corr√©lations

La matrice de corr√©lation permet
d‚Äôidentifier les relations lin√©aires
entre les principales variables quantitatives.


In [None]:
with tab6:
    vars_corr = ["prix_de_vente","prix_m2","surface_m2","pieces","chambres"]
    fig, ax = plt.subplots(figsize=(6,5))
    sns.heatmap(
        df_filtre[vars_corr].corr(),
        annot=True,
        fmt=".2f",
        cmap="coolwarm",
        ax=ax
    )
    st.pyplot(fig)


## Conclusion de l‚Äôanalyse exploratoire

L‚Äôanalyse met en √©vidence :
- une forte relation entre surface et prix
- des √©carts importants entre villes
- une valorisation des biens bien √©quip√©s
- un impact mesurable du DPE

Ces r√©sultats constituent une base solide
pour la validation ou la r√©futation
des hypoth√®ses de recherche.
