# Analyse exploratoire des loyers en France

Ce notebook présente une **analyse exploratoire des données (EDA)** sur les loyers français.
Nous allons examiner la structure des données, la distribution du loyer au m², les valeurs aberrantes, et les corrélations clés avant de passer à la modélisation.

Sources de données : OpenDataSoft & Data.gouv.fr (fichiers 2014–2024).


## 1. Chargement des données et bibliothèques

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# Chargement des données
df = pd.read_csv("../data/loyers_clean.csv", encoding="ISO-8859-1")
df.columns = df.columns.str.strip()
df.head()

## 2. Aperçu général du dataset

In [None]:
print("Dimensions du dataset:", df.shape)
print("\nColonnes disponibles:")
print(df.columns.tolist())
print("\nTypes de données:")
df.info()

## 3. Analyse des valeurs manquantes

In [None]:
missing = df.isnull().sum()
missing = missing[missing > 0].sort_values(ascending=False)
missing

## 4. Distribution du loyer au m²

In [None]:
plt.figure(figsize=(10,5))
sns.histplot(df['loyer_m2'], bins=30, kde=True, color="steelblue", edgecolor="black")
plt.title("Distribution du loyer au m²")
plt.xlabel("Loyer €/m²")
plt.ylabel("Fréquence")
plt.grid(True)
plt.tight_layout()
plt.show()

## 5. Analyse par catégories

In [None]:
plt.figure(figsize=(12,6))
sns.boxplot(x="Type_habitat", y="loyer_m2", data=df)
plt.title("Loyer au m² par type d'habitat")
plt.xticks(rotation=45)
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(12,6))
sns.boxplot(x="nombre_pieces", y="loyer_m2", data=df)
plt.title("Loyer au m² selon le nombre de pièces")
plt.xlabel("Nombre de pièces")
plt.ylabel("Loyer €/m²")
plt.grid(True)
plt.tight_layout()
plt.show()

## 6. Corrélation entre variables numériques

In [None]:
numeric_cols = ["loyer", "surface", "nombre_pieces", "nombre_observations", "nombre_logements", "loyer_m2"]
plt.figure(figsize=(8,6))
sns.heatmap(df[numeric_cols].corr(), annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matrice de corrélation")
plt.tight_layout()
plt.show()

## 7. Conclusion exploratoire

Cette analyse montre une forte variation des loyers par type d'habitat, nombre de pièces, et zone géographique. Ces observations guideront les choix de modélisation.