# Analyse temporelle et détection d’anomalies sur le marché immobilier
Ce notebook guide l'analyse de la base de transactions immobilières (2018–2022) en mobilisant pandas, NumPy, Matplotlib et Seaborn.


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Charger les données
df = pd.read_csv('transactions_immobilires_2018_2022.csv', parse_dates=['transaction_date'])
df.head()

Unnamed: 0,transaction_date,price
0,2018-01-01,184530.883119
1,2018-01-01,237974.699627
2,2018-01-01,302610.494412
3,2018-01-01,179277.12856
4,2018-01-02,217134.748429


## 1. Préparation des données
**Questions :**
1. Y a-t-il des dates manquantes ou des doublons ?
2. Comment se répartissent les transactions selon le jour de la semaine et le mois ?

**Étapes :**
- Vérification des valeurs manquantes / doublons
- Création des colonnes dérivées (`year`, `month`, `day_of_week`, composants saisonniers)


In [4]:
# 1.1 Vérification des données manquantes et doublons


# 1.2 Création des colonnes dérivées
df['year'] = df['transaction_date'].dt.year
df['month'] = df['transaction_date'].dt.month
df['day_of_week'] = df['transaction_date'].dt.day_name()
df['month_sin'] = np.sin(2 * np.pi * (df['month']-1)/12)
df['month_cos'] = np.cos(2 * np.pi * (df['month']-1)/12)
df.head()

Unnamed: 0,transaction_date,price,year,month,day_of_week,month_sin,month_cos
0,2018-01-01,184530.883119,2018,1,Monday,0.0,1.0
1,2018-01-01,237974.699627,2018,1,Monday,0.0,1.0
2,2018-01-01,302610.494412,2018,1,Monday,0.0,1.0
3,2018-01-01,179277.12856,2018,1,Monday,0.0,1.0
4,2018-01-02,217134.748429,2018,1,Tuesday,0.0,1.0


## 2. Analyse temporelle
**Questions :**
1. Quelle est la tendance générale du prix moyen annuel ?
2. Existe-t-il une saisonnalité mensuelle marquée ?
3. Comment les moyennes mobiles à 3 et 12 mois lissent-elles ces fluctuations ?

**Étapes :**
- Agrégation mensuelle et annuelle (`resample`, `groupby`)
- Décomposition STL (statsmodels)  (`rolling`)
- Visualisation des séries et boxplots mensuels


In [6]:
""" 2.1 Agrégation mensuelle et annuelle
"""
monthly=# code à ajouter!!!!!
annual=# code à ajouter!!!!!
monthly.head(), annual.head()

# 2.2 Moyennes mobiles
monthly['MA_3']=# code à ajouter!!!!!
monthly['MA_12']=# code à ajouter!!!!!

# 2.3 Visualisation
plt.figure(figsize=(12,6))
plt.plot(monthly.index, monthly['mean'], label='Mean Price')
plt.plot(monthly.index, monthly['MA_3'], label='MA 3 months')
plt.plot(monthly.index, monthly['MA_12'], label='MA 12 months')
plt.legend()
plt.title('Évolution des prix moyens mensuels')
plt.show()

SyntaxError: invalid syntax (2268470797.py, line 3)

## 3. Détection d’anomalies
**Questions :**
1. Quels critères (Z-score, IQR) repèrent le mieux les transactions extrêmes ?
2. Quelles catégories (mois, quartile de prix) concentrent le plus d’anomalies ?

**Étapes :**
- Calcul des Z-scores et IQR via NumPy
- Ajout de la colonne `is_outlier`
- Visualisation des anomalies


## Calcul des Z‑scores

### Définition

Le **Z‑score** (ou score standardisé) d’une valeur $x_i$ dans un ensemble de données est le nombre d’écarts‑types ($\sigma$) qu’elle se situe au‑dessus ou en‑dessous de la moyenne ($\mu$) de cet ensemble. Mathématiquement :
$$
Z_i = \frac{x_i - \mu}{\sigma}
$$
- Si $Z_i = 0$, alors $x_i = \mu$.  
- Si $Z_i > 0$, alors $x_i$ est au‑dessus de la moyenne.  
- Si $Z_i < 0$, alors $x_i$ est en‑dessous de la moyenne.  

---

### Interprétation

- Un Z‑score compris entre $-1$ et $+1$ signifie que la valeur est à l’intérieur d’un écart‑type de la moyenne (environ 68 % des données si la distribution est normale).  
- Un Z‑score au‑delà de $\pm 2$ ou $\pm 3$ indique une valeur relativement extrême (outlier) dans une distribution normale théorique.  

---

### Calcul théorique

1. **Calculer la moyenne**

   $$
   \mu = \frac{1}{n} \sum_{i=1}^{n} x_i
   $$

3. **Calculer l’écart‑type**  
   $$
   \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}
    $$ 
   > *(pour un **échantillon**, on utiliserait $\frac{1}{n-1}$ au dénominateur)*

4. **Appliquer la formule du Z‑score**  
   Pour chaque $x_i$ :
   $$
   Z_i = \frac{x_i - \mu}{\sigma}
   $$

---

## Calcul de l’Interquartile Range (IQR)

### Définition

L’**Interquartile Range** (IQR) mesure l’étendue du milieu de la distribution :

$$
\mathrm{IQR} = Q_3 - Q_1
$$

où :

- $Q_1$ est le premier quartile (valeur sous laquelle se trouvent 25 % des observations).  
- $Q_3$ est le troisième quartile (valeur sous laquelle se trouvent 75 % des observations).  

---

### Interprétation

- L’IQR représente la dispersion “centrale” des données, moins sensible aux valeurs extrêmes que l’écart‑type.  
- On définit parfois comme **outliers** les points $x_i$ tels que :  
  $$
  x_i < Q_1 - 1.5 \times \mathrm{IQR}
  \quad\text{ou}\quad
  x_i > Q_3 + 1.5 \times \mathrm{IQR}
  $$

---

### Calcul théorique

1. **Trier les données** en ordre croissant.  
2. **Déterminer la position de $Q_1$**  
   $$
   \text{indice}_{Q_1} = \frac{n + 1}{4}
    $$ 
   et interpoler si nécessaire.  
3. **Déterminer la position de $Q_3$**  
  $$ 
   \text{indice}_{Q_3} = \frac{3 \times (n + 1)}{4}
    $$ 
   et interpoler si nécessaire.  
4. **Calculer l’IQR**  
  $$ 
   \mathrm{IQR} = Q_3 - Q_1
   $$


In [None]:
# 3.1 Z-score
# code à ajouter!!!!!
df['outlier_z'] = df['z_score'].abs() > 3

# 3.2 IQR
# code à ajouter!!!!!
df[['price','z_score','outlier_z','outlier_iqr','is_outlier']].head()

## 4. Visualisations principales
**Questions :**
1. Comment la distribution des prix évolue-t-elle selon le mois ?
2. Les anomalies sont-elles corrélées à la saison ou au volume de transactions ?

**Étapes :**
- Boxplots mensuels et violin + swarm
- Scatter temps vs prix coloré par anomalie


In [None]:
# Boxplot mensuel
# code à ajouter!!!!!
plt.show()

# Scatter plot anomalies
# code à ajouter!!!!!
plt.show()

## 5. Synthèse et reporting
**Questions :**
1. Quels sont les enseignements clés à retenir ?
2. Quelles recommandations formulez-vous pour les acteurs du marché ?

**Étapes :**
- Rédiger un résumé
