# BLOC 4 : Analyse du Marché Immobilier - Département de l'Ain (6 heures)

La Direction Départementale des Territoires (DDT) de l'Ain vous a recruté en tant que Data Analyst pour créer un tableau de bord interactif destiné aux collectivités locales et aux professionnels de l'immobilier. Ce tableau de bord servira à mieux comprendre les dynamiques du marché immobilier local et à orienter les politiques d'aménagement du territoire.

La DDT dispose d'une base de données exhaustive des transactions immobilières (données DVF - Demandes de Valeurs Foncières) couvrant les trois dernières années. Ces données comprennent :

* Informations sur la transaction
  - Identifiant unique
  - Date de mutation
  - Nature de la mutation
  - Valeur foncière (prix de vente)

* Localisation précise du bien
  - Adresse complète (numéro, type de voie, nom de voie)
  - Code postal
  - Commune
  - Code département
  - Références cadastrales (section, numéro de plan)

* Caractéristiques du bien
  - Type de local (appartement, maison, dépendance)
  - Surface réelle bâtie
  - Nombre de pièces principales
  - Surface Carrez (pour les copropriétés)
  - Nature et surface du terrain
  - Nombre de lots

Votre mission est de créer un tableau de bord interactif complet qui permettra aux utilisateurs d'analyser :

* L'évolution des prix
  - Prix moyen par commune
  - Prix au m² par type de bien
  - Tendances temporelles des transactions

* La typologie des biens
  - Répartition par type de local
  - Distribution des surfaces
  - Analyse des terrains non bâtis

* Les dynamiques territoriales
  - Nombre de transactions par commune
  - Cartographie des prix
  - Identification des zones de tension

Le tableau de bord devra répondre à des questions stratégiques telles que :

* Quelles sont les communes les plus dynamiques en termes de transactions ?
* Comment évoluent les prix selon les typologies de biens ?
* Existe-t-il des disparités significatives entre les différents secteurs du département ?
* Quel est le profil type des biens vendus par commune ?
* Quelles sont les tendances du marché des terrains non bâtis ?

En complément du tableau de bord, vous devrez produire :

1. Une méthodologie détaillée de traitement des données
   - Nettoyage des valeurs aberrantes
   - Harmonisation des types de biens
   - Traitement des données cadastrales

2. Une analyse approfondie incluant
   - Les tendances majeures du marché
   - Les spécificités territoriales identifiées
   - Les recommandations pour les politiques locales de l'habitat

3. Un guide d'utilisation destiné aux utilisateurs finaux
   - Présentation des différentes fonctionnalités
   - Exemples de cas d'usage
   - Précautions d'interprétation

Ce projet permettra aux acteurs locaux de :
- Mieux comprendre les dynamiques du marché immobilier local
- Adapter les politiques d'urbanisme aux réalités du territoire
- Anticiper les évolutions du marché
- Identifier les zones nécessitant une attention particulière

Points d'attention particuliers :
- La qualité variable des données cadastrales
- La nécessité de croiser les données avec d'autres sources (PLU, zonages...)
- L'importance de la dimension temporelle dans l'analyse
- La confidentialité des données individuelles

Votre analyse devra être accessible aux non-spécialistes tout en conservant la rigueur nécessaire à la prise de décision.

## Données 2024 (1er semestre)

In [1]:
import pandas as pd

df_2024 = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/1dc47de2-b30a-4497-b9ef-448d054b5a4f',
                 sep='|',                # Séparateur |
                 encoding='latin-1',     # Encodage pour les caractères français
                 compression='zip',      # Spécifie que c'est un fichier zip
                 low_memory=False)       # Pour éviter les warnings de memory

df_2024.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1566643 entries, 0 to 1566642
Data columns (total 43 columns):
 #   Column                      Non-Null Count    Dtype  
---  ------                      --------------    -----  
 0   Identifiant de document     0 non-null        float64
 1   Reference document          0 non-null        float64
 2   1 Articles CGI              0 non-null        float64
 3   2 Articles CGI              0 non-null        float64
 4   3 Articles CGI              0 non-null        float64
 5   4 Articles CGI              0 non-null        float64
 6   5 Articles CGI              0 non-null        float64
 7   No disposition              1566643 non-null  int64  
 8   Date mutation               1566643 non-null  object 
 9   Nature mutation             1566643 non-null  object 
 10  Valeur fonciere             1549589 non-null  object 
 11  No voie                     946773 non-null   float64
 12  B/T/Q                       67087 non-null    object 
 1

In [2]:
df_2024['Annee']=2024
df_2024.head()

Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,...,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain,Annee
0,,,,,,,,1,02/01/2024,Vente,...,0,,,,,,P,,99.0,2024
1,,,,,,,,2,03/01/2024,Vente,...,0,,,,,,S,,115.0,2024
2,,,,,,,,1,08/01/2024,Vente,...,0,,,,,,S,,497.0,2024
3,,,,,,,,1,03/01/2024,Vente,...,2,3.0,DÃ©pendance,,0.0,0.0,,,,2024
4,,,,,,,,1,03/01/2024,Vente,...,2,3.0,DÃ©pendance,,0.0,0.0,,,,2024


## Données 2023 (Année complète)

In [3]:
df_2023 = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/dd516f7a-91bb-4cad-a63c-4b55cd457f4c',
                 sep='|',                # Séparateur |
                 encoding='latin-1',     # Encodage pour les caractères français
                 compression='zip',      # Spécifie que c'est un fichier zip
                 low_memory=False)       # Pour éviter les warnings de memory

df_2023.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3799407 entries, 0 to 3799406
Data columns (total 43 columns):
 #   Column                      Dtype  
---  ------                      -----  
 0   Identifiant de document     float64
 1   Reference document          float64
 2   1 Articles CGI              float64
 3   2 Articles CGI              float64
 4   3 Articles CGI              float64
 5   4 Articles CGI              float64
 6   5 Articles CGI              float64
 7   No disposition              int64  
 8   Date mutation               object 
 9   Nature mutation             object 
 10  Valeur fonciere             object 
 11  No voie                     float64
 12  B/T/Q                       object 
 13  Type de voie                object 
 14  Code voie                   object 
 15  Voie                        object 
 16  Code postal                 float64
 17  Commune                     object 
 18  Code departement            object 
 19  Code commune         

In [4]:
df_2023['Annee']=2023
df_2023.head()

Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,...,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain,Annee
0,,,,,,,,1,05/01/2023,Vente,...,1,3.0,DÃ©pendance,,0.0,0.0,,,,2023
1,,,,,,,,1,05/01/2023,Vente,...,1,2.0,Appartement,,233.0,8.0,,,,2023
2,,,,,,,,1,05/01/2023,Vente,...,1,3.0,DÃ©pendance,,0.0,0.0,,,,2023
3,,,,,,,,1,03/01/2023,Vente,...,0,1.0,Maison,,64.0,3.0,S,,988.0,2023
4,,,,,,,,1,05/01/2023,Vente,...,0,1.0,Maison,,73.0,3.0,S,,835.0,2023


## Données 2022 (Année complète)

In [5]:
df_2022 = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/91fd9f09-fe6f-4ab2-9803-84a626e1faa6',
                 sep='|',                # Séparateur |
                 encoding='latin-1',     # Encodage pour les caractères français
                 compression='zip',      # Spécifie que c'est un fichier zip
                 low_memory=False)       # Pour éviter les warnings de memory

df_2022.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4667090 entries, 0 to 4667089
Data columns (total 43 columns):
 #   Column                      Dtype  
---  ------                      -----  
 0   Identifiant de document     float64
 1   Reference document          float64
 2   1 Articles CGI              float64
 3   2 Articles CGI              float64
 4   3 Articles CGI              float64
 5   4 Articles CGI              float64
 6   5 Articles CGI              float64
 7   No disposition              int64  
 8   Date mutation               object 
 9   Nature mutation             object 
 10  Valeur fonciere             object 
 11  No voie                     float64
 12  B/T/Q                       object 
 13  Type de voie                object 
 14  Code voie                   object 
 15  Voie                        object 
 16  Code postal                 float64
 17  Commune                     object 
 18  Code departement            object 
 19  Code commune         

In [6]:
df_2022['Annee']=2022
df_2022.head()

Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,...,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain,Annee
0,,,,,,,,1,03/01/2022,Vente,...,1,2.0,Appartement,,24.0,1.0,,,,2022
1,,,,,,,,1,03/01/2022,Vente,...,0,,,,,,S,,84.0,2022
2,,,,,,,,1,03/01/2022,Vente,...,0,,,,,,S,,88.0,2022
3,,,,,,,,1,03/01/2022,Vente,...,1,2.0,Appartement,,140.0,3.0,,,,2022
4,,,,,,,,1,04/01/2022,Vente,...,0,,,,,,T,,510.0,2022


In [22]:
df_total = pd.concat([df_2022, df_2023, df_2024])
df_total.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10033140 entries, 0 to 1566642
Data columns (total 44 columns):
 #   Column                      Dtype  
---  ------                      -----  
 0   Identifiant de document     float64
 1   Reference document          float64
 2   1 Articles CGI              float64
 3   2 Articles CGI              float64
 4   3 Articles CGI              float64
 5   4 Articles CGI              float64
 6   5 Articles CGI              float64
 7   No disposition              int64  
 8   Date mutation               object 
 9   Nature mutation             object 
 10  Valeur fonciere             object 
 11  No voie                     float64
 12  B/T/Q                       object 
 13  Type de voie                object 
 14  Code voie                   object 
 15  Voie                        object 
 16  Code postal                 float64
 17  Commune                     object 
 18  Code departement            object 
 19  Code commune             

In [23]:
#Je cherche les valeurs manquantes
df_total.isna().sum()

Identifiant de document       10033140
Reference document            10033140
1 Articles CGI                10033140
2 Articles CGI                10033140
3 Articles CGI                10033140
4 Articles CGI                10033140
5 Articles CGI                10033140
No disposition                       0
Date mutation                        0
Nature mutation                      0
Valeur fonciere                  82580
No voie                        3740738
B/T/Q                          9585062
Type de voie                   3978273
Code voie                        70513
Voie                             71059
Code postal                      71231
Commune                              0
Code departement                     0
Code commune                         0
Prefixe de section             9562860
Section                            381
No plan                              0
No Volume                     10010613
1er lot                        6873269
Surface Carrez du 1er lot

In [24]:
#Les colonnes concernent le document et les articles sont toujours vides donc je les supprime
colonnes_a_supprimer = ['Identifiant de document',	'Reference document'	,'1 Articles CGI',	'2 Articles CGI',	'3 Articles CGI','4 Articles CGI','5 Articles CGI']
df_total.drop(columns=colonnes_a_supprimer, inplace=True)
df_total.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10033140 entries, 0 to 1566642
Data columns (total 37 columns):
 #   Column                      Dtype  
---  ------                      -----  
 0   No disposition              int64  
 1   Date mutation               object 
 2   Nature mutation             object 
 3   Valeur fonciere             object 
 4   No voie                     float64
 5   B/T/Q                       object 
 6   Type de voie                object 
 7   Code voie                   object 
 8   Voie                        object 
 9   Code postal                 float64
 10  Commune                     object 
 11  Code departement            object 
 12  Code commune                int64  
 13  Prefixe de section          float64
 14  Section                     object 
 15  No plan                     int64  
 16  No Volume                   object 
 17  1er lot                     object 
 18  Surface Carrez du 1er lot   object 
 19  2eme lot                 

In [25]:
df_total.head()

Unnamed: 0,No disposition,Date mutation,Nature mutation,Valeur fonciere,No voie,B/T/Q,Type de voie,Code voie,Voie,Code postal,...,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain,Annee
0,1,03/01/2022,Vente,5500000,13.0,,RUE,2280,DE LA LIBERTE,1000.0,...,1,2.0,Appartement,,24.0,1.0,,,,2022
1,1,03/01/2022,Vente,14300000,,,,B010,CHAMP COCHET,1480.0,...,0,,,,,,S,,84.0,2022
2,1,03/01/2022,Vente,14300000,,,,B010,CHAMP COCHET,1480.0,...,0,,,,,,S,,88.0,2022
3,1,03/01/2022,Vente,14300000,98.0,,RTE,0055,DE LA DOMBES,1480.0,...,1,2.0,Appartement,,140.0,3.0,,,,2022
4,1,04/01/2022,Vente,30000,,,,B031,AUX PIERRES,1480.0,...,0,,,,,,T,,510.0,2022


In [26]:
df_ain = df_total[df_total['Code departement']== '01']

In [35]:
df_clean = df_ain.drop_duplicates()

In [36]:
df_clean = df_clean.dropna(subset=['Type local','Surface terrain'])

In [37]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 25288 entries, 5 to 18561
Data columns (total 37 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   No disposition              25288 non-null  int64  
 1   Date mutation               25288 non-null  object 
 2   Nature mutation             25288 non-null  object 
 3   Valeur fonciere             25235 non-null  object 
 4   No voie                     25217 non-null  float64
 5   B/T/Q                       1440 non-null   object 
 6   Type de voie                21885 non-null  object 
 7   Code voie                   25288 non-null  object 
 8   Voie                        25288 non-null  object 
 9   Code postal                 25288 non-null  float64
 10  Commune                     25288 non-null  object 
 11  Code departement            25288 non-null  object 
 12  Code commune                25288 non-null  int64  
 13  Prefixe de section          1012 non

In [38]:
#je supprime les valeurs aberrantes
colonnes_a_traiter = ['Valeur fonciere','Surface Carrez du 1er lot','Surface Carrez du 2eme lot','Surface Carrez du 3eme lot','Surface Carrez du 4eme lot','Surface Carrez du 5eme lot','Surface reelle bati','Nombre pieces principales','Surface terrain']
for col in colonnes_a_traiter:
  if df_clean[col].dtype =='object' : 
    df_clean[col] = df_clean[col].str.replace(',','.')
    df_clean[col] = df_clean[col].astype(float)

  Q1 =df_clean[col].quantile(0.25)
  Q3 =df_clean[col].quantile(0.75)
  IQR = Q3 -Q1
  valeurs_ab_col =df_clean[(df_clean[col] <(Q1-1.5*IQR)) | (df_clean[col] > (Q3+1.5*(IQR)))]
  df_clean =df_clean.drop(valeurs_ab_col.index, axis=0)
  print(col)
  print(valeurs_ab_col.shape)
  print(df_clean.shape)

Valeur fonciere
(1735, 37)
(23058, 37)
Surface Carrez du 1er lot
(1, 37)
(23057, 37)
Surface Carrez du 2eme lot
(0, 37)
(23057, 37)
Surface Carrez du 3eme lot
(0, 37)
(23057, 37)
Surface Carrez du 4eme lot
(0, 37)
(23057, 37)
Surface Carrez du 5eme lot
(0, 37)
(23057, 37)
Surface reelle bati
(529, 37)
(22387, 37)
Nombre pieces principales
(5, 37)
(22382, 37)
Surface terrain
(1285, 37)
(20726, 37)


In [39]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20726 entries, 5 to 18561
Data columns (total 37 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   No disposition              20726 non-null  int64  
 1   Date mutation               20726 non-null  object 
 2   Nature mutation             20726 non-null  object 
 3   Valeur fonciere             20699 non-null  float64
 4   No voie                     20668 non-null  float64
 5   B/T/Q                       1195 non-null   object 
 6   Type de voie                18101 non-null  object 
 7   Code voie                   20726 non-null  object 
 8   Voie                        20726 non-null  object 
 9   Code postal                 20726 non-null  float64
 10  Commune                     20726 non-null  object 
 11  Code departement            20726 non-null  object 
 12  Code commune                20726 non-null  int64  
 13  Prefixe de section          858 non-

In [40]:
df_clean.loc[df_clean['Code commune'] == 138, 'Commune'] = 'CULOZ-BEON'

df_clean[df_clean['Code commune']==138]['Commune']

831      CULOZ-BEON
899      CULOZ-BEON
900      CULOZ-BEON
4037     CULOZ-BEON
5060     CULOZ-BEON
            ...    
14272    CULOZ-BEON
14273    CULOZ-BEON
16099    CULOZ-BEON
16100    CULOZ-BEON
18208    CULOZ-BEON
Name: Commune, Length: 130, dtype: object

In [None]:
df_clean.to_csv('df_clean1.csv', sep=";", encoding='latin-1',index=False)