# 0. Initialisation

In [1]:
import pandas as pd
import numpy as np 
from helpers2 import S3Connection

In [2]:
s3 = S3Connection(bucket_name="clichere/diffusion")

Connection successful


# 1. Ouverture et Nettoyage des fichiers DPE

## 1.1. DPE après juillet 2021

In [71]:
path_logements_existants = "DPE/DPE_ADEME/dpe-v2-logements-existants.csv"
DPE_logements_existants = s3.read_csv_from_s3(path_logements_existants)

In [72]:
path_logements_neufs = "DPE/DPE_ADEME/dpe-v2-logements-neufs.csv"
DPE_logements_neufs = s3.read_csv_from_s3(path_logements_neufs)

In [73]:
print(DPE_logements_existants.shape)
print(DPE_logements_neufs.shape)

(4537525, 33)
(537952, 30)


In [74]:
# Nombre total d'observations
total_obs1 = len(DPE_logements_existants)
total_obs2 = len(DPE_logements_neufs)

# Nombre de doublons (hors première occurrence)
nb_doublons1 = DPE_logements_existants.duplicated().sum()
nb_doublons2 = DPE_logements_neufs.duplicated().sum()

# Calcul du ratio
ratio_doublons1 = nb_doublons1 / total_obs1
ratio_doublons2 = nb_doublons2 / total_obs2

print(ratio_doublons1)
print(ratio_doublons2)

0.05455352863069625
0.19296703051573375


Environ 5,5% des observations des logements existants sont des doublons mais 19,3% des logements neufs le sont.

In [75]:
DPE_logements_existants = DPE_logements_existants.drop_duplicates()
DPE_logements_neufs = DPE_logements_neufs.drop_duplicates()

In [76]:
set(DPE_logements_existants.columns) - set(DPE_logements_neufs.columns)

{'Année_construction', 'Méthode_application_DPE', 'Période_construction'}

In [77]:
print(DPE_logements_existants.columns)

Index(['Date_réception_DPE', 'Date_établissement_DPE', 'Modèle_DPE',
       'Date_fin_validité_DPE', 'Version_DPE', 'Méthode_application_DPE',
       'Etiquette_DPE', 'Etiquette_GES', 'Année_construction', 'Type_bâtiment',
       'Période_construction', 'Surface_habitable_logement', 'Adresse_brute',
       'Nom__commune_(BAN)', 'Code_INSEE_(BAN)', 'N°_voie_(BAN)',
       'Identifiant__BAN', 'Adresse_(BAN)', 'Code_postal_(BAN)', 'Score_BAN',
       'Nom__rue_(BAN)', 'Coordonnée_cartographique_X_(BAN)',
       'Coordonnée_cartographique_Y_(BAN)', 'Code_postal_(brut)',
       'N°_étage_appartement', 'Nom_résidence', 'Cage_d'escalier',
       'Complément_d'adresse_logement', 'Statut_géocodage',
       'Nom__commune_(Brut)', 'N°_département_(BAN)', 'N°_région_(BAN)',
       'Complément_d'adresse_bâtiment'],
      dtype='object')


In [None]:
print(DPE_logements_existants["Modèle_DPE"].value_counts(dropna=False))
print(DPE_logements_neufs["Modèle_DPE"].value_counts(dropna=False))

print(DPE_logements_existants["Période_construction"].value_counts(dropna=False))

Modèle_DPE
DPE 3CL 2021 méthode logement    4289987
Name: count, dtype: int64
Modèle_DPE
DPE NEUF logement : RT2012    419726
DPE NEUF logement : RE2020     14419
Name: count, dtype: int64
Période_construction
1948-1974     1345477
avant 1948    1279994
1989-2000      390692
2006-2012      321454
1978-1982      229330
1983-1988      198796
2013-2021      181024
1975-1977      173102
2001-2005      140513
après 2021      29605
Name: count, dtype: int64


Il y a trois variables en plus dans le fichier logements : Année_construction, Période_construction et Méthode application DPE. Dans le cadre de notre analyse, il nous semble utile de garder l'année de construction et la période de construction, la deuxième variable étant plus complète. Nous pouvons enlever la variable "Méthode_application_DPE".
Par ailleurs, nous allons sélectionner seulement les variables qui peuvent nous intéresser pour l'analyse. 

In [119]:
DPE_logements_neufs["Année_construction"] = DPE_logements_neufs["Date_établissement_DPE"].astype(str).str[:4]
DPE_logements_neufs["Période_construction"] = "Après 2021"
DPE_logements_existants_clean = DPE_logements_existants.drop(columns=[
       "Méthode_application_DPE","Adresse_brute",
       "Nom__commune_(BAN)", "N°_voie_(BAN)",
       "Identifiant__BAN", "Code_postal_(BAN)",
       "Nom__rue_(BAN)","Code_postal_(brut)",
       "Cage_d'escalier",
       "Complément_d'adresse_logement",
       "Nom__commune_(Brut)", "N°_département_(BAN)",
       "Complément_d'adresse_bâtiment", "Nom_résidence", "Statut_géocodage", "Date_réception_DPE", "Date_fin_validité_DPE"])
DPE_logements_neufs_clean = DPE_logements_neufs.drop(columns=["Adresse_brute",
       "Nom__commune_(BAN)", "N°_voie_(BAN)",
       "Identifiant__BAN", "Code_postal_(BAN)",
       "Nom__rue_(BAN)","Code_postal_(brut)",
       "Cage_d'escalier",
       "Complément_d'adresse_logement",
       "Nom__commune_(Brut)", "N°_département_(BAN)",
       "Complément_d'adresse_bâtiment", "Nom_résidence", "Statut_géocodage", "Date_réception_DPE", "Date_fin_validité_DPE"])

In [122]:
print(DPE_logements_existants_clean.shape)
print(DPE_logements_neufs_clean.shape)

(4289987, 16)
(434145, 16)


In [123]:
DPE_logements = pd.concat([DPE_logements_existants_clean, DPE_logements_neufs_clean], ignore_index=True)

In [124]:
DPE_logements['Année_construction'] = pd.to_numeric(DPE_logements['Année_construction'], errors='coerce')

In [125]:
print(DPE_logements.shape)
DPE_logements.sample(20)

(4724132, 16)


Unnamed: 0,Date_établissement_DPE,Modèle_DPE,Version_DPE,Etiquette_DPE,Etiquette_GES,Année_construction,Type_bâtiment,Période_construction,Surface_habitable_logement,Code_INSEE_(BAN),Adresse_(BAN),Score_BAN,Coordonnée_cartographique_X_(BAN),Coordonnée_cartographique_Y_(BAN),N°_étage_appartement,N°_région_(BAN)
1326916,2021-07-07,DPE 3CL 2021 méthode logement,1.0,F,F,1947.0,appartement,avant 1948,45.9,69384,22 Rue Jacquard 69004 Lyon,0.68,842003.4,6521222.29,0.0,84.0
3770330,2022-07-04,DPE 3CL 2021 méthode logement,2.1,E,D,,maison,avant 1948,168.5,77099,23 Rue de la République 77570 Château-Landon,0.54,677645.2,6783072.65,0.0,11.0
1199068,2023-02-16,DPE 3CL 2021 méthode logement,2.2,D,B,1980.0,maison,1978-1982,87.9,3102,369 Rue du Docteur Rouis 03290 Dompierre-sur-B...,0.52,751561.2,6602772.23,0.0,84.0
3011950,2023-04-06,DPE 3CL 2021 méthode logement,2.3,E,E,1976.0,maison,1975-1977,99.2,79049,22 Rue de la Cabane 79300 Bressuire,0.96,434279.4,6644502.39,,75.0
803922,2021-10-30,DPE 3CL 2021 méthode logement,1.1,D,B,1948.0,appartement,1948-1974,27.3,22067,65 Rue de la Madeleine 22200 Grâces,0.52,245459.8,6846425.74,0.0,53.0
1351325,2022-02-16,DPE 3CL 2021 méthode logement,2.1,C,A,1947.0,appartement,avant 1948,76.0,9194,10 Rue Delcassé 09500 Mirepoix,0.52,608207.6,6221867.4,0.0,76.0
4317921,2022-07-12,DPE NEUF logement : RT2012,2.1,A,A,2022.0,maison,Après 2021,134.0,35013,1 Le Bois Montant 35600 Bains-sur-Oust,0.8,320778.6,6745015.71,,53.0
2605434,2022-10-23,DPE 3CL 2021 méthode logement,2.2,A,A,2011.0,appartement,2006-2012,45.6,94021,6 Rue du Clos Saint-michel 94550 Chevilly-Larue,0.56,652340.5,6852675.4,0.0,11.0
1289236,2022-08-26,DPE 3CL 2021 méthode logement,2.1,E,B,1974.0,maison,1948-1974,73.0,83073,2 Rue Eugene Garnier 83340 Le Luc,0.87,968554.3,6261133.43,,93.0
2773639,2023-02-03,DPE 3CL 2021 méthode logement,2.2,C,A,,maison,1989-2000,101.3,33032,15 Rue de Verdun 33530 Bassens,0.54,422929.5,6429330.58,0.0,75.0


In [126]:
doublons3 = DPE_logements.duplicated().sum()
total_obs3 = len(DPE_logements)
ratio_doublons3 = doublons3/total_obs3
print(ratio_doublons3)

0.13743561780238148


In [127]:
DPE_logements = DPE_logements.drop_duplicates()

In [128]:
outpath1 = 'DPE/DPE_après_2021.parquet'

s3.from_pandas_to_parquet_store_in_s3(DPE_logements, outpath1)

Fichier Parquet écrit avec succès dans DPE/DPE_après_2021.parquet


# 2. Ouverture et nettoyage des fichiers valeurs foncières

## 2.1. Téléchargement et fusion des fichiers csv

In [3]:
path_vf_2024 = "valeursfoncieres/vf_2024.csv"
vf_2024 = s3.read_csv_from_s3(path_vf_2024)

path_vf_2023 = "valeursfoncieres/vf_2023.csv"
vf_2023 = s3.read_csv_from_s3(path_vf_2023)

path_vf_2022 = "valeursfoncieres/vf_2022.csv"
vf_2022 = s3.read_csv_from_s3(path_vf_2022)

path_vf_2021 = "valeursfoncieres/vf_2021.csv"
vf_2021 = s3.read_csv_from_s3(path_vf_2021)

path_vf_2020 = "valeursfoncieres/vf_2020.csv"
vf_2020 = s3.read_csv_from_s3(path_vf_2020)

path_vf_2019 = "valeursfoncieres/vf_2019.csv"
vf_2019 = s3.read_csv_from_s3(path_vf_2019)

In [6]:
print(vf_2019["valeur_fonciere"].describe())
print(vf_2020["valeur_fonciere"].describe())
print(vf_2021["valeur_fonciere"].describe())
print(vf_2022["valeur_fonciere"].describe())
print(vf_2023["valeur_fonciere"].describe())
print(vf_2024["valeur_fonciere"].describe())
print(vf_2019.columns)

count    1.945453e+06
mean     1.006466e+06
std      8.090271e+06
min      1.000000e-02
25%      6.450000e+04
50%      1.550000e+05
75%      2.821490e+05
max      8.450000e+08
Name: valeur_fonciere, dtype: float64
count    3.471436e+06
mean     8.727544e+05
std      7.780260e+06
min      1.000000e-02
25%      6.655000e+04
50%      1.550000e+05
75%      2.800000e+05
max      4.900000e+08
Name: valeur_fonciere, dtype: float64
count    4.629636e+06
mean     2.006912e+06
std      2.036543e+07
min      1.000000e-01
25%      7.250000e+04
50%      1.660000e+05
75%      3.060000e+05
max      1.415000e+10
Name: valeur_fonciere, dtype: float64
count    4.635517e+06
mean     2.801775e+06
std      2.677626e+07
min      1.000000e-02
25%      7.600000e+04
50%      1.750000e+05
75%      3.200000e+05
max      1.003401e+09
Name: valeur_fonciere, dtype: float64
count    3.765454e+06
mean     6.174104e+05
std      5.111104e+06
min      1.000000e-01
25%      6.156900e+04
50%      1.600000e+05
75%      3.0

In [7]:
vf_new = pd.concat([vf_2024, vf_2023, vf_2022, vf_2021, vf_2020, vf_2019], ignore_index=True)


In [8]:
vf_new.sample(20)
print(vf_new.shape)
print(vf_new.columns)
print(vf_new["date_mutation"].value_counts)
doublons_vf_2024 = vf_new.duplicated()
print(f"nombre de doublons {doublons_vf_2024.sum()}")

(20195667, 40)
Index(['id_mutation', 'date_mutation', 'numero_disposition', 'nature_mutation',
       'valeur_fonciere', 'adresse_numero', 'adresse_suffixe',
       'adresse_nom_voie', 'adresse_code_voie', 'code_postal', 'code_commune',
       'nom_commune', 'code_departement', 'ancien_code_commune',
       'ancien_nom_commune', 'id_parcelle', 'ancien_id_parcelle',
       'numero_volume', 'lot1_numero', 'lot1_surface_carrez', 'lot2_numero',
       'lot2_surface_carrez', 'lot3_numero', 'lot3_surface_carrez',
       'lot4_numero', 'lot4_surface_carrez', 'lot5_numero',
       'lot5_surface_carrez', 'nombre_lots', 'code_type_local', 'type_local',
       'surface_reelle_bati', 'nombre_pieces_principales',
       'code_nature_culture', 'nature_culture', 'code_nature_culture_speciale',
       'nature_culture_speciale', 'surface_terrain', 'longitude', 'latitude'],
      dtype='object')
<bound method IndexOpsMixin.value_counts of 0           2024-01-02
1           2024-01-03
2           2024-01

In [9]:
vf_new.sample(10)

Unnamed: 0,id_mutation,date_mutation,numero_disposition,nature_mutation,valeur_fonciere,adresse_numero,adresse_suffixe,adresse_nom_voie,adresse_code_voie,code_postal,...,type_local,surface_reelle_bati,nombre_pieces_principales,code_nature_culture,nature_culture,code_nature_culture_speciale,nature_culture_speciale,surface_terrain,longitude,latitude
14048370,2021-1452065,2021-06-18,1,Vente,195000.0,223.0,,AV DU HUIT MAI,0480,84500.0,...,Dépendance,,0.0,S,sols,,,647.0,4.74362,44.283019
17068243,2020-956500,2020-10-01,1,Vente,4550000.0,7.0,,RUE STE-CATHERINE,6610,69001.0,...,Appartement,58.0,3.0,S,sols,,,393.0,4.832843,45.768326
6462839,2022-369088,2022-05-31,1,Vente,974401.0,2710.0,,CITE LAFAYETTE,1888,27000.0,...,Maison,135.0,1.0,AG,terrains d'agrément,,,1037.0,,
7090928,2022-609146,2022-03-28,1,Vente,265000.0,,,AV DU VERT GALANT,0192,35340.0,...,,,,S,sols,,,1488.0,-1.509915,48.20671
15199416,2020-199194,2020-04-30,2,Vente,2485553.0,,,LE GRAND SETOUBE,B086,16120.0,...,,,,VI,vignes,,,460.0,-0.103587,45.636849
863009,2024-296819,2024-04-22,1,Vente,100000.0,15.0,,RUE PAUL DEROULEDE,0977,55100.0,...,Dépendance,,0.0,S,sols,,,290.0,5.399196,49.162494
10193979,2021-54371,2021-01-29,1,Vente,425000.0,2112.0,R,RTE DE CASTELLAR,0024,6500.0,...,Maison,156.0,5.0,S,sols,,,1535.0,7.50157,43.795316
2362712,2023-268734,2023-04-03,1,Vente,92000.0,,,POMMIER,B057,24130.0,...,,,,P,prés,,,1163.0,0.331378,44.92924
6356281,2022-332779,2022-10-11,1,Vente,227000.0,11.0,,RUE GRAND RUE,2120,24100.0,...,Appartement,40.0,2.0,S,sols,,,133.0,0.482797,44.851879
15833781,2020-443363,2020-06-17,1,Vente,10000.0,,,ARREGOT EST,B006,33114.0,...,,,,L,landes,,,14545.0,-0.70347,44.607162


In [26]:
print(vf_new["lot1_surface_carrez"].value_counts(dropna=False))
print(vf_new["lot2_surface_carrez"].value_counts(dropna=False))
print(vf_new["surface_reelle_bati"].value_counts(dropna=False))

lot1_surface_carrez
NaN       18442001
12.50         6410
12.00         3048
15.00         2285
10.00         1799
            ...   
390.13           1
278.46           1
1.17             1
169.99           1
203.22           1
Name: count, Length: 28348, dtype: int64
lot2_surface_carrez
NaN       19651067
65.00          445
60.00          436
70.00          417
68.00          403
            ...   
348.42           1
318.51           1
7.48             1
178.45           1
185.47           1
Name: count, Length: 17798, dtype: int64
surface_reelle_bati
NaN         13019863
80.0          141525
60.0          134169
70.0          126882
90.0          124531
              ...   
39667.0            1
78354.0            1
27057.0            1
107476.0           1
15318.0            1
Name: count, Length: 9346, dtype: int64


In [11]:
vf_new_clean = vf_new[['date_mutation', 'nature_mutation',
       'valeur_fonciere', 'adresse_numero', 'adresse_suffixe',
       'adresse_nom_voie', 'code_postal', 'code_commune',
       'nom_commune', 'type_local',
       'surface_reelle_bati', 'nombre_pieces_principales',
       'surface_terrain', 'longitude', 'latitude']]

In [14]:
vf_new_clean['Adresse'] = vf_new_clean['adresse_numero'].apply(lambda x: str(int(x)) if pd.notna(x) else '').astype(str) + " " + \
                vf_new_clean['adresse_nom_voie'].fillna('').astype(str) + " " + \
                vf_new_clean['code_postal'].apply(lambda x: str(int(x)) if pd.notna(x) else '').astype(str) + " " + \
                vf_new_clean['nom_commune'].fillna('').astype(str)

vf_new_clean['Adresse'] = vf_new_clean['Adresse'].str.strip().replace(r'^\s*$', None, regex=True)  # Supprime les adresses vides

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  vf_new_clean['Adresse'] = vf_new_clean['adresse_numero'].apply(lambda x: str(int(x)) if pd.notna(x) else '').astype(str) + " " + \
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  vf_new_clean['Adresse'] = vf_new_clean['Adresse'].str.strip().replace(r'^\s*$', None, regex=True)  # Supprime les adresses vides


In [18]:
vf_new_clean.sample(10)

Unnamed: 0,date_mutation,nature_mutation,valeur_fonciere,adresse_numero,adresse_suffixe,adresse_nom_voie,code_postal,code_commune,nom_commune,type_local,surface_reelle_bati,nombre_pieces_principales,surface_terrain,longitude,latitude,Adresse
1308523,2024-03-27,Vente,263000.0,55.0,,TRA FONT DE FILLOL,83140.0,83129,Six-Fours-les-Plages,Appartement,82.0,5.0,,5.827281,43.097104,55 TRA FONT DE FILLOL 83140 Six-Fours-les-Plages
16930224,2020-02-05,Vente,77000.0,23.0,,RUE SAINT GENES,63000.0,63113,Clermont-Ferrand,Dépendance,,0.0,,3.085754,45.776521,23 RUE SAINT GENES 63000 Clermont-Ferrand
10856620,2021-09-06,Vente,5029.2,,,CHAMPS PRUNIERS,21410.0,21578,Saint-Victor-sur-Ouche,,,,920.0,4.735094,47.227558,CHAMPS PRUNIERS 21410 Saint-Victor-sur-Ouche
5776458,2022-12-16,Vente,302630.0,,,LE VILLAGE,11410.0,11359,Saint-Michel-de-Lanès,,,,120.0,1.758577,43.324529,LE VILLAGE 11410 Saint-Michel-de-Lanès
9032064,2022-06-27,Vente,180000.0,1.0,,RUE DU BELVEDERE,78750.0,78367,Mareil-Marly,Appartement,50.0,2.0,,2.076576,48.882098,1 RUE DU BELVEDERE 78750 Mareil-Marly
6181542,2022-05-20,Vente,555000.0,7.0,B,RUE DU BAILLY,21000.0,21231,Dijon,Local industriel. commercial ou assimilé,165.0,0.0,1463.0,5.074335,47.350351,7 RUE DU BAILLY 21000 Dijon
7585874,2022-10-06,Vente,148000.0,147.0,,ALL DES ROSIERS,45260.0,45230,Noyers,Maison,132.0,5.0,1354.0,2.568287,47.904617,147 ALL DES ROSIERS 45260 Noyers
9536518,2022-12-12,Vente,175000.0,3.0,,RUE DE VERDUN,88110.0,88372,Raon-l'Étape,Dépendance,,0.0,750.0,6.835251,48.401153,3 RUE DE VERDUN 88110 Raon-l'Étape
5136340,2023-10-26,Vente,68438.75,5.0,,ALL JOAQUIM DU BELLAY,93390.0,93014,Clichy-sous-Bois,Appartement,66.0,4.0,,2.543826,48.905517,5 ALL JOAQUIM DU BELLAY 93390 Clichy-sous-Bois
435390,2024-02-21,Vente,170000.0,,,LES LAUZIERES SUD,30900.0,30189,Nîmes,,,,91573.0,4.261858,43.856613,LES LAUZIERES SUD 30900 Nîmes


In [20]:
vf_pre_final = vf_new_clean[['date_mutation', 'nature_mutation',
       'valeur_fonciere', 'Adresse', 'code_commune',
       'type_local',
       'surface_reelle_bati', 'nombre_pieces_principales',
       'surface_terrain']]

In [None]:
doublons_vf_new = vf_pre_final.duplicated()

print(f"nombre de doublons : {doublons_vf_new.sum()}")

nombre de doublons : 2604019


In [21]:
vf_final = vf_pre_final.drop_duplicates()

In [22]:
vf_final.sample(20)

Unnamed: 0,date_mutation,nature_mutation,valeur_fonciere,Adresse,code_commune,type_local,surface_reelle_bati,nombre_pieces_principales,surface_terrain
9598046,2022-04-27,Vente,400000.0,15 AV ERIC MORLET 91320 Wissous,91689,Maison,75.0,2.0,275.0
16973894,2020-05-14,Vente,11500.0,BIOUS 64330 Portet,64455,,,,4315.0
8073674,2022-05-13,Vente,125000.0,25 RUE DE WAILLY 59200 Tourcoing,59599,Appartement,83.0,4.0,
15782186,2020-11-03,Vente,127200.0,A LA RIBERE OUEST 32000 Auch,32013,,,,8180.0
11709066,2021-09-06,Vente,189500.0,3 RUE DES SAULES 35510 Cesson-Sévigné,35051,Dépendance,,0.0,
8890704,2022-12-16,Vente,169000.0,1 RUE MESSYRE D'ANDLAU 76130 Mont-Saint-Aignan,76451,Dépendance,,0.0,
9140485,2022-10-27,Vente,771950.5,2235 CHEM DES MOLLIERES 80120 Fort-Mahon-Plage,80333,Maison,87.0,4.0,635.0
9552442,2022-06-04,Vente,146000.0,CROIX JAPPEE 89520 Thury,89416,,,,2925.0
2840437,2023-11-07,Vente,237650.0,20 AV DE LA GARE 33870 Vayres,33539,Dépendance,,0.0,864.0
5069815,2023-12-04,Vente,1300000.0,38 RUE PARMENTIER 92200 Neuilly-sur-Seine,92051,Dépendance,,0.0,


## 2.2. Téléchargement et fusion des fichiers txt

In [3]:
dtype_spec = {"Code commune": str}

path_valeursfoncieres_2022 = "Valeursfoncières/valeursfoncieres-2022.txt"
vf2022 = s3.read_txt_from_s3(path_valeursfoncieres_2022, sep="|", dtype_spec=dtype_spec)

path_valeursfoncieres_2021 = "Valeursfoncières/valeursfoncieres-2021.txt"
vf2021 = s3.read_txt_from_s3(path_valeursfoncieres_2021, sep="|", dtype_spec=dtype_spec)

path_valeursfoncieres_2020 = "Valeursfoncières/valeursfoncieres-2020.txt"
vf2020 = s3.read_txt_from_s3(path_valeursfoncieres_2020, sep="|", dtype_spec=dtype_spec)

path_valeursfoncieres_2019 = "Valeursfoncières/valeursfoncieres-2019.txt"
vf2019 = s3.read_txt_from_s3(path_valeursfoncieres_2019, sep="|", dtype_spec=dtype_spec)

path_valeursfoncieres_2018 = "Valeursfoncières/valeursfoncieres-2018.txt"
vf2018 = s3.read_txt_from_s3(path_valeursfoncieres_2018, sep="|", dtype_spec=dtype_spec)

path_valeursfoncieres_2017 = "Valeursfoncières/valeursfoncieres-2017.txt"
vf2017 = s3.read_txt_from_s3(path_valeursfoncieres_2017, sep="|", dtype_spec=dtype_spec)

path_valeursfoncieres_2016 = "Valeursfoncières/valeursfoncieres-2016.txt"
vf2016 = s3.read_txt_from_s3(path_valeursfoncieres_2016, sep="|", dtype_spec=dtype_spec)

path_valeursfoncieres_2015 = "Valeursfoncières/valeursfoncieres-2015.txt"
vf2015 = s3.read_txt_from_s3(path_valeursfoncieres_2015, sep="|", dtype_spec=dtype_spec)

path_valeursfoncieres_2014 = "Valeursfoncières/valeursfoncieres-2014.txt"
vf2014 = s3.read_txt_from_s3(path_valeursfoncieres_2014, sep="|", dtype_spec=dtype_spec)


In [4]:
print(vf2014.shape)
print(vf2015.shape)
print(vf2016.shape)
print(vf2017.shape)
print(vf2018.shape)
print(vf2019.shape)
print(vf2020.shape)
print(vf2021.shape)
print(vf2022.shape)

(2516688, 43)
(2749830, 43)
(2936524, 43)
(3383622, 43)
(3335292, 43)
(3625903, 43)
(3514698, 43)
(4649209, 43)
(3803885, 43)


In [5]:
vf = pd.concat([vf2022, vf2021, vf2020, vf2019, vf2018, vf2017, vf2016, vf2015, vf2014], ignore_index=True)


In [6]:
print(vf.columns)

Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'Code service CH'],
      dtype='object')


In [8]:
print(vf["Nature mutation"].value_counts(dropna=False))
print(vf["1er lot"].value_counts(dropna=False))

Nature mutation
Vente                                 27775517
Vente en l'état futur d'achèvement     2085142
Echange                                 405566
Adjudication                            111197
Vente terrain à bâtir                    96519
Expropriation                            41710
Name: count, dtype: int64
1er lot
NaN      21035867
1          326170
2          268312
3          210252
10         179842
           ...   
33K             1
20805           1
7372            1
7644            1
7700            1
Name: count, Length: 22126, dtype: int64


In [9]:
vf_clean = vf[['Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'Type de voie', 'Voie', 'Code postal',
       'Commune', 'Code commune', 
       'Surface Carrez du 1er lot', 'Surface Carrez du 2eme lot',
       'Surface Carrez du 3eme lot',
       'Surface Carrez du 4eme lot', 'Surface Carrez du 5eme lot',
       'Type local','Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain']]

In [12]:
vf_clean[vf_clean["Type local"] == "Appartement"].sample(10)

Unnamed: 0,Date mutation,Nature mutation,Valeur fonciere,No voie,Type de voie,Voie,Code postal,Commune,Code commune,Surface Carrez du 1er lot,Surface Carrez du 2eme lot,Surface Carrez du 3eme lot,Surface Carrez du 4eme lot,Surface Carrez du 5eme lot,Type local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain
22385966,29/02/2016,Vente,14500000,5250.0,,LE VILLAGE,4150.0,BANON,18,,,,,,Appartement,32.0,2.0,S,,130.0
22258238,06/04/2017,Vente,17000000,77.0,RUE,TAITBOUT,75009.0,PARIS 09,109,1952.0,,,,,Appartement,25.0,1.0,,,
5342718,28/10/2021,Vente,7500000,25.0,RUE,JEAN JAURES,33230.0,COUTRAS,138,3930.0,,,,,Appartement,40.0,2.0,,,
18650803,26/04/2018,Vente,68400000,124.0,BD,DE LA REPUBLIQUE,92210.0,SAINT-CLOUD,64,13253.0,,,,,Appartement,130.0,6.0,,,
14727776,01/10/2019,Vente,11700000,1.0,BD,ETIENNE HARDY,77610.0,FONTENAY-TRESIGNY,192,3479.0,,,,,Appartement,51.0,2.0,,,
184050,24/05/2022,Vente,21200000,102.0,AV,DE GRASSE,6800.0,CAGNES SUR MER,27,,6504.0,,,,Appartement,65.0,3.0,,,
11401105,20/11/2020,Vente,12400000,61.0,AV,DE CLARET,83000.0,TOULON,137,4207.0,,,,,Appartement,42.0,2.0,,,
1680133,20/06/2022,Vente,20002000,12.0,RUE,MARIE ANNE DU BOCCAGE,44000.0,NANTES,109,3235.0,,,,,Appartement,32.0,2.0,,,
24719641,01/04/2016,Adjudication,7600000,5.0,RUE,HENRI FRENAY,83120.0,SAINTE MAXIME,115,,,,,,Appartement,20.0,1.0,,,
27788377,21/09/2015,Adjudication,29000000,35.0,RUE,FERNAND PELLOUTIER,92100.0,BOULOGNE-BILLANCOURT,12,,,,,,Appartement,60.0,3.0,,,


In [None]:
doublons4 = vf_clean.duplicated().sum()
total_obs4 = len(vf_clean)
ratio_doublons4 = doublons4/total_obs4
print(ratio_doublons4)

In [19]:
outpath2 = 'Valeursfoncières/vf.parquet'

s3.from_pandas_to_parquet_store_in_s3(vf_clean, outpath2)

Fichier Parquet écrit avec succès dans Valeursfoncières/vf.parquet


### Normalisation des adresses

In [None]:
# Convertir explicitement toutes les colonnes en chaînes
#vf['Adresse'] = vf['No voie'].apply(lambda x: str(int(x)) if pd.notna(x) else '').astype(str) + " " + \
 #               vf['Type de voie'].fillna('').astype(str) + " " + \
 #               vf['Voie'].fillna('').astype(str) + ", " + \
 #               vf['Code postal'].apply(lambda x: str(int(x)) if pd.notna(x) else '').astype(str) + " " + \
 #               vf['Commune'].fillna('').astype(str)
#print(vf.describe)

In [None]:
#vf['Adresse'] = vf['Adresse'].str.strip().replace(r'^\s*$', None, regex=True)  # Supprime les adresses vides
#print(vf2022[['No voie', 'Type de voie', 'Voie', 'Code postal', 'Commune', 'Adresse']].head())

In [None]:
#vf2022['Adresse_Normalisee'] = vf2022['Adresse'].apply(s3.normalize_address)

#print(vf2022[['Adresse', 'Adresse_Normalisee']].head())

TypeError: s3_connection.normalize_address() takes 1 positional argument but 2 were given