In [84]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
from nltk.probability import FreqDist


# La préparation des données

In [85]:
# Liste des noms de fichiers
file_names = ['valeursfoncieres/valeursfoncieres-2018.txt', 'valeursfoncieres/valeursfoncieres-2019.txt', 'valeursfoncieres/valeursfoncieres-2020.txt', 'valeursfoncieres/valeursfoncieres-2021.txt', 'valeursfoncieres/valeursfoncieres-2022.txt']

# Création d'une liste vide pour stocker les DataFrames
dataframes = []

## Fusion des ensembles et/ou enregistrements de données

In [86]:
# Parcourir chaque fichier et charger les données dans un DataFrame
for file_name in file_names:
    # Charger le fichier en utilisant la fonction read_csv de pandas
    df = pd.read_csv(file_name, delimiter='|', encoding='utf-8', nrows=1000)
    # Ajouter le DataFrame à la liste
    dataframes.append(df)

# Fusionner les DataFrames en un seul DataFrame
merged_df = pd.concat(dataframes)

In [87]:
pd.set_option('display.max_columns', None)  # Afficher toutes les colonnes
pd.set_option('display.width', None)  # Ajuster la largeur de l'affichage

print(merged_df.shape)
merged_df.head(10)

(5000, 43)


Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,Valeur fonciere,No voie,B/T/Q,Type de voie,Code voie,Voie,Code postal,Commune,Code departement,Code commune,Prefixe de section,Section,No plan,No Volume,1er lot,Surface Carrez du 1er lot,2eme lot,Surface Carrez du 2eme lot,3eme lot,Surface Carrez du 3eme lot,4eme lot,Surface Carrez du 4eme lot,5eme lot,Surface Carrez du 5eme lot,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain
0,,,,,,,,1,03/01/2018,Vente,10900000,13.0,,RUE,1660,GEN LOGEROT,1000.0,BOURG-EN-BRESSE,1,53,,AN,73,,1.0,,31.0,,,,,,,,2,2.0,Appartement,,73.0,4.0,,,
1,,,,,,,,1,03/01/2018,Vente,10900000,13.0,,RUE,1660,GEN LOGEROT,1000.0,BOURG-EN-BRESSE,1,53,,AN,73,,13.0,,,,,,,,,,1,3.0,Dépendance,,0.0,0.0,,,
2,,,,,,,,1,04/01/2018,Vente,23930000,4.0,,RUE,0025,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,,AH,186,,,,,,,,,,,,0,1.0,Maison,,163.0,4.0,S,,949.0
3,,,,,,,,1,04/01/2018,Vente,23930000,4.0,,RUE,0025,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,,AH,186,,,,,,,,,,,,0,1.0,Maison,,163.0,4.0,AG,JARD,420.0
4,,,,,,,,1,04/01/2018,Vente,23930000,4.0,,RUE,0025,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,,AH,186,,,,,,,,,,,,0,1.0,Maison,,51.0,2.0,AG,JARD,420.0
5,,,,,,,,1,04/01/2018,Vente,23930000,4.0,,RUE,0025,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,,AH,186,,,,,,,,,,,,0,1.0,Maison,,51.0,2.0,S,,949.0
6,,,,,,,,1,04/01/2018,Vente,9000000,,,,B034,LE DRUILLET,1380.0,SAINT-CYR-SUR-MENTHON,1,343,,ZR,359,,,,,,,,,,,,0,,,,,,S,,278.0
7,,,,,,,,1,04/01/2018,Vente,9000000,5050.0,,,B034,LE DRUILLET,1380.0,SAINT-CYR-SUR-MENTHON,1,343,,ZR,361,,,,,,,,,,,,0,1.0,Maison,,150.0,3.0,S,,347.0
8,,,,,,,,1,04/01/2018,Vente,9000000,,,,B034,LE DRUILLET,1380.0,SAINT-CYR-SUR-MENTHON,1,343,,ZR,363,,,,,,,,,,,,0,,,,,,S,,23.0
9,,,,,,,,2,10/01/2018,Vente,315000,,,,B077,PONT D AIN,1160.0,PONT-D AIN,1,304,,AM,461,,,,,,,,,,,,0,,,,,,S,,126.0


## Sélection d’un sous-ensemble de données

In [88]:
# Supprimer les colonnes inutiles
columns_to_drop = ['Identifiant de document', 'Reference document', '1 Articles CGI', '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI', 'No disposition', 'No plan', 'No Volume', '1er lot', '2eme lot', '3eme lot', '4eme lot', '5eme lot', 'Nombre de lots', 'Identifiant local', "Nature culture", "Nature culture speciale", "B/T/Q", "Type de voie", "Prefixe de section"]
merged_df.drop(columns=columns_to_drop, inplace=True)

In [89]:
pd.set_option('display.max_columns', None)  # Afficher toutes les colonnes
pd.set_option('display.width', None)  # Ajuster la largeur de l'affichage

print(merged_df.shape)
merged_df.head()

(5000, 21)


Unnamed: 0,Date mutation,Nature mutation,Valeur fonciere,No voie,Code voie,Voie,Code postal,Commune,Code departement,Code commune,Section,Surface Carrez du 1er lot,Surface Carrez du 2eme lot,Surface Carrez du 3eme lot,Surface Carrez du 4eme lot,Surface Carrez du 5eme lot,Code type local,Type local,Surface reelle bati,Nombre pieces principales,Surface terrain
0,03/01/2018,Vente,10900000,13.0,1660,GEN LOGEROT,1000.0,BOURG-EN-BRESSE,1,53,AN,,,,,,2.0,Appartement,73.0,4.0,
1,03/01/2018,Vente,10900000,13.0,1660,GEN LOGEROT,1000.0,BOURG-EN-BRESSE,1,53,AN,,,,,,3.0,Dépendance,0.0,0.0,
2,04/01/2018,Vente,23930000,4.0,25,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,AH,,,,,,1.0,Maison,163.0,4.0,949.0
3,04/01/2018,Vente,23930000,4.0,25,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,AH,,,,,,1.0,Maison,163.0,4.0,420.0
4,04/01/2018,Vente,23930000,4.0,25,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,AH,,,,,,1.0,Maison,51.0,2.0,420.0


In [90]:
# Convertir la colonne 'Valeur fonciere' en format numérique
merged_df['Valeur fonciere'] = merged_df['Valeur fonciere'].str.replace(',', '.').astype(float)

merged_df['Surface Carrez du 1er lot'] = merged_df['Surface Carrez du 1er lot'].str.replace(',', '.').astype(float)
merged_df['Surface Carrez du 2eme lot'] = merged_df['Surface Carrez du 2eme lot'].str.replace(',', '.').astype(float)
merged_df['Surface Carrez du 3eme lot'] = merged_df['Surface Carrez du 3eme lot'].str.replace(',', '.').astype(float)
merged_df['Surface Carrez du 4eme lot'] = merged_df['Surface Carrez du 4eme lot'].str.replace(',', '.').astype(float)
merged_df['Surface Carrez du 5eme lot'] = merged_df['Surface Carrez du 5eme lot'].str.replace(',', '.').astype(float)

In [91]:
merged_df['Surface Carrez totale'] = merged_df['Surface Carrez du 1er lot'].fillna(0).astype(float) + \
                                     merged_df['Surface Carrez du 2eme lot'].fillna(0).astype(float) + \
                                     merged_df['Surface Carrez du 3eme lot'].fillna(0).astype(float) + \
                                     merged_df['Surface Carrez du 4eme lot'].fillna(0).astype(float) + \
                                     merged_df['Surface Carrez du 5eme lot'].fillna(0).astype(float)
                                    
columns_to_drop = ["Surface Carrez du 1er lot", "Surface Carrez du 2eme lot", "Surface Carrez du 3eme lot", "Surface Carrez du 4eme lot", "Surface Carrez du 5eme lot"]
merged_df.drop(columns=columns_to_drop, inplace=True)

In [92]:
merged_df['No voie'] = merged_df['No voie'].fillna(0).astype(int)
merged_df['Code postal'] = merged_df['Code postal'].fillna(0).astype(int)
merged_df['Code type local'] = merged_df['Code type local'].fillna(0).astype(int)
merged_df['Nombre pieces principales'] = merged_df['Nombre pieces principales'].fillna(0).astype(int)

In [93]:
pd.set_option('display.max_columns', None)  # Afficher toutes les colonnes
pd.set_option('display.width', None)  # Ajuster la largeur de l'affichage

print(merged_df.shape)
merged_df.head(10)

(5000, 17)


Unnamed: 0,Date mutation,Nature mutation,Valeur fonciere,No voie,Code voie,Voie,Code postal,Commune,Code departement,Code commune,Section,Code type local,Type local,Surface reelle bati,Nombre pieces principales,Surface terrain,Surface Carrez totale
0,03/01/2018,Vente,109000.0,13,1660,GEN LOGEROT,1000,BOURG-EN-BRESSE,1,53,AN,2,Appartement,73.0,4,,0.0
1,03/01/2018,Vente,109000.0,13,1660,GEN LOGEROT,1000,BOURG-EN-BRESSE,1,53,AN,3,Dépendance,0.0,0,,0.0
2,04/01/2018,Vente,239300.0,4,0025,DE LA BARMETTE,1250,NIVIGNE ET SURAN,1,95,AH,1,Maison,163.0,4,949.0,0.0
3,04/01/2018,Vente,239300.0,4,0025,DE LA BARMETTE,1250,NIVIGNE ET SURAN,1,95,AH,1,Maison,163.0,4,420.0,0.0
4,04/01/2018,Vente,239300.0,4,0025,DE LA BARMETTE,1250,NIVIGNE ET SURAN,1,95,AH,1,Maison,51.0,2,420.0,0.0
5,04/01/2018,Vente,239300.0,4,0025,DE LA BARMETTE,1250,NIVIGNE ET SURAN,1,95,AH,1,Maison,51.0,2,949.0,0.0
6,04/01/2018,Vente,90000.0,0,B034,LE DRUILLET,1380,SAINT-CYR-SUR-MENTHON,1,343,ZR,0,,,0,278.0,0.0
7,04/01/2018,Vente,90000.0,5050,B034,LE DRUILLET,1380,SAINT-CYR-SUR-MENTHON,1,343,ZR,1,Maison,150.0,3,347.0,0.0
8,04/01/2018,Vente,90000.0,0,B034,LE DRUILLET,1380,SAINT-CYR-SUR-MENTHON,1,343,ZR,0,,,0,23.0,0.0
9,10/01/2018,Vente,3150.0,0,B077,PONT D AIN,1160,PONT-D AIN,1,304,AM,0,,,0,126.0,0.0


In [101]:
# On ce focaliser sur les appartement qui ce trouvent a paris
# merged_df = merged_df[merged_df['Commune'] == 'PARIS']
# merged_df = merged_df[merged_df['Type local'] == 'Appartement']

# Afficher toutes les commune dans l'order alphabetique
tab = merged_df['Commune'].unique()
tab.sort()
print(tab[100:200])


['LA BOISSE' 'LA TRANCLIERE' 'LAGNIEU' 'LAIZ' 'LANTENAY'
 'LE POIZAT-LALLEYRIAT' 'LELEX' 'LENT' 'LESCHEROUX' 'LHUIS' 'LOYETTES'
 'MALAFRETAZ' 'MANTENAY-MONTLIN' 'MANZIAT' 'MARBOZ' 'MARSONNAS' 'MASSIEUX'
 'MEILLONNAS' 'MESSIMY SUR SAONE' 'MEXIMIEUX' 'MIJOUX' 'MIONNAY' 'MIRIBEL'
 'MONTAGNAT' 'MONTCET' 'MONTLUEL' 'MONTMERLE-SUR-SAONE' 'MONTRACOL'
 'MONTREVEL-EN-BRESSE' 'NANTUA' 'NEUVILLE-SUR-AIN' 'NIVIGNE ET SURAN'
 'NURIEUX-VOLOGNAT' 'ORNEX' 'OYONNAX' 'OZAN' 'PARCIEUX'
 'PARVES ET NATTAGES' 'PERON' 'PERONNAS' 'PERREX' 'PIRAJOUX' 'PLAGNE'
 "PLATEAU D'HAUTEVILLE" 'POLLIAT' 'PONCIN' 'PONT-D AIN' 'PONT-DE-VAUX'
 'PONT-DE-VEYLE' 'POUGNY' 'POUILLAT' 'PREVESSIN-MOENS' 'PRIAY' 'RAMASSE'
 'RANCE' 'REPLONGES' 'REVONNAS' 'REYRIEUX' 'REYSSOUZE' 'RIGNIEUX-LE-FRANC'
 'SAINT-ANDRE-D HUIRIAT' 'SAINT-ANDRE-DE-BAGE' 'SAINT-ANDRE-DE-CORCY'
 'SAINT-ANDRE-SUR-VIEUX-JONC' 'SAINT-BENIGNE' 'SAINT-BERNARD'
 'SAINT-CYR-SUR-MENTHON' 'SAINT-DENIS-EN-BUGEY' 'SAINT-DENIS-LES-BOURG'
 'SAINT-DIDIER-D AUSSIAT' 'SAINT-DI

In [95]:
# Fractionner les données en sous-ensembles d'apprentissage et de test
# Par exemple, supposons que vous souhaitez utiliser 80% des données pour l'apprentissage et 20% pour le test
train_ratio = 0.8
train_size = int(len(merged_df) * train_ratio)

train_data = merged_df[:train_size]
test_data = merged_df[train_size:]

# Analyse exploratoire des données
# Par exemple, afficher les statistiques descriptives du prix foncier
print(train_data['Valeur fonciere'].describe())

# Afficher les premières lignes du DataFrame fusionné
print(merged_df.head())

count    3.954000e+03
mean     1.250230e+05
std      1.844091e+05
min      1.000000e+00
25%      1.112500e+04
50%      8.700000e+04
75%      1.770000e+05
max      3.500000e+06
Name: Valeur fonciere, dtype: float64
  Date mutation Nature mutation  Valeur fonciere  No voie Code voie  \
0    03/01/2018           Vente         109000.0       13      1660   
1    03/01/2018           Vente         109000.0       13      1660   
2    04/01/2018           Vente         239300.0        4      0025   
3    04/01/2018           Vente         239300.0        4      0025   
4    04/01/2018           Vente         239300.0        4      0025   

             Voie  Code postal           Commune  Code departement  \
0     GEN LOGEROT         1000   BOURG-EN-BRESSE                 1   
1     GEN LOGEROT         1000   BOURG-EN-BRESSE                 1   
2  DE LA BARMETTE         1250  NIVIGNE ET SURAN                 1   
3  DE LA BARMETTE         1250  NIVIGNE ET SURAN                 1   
4  DE LA 

### Calcul de nouveaux attributs

### Tri des données en vue de la modélisation

### Suppression ou remplacement des blancs ou des valeurs manquantes

### Fractionnement en sous-ensembles d’apprentissage et de test