In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
from nltk.probability import FreqDist


# La préparation des données

In [6]:
# Liste des noms de fichiers
file_names = ['valeursfoncieres/valeursfoncieres-2018.txt', 'valeursfoncieres/valeursfoncieres-2019.txt', 'valeursfoncieres/valeursfoncieres-2020.txt', 'valeursfoncieres/valeursfoncieres-2021.txt', 'valeursfoncieres/valeursfoncieres-2022.txt']

# Création d'une liste vide pour stocker les DataFrames
dataframes = []

## Fusion des ensembles et/ou enregistrements de données

In [9]:
# Parcourir chaque fichier et charger les données dans un DataFrame
for file_name in file_names:
    # Charger le fichier en utilisant la fonction read_csv de pandas
    df = pd.read_csv(file_name, delimiter='|', encoding='utf-8', nrows=1000)
    # Ajouter le DataFrame à la liste
    dataframes.append(df)

# Fusionner les DataFrames en un seul DataFrame
merged_df = pd.concat(dataframes)

In [30]:
pd.set_option('display.max_columns', None)  # Afficher toutes les colonnes
pd.set_option('display.width', None)  # Ajuster la largeur de l'affichage

print(merged_df.shape)
merged_df.head()

(18958987, 43)


Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,Valeur fonciere,No voie,B/T/Q,Type de voie,Code voie,Voie,Code postal,Commune,Code departement,Code commune,Prefixe de section,Section,No plan,No Volume,1er lot,Surface Carrez du 1er lot,2eme lot,Surface Carrez du 2eme lot,3eme lot,Surface Carrez du 3eme lot,4eme lot,Surface Carrez du 4eme lot,5eme lot,Surface Carrez du 5eme lot,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain
0,,,,,,,,1,03/01/2018,Vente,10900000,13.0,,RUE,1660,GEN LOGEROT,1000.0,BOURG-EN-BRESSE,1,53,,AN,73,,1.0,,31.0,,,,,,,,2,2.0,Appartement,,73.0,4.0,,,
1,,,,,,,,1,03/01/2018,Vente,10900000,13.0,,RUE,1660,GEN LOGEROT,1000.0,BOURG-EN-BRESSE,1,53,,AN,73,,13.0,,,,,,,,,,1,3.0,Dépendance,,0.0,0.0,,,
2,,,,,,,,1,04/01/2018,Vente,23930000,4.0,,RUE,25,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,,AH,186,,,,,,,,,,,,0,1.0,Maison,,163.0,4.0,S,,949.0
3,,,,,,,,1,04/01/2018,Vente,23930000,4.0,,RUE,25,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,,AH,186,,,,,,,,,,,,0,1.0,Maison,,163.0,4.0,AG,JARD,420.0
4,,,,,,,,1,04/01/2018,Vente,23930000,4.0,,RUE,25,DE LA BARMETTE,1250.0,NIVIGNE ET SURAN,1,95,,AH,186,,,,,,,,,,,,0,1.0,Maison,,51.0,2.0,AG,JARD,420.0


## Sélection d’un sous-ensemble de données

In [31]:
# Supprimer les colonnes inutiles
columns_to_drop = ['Identifiant de document', 'Reference document', '1 Articles CGI', '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI', 'No disposition', 'No voie', 'B/T/Q', 'Code voie', 'No plan', 'No Volume', '1er lot', 'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot', '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot', 'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot', 'Nombre de lots', 'Identifiant local']
merged_df.drop(columns=columns_to_drop, inplace=True)

# Supprimer les enregistrements avec des valeurs manquantes
merged_df.dropna(inplace=True)

In [32]:
pd.set_option('display.max_columns', None)  # Afficher toutes les colonnes
pd.set_option('display.width', None)  # Ajuster la largeur de l'affichage

print(merged_df.shape)
merged_df.head()

(4047, 18)


Unnamed: 0,Date mutation,Nature mutation,Valeur fonciere,Type de voie,Voie,Code postal,Commune,Code departement,Code commune,Prefixe de section,Section,Code type local,Type local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain
55366,31/08/2018,Vente,5150000,RUE,DE MAIZY,2160.0,LES SEPTVALLONS,2,439,646.0,B,1.0,Maison,60.0,3.0,AG,JARD,1143.0
249276,11/07/2018,Vente,8620000,RUE,DU PONT NEUF,10380.0,PLANCY-L'ABBAYE,10,289,407.0,AB,1.0,Maison,150.0,6.0,AG,PARC,2704.0
305003,01/02/2018,Vente,29425700,RUE,BARBAROUX,13001.0,MARSEILLE 1ER,13,201,806.0,B,3.0,Dépendance,0.0,0.0,J,POTAG,51.0
305406,27/02/2018,Vente,43500000,MTE,DU MONT D OR,13015.0,MARSEILLE 15EME,13,215,903.0,E,3.0,Dépendance,0.0,0.0,VE,OLIVE,221.0
305835,06/04/2018,Vente,20000000,RES,DAUPHINE RUE LECHATE,13015.0,MARSEILLE 15EME,13,215,902.0,A,1.0,Maison,88.0,5.0,J,POTAG,198.0


In [33]:
# Convertir la colonne 'Valeur fonciere' en format numérique
merged_df['Valeur fonciere'] = merged_df['Valeur fonciere'].str.replace(',', '.').astype(float)

# Fractionner les données en sous-ensembles d'apprentissage et de test
# Par exemple, supposons que vous souhaitez utiliser 80% des données pour l'apprentissage et 20% pour le test
train_ratio = 0.8
train_size = int(len(merged_df) * train_ratio)

train_data = merged_df[:train_size]
test_data = merged_df[train_size:]

# Analyse exploratoire des données
# Par exemple, afficher les statistiques descriptives du prix foncier
print(train_data['Valeur fonciere'].describe())

# Afficher les premières lignes du DataFrame fusionné
print(merged_df.head())

count    3.237000e+03
mean     1.123609e+06
std      2.163627e+06
min      1.000000e+00
25%      1.655000e+05
50%      2.600000e+05
75%      6.200000e+05
max      1.560000e+07
Name: Valeur fonciere, dtype: float64
       Date mutation Nature mutation  Valeur fonciere Type de voie  \
55366     31/08/2018           Vente          51500.0          RUE   
249276    11/07/2018           Vente          86200.0          RUE   
305003    01/02/2018           Vente         294257.0          RUE   
305406    27/02/2018           Vente         435000.0          MTE   
305835    06/04/2018           Vente         200000.0          RES   

                        Voie  Code postal          Commune Code departement  \
55366               DE MAIZY       2160.0  LES SEPTVALLONS                2   
249276          DU PONT NEUF      10380.0  PLANCY-L'ABBAYE               10   
305003             BARBAROUX      13001.0    MARSEILLE 1ER               13   
305406          DU MONT D OR      13015.0  MARSEI

### Calcul de nouveaux attributs

### Tri des données en vue de la modélisation

### Suppression ou remplacement des blancs ou des valeurs manquantes

### Fractionnement en sous-ensembles d’apprentissage et de test