In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [11]:
# Configuration pour de meilleurs graphiques
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

In [12]:
# Chemin du projet et du fichier
project_root = r'C:\Users\Marouane\ImmoPredict'

# Lister tous les fichiers dans le dossier raw pour trouver le fichier DVF 2024
raw_dir = os.path.join(project_root, 'data', 'raw')
print("Fichiers disponibles dans le dossier raw:")
for file in os.listdir(raw_dir):
    print(f" - {file}")

Fichiers disponibles dans le dossier raw:
 - ValeursFoncieres-2024.txt


In [13]:
dvf_file = "valeursfoncieres-2024.txt"  
dvf_path = os.path.join(raw_dir, dvf_file)

In [14]:
if os.path.exists(dvf_path):
    print(f"\nLe fichier {dvf_file} existe!")
    print(f"Taille du fichier: {os.path.getsize(dvf_path) / (1024*1024):.2f} MB")
    
    # Chargement d'un petit échantillon pour explorer la structure
    try:
        # Essayer de lire les premières lignes pour comprendre la structure
        sample_df = pd.read_csv(dvf_path, sep='|', encoding='utf-8', nrows=5)
        print("\nAperçu des premières lignes:")
        display(sample_df.head())
        
        # Chargement d'un échantillon plus grand pour l'analyse
        print("\nChargement d'un échantillon plus grand pour l'analyse...")
        df_sample = pd.read_csv(dvf_path, sep='|', encoding='utf-8', nrows=50000)
        
        # Informations sur le dataset
        print("\nInformations sur le dataset:")
        print(f"Dimensions: {df_sample.shape}")
        print("\nTypes de données:")
        display(df_sample.dtypes)
        
        # Statistiques descriptives
        print("\nStatistiques descriptives:")
        display(df_sample.describe())
        
        # Vérification des valeurs manquantes
        print("\nValeurs manquantes par colonne:")
        missing_values = df_sample.isnull().sum()
        missing_percent = (missing_values / len(df_sample)) * 100
        missing_df = pd.DataFrame({'Nombre': missing_values, 'Pourcentage (%)': missing_percent})
        display(missing_df[missing_df['Nombre'] > 0].sort_values('Pourcentage (%)', ascending=False))
        
    except Exception as e:
        print(f"Erreur lors de la lecture du fichier: {e}")
        print("Essayons avec un encodage différent...")
        
        # Essayer avec un encodage différent si nécessaire
        try:
            sample_df = pd.read_csv(dvf_path, sep='|', encoding='latin1', nrows=5)
            print("\nAperçu des premières lignes (encodage latin1):")
            display(sample_df.head())
            
            # Si ça fonctionne, utiliser cet encodage pour l'échantillon complet
            df_sample = pd.read_csv(dvf_path, sep='|', encoding='latin1', nrows=50000)
            print(f"Dimensions: {df_sample.shape}")
        except Exception as e2:
            print(f"Nouvelle erreur: {e2}")
else:
    print(f"\nLe fichier {dvf_path} n'existe pas!")
    print("Veuillez vérifier le nom exact du fichier et son emplacement.")


Le fichier valeursfoncieres-2024.txt existe!
Taille du fichier: 439.92 MB

Aperçu des premières lignes:


Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,...,Surface Carrez du 5eme lot,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain
0,,,,,,,,1,02/01/2024,Vente,...,,0,,,,,,P,,99.0
1,,,,,,,,2,03/01/2024,Vente,...,,0,,,,,,S,,115.0
2,,,,,,,,1,08/01/2024,Vente,...,,0,,,,,,S,,497.0
3,,,,,,,,1,03/01/2024,Vente,...,,1,3.0,Dépendance,,0.0,0.0,,,
4,,,,,,,,1,03/01/2024,Vente,...,,2,3.0,Dépendance,,0.0,0.0,,,



Chargement d'un échantillon plus grand pour l'analyse...

Informations sur le dataset:
Dimensions: (50000, 43)

Types de données:


  df_sample = pd.read_csv(dvf_path, sep='|', encoding='utf-8', nrows=50000)


Identifiant de document       float64
Reference document            float64
1 Articles CGI                float64
2 Articles CGI                float64
3 Articles CGI                float64
4 Articles CGI                float64
5 Articles CGI                float64
No disposition                  int64
Date mutation                  object
Nature mutation                object
Valeur fonciere                object
No voie                       float64
B/T/Q                          object
Type de voie                   object
Code voie                      object
Voie                           object
Code postal                   float64
Commune                        object
Code departement                int64
Code commune                    int64
Prefixe de section            float64
Section                        object
No plan                         int64
No Volume                     float64
1er lot                        object
Surface Carrez du 1er lot      object
2eme lot    


Statistiques descriptives:


Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,No voie,Code postal,...,2eme lot,3eme lot,4eme lot,5eme lot,Nombre de lots,Code type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Surface terrain
count,0.0,0.0,0.0,0.0,0.0,0.0,0.0,50000.0,23261.0,49833.0,...,2986.0,717.0,219.0,54.0,50000.0,22915.0,0.0,22829.0,22829.0,39611.0
mean,,,,,,,,1.09364,684.021495,1573.312082,...,105.865037,90.108787,63.894977,50.592593,0.2813,2.245778,,87.219326,1.855797,2778.740552
std,,,,,,,,0.365286,1771.221786,494.585751,...,270.743399,268.97369,121.98937,83.753799,0.720237,0.973055,,1801.919743,2.168794,11912.465921
min,,,,,,,,1.0,1.0,1000.0,...,2.0,2.0,2.0,2.0,0.0,1.0,,0.0,0.0,0.0
25%,,,,,,,,1.0,14.0,1210.0,...,9.0,6.0,6.0,6.25,0.0,1.0,,0.0,0.0,230.0
50%,,,,,,,,1.0,52.0,1390.0,...,38.0,21.0,9.0,9.0,0.0,3.0,,38.0,0.0,656.0
75%,,,,,,,,1.0,258.0,1800.0,...,92.0,76.0,61.0,62.25,0.0,3.0,,92.0,4.0,1620.0
max,,,,,,,,10.0,9731.0,2880.0,...,4122.0,3040.0,552.0,358.0,57.0,4.0,,265000.0,20.0,734066.0



Valeurs manquantes par colonne:


Unnamed: 0,Nombre,Pourcentage (%)
Identifiant de document,50000,100.0
Reference document,50000,100.0
1 Articles CGI,50000,100.0
2 Articles CGI,50000,100.0
3 Articles CGI,50000,100.0
4 Articles CGI,50000,100.0
5 Articles CGI,50000,100.0
Identifiant local,50000,100.0
Surface Carrez du 5eme lot,49993,99.986
Surface Carrez du 4eme lot,49955,99.91
