In [6]:
import pandas as pd

# Charger votre dataset
file_path = r"C:\Users\yayaa\ESEO E5\Projet_DataIES\dpe03existant.xlsx"
df = pd.read_excel(file_path)

print(f"Nombre de lignes initial : {len(df)}")

# Retirer les lignes où methode_application_dpe contient "dpe appartement généré à partir des données DPE immeuble"
df = df[df['methode_application_dpe'] != 'dpe appartement généré à partir des données DPE immeuble']

print(f"Nombre de lignes après filtrage : {len(df)}")

# Liste des colonnes à conserver
colonnes_a_garder = [
    'type_batiment',
    'type_installation_chauffage',
    'type_installation_ecs',
    'hauteur_sous_plafond',
    'etiquette_dpe',
    'etiquette_ges',
    'surface_habitable_logement',
    'nombre_niveau_logement',
    'code_postal_ban',
    'qualite_isolation_enveloppe',
    'cout_total_5_usages_energie_n1',
    'conso_5 usages_ef',
    'conso_5_usages_ep',
    'type_energie_n1',
    'type_energie_principale_chauffage'
]

# Filtrer le dataframe pour ne garder que ces colonnes
df_filtre = df[colonnes_a_garder]

# Sauvegarder le résultat en CSV
df_filtre.to_csv('DPE.csv', index=False)
df_filtre.to_excel('DPE.xlsx', index=False)


print(f"\nDataset filtré avec succès !")
print(f"Nombre de lignes final : {len(df_filtre)}")
print(f"Nombre de colonnes conservées : {len(df_filtre.columns)}")
print(f"\nAperçu des données :")
print(df_filtre.head())

Nombre de lignes initial : 10000
Nombre de lignes après filtrage : 8787

Dataset filtré avec succès !
Nombre de lignes final : 8787
Nombre de colonnes conservées : 15

Aperçu des données :
  type_batiment type_installation_chauffage type_installation_ecs  \
0   appartement                   collectif             collectif   
1   appartement                  individuel            individuel   
2   appartement                  individuel            individuel   
3        maison                         NaN                   NaN   
4   appartement                  individuel            individuel   

   hauteur_sous_plafond etiquette_dpe etiquette_ges  \
0                   2.5             D             D   
1                   2.5             E             B   
2                   2.8             D             D   
3                   2.3             D             B   
4                   2.5             D             B   

   surface_habitable_logement  nombre_niveau_logement  code_posta

In [15]:
import pandas as pd

# Charger uniquement le fichier CSV
print("="*60)
print("CHARGEMENT DU FICHIER CSV")
print("="*60)

df = pd.read_csv('DPE.csv')
print(f"DPE.csv charge : {len(df):,} lignes, {len(df.columns)} colonnes")
print("="*60)

# Analyse des valeurs manquantes
print("\n" + "="*60)
print("ANALYSE DES VALEURS MANQUANTES (NaN)")
print("="*60)

print("\nNombre de NaN par colonne :")
nan_count = df.isnull().sum()
print(nan_count)

print("\nPourcentage de NaN par colonne :")
nan_percentage = (df.isnull().sum() / len(df) * 100).round(2)
print(nan_percentage)

# Identifier les colonnes numériques et textuelles avec NaN
colonnes_numeriques_nan = df.select_dtypes(include=['float64', 'int64']).columns[df.select_dtypes(include=['float64', 'int64']).isnull().any()].tolist()
colonnes_textuelles_nan = df.select_dtypes(include=['object']).columns[df.select_dtypes(include=['object']).isnull().any()].tolist()

print("\nColonnes NUMERIQUES avec NaN :")
print(colonnes_numeriques_nan)

print("\nColonnes TEXTUELLES avec NaN :")
print(colonnes_textuelles_nan)

print(f"\nNombre total de lignes avec au moins un NaN : {df.isnull().any(axis=1).sum():,}")
print(f"Nombre de lignes completes (sans NaN) : {df.dropna().shape[0]:,}")
print("="*60)

# ==========================================
# GESTION DES NaN
# ==========================================
print("\n" + "="*60)
print("TRAITEMENT DES VALEURS MANQUANTES")
print("="*60)

df_clean = df.copy()

# Pour les colonnes numériques : remplacer par la MOYENNE
# Certaines colonnes doivent être arrondies à l'entier
colonnes_entieres = ['nombre_niveau_logement', 'code_postal_ban']

for col in colonnes_numeriques_nan:
    moyenne = df_clean[col].mean()
    
    # Si la colonne doit être entière, on arrondit
    if col in colonnes_entieres:
        moyenne_arrondie = round(moyenne)
        df_clean[col] = df_clean[col].fillna(moyenne_arrondie)
        print(f"{col} : NaN remplaces par la moyenne arrondie ({moyenne_arrondie})")
    else:
        df_clean[col] = df_clean[col].fillna(moyenne)
        print(f"{col} : NaN remplaces par la moyenne ({moyenne:.2f})")

# Pour les colonnes textuelles : OPTION B - Remplacer par le mode
for col in colonnes_textuelles_nan:
    mode = df_clean[col].mode()[0] if not df_clean[col].mode().empty else 'Inconnu'
    df_clean[col] = df_clean[col].fillna(mode)
    print(f"{col} : NaN remplaces par le mode ('{mode}')")

print("="*60)

# Vérification finale
print("\n" + "="*60)
print("RESULTAT APRES GESTION DES NaN")
print("="*60)
print(f"Lignes avant nettoyage : {len(df):,}")
print(f"Lignes apres nettoyage : {len(df_clean):,}")
print(f"NaN restants : {df_clean.isnull().sum().sum()}")
print("="*60)

# Sauvegarder le dataset nettoyé
df_clean.to_csv('DPE_clean.csv', index=False)
df_clean.to_excel('DPE_clean.xlsx', index=False)

print("\n" + "="*60)
print("FICHIERS SAUVEGARDES")
print("="*60)
print("DPE_clean.csv")
print("DPE_clean.xlsx")
print("="*60)

CHARGEMENT DU FICHIER CSV
DPE.csv charge : 8,787 lignes, 15 colonnes

ANALYSE DES VALEURS MANQUANTES (NaN)

Nombre de NaN par colonne :
type_batiment                           0
type_installation_chauffage          3811
type_installation_ecs                3811
hauteur_sous_plafond                    0
etiquette_dpe                           0
etiquette_ges                           0
surface_habitable_logement             77
nombre_niveau_logement                 80
code_postal_ban                        73
qualite_isolation_enveloppe             0
cout_total_5_usages_energie_n1          0
conso_5 usages_ef                       0
conso_5_usages_ep                       0
type_energie_n1                         0
type_energie_principale_chauffage       0
dtype: int64

Pourcentage de NaN par colonne :
type_batiment                         0.00
type_installation_chauffage          43.37
type_installation_ecs                43.37
hauteur_sous_plafond                  0.00
etiquette_dpe  

In [18]:
import pandas as pd

df = pd.read_csv('DPE_clean.csv')

print(f"Lignes : {len(df)}")
print(f"Colonnes : {len(df.columns)}")

# Voir les NaN par ligne
nb_nan_par_ligne = df.isnull().sum(axis=1)

print(f"\nLignes avec NaN : {(nb_nan_par_ligne > 0).sum()}")
print(f"Lignes sans NaN : {(nb_nan_par_ligne == 0).sum()}")

# Remplir les NaN ligne par ligne
df_clean = df.copy()

for col in df.columns:
    if df[col].dtype in ['float64', 'int64']:
        # Numériques : moyenne
        df_clean[col].fillna(df[col].mean(), inplace=True)
    else:
        # Texte : mode
        df_clean[col].fillna(df[col].mode()[0], inplace=True)

print(f"\nLignes avec NaN après traitement : {df_clean.isnull().any(axis=1).sum()}")

df_clean.to_csv('DPE_Finale.csv', index=False)
print("Fichier sauvegardé")


Lignes : 8787
Colonnes : 15

Lignes avec NaN : 0
Lignes sans NaN : 8787

Lignes avec NaN après traitement : 0
Fichier sauvegardé


In [19]:
import pandas as pd

df = pd.read_excel('DPE_clean.xlsx')

print(f"Lignes : {len(df)}")
print(f"Colonnes : {len(df.columns)}")

# Voir les NaN par ligne
nb_nan_par_ligne = df.isnull().sum(axis=1)

print(f"\nLignes avec NaN : {(nb_nan_par_ligne > 0).sum()}")
print(f"Lignes sans NaN : {(nb_nan_par_ligne == 0).sum()}")

# Remplir les NaN ligne par ligne
df_clean = df.copy()

for col in df.columns:
    if df[col].dtype in ['float64', 'int64']:
        # Numériques : moyenne
        df_clean[col].fillna(df[col].mean(), inplace=True)
    else:
        # Texte : mode
        df_clean[col].fillna(df[col].mode()[0], inplace=True)

print(f"\nLignes avec NaN après traitement : {df_clean.isnull().any(axis=1).sum()}")

df_clean.to_excel('DPE_Finale.xlsx', index=False)
print("Fichier sauvegardé")


Lignes : 8787
Colonnes : 15

Lignes avec NaN : 0
Lignes sans NaN : 8787

Lignes avec NaN après traitement : 0
Fichier sauvegardé


In [21]:
import pandas as pd

df = pd.read_excel('DPE_Finale.xlsx')

print(f"Colonnes avant : {len(df.columns)}")
print(df.columns.tolist())

# Supprimer la colonne
df_clean = df.drop('type_energie_n1', axis=1)

print(f"\nColonnes après : {len(df_clean.columns)}")
print(df_clean.columns.tolist())

# Sauvegarder
df_clean.to_excel('DPE.xlsx', index=False)
print("\n Colonne supprimée et fichier sauvegardé")


Colonnes avant : 15
['type_batiment', 'type_installation_chauffage', 'type_installation_ecs', 'hauteur_sous_plafond', 'etiquette_dpe', 'etiquette_ges', 'surface_habitable_logement', 'nombre_niveau_logement', 'code_postal_ban', 'qualite_isolation_enveloppe', 'cout_total_5_usages_energie_n1', 'conso_5 usages_ef', 'conso_5_usages_ep', 'type_energie_n1', 'type_energie_principale_chauffage']

Colonnes après : 14
['type_batiment', 'type_installation_chauffage', 'type_installation_ecs', 'hauteur_sous_plafond', 'etiquette_dpe', 'etiquette_ges', 'surface_habitable_logement', 'nombre_niveau_logement', 'code_postal_ban', 'qualite_isolation_enveloppe', 'cout_total_5_usages_energie_n1', 'conso_5 usages_ef', 'conso_5_usages_ep', 'type_energie_principale_chauffage']

 Colonne supprimée et fichier sauvegardé
