In [1]:
import pandas as pd

In [2]:
# Chargement du fichier
# On utilise sep=';' car ton fichier utilise des points-virgules comme séparateurs
df = pd.read_csv('annonces_etreproprio_maisons_appartements.csv', sep=';')

# Affichage des 5 premières lignes pour vérifier que tout est bien chargé
df.head()

Unnamed: 0,Type de Bien,Departement,Ville,Code_Postal,Nb_Pieces,Surface_Interieure,Surface_Terrain,Prix,Lien
0,Maison,Ain,Pont-D'ain,1160.0,1.0,1m²,,235000€,https://www.etreproprio.com/immobilier-2221753...
1,Maison,Ain,Chazey-Bons,1300.0,4.0,1m²,184m²,80000€,https://www.etreproprio.com/immobilier-2391073...
2,Maison,Ain,Bourg-En-Bresse,1000.0,1.0,15m²,,32559€,https://www.etreproprio.com/immobilier-2337024...
3,Maison,Ain,Saint-Andre-De-Corcy,1390.0,3.0,24m²,185m²,54450€,https://www.etreproprio.com/immobilier-2392443...
4,Maison,Ain,Amberieux-En-Dombes,1330.0,3.0,24m²,,54453€,https://www.etreproprio.com/immobilier-2393840...


In [3]:
# Affichage des dimensions (lignes, colonnes)
print(f"Dimensions du dataset : {df.shape}")
print("-" * 30)

# Affichage des types de colonnes et des valeurs non-nulles
df.info()

Dimensions du dataset : (506775, 9)
------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506775 entries, 0 to 506774
Data columns (total 9 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   Type de Bien        506775 non-null  object 
 1   Departement         506775 non-null  object 
 2   Ville               506747 non-null  object 
 3   Code_Postal         506731 non-null  float64
 4   Nb_Pieces           493420 non-null  float64
 5   Surface_Interieure  506747 non-null  object 
 6   Surface_Terrain     270884 non-null  object 
 7   Prix                506744 non-null  object 
 8   Lien                506775 non-null  object 
dtypes: float64(2), object(7)
memory usage: 34.8+ MB


In [4]:
# Exploration rapide
print(f"Dimensions du dataset : {df.shape}")
print("-" * 30)
df.info()
print("-" * 30)

## Renommage des colonnes
# Dictionnaire de correspondance : "Ancien Nom": "Nouveau Nom"
nouveaux_noms = {
    "Prix": "prix",
    "Type de Bien": "type_de_bien",
    "Lien": "url_annonce",
    "Surface_Interieure": "surface_interieure",
    "Surface_Terrain": "surface_exterieure",
    "Nb_Pieces": "nombre_de_pieces",
    "Ville": "ville",
    "Code_Postal": "code_postal",
    "Departement": "departement"
}

# Application du renommage
df = df.rename(columns=nouveaux_noms)

print("Colonnes renommées :")
print(df.columns.tolist())

Dimensions du dataset : (506775, 9)
------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506775 entries, 0 to 506774
Data columns (total 9 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   Type de Bien        506775 non-null  object 
 1   Departement         506775 non-null  object 
 2   Ville               506747 non-null  object 
 3   Code_Postal         506731 non-null  float64
 4   Nb_Pieces           493420 non-null  float64
 5   Surface_Interieure  506747 non-null  object 
 6   Surface_Terrain     270884 non-null  object 
 7   Prix                506744 non-null  object 
 8   Lien                506775 non-null  object 
dtypes: float64(2), object(7)
memory usage: 34.8+ MB
------------------------------
Colonnes renommées :
['type_de_bien', 'departement', 'ville', 'code_postal', 'nombre_de_pieces', 'surface_interieure', 'surface_exterieure', 'prix', 'url_annonce']


In [5]:
# Aperçu après modification
df.head()

Unnamed: 0,type_de_bien,departement,ville,code_postal,nombre_de_pieces,surface_interieure,surface_exterieure,prix,url_annonce
0,Maison,Ain,Pont-D'ain,1160.0,1.0,1m²,,235000€,https://www.etreproprio.com/immobilier-2221753...
1,Maison,Ain,Chazey-Bons,1300.0,4.0,1m²,184m²,80000€,https://www.etreproprio.com/immobilier-2391073...
2,Maison,Ain,Bourg-En-Bresse,1000.0,1.0,15m²,,32559€,https://www.etreproprio.com/immobilier-2337024...
3,Maison,Ain,Saint-Andre-De-Corcy,1390.0,3.0,24m²,185m²,54450€,https://www.etreproprio.com/immobilier-2392443...
4,Maison,Ain,Amberieux-En-Dombes,1330.0,3.0,24m²,,54453€,https://www.etreproprio.com/immobilier-2393840...


In [6]:
# Vérification des doublons sur l'ensemble des colonnes
doublons_detectes = df.duplicated(keep=False)
nb_doublons = doublons_detectes.sum()

print(f"Nombre de lignes totales dans le DataFrame : {len(df)}")
print(f"Nombre de lignes qui sont des doublons (première occurrence incluse) : {nb_doublons}")

# Si tu veux voir l'aperçu de ces doublons :
if nb_doublons > 0:
    print("-" * 50)
    print("Aperçu des premières lignes dupliquées :")
    df[doublons_detectes].head()
else:
    print("Aucun doublon parfait trouvé.")

Nombre de lignes totales dans le DataFrame : 506775
Nombre de lignes qui sont des doublons (première occurrence incluse) : 0
Aucun doublon parfait trouvé.


In [7]:
# 1. Nettoyage des surfaces (retrait de 'm²')
df['surface_interieure'] = df['surface_interieure'].str.replace('m²', '', regex=False)
df['surface_exterieure'] = df['surface_exterieure'].str.replace('m²', '', regex=False)

# 2. Nettoyage du prix (retrait de '€')
df['prix'] = df['prix'].str.replace('€', '', regex=False)

# 3. Conversion préliminaire de toutes les futures colonnes numériques
# L'option errors='coerce' transforme les 'N/A' ou erreurs de format en NaN (valeur manquante standard)
cols_a_nettoyer = ['prix', 'nombre_de_pieces', 'surface_interieure', 'surface_exterieure']
for col in cols_a_nettoyer:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# Aperçu après modification
df.head()

Unnamed: 0,type_de_bien,departement,ville,code_postal,nombre_de_pieces,surface_interieure,surface_exterieure,prix,url_annonce
0,Maison,Ain,Pont-D'ain,1160.0,1.0,1.0,,235000.0,https://www.etreproprio.com/immobilier-2221753...
1,Maison,Ain,Chazey-Bons,1300.0,4.0,1.0,184.0,80000.0,https://www.etreproprio.com/immobilier-2391073...
2,Maison,Ain,Bourg-En-Bresse,1000.0,1.0,15.0,,32559.0,https://www.etreproprio.com/immobilier-2337024...
3,Maison,Ain,Saint-Andre-De-Corcy,1390.0,3.0,24.0,185.0,54450.0,https://www.etreproprio.com/immobilier-2392443...
4,Maison,Ain,Amberieux-En-Dombes,1330.0,3.0,24.0,,54453.0,https://www.etreproprio.com/immobilier-2393840...


In [8]:
# String
cols_texte = ['type_de_bien', 'departement', 'ville', 'url_annonce', 'code_postal']
df[cols_texte] = df[cols_texte].astype('string')

# Float
cols_float = ['nombre_de_pieces', 'surface_interieure', 'surface_exterieure']
df[cols_float] = df[cols_float].astype(float)

# Int64
df['prix'] = df['prix'].astype('Int64')


# Vérification finale des types pour s'assurer du succès des conversions
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506775 entries, 0 to 506774
Data columns (total 9 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   type_de_bien        506775 non-null  string 
 1   departement         506775 non-null  string 
 2   ville               506747 non-null  string 
 3   code_postal         506731 non-null  string 
 4   nombre_de_pieces    493420 non-null  float64
 5   surface_interieure  506747 non-null  float64
 6   surface_exterieure  270883 non-null  float64
 7   prix                504830 non-null  Int64  
 8   url_annonce         506775 non-null  string 
dtypes: Int64(1), float64(3), string(5)
memory usage: 35.3 MB


In [9]:
# Identification du nombre de NaN dans la colonne 'ville'
nan_ville = df['ville'].isna().sum()

print(f"Nombre de lignes où la ville est manquante (NaN) : {nan_ville}")

if nan_ville > 0:
    # 2. Suppression des lignes où 'ville' est NaN
    # Le paramètre inplace=True modifie le DataFrame directement.
    df.dropna(subset=['ville'], inplace=True)

    print(f"Nombre de lignes restantes après suppression : {len(df)}")
else:
    print("Aucune suppression n'est nécessaire pour la colonne 'ville'.")

# Vérification après suppression
nan_ville_apres = df['ville'].isna().sum()
print(f"Nombre de lignes où la ville est manquante (NaN) après suppression : {nan_ville_apres}")

Nombre de lignes où la ville est manquante (NaN) : 28
Nombre de lignes restantes après suppression : 506747
Nombre de lignes où la ville est manquante (NaN) après suppression : 0


In [10]:
# Exporte le DataFrame final vers un nouveau fichier CSV
# L'index est mis à False car il n'est pas nécessaire pour l'analyse
df.to_csv('traitement.csv', sep=';', index=False, encoding='utf-8-sig')

# Affiche un message de confirmation
print("Export du fichier CSV terminé")

Export du fichier CSV terminé
