## S1J5 (Projet) : Créer un script Python pour nettoyer un fichier CSV contenant des données erronées.
### **Objectif :**

- Comprendre comment analyser, nettoyer et transformer des données brutes.
- Appliquer les concepts appris dans la semaine sur un projet pratique.
- Produire un fichier propre prêt à être utilisé dans des pipelines de données.

---

### **Contexte :**

Vous avez reçu un fichier CSV contenant des données clients pour une entreprise. Cependant, ce fichier est incomplet et contient des erreurs courantes (valeurs manquantes, doublons, types incorrects). Votre mission est de nettoyer ce fichier et d’en produire une version exploitable.

### **Étapes du projet :**

### **1. Charger le fichier CSV.**

Commencez par charger le fichier dans un DataFrame Pandas. Analysez rapidement son contenu.

In [23]:
import pandas as pd

# Charger le fichier CSV
df = pd.read_csv("44.csv")

# Aperçu des données
print(df.head())
print(df.info())
print(df.describe())

  df = pd.read_csv("44.csv")


   id_mutation date_mutation  numero_disposition nature_mutation  \
0  2023-235485    2023-01-03                   1           Vente   
1  2023-235486    2023-01-03                   1           Vente   
2  2023-235487    2023-01-03                   1           Vente   
3  2023-235487    2023-01-03                   1           Vente   
4  2023-235488    2023-01-03                   1           Vente   

   valeur_fonciere  adresse_numero adresse_suffixe        adresse_nom_voie  \
0           3500.0             NaN             NaN          LA GRANDE HAIE   
1             47.0             8.0             NaN  RUE DE LA MOUCHONNERIE   
2         275000.0            75.0             NaN         RUE DES PLANTES   
3         275000.0            75.0             NaN         RUE DES PLANTES   
4         185000.0             4.0             NaN         RUE DE JEMMAPES   

  adresse_code_voie  code_postal  ...   type_local surface_reelle_bati  \
0              B793      44119.0  ...          N

In [24]:
# Affichage de la liste de toutes les colonnes.
df.columns

Index(['id_mutation', 'date_mutation', 'numero_disposition', 'nature_mutation',
       'valeur_fonciere', 'adresse_numero', 'adresse_suffixe',
       'adresse_nom_voie', 'adresse_code_voie', 'code_postal', 'code_commune',
       'nom_commune', 'code_departement', 'ancien_code_commune',
       'ancien_nom_commune', 'id_parcelle', 'ancien_id_parcelle',
       'numero_volume', 'lot1_numero', 'lot1_surface_carrez', 'lot2_numero',
       'lot2_surface_carrez', 'lot3_numero', 'lot3_surface_carrez',
       'lot4_numero', 'lot4_surface_carrez', 'lot5_numero',
       'lot5_surface_carrez', 'nombre_lots', 'code_type_local', 'type_local',
       'surface_reelle_bati', 'nombre_pieces_principales',
       'code_nature_culture', 'nature_culture', 'code_nature_culture_speciale',
       'nature_culture_speciale', 'surface_terrain', 'longitude', 'latitude'],
      dtype='object')

### **2. Identifier les problèmes.**

Voici des exemples de problèmes courants à chercher dans vos données :

- **Valeurs manquantes** : Certaines colonnes peuvent contenir des NaN (Not a Number).
- **Doublons** : Plusieurs lignes identiques ou proches.
- **Erreurs de type** : Par exemple, des dates enregistrées comme texte ou des nombres mal formatés.
- **Valeurs aberrantes** : Des âges négatifs, des revenus excessivement élevés ou nuls, etc.

In [25]:
# Détecter et supprimer les doublons.
df.drop_duplicates(inplace=True)

# Traiter les valeurs manquantes : Vérification.
df.isnull().sum()

id_mutation                         0
date_mutation                       0
numero_disposition                  0
nature_mutation                     0
valeur_fonciere                   405
adresse_numero                  12930
adresse_suffixe                 36840
adresse_nom_voie                  105
adresse_code_voie                  97
code_postal                        97
code_commune                        0
nom_commune                         0
code_departement                    0
ancien_code_commune             38270
ancien_nom_commune              38270
id_parcelle                         0
ancien_id_parcelle              38270
numero_volume                   38190
lot1_numero                     25605
lot1_surface_carrez             35188
lot2_numero                     34745
lot2_surface_carrez             37219
lot3_numero                     37716
lot3_surface_carrez             38205
lot4_numero                     38080
lot4_surface_carrez             38251
lot5_numero 

In [26]:
# Vérifier le type de données par colonnes.
print(df.dtypes)

id_mutation                      object
date_mutation                    object
numero_disposition                int64
nature_mutation                  object
valeur_fonciere                 float64
adresse_numero                  float64
adresse_suffixe                  object
adresse_nom_voie                 object
adresse_code_voie                object
code_postal                     float64
code_commune                      int64
nom_commune                      object
code_departement                  int64
ancien_code_commune             float64
ancien_nom_commune              float64
id_parcelle                      object
ancien_id_parcelle              float64
numero_volume                    object
lot1_numero                      object
lot1_surface_carrez             float64
lot2_numero                     float64
lot2_surface_carrez             float64
lot3_numero                     float64
lot3_surface_carrez             float64
lot4_numero                     float64


In [27]:
# Application des remplacements en fonction du type de chaque colonne.
for col in df.columns:
    # Si la colonne est de type "object" (chaîne de caractères).
    if df[col].dtype == "object":  
        df[col] = df[col].fillna("Inconnu")
    # Si la colonne est de type "float64".
    elif df[col].dtype == "float64":  
        df[col] = df[col].fillna(0.00)
    # Si la colonne est de type "int64".
    elif df[col].dtype == "int64":
        df[col] = df[col].fillna(0)
        
# Vérification.
df.isnull().sum()

id_mutation                     0
date_mutation                   0
numero_disposition              0
nature_mutation                 0
valeur_fonciere                 0
adresse_numero                  0
adresse_suffixe                 0
adresse_nom_voie                0
adresse_code_voie               0
code_postal                     0
code_commune                    0
nom_commune                     0
code_departement                0
ancien_code_commune             0
ancien_nom_commune              0
id_parcelle                     0
ancien_id_parcelle              0
numero_volume                   0
lot1_numero                     0
lot1_surface_carrez             0
lot2_numero                     0
lot2_surface_carrez             0
lot3_numero                     0
lot3_surface_carrez             0
lot4_numero                     0
lot4_surface_carrez             0
lot5_numero                     0
lot5_surface_carrez             0
nombre_lots                     0
code_type_loca

### **3. Sauvegarder le fichier nettoyé.**

Exportez le fichier nettoyé pour qu’il puisse être utilisé dans un autre pipeline ou une analyse.

In [28]:
df.to_csv("44_clean.csv", index=False)