In [1]:
import pandas as pd
import os

def charger_dataset():
    """
    Charge le dataset Titanic depuis le dossier spécifié
    """
    try:
        chemin = 'WEEK_2/DAY_3/DATASET/train.csv'
        if not os.path.exists(chemin):
            print(f"Erreur : Le fichier {chemin} n'existe pas")
            return None
            
        df = pd.read_csv(chemin)
        return df
        
    except Exception as e:
        print(f"Erreur lors du chargement : {e}")
        return None

In [2]:
def analyser_doublons(df):
    """
    Analyse les doublons dans le dataset
    """
    print("\n=== ANALYSE DES DOUBLONS ===")
    
    # Nombre total de lignes avant suppression
    nb_lignes_avant = len(df)
    print(f"Nombre total de lignes avant : {nb_lignes_avant}")
    
    # Identification des doublons
    doublons = df.duplicated()
    nb_doublons = doublons.sum()
    print(f"Nombre de doublons trouvés : {nb_doublons}")
    
    if nb_doublons > 0:
        print("\nAperçu des lignes en double :")
        print(df[doublons])
        
        # Analyse des doublons par colonne
        print("\nDoublons par colonne :")
        for colonne in df.columns:
            doublons_colonne = df.duplicated(subset=[colonne]).sum()
            if doublons_colonne > 0:
                print(f"{colonne}: {doublons_colonne} doublons")
    
    return nb_doublons

In [3]:
def supprimer_doublons(df):
    """
    Supprime les doublons du dataset
    """
    print("\n=== SUPPRESSION DES DOUBLONS ===")
    
    # Sauvegarde du nombre de lignes initial
    nb_lignes_avant = len(df)
    
    # Suppression des doublons
    df_sans_doublons = df.drop_duplicates()
    
    # Nombre de lignes après suppression
    nb_lignes_apres = len(df_sans_doublons)
    
    # Calcul du nombre de lignes supprimées
    nb_lignes_supprimees = nb_lignes_avant - nb_lignes_apres
    
    print(f"Nombre de lignes avant : {nb_lignes_avant}")
    print(f"Nombre de lignes après : {nb_lignes_apres}")
    print(f"Nombre de lignes supprimées : {nb_lignes_supprimees}")
    
    return df_sans_doublons

In [4]:
def verifier_suppression(df_original, df_nettoye):
    """
    Vérifie que la suppression des doublons a bien fonctionné
    """
    print("\n=== VÉRIFICATION DE LA SUPPRESSION ===")
    
    # Vérification qu'il n'y a plus de doublons
    nouveaux_doublons = df_nettoye.duplicated().sum()
    print(f"Nombre de doublons restants : {nouveaux_doublons}")
    
    # Vérification de la préservation des données uniques
    print("\nComparaison des données :")
    print(f"Colonnes préservées : {all(df_original.columns == df_nettoye.columns)}")
    print(f"Types de données préservés : {all(df_original.dtypes == df_nettoye.dtypes)}")


In [5]:
def main():
    # Chargement des données
    print("Chargement du dataset Titanic...")
    df = charger_dataset()
    
    if df is not None:
        # Analyse des doublons
        nb_doublons = analyser_doublons(df)
        
        # Suppression des doublons si nécessaire
        if nb_doublons > 0:
            df_nettoye = supprimer_doublons(df)
            verifier_suppression(df, df_nettoye)
        else:
            print("\nAucun doublon trouvé dans le dataset !")
            df_nettoye = df
        
        print("\nTraitement terminé avec succès !")

if __name__ == "__main__":
    main()

Chargement du dataset Titanic...

=== ANALYSE DES DOUBLONS ===
Nombre total de lignes avant : 891
Nombre de doublons trouvés : 0

Aucun doublon trouvé dans le dataset !

Traitement terminé avec succès !
