In [11]:
import pandas as pd
import numpy as np
import os

def charger_dataset():
    """
    Charge le dataset Titanic depuis le dossier spécifié
    """
    try:
        chemin = 'WEEK_2/DAY_3/DATASET/train.csv'
        if not os.path.exists(chemin):
            print(f"Erreur : Le fichier {chemin} n'existe pas")
            return None
            
        df = pd.read_csv(chemin)
        return df
        
    except Exception as e:
        print(f"Erreur lors du chargement : {e}")
        return None

def identifier_outliers_age(df):
    """
    Identifie les outliers dans la colonne Age
    """
    # Étape 1 : Calcul de Q1 et Q3
    Q1 = df['Age'].quantile(0.25)
    Q3 = df['Age'].quantile(0.75)
    print(f"\nPremier quartile (Q1) de l'âge : {Q1:.2f} ans")
    print(f"Troisième quartile (Q3) de l'âge : {Q3:.2f} ans")
    
    # Étape 2 : Calcul de l'IQR
    IQR = Q3 - Q1
    print(f"\nÉcart interquartile (IQR) : {IQR:.2f}")
    
    # Étape 3 : Définition des bornes
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    print(f"\nBorne inférieure : {lower_bound:.2f} ans")
    print(f"Borne supérieure : {upper_bound:.2f} ans")
    
    # Étape 4 : Identification des outliers
    outliers = df[(df['Age'] < lower_bound) | (df['Age'] > upper_bound)]
    print(f"\nNombre d'outliers trouvés : {len(outliers)}")
    
    if len(outliers) > 0:
        print("\nAperçu des outliers :")
        print(outliers[['PassengerId', 'Name', 'Age']].head())
        
        # Ajout de statistiques supplémentaires sur les outliers
        print("\nStatistiques des outliers :")
        print(f"Âge minimum des outliers : {outliers['Age'].min():.2f} ans")
        print(f"Âge maximum des outliers : {outliers['Age'].max():.2f} ans")
        print(f"Âge moyen des outliers : {outliers['Age'].mean():.2f} ans")

    return outliers

def main():
    # Chargement des données
    print("Chargement du dataset Titanic...")
    df_titanic = charger_dataset()
    
    if df_titanic is not None:
        # Affichage des statistiques de base
        print("\n=== STATISTIQUES DE BASE POUR L'ÂGE ===")
        print(df_titanic['Age'].describe())
        
        # Identification des outliers
        print("\n=== IDENTIFICATION DES OUTLIERS ===")
        outliers = identifier_outliers_age(df_titanic)

if __name__ == "__main__":
    main()


Chargement du dataset Titanic...

=== STATISTIQUES DE BASE POUR L'ÂGE ===
count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

=== IDENTIFICATION DES OUTLIERS ===

Premier quartile (Q1) de l'âge : 20.12 ans
Troisième quartile (Q3) de l'âge : 38.00 ans

Écart interquartile (IQR) : 17.88

Borne inférieure : -6.69 ans
Borne supérieure : 64.81 ans

Nombre d'outliers trouvés : 11

Aperçu des outliers :
     PassengerId                            Name   Age
33            34           Wheadon, Mr. Edward H  66.0
54            55  Ostby, Mr. Engelhart Cornelius  65.0
96            97       Goldschmidt, Mr. George B  71.0
116          117            Connors, Mr. Patrick  70.5
280          281                Duane, Mr. Frank  65.0

Statistiques des outliers :
Âge minimum des outliers : 65.00 ans
Âge maximum des outliers : 80.00 ans
Âge moyen des outliers : 69.77 a