In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler
import os

def charger_dataset():
    """
    Charge le dataset Titanic
    """
    chemin = 'WEEK_2/DAY_3/DATASET/train.csv'
    return pd.read_csv(chemin)

In [2]:
def analyser_distribution(df):
    """
    Analyse la distribution des colonnes numériques
    """
    print("\n1. ANALYSE DE LA DISTRIBUTION")
    
    colonnes_numeriques = df.select_dtypes(include=['int64', 'float64']).columns
    
    for colonne in colonnes_numeriques:
        stats = df[colonne].describe()
        print(f"\nStatistiques pour {colonne}:")
        print(f"Min: {stats['min']:.2f}")
        print(f"Max: {stats['max']:.2f}")
        print(f"Moyenne: {stats['mean']:.2f}")
        print(f"Écart-type: {stats['std']:.2f}")
        print(f"Plage de valeurs: {stats['max'] - stats['min']:.2f}")

In [3]:
def standardiser_donnees(df):
    """
    Applique la standardisation aux colonnes appropriées
    """
    print("\n2. STANDARDISATION DES DONNÉES")
    
    # Colonnes à standardiser (variables avec grande plage de valeurs)
    colonnes_a_standardiser = ['Age', 'Fare']
    
    # Création du scaler
    scaler = StandardScaler()
    
    # Copie du DataFrame
    df_standardise = df.copy()
    
    # Application de la standardisation
    for colonne in colonnes_a_standardiser:
        # Gestion des valeurs manquantes
        mask = df_standardise[colonne].notna()
        df_standardise.loc[mask, f'{colonne}_standardized'] = scaler.fit_transform(
            df_standardise.loc[mask, colonne].values.reshape(-1, 1)
        )
        
        print(f"\nStatistiques après standardisation pour {colonne}:")
        print(df_standardise[f'{colonne}_standardized'].describe())
    
    return df_standardise

In [4]:
def normaliser_donnees(df):
    """
    Applique la normalisation aux colonnes appropriées
    """
    print("\n3. NORMALISATION DES DONNÉES")
    
    # Colonnes à normaliser (variables nécessitant une plage bornée)
    colonnes_a_normaliser = ['Age', 'Fare', 'Pclass']
    
    # Création du scaler
    scaler = MinMaxScaler()
    
    # Copie du DataFrame
    df_normalise = df.copy()
    
    # Application de la normalisation
    for colonne in colonnes_a_normaliser:
        # Gestion des valeurs manquantes
        mask = df_normalise[colonne].notna()
        df_normalise.loc[mask, f'{colonne}_normalized'] = scaler.fit_transform(
            df_normalise.loc[mask, colonne].values.reshape(-1, 1)
        )
        
        print(f"\nStatistiques après normalisation pour {colonne}:")
        print(df_normalise[f'{colonne}_normalized'].describe())
    
    return df_normalise

In [5]:
def comparer_resultats(df_original, df_standardise, df_normalise):
    """
    Compare les résultats des différentes transformations
    """
    print("\n4. COMPARAISON DES RÉSULTATS")
    
    for colonne in ['Age', 'Fare']:
        print(f"\nComparaison pour {colonne}:")
        
        print("\nDonnées originales:")
        print(df_original[colonne].describe())
        
        print("\nDonnées standardisées:")
        print(df_standardise[f'{colonne}_standardized'].describe())
        
        print("\nDonnées normalisées:")
        print(df_normalise[f'{colonne}_normalized'].describe())

In [6]:
def main():
    # Chargement des données
    print("Chargement du dataset Titanic...")
    df = charger_dataset()
    
    # Analyse de la distribution
    analyser_distribution(df)
    
    # Standardisation
    df_standardise = standardiser_donnees(df)
    
    # Normalisation
    df_normalise = normaliser_donnees(df)
    
    # Comparaison des résultats
    comparer_resultats(df, df_standardise, df_normalise)
    
    print("\nTransformations terminées avec succès!")

if __name__ == "__main__":
    main()

Chargement du dataset Titanic...

1. ANALYSE DE LA DISTRIBUTION

Statistiques pour PassengerId:
Min: 1.00
Max: 891.00
Moyenne: 446.00
Écart-type: 257.35
Plage de valeurs: 890.00

Statistiques pour Survived:
Min: 0.00
Max: 1.00
Moyenne: 0.38
Écart-type: 0.49
Plage de valeurs: 1.00

Statistiques pour Pclass:
Min: 1.00
Max: 3.00
Moyenne: 2.31
Écart-type: 0.84
Plage de valeurs: 2.00

Statistiques pour Age:
Min: 0.42
Max: 80.00
Moyenne: 29.70
Écart-type: 14.53
Plage de valeurs: 79.58

Statistiques pour SibSp:
Min: 0.00
Max: 8.00
Moyenne: 0.52
Écart-type: 1.10
Plage de valeurs: 8.00

Statistiques pour Parch:
Min: 0.00
Max: 6.00
Moyenne: 0.38
Écart-type: 0.81
Plage de valeurs: 6.00

Statistiques pour Fare:
Min: 0.00
Max: 512.33
Moyenne: 32.20
Écart-type: 49.69
Plage de valeurs: 512.33

2. STANDARDISATION DES DONNÉES

Statistiques après standardisation pour Age:
count    7.140000e+02
mean     2.388379e-16
std      1.000701e+00
min     -2.016979e+00
25%     -6.595416e-01
50%     -1.170488e-01
7