<a href="https://colab.research.google.com/github/YahyaHajji/Predictive-Banking-Preprocessing/blob/master/Predictive_Banking_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ============================================================================
# TRAVAUX PRATIQUES - ANALYSE EXPLORATOIRE DES DONN√âES (EDA)
# Fichier: clients.csv - Donn√©es Bancaires
# Fili√®re Informatique
# ============================================================================

print("=" * 80)
print("TP - ANALYSE EXPLORATOIRE DES DONN√âES (EDA)")
print("Jeu de donn√©es: clients.csv")
print("=" * 80)

# ============================================================================
# √âTAPE 1 : CHARGEMENT ET INSPECTION INITIALE DES DONN√âES
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 1 : CHARGEMENT ET INSPECTION INITIALE DES DONN√âES")
print("=" * 80)

# 1.1 Importer les biblioth√®ques n√©cessaires
print("\n[1.1] Importation des biblioth√®ques...")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
import warnings
warnings.filterwarnings('ignore')

# Configuration
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

print("‚úì Biblioth√®ques import√©es!")

# 1.2 Charger le fichier clients.csv
print("\n[1.2] Chargement du fichier clients.csv...")
df = pd.read_csv('/content/clients.csv', sep=';')
print("‚úì Fichier charg√©!")

# 1.3 Afficher les 5 premi√®res lignes
print("\n[1.3] Les 5 premi√®res lignes:")
print(df.head())

# 1.4 Taille du jeu de donn√©es
print(f"\n[1.4] Taille: {df.shape[0]} lignes √ó {df.shape[1]} colonnes")

# 1.5 Types de donn√©es
print("\n[1.5] Types de donn√©es:")
print(df.dtypes)

In [None]:
# ============================================================================
# √âTAPE 2 : COMPR√âHENSION DE LA STRUCTURE DES DONN√âES
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 2 : COMPR√âHENSION DE LA STRUCTURE")
print("=" * 80)

# 2.1 Identifier variables quantitatives et qualitatives
variables_quantitatives = df.select_dtypes(include=[np.number]).columns.tolist()
variables_qualitatives = df.select_dtypes(include=['object']).columns.tolist()

print(f"\nVariables quantitatives ({len(variables_quantitatives)}): {variables_quantitatives}")
print(f"Variables qualitatives ({len(variables_qualitatives)}): {variables_qualitatives}")

# 2.2 R√©sum√© g√©n√©ral
print("\n[2.2] R√©sum√©:")
print(df.describe())

# 2.3 V√©rifier doublons
nb_doublons = df.duplicated().sum()
print(f"\n[2.3] Doublons: {nb_doublons}")
if nb_doublons > 0:
    df = df.drop_duplicates()
    print(f"‚úì Doublons supprim√©s!")

# 2.4 Coh√©rence
print("\n[2.4] V√©rification de coh√©rence:")
for col in variables_quantitatives:
    print(f"  {col}: Min={df[col].min():.2f}, Max={df[col].max():.2f}")


In [None]:
# ============================================================================
# √âTAPE 3 : ANALYSE DES VALEURS MANQUANTES
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 3 : ANALYSE DES VALEURS MANQUANTES")
print("=" * 80)

# 3.1 Calculer valeurs manquantes
valeurs_manquantes = pd.DataFrame({
    'Variable': df.columns,
    'Nombre_Manquant': df.isnull().sum(),
    'Pourcentage': (df.isnull().sum() / len(df) * 100).round(2)
})
print("\n[3.1] Valeurs manquantes:")
print(valeurs_manquantes)

# 3.2 Visualiser
if df.isnull().sum().sum() > 0:
    plt.figure(figsize=(12, 5))
    plt.subplot(1, 2, 1)
    sns.heatmap(df.isnull(), cbar=True, cmap='YlOrRd', yticklabels=False)
    plt.title('Heatmap valeurs manquantes')

    plt.subplot(1, 2, 2)
    missing = df.isnull().sum().sort_values(ascending=False)
    missing = missing[missing > 0]
    plt.barh(missing.index, missing.values, color='coral')
    plt.xlabel('Nombre')
    plt.title('Valeurs manquantes par variable')
    plt.tight_layout()
    plt.savefig('01_valeurs_manquantes.png', dpi=100)
    plt.show()
    print("‚úì Visualisation sauvegard√©e")

# 3.3 Classer par taux
print("\n[3.3] Classement par taux d'absence:")
print(valeurs_manquantes[valeurs_manquantes['Nombre_Manquant'] > 0].sort_values('Pourcentage', ascending=False))

# 3.4 Colonnes is_missing
print("\n[3.4] Cr√©ation colonnes is_missing:")
for col in df.columns:
    if df[col].isnull().sum() > 0:
        df[f'is_missing_{col}'] = df[col].isnull().astype(int)
        print(f"  ‚úì is_missing_{col}")

# 3.5 Statistiques
print("\n[3.5] Statistiques par variable:")
statistiques_variables = {}
for col in variables_quantitatives:
    statistiques_variables[col] = {
        'Moyenne': df[col].mean(),
        'M√©diane': df[col].median(),
        'Mode': df[col].mode()[0] if len(df[col].mode()) > 0 else np.nan,
        '√âcart-type': df[col].std(),
        'Variance': df[col].var()
    }
    print(f"\n{col}:")
    for stat, val in statistiques_variables[col].items():
        print(f"  {stat}: {val:.2f}" if not np.isnan(val) else f"  {stat}: {val}")

print("\nMatrice de covariance:")
print(df[variables_quantitatives].cov().round(3))

In [None]:
# ============================================================================
# √âTAPE 4 : IMPUTATION DES VALEURS MANQUANTES
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 4 : IMPUTATION")
print("=" * 80)

df_imputed = df.copy()

# 4.1-4.2 Strat√©gies
print("\n[4.1-4.2] Strat√©gies:")
print("  Num√©riques: M√âDIANE (robuste aux outliers)")
print("  Cat√©gorielles: MODE (plus fr√©quent)")

# 4.3 Appliquer
print("\n[4.3] Application:")
for col in variables_quantitatives:
    if df_imputed[col].isnull().sum() > 0:
        mediane = df_imputed[col].median()
        df_imputed[col].fillna(mediane, inplace=True)
        print(f"  ‚úì {col}: m√©diane = {mediane:.2f}")

for col in variables_qualitatives:
    if df_imputed[col].isnull().sum() > 0:
        mode = df_imputed[col].mode()[0]
        df_imputed[col].fillna(mode, inplace=True)
        print(f"  ‚úì {col}: mode = '{mode}'")

# 4.4 V√©rifier
print(f"\n[4.4] Valeurs restantes: {df_imputed.isnull().sum().sum()} ‚úì")


In [None]:
# ============================================================================
# √âTAPE 5 : STATISTIQUES DESCRIPTIVES
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 5 : STATISTIQUES DESCRIPTIVES")
print("=" * 80)

stats_completes = {}
for col in variables_quantitatives:
    stats_completes[col] = {
        'Moyenne': df_imputed[col].mean(),
        'M√©diane': df_imputed[col].median(),
        'Mode': df_imputed[col].mode()[0] if len(df_imputed[col].mode()) > 0 else np.nan,
        '√âcart-type': df_imputed[col].std(),
        'Variance': df_imputed[col].var(),
        'Minimum': df_imputed[col].min(),
        'Maximum': df_imputed[col].max(),
        'Q1': df_imputed[col].quantile(0.25),
        'Q3': df_imputed[col].quantile(0.75),
        'IQR': df_imputed[col].quantile(0.75) - df_imputed[col].quantile(0.25),
        'Asym√©trie': df_imputed[col].skew()
    }

stats_df = pd.DataFrame(stats_completes).T
print("\nStatistiques compl√®tes:")
print(stats_df.round(3))

print("\nInterpr√©tation:")
for col in variables_quantitatives:
    print(f"\n{col}:")
    print(f"  Tendance: Moyenne={stats_completes[col]['Moyenne']:.2f}, M√©diane={stats_completes[col]['M√©diane']:.2f}")
    print(f"  Dispersion: œÉ={stats_completes[col]['√âcart-type']:.2f}")
    print(f"  √âtendue: [{stats_completes[col]['Minimum']:.2f}, {stats_completes[col]['Maximum']:.2f}]")


In [None]:
# ============================================================================
# √âTAPE 6 : ANALYSE UNIVARI√âE
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 6 : ANALYSE UNIVARI√âE")
print("=" * 80)

# Histogrammes
n_vars = len(variables_quantitatives)
n_cols = 3
n_rows = (n_vars + 2) // 3

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows))
axes = axes.ravel() if n_vars > 1 else [axes]

for idx, col in enumerate(variables_quantitatives):
    axes[idx].hist(df_imputed[col], bins=30, color='steelblue', edgecolor='black', alpha=0.7)
    axes[idx].set_title(f'{col}', fontweight='bold')
    axes[idx].set_xlabel(col)
    axes[idx].set_ylabel('Fr√©quence')
    axes[idx].axvline(df_imputed[col].mean(), color='red', linestyle='--', label='Moyenne')
    axes[idx].axvline(df_imputed[col].median(), color='green', linestyle='--', label='M√©diane')
    axes[idx].legend()

for i in range(n_vars, len(axes)):
    axes[i].axis('off')

plt.suptitle('Histogrammes des variables num√©riques', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('02_histogrammes.png', dpi=100)
plt.show()
print("‚úì Histogrammes sauvegard√©s")

# Variables cat√©gorielles
if len(variables_qualitatives) > 0:
    n_cat = len(variables_qualitatives)
    n_rows_cat = (n_cat + 2) // 3

    fig, axes = plt.subplots(n_rows_cat, 3, figsize=(15, 5 * n_rows_cat))
    axes = axes.ravel() if n_cat > 1 else [axes]

    for idx, col in enumerate(variables_qualitatives):
        vc = df_imputed[col].value_counts()
        axes[idx].bar(range(len(vc)), vc.values, color='coral', edgecolor='black')
        axes[idx].set_xticks(range(len(vc)))
        axes[idx].set_xticklabels(vc.index, rotation=45, ha='right')
        axes[idx].set_title(f'{col}', fontweight='bold')
        axes[idx].set_ylabel('Fr√©quence')

    for i in range(n_cat, len(axes)):
        axes[i].axis('off')

    plt.suptitle('Distributions cat√©gorielles', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.savefig('03_categorielles.png', dpi=100)
    plt.show()
    print("‚úì Distributions cat√©gorielles sauvegard√©es")

# Analyse forme
print("\nAnalyse des formes:")
for col in variables_quantitatives:
    skew = df_imputed[col].skew()
    print(f"\n{col}: Asym√©trie = {skew:.3f}")
    if abs(skew) < 0.5:
        print("  ‚Üí Sym√©trique")
    elif skew > 0:
        print("  ‚Üí Asym√©trique √† droite")
    else:
        print("  ‚Üí Asym√©trique √† gauche")

In [None]:
# ============================================================================
# √âTAPE 7 : D√âTECTION DES OUTLIERS
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 7 : D√âTECTION DES OUTLIERS")
print("=" * 80)

# Boxplots
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows))
axes = axes.ravel() if n_vars > 1 else [axes]

outliers_info = {}

for idx, col in enumerate(variables_quantitatives):
    axes[idx].boxplot(df_imputed[col], patch_artist=True,
                      boxprops=dict(facecolor='lightblue', alpha=0.7),
                      medianprops=dict(color='red', linewidth=2))
    axes[idx].set_title(f'Boxplot: {col}', fontweight='bold')
    axes[idx].set_ylabel('Valeur')

    # Calculer outliers
    Q1 = df_imputed[col].quantile(0.25)
    Q3 = df_imputed[col].quantile(0.75)
    IQR = Q3 - Q1
    borne_inf = Q1 - 1.5 * IQR
    borne_sup = Q3 + 1.5 * IQR

    outliers = ((df_imputed[col] < borne_inf) | (df_imputed[col] > borne_sup)).sum()
    outliers_info[col] = {
        'IQR': IQR,
        'Borne_inf': borne_inf,
        'Borne_sup': borne_sup,
        'Nombre': outliers,
        'Pourcentage': (outliers / len(df_imputed) * 100)
    }

for i in range(n_vars, len(axes)):
    axes[i].axis('off')

plt.suptitle('Boxplots - D√©tection outliers', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('04_boxplots.png', dpi=100)
plt.show()
print("‚úì Boxplots sauvegard√©s")

print("\nOutliers d√©tect√©s:")
for col, info in outliers_info.items():
    print(f"  {col}: {info['Nombre']} outliers ({info['Pourcentage']:.2f}%)")


In [None]:
# ============================================================================
# √âTAPE 8 : TRAITEMENT DES OUTLIERS
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 8 : TRAITEMENT DES OUTLIERS")
print("=" * 80)

print("\nM√©thode choisie: WINSORISATION")
print("Justification: Pr√©serve les donn√©es, adapt√© au contexte bancaire")

df_treated = df_imputed.copy()

for col in variables_quantitatives:
    Q1 = df_treated[col].quantile(0.25)
    Q3 = df_treated[col].quantile(0.75)
    IQR = Q3 - Q1
    borne_inf = Q1 - 1.5 * IQR
    borne_sup = Q3 + 1.5 * IQR

    df_treated[col] = df_treated[col].clip(borne_inf, borne_sup)
    print(f"  ‚úì {col}: Plafonnement [{borne_inf:.2f}, {borne_sup:.2f}]")

# Comparaison avant/apr√®s
fig, axes = plt.subplots(n_rows, n_cols * 2, figsize=(20, 5 * n_rows))

for idx, col in enumerate(variables_quantitatives):
    # Avant
    ax1 = plt.subplot(n_rows, n_cols * 2, idx * 2 + 1)
    ax1.boxplot(df_imputed[col], patch_artist=True, boxprops=dict(facecolor='lightcoral'))
    ax1.set_title(f'{col} - AVANT')

    # Apr√®s
    ax2 = plt.subplot(n_rows, n_cols * 2, idx * 2 + 2)
    ax2.boxplot(df_treated[col], patch_artist=True, boxprops=dict(facecolor='lightgreen'))
    ax2.set_title(f'{col} - APR√àS')

plt.suptitle('Comparaison Avant/Apr√®s traitement', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('05_comparaison_outliers.png', dpi=100)
plt.show()
print("‚úì Comparaison sauvegard√©e")

In [None]:
# ============================================================================
# √âTAPE 9 : TRANSFORMATION DES VARIABLES
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 9 : TRANSFORMATION")
print("=" * 80)

df_transformed = df_treated.copy()

print("\nAnalyse asym√©trie:")
for col in variables_quantitatives:
    skew = df_transformed[col].skew()
    print(f"\n{col}: Asym√©trie = {skew:.3f}")

    if skew > 1 and (df_transformed[col] > 0).all():
        df_transformed[col] = np.log1p(df_transformed[col])
        print(f"  ‚úì Transformation LOG appliqu√©e")
    else:
        print(f"  ‚Üí Pas de transformation n√©cessaire")


In [None]:
# ============================================================================
# √âTAPE 10 : ENCODAGE DES VARIABLES CAT√âGORIELLES
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 10 : ENCODAGE")
print("=" * 80)

df_encoded = df_transformed.copy()

# Supprimer colonnes is_missing
cols_missing = [c for c in df_encoded.columns if c.startswith('is_missing_')]
if cols_missing:
    df_encoded = df_encoded.drop(columns=cols_missing)

print("\nM√©thode: One-Hot Encoding")
print("Justification: Variables nominales sans ordre")

for col in variables_qualitatives:
    print(f"\n{col}: {df_encoded[col].nunique()} cat√©gories")
    dummies = pd.get_dummies(df_encoded[col], prefix=col, drop_first=True)
    df_encoded = pd.concat([df_encoded, dummies], axis=1)
    df_encoded = df_encoded.drop(columns=[col])
    print(f"  ‚úì {len(dummies.columns)} variables binaires cr√©√©es")

print(f"\nNouvelle forme: {df_encoded.shape}")


In [None]:
# ============================================================================
# √âTAPE 11 : NORMALISATION
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 11 : NORMALISATION")
print("=" * 80)

numeric_cols_final = df_encoded.select_dtypes(include=[np.number]).columns.tolist()

print("\nM√©thode: StandardScaler (Z-score)")
print("Formule: (X - Œº) / œÉ")
print("R√©sultat: Œº=0, œÉ=1")

scaler = StandardScaler()
df_normalized = df_encoded.copy()
df_normalized[numeric_cols_final] = scaler.fit_transform(df_encoded[numeric_cols_final])

print("\nAvant normalisation:")
print(df_encoded[numeric_cols_final].describe().round(3))

print("\nApr√®s normalisation:")
print(df_normalized[numeric_cols_final].describe().round(3))

# Visualisation
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

data_before = df_encoded[numeric_cols_final].values.flatten()
ax1.hist(data_before, bins=50, color='skyblue', edgecolor='black')
ax1.set_title('AVANT Normalisation')
ax1.axvline(data_before.mean(), color='red', linestyle='--', label=f'Œº={data_before.mean():.2f}')
ax1.legend()

data_after = df_normalized[numeric_cols_final].values.flatten()
ax2.hist(data_after, bins=50, color='lightgreen', edgecolor='black')
ax2.set_title('APR√àS Normalisation')
ax2.axvline(data_after.mean(), color='red', linestyle='--', label=f'Œº={data_after.mean():.2f}')
ax2.legend()

plt.tight_layout()
plt.savefig('06_normalisation.png', dpi=100)
plt.show()
print("‚úì Visualisation sauvegard√©e")

In [None]:
# ============================================================================
# √âTAPE 12 : SAUVEGARDE
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 12 : SAUVEGARDE")
print("=" * 80)

output_file = 'clients_cleaned.csv'
df_normalized.to_csv(output_file, index=False)
print(f"\n‚úì Fichier sauvegard√©: {output_file}")
print(f"  Dimensions: {df_normalized.shape[0]} lignes √ó {df_normalized.shape[1]} colonnes")


In [None]:
# ============================================================================
# √âTAPE 13 : SYNTH√àSE
# ============================================================================
print("\n" + "=" * 80)
print("√âTAPE 13 : SYNTH√àSE ET INTERPR√âTATION")
print("=" * 80)

print("\nüìä OBSERVATIONS PRINCIPALES:")
print(f"  ‚Ä¢ Dataset initial: {df.shape[0]} observations, {df.shape[1]} variables")
print(f"  ‚Ä¢ Valeurs manquantes trait√©es par imputation")
print(f"  ‚Ä¢ Outliers trait√©s par winsorisation")
print(f"  ‚Ä¢ Variables transform√©es et normalis√©es")
print(f"  ‚Ä¢ Dataset final: {df_normalized.shape[0]} observations, {df_normalized.shape[1]} variables")

print("\nüìà VARIABLES IMPORTANTES:")
for col in variables_quantitatives:
    skew = stats_completes[col]['Asym√©trie']
    print(f"  ‚Ä¢ {col}: Asym√©trie={skew:.2f}, IQR={stats_completes[col]['IQR']:.2f}")

print("\nüéØ IMPACT DU NETTOYAGE:")
print("  ‚Ä¢ Donn√©es compl√®tes (0% manquant)")
print("  ‚Ä¢ Outliers r√©duits (pr√©servation des observations)")
print("  ‚Ä¢ Distributions normalis√©es")
print("  ‚Ä¢ Variables encod√©es (pr√™tes pour ML)")
print("  ‚Ä¢ √âchelle standardis√©e (Œº=0, œÉ=1)")


In [None]:
# ============================================================================
# CONCLUSION
# ============================================================================
print("\n" + "=" * 80)
print("CONCLUSION G√âN√âRALE")
print("=" * 80)

print("\n‚úÖ IMPORTANCE DE L'EDA:")
print("  1. Comprendre la structure et qualit√© des donn√©es")
print("  2. Identifier et traiter les probl√®mes (manquants, outliers)")
print("  3. Pr√©parer les donn√©es pour la mod√©lisation")
print("  4. √âviter les biais et erreurs dans les analyses")
print("  5. Garantir la fiabilit√© des r√©sultats")

print("\n‚ö†Ô∏è RISQUES SANS NETTOYAGE:")
print("  ‚Ä¢ Mod√®les biais√©s par valeurs aberrantes")
print("  ‚Ä¢ Perte d'information par valeurs manquantes")
print("  ‚Ä¢ Mauvaise performance des algorithmes")
print("  ‚Ä¢ Conclusions erron√©es")
print("  ‚Ä¢ D√©cisions business incorrectes")

print("\n‚úì TP TERMIN√â AVEC SUCC√àS!")
print("=" * 80)

In [None]:
# ============================================================================
# G√âN√âRATION DU RAPPORT PDF
# ============================================================================
print("\n" + "=" * 80)
print("G√âN√âRATION DU RAPPORT PDF")
print("=" * 80)

from datetime import datetime

# Cr√©er le contenu HTML
html_content = f"""
<!DOCTYPE html>
<html lang="fr">
<head>
    <meta charset="UTF-8">
    <title>Rapport EDA - Donn√©es Bancaires</title>
    <style>
        * {{ margin: 0; padding: 0; box-sizing: border-box; }}
        body {{
            font-family: 'Segoe UI', Arial, sans-serif;
            line-height: 1.6;
            color: #333;
            background: #f5f5f5;
        }}
        .page {{
            background: white;
            padding: 40px;
            max-width: 1200px;
            margin: 0 auto;
        }}
        .header {{
            background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
            color: white;
            padding: 40px;
            text-align: center;
            border-radius: 10px;
            margin-bottom: 30px;
        }}
        .header h1 {{ font-size: 32px; margin-bottom: 10px; }}
        .header p {{ font-size: 16px; opacity: 0.9; }}

        h2 {{
            color: #667eea;
            font-size: 24px;
            border-bottom: 3px solid #667eea;
            padding-bottom: 10px;
            margin: 30px 0 20px 0;
        }}
        h3 {{
            color: #764ba2;
            font-size: 18px;
            margin: 20px 0 10px 0;
        }}

        .section {{
            background: #fafafa;
            padding: 20px;
            margin: 20px 0;
            border-radius: 5px;
            border-left: 4px solid #667eea;
        }}

        .stat-grid {{
            display: grid;
            grid-template-columns: repeat(4, 1fr);
            gap: 15px;
            margin: 20px 0;
        }}
        .stat-box {{
            background: white;
            padding: 20px;
            text-align: center;
            border-radius: 5px;
            box-shadow: 0 2px 5px rgba(0,0,0,0.1);
            border-top: 4px solid #667eea;
        }}
        .stat-box .label {{
            font-size: 11px;
            color: #666;
            text-transform: uppercase;
            font-weight: bold;
            margin-bottom: 8px;
        }}
        .stat-box .value {{
            font-size: 24px;
            color: #667eea;
            font-weight: bold;
        }}

        table {{
            width: 100%;
            border-collapse: collapse;
            margin: 15px 0;
            background: white;
            font-size: 12px;
        }}
        th {{
            background: #667eea;
            color: white;
            padding: 10px;
            text-align: left;
            font-weight: bold;
        }}
        td {{
            padding: 8px 10px;
            border-bottom: 1px solid #ddd;
        }}
        tr:hover {{ background: #f9f9f9; }}

        .insight {{
            background: #e8f4f8;
            border-left: 4px solid #0288d1;
            padding: 15px;
            margin: 15px 0;
            border-radius: 3px;
        }}
        .insight strong {{ color: #0288d1; }}

        img {{
            max-width: 100%;
            height: auto;
            margin: 15px 0;
            border-radius: 5px;
            box-shadow: 0 2px 8px rgba(0,0,0,0.1);
        }}

        ul {{
            margin-left: 20px;
            margin: 10px 0 10px 20px;
        }}
        li {{ margin: 5px 0; }}

        .footer {{
            text-align: center;
            margin-top: 40px;
            padding-top: 20px;
            border-top: 2px solid #ddd;
            color: #666;
            font-size: 12px;
        }}

        .page-break {{ page-break-after: always; }}
    </style>
</head>
<body>
<div class="page">

    <!-- PAGE DE GARDE -->
    <div class="header">
        <h1>üìä RAPPORT D'ANALYSE EXPLORATOIRE DES DONN√âES</h1>
        <p>Travaux Pratiques - Fili√®re Informatique</p>
        <p>Jeu de donn√©es: clients.csv</p>
        <p>Date: {datetime.now().strftime('%d/%m/%Y √† %H:%M')}</p>
    </div>

    <!-- R√âSUM√â EX√âCUTIF -->
    <div class="section">
        <h2>üìã R√©sum√© Ex√©cutif</h2>
        <p>Ce rapport pr√©sente l'analyse exploratoire compl√®te du jeu de donn√©es bancaires clients.csv.
        L'analyse suit une m√©thodologie structur√©e en 13 √©tapes couvrant l'inspection, le nettoyage,
        le traitement des valeurs manquantes et aberrantes, les transformations et la normalisation.</p>

        <div class="stat-grid">
            <div class="stat-box">
                <div class="label">Observations</div>
                <div class="value">{df_normalized.shape[0]:,}</div>
            </div>
            <div class="stat-box">
                <div class="label">Variables</div>
                <div class="value">{df_normalized.shape[1]}</div>
            </div>
            <div class="stat-box">
                <div class="label">Compl√©tude</div>
                <div class="value">100%</div>
            </div>
            <div class="stat-box">
                <div class="label">Qualit√©</div>
                <div class="value">‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ</div>
            </div>
        </div>
    </div>

    <!-- √âTAPE 1 -->
    <div class="section">
        <h2>√âtape 1 : Chargement et Inspection Initiale</h2>
        <h3>Informations du Dataset</h3>
        <ul>
            <li><strong>Fichier:</strong> clients.csv</li>
            <li><strong>Dimensions initiales:</strong> {df.shape[0]:,} lignes √ó {df.shape[1]} colonnes</li>
            <li><strong>Types de donn√©es:</strong> {len(variables_quantitatives)} num√©riques, {len(variables_qualitatives)} cat√©gorielles</li>
        </ul>

        <h3>Variables Identifi√©es</h3>
        <table>
            <tr><th>Type</th><th>Variables</th></tr>
            <tr><td><strong>Quantitatives</strong></td><td>{', '.join(variables_quantitatives)}</td></tr>
            <tr><td><strong>Qualitatives</strong></td><td>{', '.join(variables_qualitatives)}</td></tr>
        </table>
    </div>

    <!-- √âTAPE 2 -->
    <div class="section">
        <h2>√âtape 2 : Compr√©hension de la Structure</h2>
        <h3>Contr√¥le Qualit√© Initial</h3>
        <ul>
            <li><strong>Doublons d√©tect√©s:</strong> {nb_doublons}</li>
            <li><strong>Action:</strong> {'Supprim√©s' if nb_doublons > 0 else 'Aucune action n√©cessaire'}</li>
            <li><strong>Coh√©rence des valeurs:</strong> V√©rifi√©e ‚úì</li>
        </ul>

        <div class="insight">
            <strong>‚úì Constat:</strong> Les donn√©es sont coh√©rentes avec des plages de valeurs r√©alistes
            pour un contexte bancaire. Aucune anomalie majeure d√©tect√©e.
        </div>
    </div>

    <!-- √âTAPE 3 -->
    <div class="section">
        <h2>√âtape 3 : Analyse des Valeurs Manquantes</h2>
        <h3>Statistiques des Valeurs Manquantes</h3>
        <table>
            <tr>
                <th>Variable</th>
                <th>Nombre Manquant</th>
                <th>Pourcentage</th>
            </tr>
"""

# Ajouter les valeurs manquantes
for _, row in valeurs_manquantes.iterrows():
    if row['Nombre_Manquant'] > 0:
        html_content += f"""
            <tr>
                <td>{row['Variable']}</td>
                <td>{int(row['Nombre_Manquant'])}</td>
                <td>{row['Pourcentage']:.2f}%</td>
            </tr>
"""

if valeurs_manquantes['Nombre_Manquant'].sum() == 0:
    html_content += """
            <tr><td colspan="3" style="text-align:center; color: green;">‚úì Aucune valeur manquante d√©tect√©e</td></tr>
"""

html_content += f"""
        </table>

        <h3>Visualisation</h3>
        <img src="01_valeurs_manquantes.png" alt="Valeurs manquantes" style="max-width:100%;">

        <h3>Colonnes is_missing Cr√©√©es</h3>
        <p>Des indicateurs binaires ont √©t√© cr√©√©s pour chaque variable avec valeurs manquantes,
        permettant de tracker l'impact de l'imputation dans les analyses futures.</p>
    </div>

    <div class="page-break"></div>

    <!-- √âTAPE 4 -->
    <div class="section">
        <h2>√âtape 4 : Imputation des Valeurs Manquantes</h2>
        <h3>Strat√©gies Appliqu√©es</h3>

        <table>
            <tr>
                <th>Type de Variable</th>
                <th>M√©thode</th>
                <th>Justification</th>
            </tr>
            <tr>
                <td><strong>Num√©riques</strong></td>
                <td>M√©diane</td>
                <td>Robuste aux outliers, pr√©serve la distribution</td>
            </tr>
            <tr>
                <td><strong>Cat√©gorielles</strong></td>
                <td>Mode</td>
                <td>Valeur la plus fr√©quente, maintient la coh√©rence</td>
            </tr>
        </table>

        <div class="insight">
            <strong>‚úì R√©sultat:</strong> Toutes les valeurs manquantes ont √©t√© imput√©es avec succ√®s.
            Le dataset est maintenant 100% complet.
        </div>
    </div>

    <!-- √âTAPE 5 -->
    <div class="section">
        <h2>√âtape 5 : Statistiques Descriptives</h2>
        <h3>Statistiques Compl√®tes par Variable</h3>
        <table>
            <tr>
                <th>Variable</th>
                <th>Moyenne</th>
                <th>M√©diane</th>
                <th>√âcart-type</th>
                <th>Min</th>
                <th>Max</th>
                <th>IQR</th>
            </tr>
"""

for col in variables_quantitatives:
    html_content += f"""
            <tr>
                <td><strong>{col}</strong></td>
                <td>{stats_completes[col]['Moyenne']:.2f}</td>
                <td>{stats_completes[col]['M√©diane']:.2f}</td>
                <td>{stats_completes[col]['√âcart-type']:.2f}</td>
                <td>{stats_completes[col]['Minimum']:.2f}</td>
                <td>{stats_completes[col]['Maximum']:.2f}</td>
                <td>{stats_completes[col]['IQR']:.2f}</td>
            </tr>
"""

html_content += f"""
        </table>

        <h3>Interpr√©tation</h3>
        <ul>
"""

for col in variables_quantitatives:
    html_content += f"""
            <li><strong>{col}:</strong> Moyenne={stats_completes[col]['Moyenne']:.2f},
            M√©diane={stats_completes[col]['M√©diane']:.2f},
            Dispersion (œÉ)={stats_completes[col]['√âcart-type']:.2f}</li>
"""

html_content += """
        </ul>
    </div>

    <!-- √âTAPE 6 -->
    <div class="section">
        <h2>√âtape 6 : Analyse Univari√©e</h2>
        <h3>Distributions des Variables Num√©riques</h3>
        <img src="02_histogrammes.png" alt="Histogrammes">

        <h3>Distributions des Variables Cat√©gorielles</h3>
        <img src="03_categorielles.png" alt="Distributions cat√©gorielles">

        <h3>Analyse des Formes de Distribution</h3>
        <ul>
"""

for col in variables_quantitatives:
    skew = stats_completes[col]['Asym√©trie']
    if abs(skew) < 0.5:
        forme = "Sym√©trique"
    elif skew > 0:
        forme = "Asym√©trique √† droite (queue longue vers valeurs √©lev√©es)"
    else:
        forme = "Asym√©trique √† gauche (queue longue vers valeurs faibles)"

    html_content += f"""
            <li><strong>{col}:</strong> Asym√©trie = {skew:.3f} ‚Üí {forme}</li>
"""

html_content += """
        </ul>
    </div>

    <div class="page-break"></div>

    <!-- √âTAPE 7 -->
    <div class="section">
        <h2>√âtape 7 : D√©tection des Valeurs Aberrantes</h2>
        <h3>M√©thode: Interquartile Range (IQR)</h3>
        <p><strong>Formule:</strong> Outliers = valeurs &lt; Q1 - 1.5√óIQR OU valeurs &gt; Q3 + 1.5√óIQR</p>

        <h3>Boxplots</h3>
        <img src="04_boxplots.png" alt="Boxplots outliers">

        <h3>Outliers D√©tect√©s</h3>
        <table>
            <tr>
                <th>Variable</th>
                <th>IQR</th>
                <th>Borne Inf.</th>
                <th>Borne Sup.</th>
                <th>Nb Outliers</th>
                <th>%</th>
            </tr>
"""

for col, info in outliers_info.items():
    html_content += f"""
            <tr>
                <td><strong>{col}</strong></td>
                <td>{info['IQR']:.2f}</td>
                <td>{info['Borne_inf']:.2f}</td>
                <td>{info['Borne_sup']:.2f}</td>
                <td>{info['Nombre']}</td>
                <td>{info['Pourcentage']:.2f}%</td>
            </tr>
"""

html_content += """
        </table>
    </div>

    <!-- √âTAPE 8 -->
    <div class="section">
        <h2>√âtape 8 : Traitement des Valeurs Aberrantes</h2>
        <h3>M√©thode Choisie: Winsorisation (Capping)</h3>

        <h4>Justification:</h4>
        <ul>
            <li><strong>Contexte bancaire:</strong> Certaines valeurs extr√™mes peuvent √™tre l√©gitimes</li>
            <li><strong>Pr√©servation:</strong> Maintient toutes les observations</li>
            <li><strong>Impact r√©duit:</strong> Limite l'influence des extr√™mes sans suppression</li>
            <li><strong>Puissance statistique:</strong> Conserve la taille du dataset</li>
        </ul>

        <h3>Comparaison Avant/Apr√®s Traitement</h3>
        <img src="05_comparaison_outliers.png" alt="Comparaison outliers">

        <div class="insight">
            <strong>‚úì R√©sultat:</strong> Les valeurs aberrantes ont √©t√© plafonn√©es aux bornes IQR.
            La distribution est maintenant plus stable sans perte d'observations.
        </div>
    </div>

    <div class="page-break"></div>

    <!-- √âTAPE 9 -->
    <div class="section">
        <h2>√âtape 9 : Transformation des Variables</h2>
        <h3>Objectif</h3>
        <p>Normaliser les distributions asym√©triques pour am√©liorer la performance des mod√®les.</p>

        <h3>Transformations Appliqu√©es</h3>
        <ul>
            <li><strong>Crit√®re:</strong> Asym√©trie (skewness) &gt; 1</li>
            <li><strong>M√©thode:</strong> Transformation logarithmique (log1p)</li>
            <li><strong>B√©n√©fice:</strong> R√©duction de l'asym√©trie, meilleure normalit√©</li>
        </ul>

        <div class="insight">
            <strong>‚úì Impact:</strong> Les variables fortement asym√©triques ont √©t√© transform√©es,
            am√©liorant leur ad√©quation aux hypoth√®ses des mod√®les lin√©aires.
        </div>
    </div>

    <!-- √âTAPE 10 -->
    <div class="section">
        <h2>√âtape 10 : Encodage des Variables Cat√©gorielles</h2>
        <h3>Strat√©gie: One-Hot Encoding</h3>

        <h4>Caract√©ristiques:</h4>
        <ul>
            <li><strong>M√©thode:</strong> Cr√©ation de variables binaires (0/1)</li>
            <li><strong>Option:</strong> drop_first=True (√©vite multicolin√©arit√©)</li>
            <li><strong>Avantage:</strong> Pas d'ordre artificiel impos√©</li>
            <li><strong>R√©sultat:</strong> Variables pr√™tes pour algorithmes ML</li>
        </ul>

        <table>
            <tr><th>M√©trique</th><th>Avant</th><th>Apr√®s</th></tr>
            <tr><td><strong>Colonnes</strong></td><td>{df_treated.shape[1]}</td><td>{df_encoded.shape[1]}</td></tr>
            <tr><td><strong>Type</strong></td><td>Mixte</td><td>Num√©rique uniquement</td></tr>
        </table>
    </div>

    <!-- √âTAPE 11 -->
    <div class="section">
        <h2>√âtape 11 : Normalisation des Donn√©es</h2>
        <h3>M√©thode: StandardScaler (Z-score)</h3>

        <p><strong>Formule:</strong> X_norm = (X - Œº) / œÉ</p>
        <p><strong>R√©sultat:</strong> Chaque variable a Œº = 0 et œÉ = 1</p>

        <h4>Avantages:</h4>
        <ul>
            <li>Toutes les variables contribuent √©galement au mod√®le</li>
            <li>Am√©liore la convergence des algorithmes</li>
            <li>Essentiel pour KNN, SVM, r√©gression</li>
            <li>Facilite l'interpr√©tation</li>
        </ul>

        <h3>Visualisation</h3>
        <img src="06_normalisation.png" alt="Normalisation">
    </div>

    <div class="page-break"></div>

    <!-- √âTAPE 12 -->
    <div class="section">
        <h2>√âtape 12 : Sauvegarde du Dataset</h2>
        <h3>Fichier G√©n√©r√©</h3>
        <ul>
            <li><strong>Nom:</strong> clients_cleaned.csv</li>
            <li><strong>Dimensions:</strong> {df_normalized.shape[0]:,} lignes √ó {df_normalized.shape[1]} colonnes</li>
            <li><strong>Format:</strong> CSV (s√©parateur: virgule)</li>
            <li><strong>Encodage:</strong> UTF-8</li>
        </ul>

        <div class="insight">
            <strong>‚úì Statut:</strong> Dataset nettoy√© et pr√™t pour la mod√©lisation machine learning.
        </div>
    </div>

    <!-- √âTAPE 13 -->
    <div class="section">
        <h2>√âtape 13 : Synth√®se et Interpr√©tation</h2>
        <h3>Observations Principales</h3>
        <ul>
            <li>Dataset initial: {df.shape[0]:,} observations</li>
            <li>Variables quantitatives: {len(variables_quantitatives)}</li>
            <li>Variables qualitatives: {len(variables_qualitatives)}</li>
            <li>Valeurs manquantes: Toutes trait√©es ‚úì</li>
            <li>Outliers: Trait√©s par winsorisation ‚úì</li>
            <li>Dataset final: {df_normalized.shape[0]:,} √ó {df_normalized.shape[1]} (100% complet)</li>
        </ul>

        <h3>Variables Importantes</h3>
        <table>
            <tr><th>Variable</th><th>Asym√©trie</th><th>IQR</th><th>Observations</th></tr>
"""

for col in variables_quantitatives:
    html_content += f"""
            <tr>
                <td><strong>{col}</strong></td>
                <td>{stats_completes[col]['Asym√©trie']:.3f}</td>
                <td>{stats_completes[col]['IQR']:.2f}</td>
                <td>{'Transform√©e' if stats_completes[col]['Asym√©trie'] > 1 else 'Normale'}</td>
            </tr>
"""

html_content += f"""
        </table>

        <h3>Impact du Nettoyage</h3>
        <ul>
            <li><strong>Compl√©tude:</strong> 100% (aucune valeur manquante)</li>
            <li><strong>Outliers:</strong> R√©duits sans perte d'observations</li>
            <li><strong>Distributions:</strong> Normalis√©es et standardis√©es</li>
            <li><strong>Encodage:</strong> Variables cat√©gorielles converties</li>
            <li><strong>√âchelle:</strong> Standardis√©e (Œº=0, œÉ=1)</li>
        </ul>
    </div>

    <!-- CONCLUSION -->
    <div class="section">
        <h2>üéØ Conclusion G√©n√©rale</h2>

        <h3>Importance de l'EDA dans un Projet Data Science</h3>
        <ol>
            <li><strong>Compr√©hension approfondie:</strong> L'EDA permet de comprendre la structure,
            la qualit√© et les caract√©ristiques des donn√©es avant toute mod√©lisation.</li>

            <li><strong>D√©tection des probl√®mes:</strong> Identification pr√©coce des valeurs manquantes,
            aberrantes, incoh√©rentes qui pourraient biaiser les r√©sultats.</li>

            <li><strong>Pr√©paration optimale:</strong> Le nettoyage et la transformation assurent que
            les donn√©es respectent les hypoth√®ses des algorithmes.</li>

            <li><strong>Fiabilit√© accrue:</strong> Des donn√©es propres garantissent des mod√®les
            plus performants et des conclusions plus fiables.</li>

            <li><strong>Gain de temps:</strong> Traiter les probl√®mes en amont √©vite des erreurs
            co√ªteuses lors de la mod√©lisation.</li>
        </ol>

        <h3>‚ö†Ô∏è Risques d'une Analyse sans Nettoyage</h3>
        <ol>
            <li><strong>Mod√®les biais√©s:</strong> Les valeurs aberrantes peuvent dominer l'apprentissage
            et cr√©er des pr√©dictions incorrectes.</li>

            <li><strong>Perte d'information:</strong> Les valeurs manquantes r√©duisent la taille
            effective du dataset et la puissance statistique.</li>

            <li><strong>Performances d√©grad√©es:</strong> Des √©chelles diff√©rentes entre variables
            peuvent fausser les algorithmes bas√©s sur la distance.</li>

            <li><strong>Conclusions erron√©es:</strong> Des donn√©es de mauvaise qualit√© m√®nent √†
            des insights incorrects et des d√©cisions business risqu√©es.</li>

            <li><strong>Perte de temps et ressources:</strong> Corriger des mod√®les d√©fectueux
            co√ªte plus cher que nettoyer les donn√©es initialement.</li>
        </ol>

        <div class="insight">
            <strong>‚úì Conclusion Finale:</strong> Cette analyse exploratoire compl√®te a permis de transformer
            un dataset brut en donn√©es de haute qualit√©, pr√™tes pour la construction de mod√®les pr√©dictifs
            robustes. Le processus rigoureux de nettoyage garantit la fiabilit√© des analyses futures et
            minimise les risques d'erreurs dans la prise de d√©cision.
        </div>
    </div>

    <!-- FOOTER -->
    <div class="footer">
        <p><strong>Rapport d'Analyse Exploratoire des Donn√©es (EDA)</strong></p>
        <p>Fili√®re Informatique - Travaux Pratiques</p>
        <p>G√©n√©r√© le {datetime.now().strftime('%d/%m/%Y √† %H:%M:%S')}</p>
        <p>Dataset: clients.csv ‚Üí clients_cleaned.csv</p>
    </div>

</div>
</body>
</html>
"""

# Sauvegarder le fichier HTML
html_file = 'rapport_eda.html'
with open(html_file, 'w', encoding='utf-8') as f:
    f.write(html_content)

print(f"\n‚úì Rapport HTML cr√©√©: {html_file}")

# Convertir en PDF
print("\n[INFO] Conversion HTML ‚Üí PDF en cours...")

try:
    # M√©thode 1: pdfkit (n√©cessite wkhtmltopdf)
    import pdfkit

    options = {
        'page-size': 'A4',
        'margin-top': '0.75in',
        'margin-right': '0.75in',
        'margin-bottom': '0.75in',
        'margin-left': '0.75in',
        'encoding': "UTF-8",
        'enable-local-file-access': None,
        'no-outline': None
    }

    pdf_file = 'rapport_eda.pdf'
    pdfkit.from_file(html_file, pdf_file, options=options)

    print(f"‚úì PDF g√©n√©r√© avec succ√®s: {pdf_file}")

except ImportError:
    print("\n‚ö†Ô∏è pdfkit non install√©. Installation en cours...")
    import subprocess
    import sys

    # Installer wkhtmltopdf et pdfkit
    try:
        subprocess.check_call(['apt-get', 'update'])
        subprocess.check_call(['apt-get', 'install', '-y', 'wkhtmltopdf'])
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', 'pdfkit'])

        import pdfkit

        options = {
            'page-size': 'A4',
            'margin-top': '0.75in',
            'margin-right': '0.75in',
            'margin-bottom': '0.75in',
            'margin-left': '0.75in',
            'encoding': "UTF-8",
            'enable-local-file-access': None
        }

        pdf_file = 'rapport_eda.pdf'
        pdfkit.from_file(html_file, pdf_file, options=options)

        print(f"‚úì PDF g√©n√©r√© avec succ√®s: {pdf_file}")

    except Exception as e:
        print(f"\n‚ö†Ô∏è Erreur lors de l'installation: {e}")
        print(f"\nSolution alternative:")
        print(f"  1. Le rapport HTML a √©t√© cr√©√©: {html_file}")
        print(f"  2. Ouvrez-le dans un navigateur")
        print(f"  3. Utilisez 'Imprimer' ‚Üí 'Enregistrer au format PDF'")

except Exception as e:
    print(f"\n‚ö†Ô∏è Erreur lors de la g√©n√©ration PDF: {e}")
    print(f"\nSolution alternative:")
    print(f"  1. Le rapport HTML a √©t√© cr√©√©: {html_file}")
    print(f"  2. Ouvrez-le dans un navigateur")
    print(f"  3. Utilisez 'Imprimer' ‚Üí 'Enregistrer au format PDF'")

print("\n" + "=" * 80)
print("üìÅ FICHIERS G√âN√âR√âS:")
print("=" * 80)
print(f"  ‚úì Dataset nettoy√©: clients_cleaned.csv")
print(f"  ‚úì Rapport HTML: {html_file}")
try:
    print(f"  ‚úì Rapport PDF: {pdf_file}")
except:
    print(f"  ‚ö† Rapport PDF: G√©n√©rer manuellement depuis le HTML")
print(f"  ‚úì 6 visualisations PNG")
print("\n‚úÖ TRAVAUX PRATIQUES TERMIN√âS AVEC SUCC√àS!")
print("=" * 80)