<a href="https://colab.research.google.com/github/ghazouanihatim/DS2025/blob/main/CCFin/Notebooks.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
!pip install ucimlrepo



In [3]:
from ucimlrepo import fetch_ucirepo

# fetch dataset
credit_approval = fetch_ucirepo(id=27)

# data (as pandas dataframes)
X = credit_approval.data.features
y = credit_approval.data.targets

# metadata
print(credit_approval.metadata)

# variable information
print(credit_approval.variables)


{'uci_id': 27, 'name': 'Credit Approval', 'repository_url': 'https://archive.ics.uci.edu/dataset/27/credit+approval', 'data_url': 'https://archive.ics.uci.edu/static/public/27/data.csv', 'abstract': 'This data concerns credit card applications; good mix of attributes', 'area': 'Business', 'tasks': ['Classification'], 'characteristics': ['Multivariate'], 'num_instances': 690, 'num_features': 15, 'feature_types': ['Categorical', 'Integer', 'Real'], 'demographics': [], 'target_col': ['A16'], 'index_col': None, 'has_missing_values': 'yes', 'missing_values_symbol': 'NaN', 'year_of_dataset_creation': 1987, 'last_updated': 'Wed Aug 23 2023', 'dataset_doi': '10.24432/C5FS30', 'creators': ['J. R. Quinlan'], 'intro_paper': None, 'additional_info': {'summary': 'This file concerns credit card applications.  All attribute names and values have been changed to meaningless symbols to protect confidentiality of the data.\r\n  \r\nThis dataset is interesting because there is a good mix of attributes --

In [9]:
import pandas as pd              # Manipulation et analyse de données tabulaires
import numpy as np               # Calculs numériques et opérations sur des arrays
import sys                       # Importation du module sys pour les informations système
import matplotlib                # Importation du module matplotlib entier

# Importation des bibliothèques pour la visualisation
import matplotlib.pyplot as plt  # Création de graphiques de base
import seaborn as sns           # Visualisations statistiques avancées

# Importation de bibliothèques complémentaires
from datetime import datetime   # Manipulation de dates
import warnings                 # Gestion des avertissements
from scipy import stats        # Tests statistiques

# Configuration de l'affichage des graphiques
plt.style.use('seaborn-v0_8-whitegrid')  # Style professionnel pour les graphiques
sns.set_palette("Set2")                   # Palette de couleurs professionnelle

# Configuration de la taille par défaut des figures
plt.rcParams['figure.figsize'] = (14, 8)  # Largeur: 14 pouces, Hauteur: 8 pouces
plt.rcParams['font.size'] = 11            # Taille de police par défaut
plt.rcParams['axes.labelsize'] = 12       # Taille des labels d'axes
plt.rcParams['axes.titlesize'] = 14       # Taille des titres
plt.rcParams['xtick.labelsize'] = 10      # Taille des ticks X
plt.rcParams['ytick.labelsize'] = 10      # Taille des ticks Y
plt.rcParams['legend.fontsize'] = 10      # Taille de la légende

# Suppression des avertissements non critiques pour une sortie propre
warnings.filterwarnings('ignore')

# Configuration de l'affichage pandas
pd.set_option('display.max_columns', None)          # Afficher toutes les colonnes
pd.set_option('display.max_rows', 100)              # Afficher jusqu'à 100 lignes
pd.set_option('display.precision', 2)               # 2 décimales pour les nombres
pd.set_option('display.float_format', '{:.2f}'.format)  # Format des floats
pd.set_option('display.width', 120)                 # Largeur d'affichage

# Affichage des informations de configuration
print("="*80)
print("CONFIGURATION DE L'ENVIRONNEMENT D'ANALYSE")
print("="*80)
print(f"✓ Python: {sys.version.split()[0]}")
print(f"✓ pandas: {pd.__version__}")
print(f"✓ numpy: {np.__version__}")
print(f"✓ matplotlib: {matplotlib.__version__}") # Corrected to use matplotlib.__version__
print(f"✓ seaborn: {sns.__version__}")
print(f"✓ Date d'analyse: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("="*80)
print("✓ Environnement configuré avec succès\n")

CONFIGURATION DE L'ENVIRONNEMENT D'ANALYSE
✓ Python: 3.12.12
✓ pandas: 2.2.2
✓ numpy: 2.0.2
✓ matplotlib: 3.10.0
✓ seaborn: 0.13.2
✓ Date d'analyse: 2025-11-13 10:32:51
✓ Environnement configuré avec succès



In [10]:
# ============================================================================
# CHARGEMENT ET EXPLORATION INITIALE DES DONNÉES
# ============================================================================

print("\n" + "="*80)
print("CHARGEMENT DES DONNÉES")
print("="*80)

# Définition des noms des colonnes (A1 à A16)
# Les noms sont anonymisés dans le dataset original
column_names = [f'A{i}' for i in range(1, 17)]

# Chargement du fichier CSV
# Note: Le fichier utilise '?' comme indicateur de valeur manquante
try:
    df = pd.read_csv('credit_approval.csv',
                     names=column_names,        # Noms des colonnes
                     na_values='?',             # Marqueur de valeurs manquantes
                     skipinitialspace=True)     # Supprimer les espaces initiaux
    print(f"✓ Fichier chargé avec succès")
    print(f"✓ Dimensions du dataset: {df.shape[0]} lignes × {df.shape[1]} colonnes")
except FileNotFoundError:
    print("⚠ Fichier non trouvé. Création d'un dataset synthétique pour démonstration...")
    # Création d'un dataset synthétique pour la démonstration
    np.random.seed(42)
    n_samples = 690

    df = pd.DataFrame({
        'A1': np.random.choice(['a', 'b'], n_samples),
        'A2': np.random.uniform(15, 75, n_samples),
        'A3': np.random.uniform(0, 20, n_samples),
        'A4': np.random.choice(['u', 'y', 'l', 't'], n_samples),
        'A5': np.random.choice(['g', 'p', 'gg'], n_samples),
        'A6': np.random.choice(['c', 'w', 'q', 'k', 'i', 'aa', 'ff', 'x'], n_samples),
        'A7': np.random.choice(['v', 'h', 'bb', 'z', 'ff'], n_samples),
        'A8': np.random.uniform(0, 15, n_samples),
        'A9': np.random.choice(['t', 'f'], n_samples),
        'A10': np.random.choice(['t', 'f'], n_samples),
        'A11': np.random.randint(0, 30, n_samples),
        'A12': np.random.choice(['t', 'f'], n_samples),
        'A13': np.random.choice(['g', 'p', 's'], n_samples),
        'A14': np.random.uniform(0, 1000, n_samples),
        'A15': np.random.randint(0, 50000, n_samples),
        'A16': np.random.choice(['+', '-'], n_samples, p=[0.55, 0.45])
    })

    # Introduction aléatoire de valeurs manquantes (5% du dataset)
    for col in df.columns[:-1]:  # Sauf A16 (variable cible)
        mask = np.random.random(n_samples) < 0.05
        df.loc[mask, col] = np.nan

    print(f"✓ Dataset synthétique créé: {df.shape[0]} lignes × {df.shape[1]} colonnes")

# Affichage des premières lignes
print("\n" + "-"*80)
print("APERÇU DES PREMIÈRES LIGNES DU DATASET")
print("-"*80)
print(df.head(10))

# Affichage des dernières lignes pour vérifier la cohérence
print("\n" + "-"*80)
print("APERÇU DES DERNIÈRES LIGNES DU DATASET")
print("-"*80)
print(df.tail(5))

# Informations générales sur le dataset
print("\n" + "-"*80)
print("INFORMATIONS GÉNÉRALES SUR LE DATASET")
print("-"*80)
print(df.info())

# Types de données par colonne
print("\n" + "-"*80)
print("TYPES DE DONNÉES")
print("-"*80)
print(df.dtypes)

print("\n✓ Exploration initiale terminée")


CHARGEMENT DES DONNÉES
⚠ Fichier non trouvé. Création d'un dataset synthétique pour démonstration...
✓ Dataset synthétique créé: 690 lignes × 16 colonnes

--------------------------------------------------------------------------------
APERÇU DES PREMIÈRES LIGNES DU DATASET
--------------------------------------------------------------------------------
  A1    A2    A3   A4   A5   A6  A7    A8 A9  A10   A11  A12 A13    A14      A15 A16
0  a 51.95 13.93    t    p  NaN   v  6.63  f    t 15.00    t   g 520.23 28264.00   -
1  b 53.11  6.80    u    p    c  bb 10.61  f    f 27.00    f   p  37.11      NaN   +
2  a 17.72   NaN    t   gg    k   z  5.84  t    t  0.00    t   p  80.67 41473.00   -
3  a 37.48  1.31    t    g    c   v  3.43  f    f  3.00    f   s 672.35 22375.00   -
4  a 52.55  6.31    l   gg    i  bb  8.95  t    f  9.00    f   g 689.18 22611.00   +
5  b   NaN 10.79    t    p    c   z 13.92  t    t 10.00    f   s 341.47 42026.00   +
6  a 66.39 15.81    u    p   ff   h   NaN  f  Na

In [11]:
# ============================================================================
# IDENTIFICATION ET CONVERSION DES TYPES DE DONNÉES
# ============================================================================

print("\n" + "="*80)
print("IDENTIFICATION DES TYPES DE VARIABLES")
print("="*80)

# Définition manuelle des types de variables basée sur la documentation
variables_continues = ['A2', 'A3', 'A8', 'A11', 'A14', 'A15']
variables_categorielles = ['A1', 'A4', 'A5', 'A6', 'A7', 'A9', 'A10', 'A12', 'A13']
variable_cible = 'A16'

print(f"\n✓ Variables continues: {len(variables_continues)}")
print(f"  {', '.join(variables_continues)}")

print(f"\n✓ Variables catégorielles: {len(variables_categorielles)}")
print(f"  {', '.join(variables_categorielles)}")

print(f"\n✓ Variable cible: {variable_cible}")

# Conversion des types de données
print("\n" + "-"*80)
print("CONVERSION DES TYPES DE DONNÉES")
print("-"*80)

# Conversion des variables continues en float
for col in variables_continues:
    try:
        df[col] = pd.to_numeric(df[col], errors='coerce')
        print(f"✓ {col}: converti en numérique (float)")
    except Exception as e:
        print(f"⚠ {col}: erreur de conversion - {str(e)}")

# Conversion des variables catégorielles en type 'category'
for col in variables_categorielles + [variable_cible]:
    try:
        df[col] = df[col].astype('category')
        print(f"✓ {col}: converti en catégoriel ({df[col].nunique()} catégories)")
    except Exception as e:
        print(f"⚠ {col}: erreur de conversion - {str(e)}")

# Vérification des conversions
print("\n" + "-"*80)
print("TYPES DE DONNÉES APRÈS CONVERSION")
print("-"*80)
print(df.dtypes)

# Résumé des types
print("\n" + "-"*80)
print("RÉSUMÉ DES TYPES DE DONNÉES")
print("-"*80)
print(f"Variables numériques (float64): {(df.dtypes == 'float64').sum()}")
print(f"Variables catégorielles (category): {(df.dtypes == 'category').sum()}")
print(f"Autres types: {((df.dtypes != 'float64') & (df.dtypes != 'category')).sum()}")

print("\n✓ Conversion des types terminée")



IDENTIFICATION DES TYPES DE VARIABLES

✓ Variables continues: 6
  A2, A3, A8, A11, A14, A15

✓ Variables catégorielles: 9
  A1, A4, A5, A6, A7, A9, A10, A12, A13

✓ Variable cible: A16

--------------------------------------------------------------------------------
CONVERSION DES TYPES DE DONNÉES
--------------------------------------------------------------------------------
✓ A2: converti en numérique (float)
✓ A3: converti en numérique (float)
✓ A8: converti en numérique (float)
✓ A11: converti en numérique (float)
✓ A14: converti en numérique (float)
✓ A15: converti en numérique (float)
✓ A1: converti en catégoriel (2 catégories)
✓ A4: converti en catégoriel (4 catégories)
✓ A5: converti en catégoriel (3 catégories)
✓ A6: converti en catégoriel (8 catégories)
✓ A7: converti en catégoriel (5 catégories)
✓ A9: converti en catégoriel (2 catégories)
✓ A10: converti en catégoriel (2 catégories)
✓ A12: converti en catégoriel (2 catégories)
✓ A13: converti en catégoriel (3 catégories)
✓

In [13]:
# ============================================================================
# ANALYSE DÉTAILLÉE DES VALEURS MANQUANTES
# ============================================================================

print("\n" + "="*80)
print("ANALYSE DES VALEURS MANQUANTES")
print("="*80)

# Calcul des statistiques de valeurs manquantes
valeurs_manquantes = df.isnull().sum()
pourcentage_manquant = (valeurs_manquantes / len(df)) * 100

# Création d'un DataFrame récapitulatif
missing_df = pd.DataFrame({
    'Variable': df.columns,
    'Valeurs_manquantes': valeurs_manquantes.values,
    'Pourcentage': pourcentage_manquant.values,
    'Type': df.dtypes.values
}).sort_values('Pourcentage', ascending=False)

# Affichage du tableau
print("\n" + "-"*80)
print("TABLEAU RÉCAPITULATIF DES VALEURS MANQUANTES")
print("-"*80)
print(missing_df.to_string(index=False))

# Statistiques globales
print("\n" + "-"*80)
print("STATISTIQUES GLOBALES")
print("-"*80)
print(f"Nombre total de cellules: {df.size:,}")
print(f"Nombre de cellules avec valeurs manquantes: {df.isnull().sum().sum():,}")
print(f"Pourcentage global de valeurs manquantes: {(df.isnull().sum().sum() / df.size) * 100:.2f}%")

# Identification des variables problématiques (>10% de données manquantes)
variables_problematiques = missing_df[missing_df['Pourcentage'] > 10]
if len(variables_problematiques) > 0:
    print(f"\n⚠ {len(variables_problematiques)} variable(s) avec >10% de données manquantes:")
    for idx, row in variables_problematiques.iterrows():
        print(f"  - {row['Variable']}: {row['Pourcentage']:.2f}%")
else:
    print("\n✓ Aucune variable avec plus de 10% de données manquantes")

# Analyse des lignes avec valeurs manquantes
lignes_completes = df.dropna().shape[0]
lignes_avec_manquantes = df.shape[0] - lignes_completes

print(f"\nLignes complètes (sans valeurs manquantes): {lignes_completes} ({(lignes_completes/len(df))*100:.2f}%)")
print(f"Lignes avec au moins une valeur manquante: {lignes_avec_manquantes} ({(lignes_avec_manquantes/len(df))*100:.2f}%)")

# Distribution du nombre de valeurs manquantes par ligne
missing_per_row = df.isnull().sum(axis=1)
print("\n" + "-"*80)
print("DISTRIBUTION DU NOMBRE DE VALEURS MANQUANTES PAR LIGNE")
print("-"*80)
print(missing_per_row.value_counts().sort_index())

# Test de pattern de données manquantes (MCAR, MAR, MNAR)
print("\n" + "-"*80)
print("ANALYSE DES PATTERNS DE DONNÉES MANQUANTES")
print("-"*80)

# Corrélation entre les données manquantes
missing_matrix = df.isnull().astype(int)
missing_corr = missing_matrix.corr()

# Identifier les paires de variables avec forte corrélation de manquance
high_corr_missing = []
for i in range(len(missing_corr.columns)):
    for j in range(i+1, len(missing_corr.columns)):
        if abs(missing_corr.iloc[i, j]) > 0.3 and missing_corr.iloc[i, j] != 1:
            high_corr_missing.append({
                'Var1': missing_corr.columns[i],
                'Var2': missing_corr.columns[j],
                'Corrélation': missing_corr.iloc[i, j]
            })

if high_corr_missing:
    print("\n⚠ Corrélations significatives détectées entre les patterns de données manquantes:")
    print("   (Suggère que les données ne sont peut-être pas MCAR)")
    for item in high_corr_missing:
        print(f"  - {item['Var1']} ↔ {item['Var2']}: r = {item['Corrélation']:.3f}")
else:
    print("\n✓ Pas de corrélation forte entre les patterns de données manquantes")
    print("   (Compatible avec l'hypothèse MCAR - Missing Completely At Random)")

print("\n✓ Analyse des valeurs manquantes terminée")


ANALYSE DES VALEURS MANQUANTES

--------------------------------------------------------------------------------
TABLEAU RÉCAPITULATIF DES VALEURS MANQUANTES
--------------------------------------------------------------------------------
Variable  Valeurs_manquantes  Pourcentage     Type
     A10                  43         6.23 category
      A5                  42         6.09 category
      A3                  39         5.65  float64
      A1                  39         5.65 category
     A12                  39         5.65 category
     A14                  38         5.51  float64
      A7                  38         5.51 category
      A2                  38         5.51  float64
      A4                  37         5.36 category
      A9                  37         5.36 category
     A15                  33         4.78  float64
      A6                  32         4.64 category
     A13                  29         4.20 category
      A8                  26         3.77  flo

In [22]:
# ============================================================================
# TRAITEMENT DES VALEURS MANQUANTES
# ============================================================================

print("\n" + "="*80)
print("TRAITEMENT DES VALEURS MANQUANTES")
print("="*80)

# Création d'une copie du DataFrame pour le traitement
df_cleaned = df.copy()

print("\n" + "-"*80)
print("STRATÉGIES DE TRAITEMENT PAR TYPE DE VARIABLE")
print("-"*80)

# 1. TRAITEMENT DES VARIABLES CONTINUES
print("\n1. Variables continues - Imputation par la médiane")
print("   (Plus robuste aux outliers que la moyenne)")

for col in variables_continues:
    missing_count = df_cleaned[col].isnull().sum()
    if missing_count > 0:
        # Calcul de la médiane avant imputation
        mediane = df_cleaned[col].median()
        # Imputation
        df_cleaned[col].fillna(mediane, inplace=True)
        print(f"   ✓ {col}: {missing_count} valeurs imputées avec la médiane ({mediane:.2f})")
    else:
        print(f"   ✓ {col}: aucune valeur manquante")

# 2. TRAITEMENT DES VARIABLES CATÉGORIELLES
print("\n2. Variables catégorielles - Imputation par le mode")
print("   (Valeur la plus fréquente)")

for col in variables_categorielles:
    missing_count = df_cleaned[col].isnull().sum()
    if missing_count > 0:
        # Calcul du mode avant imputation
        mode_value = df_cleaned[col].mode()[0]
        # Imputation
        df_cleaned[col].fillna(mode_value, inplace=True)
        print(f"   ✓ {col}: {missing_count} valeurs imputées avec le mode ('{mode_value}')")
    else:
        print(f"   ✓ {col}: aucune valeur manquante")

# 3. VÉRIFICATION FINALE DE L'ABSENCE DE VALEURS MANQUANTES
print("\n" + "-"*80)
print("VÉRIFICATION FINALE DES VALEURS MANQUANTES")
print("-"*80)

if df_cleaned.isnull().sum().sum() == 0:
    print("✓ Toutes les valeurs manquantes ont été traitées avec succès.")
else:
    print(f"⚠ Il reste {df_cleaned.isnull().sum().sum()} valeurs manquantes après traitement.")

print("\n✓ Traitement des valeurs manquantes terminé.")



TRAITEMENT DES VALEURS MANQUANTES

--------------------------------------------------------------------------------
STRATÉGIES DE TRAITEMENT PAR TYPE DE VARIABLE
--------------------------------------------------------------------------------

1. Variables continues - Imputation par la médiane
   (Plus robuste aux outliers que la moyenne)
   ✓ A2: 38 valeurs imputées avec la médiane (44.84)
   ✓ A3: 39 valeurs imputées avec la médiane (10.38)
   ✓ A8: 26 valeurs imputées avec la médiane (7.04)
   ✓ A11: 22 valeurs imputées avec la médiane (14.50)
   ✓ A14: 38 valeurs imputées avec la médiane (520.16)
   ✓ A15: 33 valeurs imputées avec la médiane (24722.00)

2. Variables catégorielles - Imputation par le mode
   (Valeur la plus fréquente)
   ✓ A1: 39 valeurs imputées avec le mode ('b')
   ✓ A4: 37 valeurs imputées avec le mode ('t')
   ✓ A5: 42 valeurs imputées avec le mode ('g')
   ✓ A6: 32 valeurs imputées avec le mode ('k')
   ✓ A7: 38 valeurs imputées avec le mode ('bb')
   ✓ A9: 3

### Installation des bibliothèques nécessaires

Ce bloc de code installe la bibliothèque `ucimlrepo` qui permet d'accéder facilement à des jeux de données hébergés sur le référentiel UCI Machine Learning, y compris le jeu de données 'Credit Approval'. Il assure que toutes les dépendances sont satisfaites avant de procéder à l'analyse des données.

In [15]:
!pip install ucimlrepo



### Chargement du jeu de données "Credit Approval"

Ce bloc de code utilise la bibliothèque `ucimlrepo` pour charger le jeu de données 'Credit Approval' (ID 27). Il extrait les caractéristiques (features) dans `X` et la variable cible (targets) dans `y`. Ensuite, il affiche les métadonnées et les informations sur les variables du jeu de données, ce qui est crucial pour comprendre la nature et la structure des données.

In [16]:
from ucimlrepo import fetch_ucirepo

# fetch dataset
credit_approval = fetch_ucirepo(id=27)

# data (as pandas dataframes)
X = credit_approval.data.features
y = credit_approval.data.targets

# metadata
print(credit_approval.metadata)

# variable information
print(credit_approval.variables)

{'uci_id': 27, 'name': 'Credit Approval', 'repository_url': 'https://archive.ics.uci.edu/dataset/27/credit+approval', 'data_url': 'https://archive.ics.uci.edu/static/public/27/data.csv', 'abstract': 'This data concerns credit card applications; good mix of attributes', 'area': 'Business', 'tasks': ['Classification'], 'characteristics': ['Multivariate'], 'num_instances': 690, 'num_features': 15, 'feature_types': ['Categorical', 'Integer', 'Real'], 'demographics': [], 'target_col': ['A16'], 'index_col': None, 'has_missing_values': 'yes', 'missing_values_symbol': 'NaN', 'year_of_dataset_creation': 1987, 'last_updated': 'Wed Aug 23 2023', 'dataset_doi': '10.24432/C5FS30', 'creators': ['J. R. Quinlan'], 'intro_paper': None, 'additional_info': {'summary': 'This file concerns credit card applications.  All attribute names and values have been changed to meaningless symbols to protect confidentiality of the data.\r\n  \r\nThis dataset is interesting because there is a good mix of attributes --

### Configuration de l'environnement d'analyse

Ce bloc de code importe les bibliothèques Python couramment utilisées pour l'analyse de données (pandas, numpy, matplotlib, seaborn, etc.) et configure divers paramètres pour améliorer la lisibilité et l'esthétique des visualisations et des affichages de DataFrames. Cela inclut la définition d'un style de graphique, d'une palette de couleurs, des tailles de police par défaut et des options d'affichage pour pandas, garantissant un environnement de travail cohérent et agréable.

In [17]:
import pandas as pd              # Manipulation et analyse de données tabulaires
import numpy as np               # Calculs numériques et opérations sur des arrays
import sys                       # Importation du module sys pour les informations système
import matplotlib                # Importation du module matplotlib entier

# Importation des bibliothèques pour la visualisation
import matplotlib.pyplot as plt  # Création de graphiques de base
import seaborn as sns           # Visualisations statistiques avancées

# Importation de bibliothèques complémentaires
from datetime import datetime   # Manipulation de dates
import warnings                 # Gestion des avertissements
from scipy import stats        # Tests statistiques

# Configuration de l'affichage des graphiques
plt.style.use('seaborn-v0_8-whitegrid')  # Style professionnel pour les graphiques
sns.set_palette("Set2")                   # Palette de couleurs professionnelle

# Configuration de la taille par défaut des figures
plt.rcParams['figure.figsize'] = (14, 8)  # Largeur: 14 pouces, Hauteur: 8 pouces
plt.rcParams['font.size'] = 11            # Taille de police par défaut
plt.rcParams['axes.labelsize'] = 12       # Taille des labels d'axes
plt.rcParams['axes.titlesize'] = 14       # Taille des titres
plt.rcParams['xtick.labelsize'] = 10      # Taille des ticks X
plt.rcParams['ytick.labelsize'] = 10      # Taille des ticks Y
plt.rcParams['legend.fontsize'] = 10      # Taille de la légende

# Suppression des avertissements non critiques pour une sortie propre
warnings.filterwarnings('ignore')

# Configuration de l'affichage pandas
pd.set_option('display.max_columns', None)          # Afficher toutes les colonnes
pd.set_option('display.max_rows', 100)              # Afficher jusqu'à 100 lignes
pd.set_option('display.precision', 2)               # 2 décimales pour les nombres
pd.set_option('display.float_format', '{:.2f}'.format)  # Format des floats
pd.set_option('display.width', 120)                 # Largeur d'affichage

# Affichage des informations de configuration
print("="*80)
print("CONFIGURATION DE L'ENVIRONNEMENT D'ANALYSE")
print("="*80)
print(f"✓ Python: {sys.version.split()[0]}")
print(f"✓ pandas: {pd.__version__}")
print(f"✓ numpy: {np.__version__}")
print(f"✓ matplotlib: {matplotlib.__version__}")
print(f"✓ seaborn: {sns.__version__}")
print(f"✓ Date d'analyse: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("="*80)
print("✓ Environnement configuré avec succès\n")

CONFIGURATION DE L'ENVIRONNEMENT D'ANALYSE
✓ Python: 3.12.12
✓ pandas: 2.2.2
✓ numpy: 2.0.2
✓ matplotlib: 3.10.0
✓ seaborn: 0.13.2
✓ Date d'analyse: 2025-11-13 10:42:34
✓ Environnement configuré avec succès



### Chargement et exploration initiale des données

Ce bloc de code gère le chargement du jeu de données. Si le fichier `credit_approval.csv` n'est pas trouvé (ce qui est souvent le cas dans un environnement Colab sans upload manuel), il génère un jeu de données synthétique avec une structure similaire pour permettre la poursuite de l'analyse. Il affiche ensuite les premières et dernières lignes du DataFrame, ainsi que des informations générales (`df.info()`) et les types de données (`df.dtypes`) pour une première compréhension de la structure et de la qualité des données.

In [18]:
# ============================================================================
# CHARGEMENT ET EXPLORATION INITIALE DES DONNÉES
# ============================================================================

print("\n" + "="*80)
print("CHARGEMENT DES DONNÉES")
print("="*80)

# Définition des noms des colonnes (A1 à A16)
# Les noms sont anonymisés dans le dataset original
column_names = [f'A{i}' for i in range(1, 17)]

# Chargement du fichier CSV
# Note: Le fichier utilise '?' comme indicateur de valeur manquante
try:
    df = pd.read_csv('credit_approval.csv',
                     names=column_names,        # Noms des colonnes
                     na_values='?',             # Marqueur de valeurs manquantes
                     skipinitialspace=True)     # Supprimer les espaces initiaux
    print(f"✓ Fichier chargé avec succès")
    print(f"✓ Dimensions du dataset: {df.shape[0]} lignes × {df.shape[1]} colonnes")
except FileNotFoundError:
    print("⚠ Fichier non trouvé. Création d'un dataset synthétique pour démonstration...")
    # Création d'un dataset synthétique pour la démonstration
    np.random.seed(42)
    n_samples = 690

    df = pd.DataFrame({
        'A1': np.random.choice(['a', 'b'], n_samples),
        'A2': np.random.uniform(15, 75, n_samples),
        'A3': np.random.uniform(0, 20, n_samples),
        'A4': np.random.choice(['u', 'y', 'l', 't'], n_samples),
        'A5': np.random.choice(['g', 'p', 'gg'], n_samples),
        'A6': np.random.choice(['c', 'w', 'q', 'k', 'i', 'aa', 'ff', 'x'], n_samples),
        'A7': np.random.choice(['v', 'h', 'bb', 'z', 'ff'], n_samples),
        'A8': np.random.uniform(0, 15, n_samples),
        'A9': np.random.choice(['t', 'f'], n_samples),
        'A10': np.random.choice(['t', 'f'], n_samples),
        'A11': np.random.randint(0, 30, n_samples),
        'A12': np.random.choice(['t', 'f'], n_samples),
        'A13': np.random.choice(['g', 'p', 's'], n_samples),
        'A14': np.random.uniform(0, 1000, n_samples),
        'A15': np.random.randint(0, 50000, n_samples),
        'A16': np.random.choice(['+', '-'], n_samples, p=[0.55, 0.45])
    })

    # Introduction aléatoire de valeurs manquantes (5% du dataset)
    for col in df.columns[:-1]:  # Sauf A16 (variable cible)
        mask = np.random.random(n_samples) < 0.05
        df.loc[mask, col] = np.nan

    print(f"✓ Dataset synthétique créé: {df.shape[0]} lignes × {df.shape[1]} colonnes")

# Affichage des premières lignes
print("\n" + "-"*80)
print("APERÇU DES PREMIÈRES LIGNES DU DATASET")
print("-"*80)
print(df.head(10))

# Affichage des dernières lignes pour vérifier la cohérence
print("\n" + "-"*80)
print("APERÇU DES DERNIÈRES LIGNES DU DATASET")
print("-"*80)
print(df.tail(5))

# Informations générales sur le dataset
print("\n" + "-"*80)
print("INFORMATIONS GÉNÉRALES SUR LE DATASET")
print("-"*80)
print(df.info())

# Types de données par colonne
print("\n" + "-"*80)
print("TYPES DE DONNÉES")
print("-"*80)
print(df.dtypes)

print("\n✓ Exploration initiale terminée")


CHARGEMENT DES DONNÉES
⚠ Fichier non trouvé. Création d'un dataset synthétique pour démonstration...
✓ Dataset synthétique créé: 690 lignes × 16 colonnes

--------------------------------------------------------------------------------
APERÇU DES PREMIÈRES LIGNES DU DATASET
--------------------------------------------------------------------------------
  A1    A2    A3   A4   A5   A6  A7    A8 A9  A10   A11  A12 A13    A14      A15 A16
0  a 51.95 13.93    t    p  NaN   v  6.63  f    t 15.00    t   g 520.23 28264.00   -
1  b 53.11  6.80    u    p    c  bb 10.61  f    f 27.00    f   p  37.11      NaN   +
2  a 17.72   NaN    t   gg    k   z  5.84  t    t  0.00    t   p  80.67 41473.00   -
3  a 37.48  1.31    t    g    c   v  3.43  f    f  3.00    f   s 672.35 22375.00   -
4  a 52.55  6.31    l   gg    i  bb  8.95  t    f  9.00    f   g 689.18 22611.00   +
5  b   NaN 10.79    t    p    c   z 13.92  t    t 10.00    f   s 341.47 42026.00   +
6  a 66.39 15.81    u    p   ff   h   NaN  f  Na

### Identification et conversion des types de données

Ce bloc de code est crucial pour la préparation des données. Il identifie manuellement les variables continues et catégorielles, ainsi que la variable cible (`A16`), en se basant sur la documentation ou une compréhension préalable du jeu de données. Ensuite, il convertit les types de données de ces colonnes : les variables continues sont converties en `float` (numérique) et les variables catégorielles (y compris la variable cible) en type `category` de pandas. Cette conversion est essentielle pour optimiser la mémoire, améliorer les performances de certaines opérations et garantir que les algorithmes de machine learning interprètent correctement les données.

In [19]:
# ============================================================================
# IDENTIFICATION ET CONVERSION DES TYPES DE DONNÉES
# ============================================================================

print("\n" + "="*80)
print("IDENTIFICATION DES TYPES DE VARIABLES")
print("="*80)

# Définition manuelle des types de variables basée sur la documentation
variables_continues = ['A2', 'A3', 'A8', 'A11', 'A14', 'A15']
variables_categorielles = ['A1', 'A4', 'A5', 'A6', 'A7', 'A9', 'A10', 'A12', 'A13']
variable_cible = 'A16'

print(f"\n✓ Variables continues: {len(variables_continues)}")
print(f"  {', '.join(variables_continues)}")

print(f"\n✓ Variables catégorielles: {len(variables_categorielles)}")
print(f"  {', '.join(variables_categorielles)}")

print(f"\n✓ Variable cible: {variable_cible}")

# Conversion des types de données
print("\n" + "-"*80)
print("CONVERSION DES TYPES DE DONNÉES")
print("-"*80)

# Conversion des variables continues en float
for col in variables_continues:
    try:
        df[col] = pd.to_numeric(df[col], errors='coerce')
        print(f"✓ {col}: converti en numérique (float)")
    except Exception as e:
        print(f"⚠ {col}: erreur de conversion - {str(e)}")

# Conversion des variables catégorielles en type 'category'
for col in variables_categorielles + [variable_cible]:
    try:
        df[col] = df[col].astype('category')
        print(f"✓ {col}: converti en catégoriel ({df[col].nunique()} catégories)")
    except Exception as e:
        print(f"⚠ {col}: erreur de conversion - {str(e)}")

# Vérification des conversions
print("\n" + "-"*80)
print("TYPES DE DONNÉES APRÈS CONVERSION")
print("-"*80)
print(df.dtypes)

# Résumé des types
print("\n" + "-"*80)
print("RÉSUMÉ DES TYPES DE DONNÉES")
print("-"*80)
print(f"Variables numériques (float64): {(df.dtypes == 'float64').sum()}")
print(f"Variables catégorielles (category): {(df.dtypes == 'category').sum()}")
print(f"Autres types: {((df.dtypes != 'float64') & (df.dtypes != 'category')).sum()}")

print("\n✓ Conversion des types terminée")


IDENTIFICATION DES TYPES DE VARIABLES

✓ Variables continues: 6
  A2, A3, A8, A11, A14, A15

✓ Variables catégorielles: 9
  A1, A4, A5, A6, A7, A9, A10, A12, A13

✓ Variable cible: A16

--------------------------------------------------------------------------------
CONVERSION DES TYPES DE DONNÉES
--------------------------------------------------------------------------------
✓ A2: converti en numérique (float)
✓ A3: converti en numérique (float)
✓ A8: converti en numérique (float)
✓ A11: converti en numérique (float)
✓ A14: converti en numérique (float)
✓ A15: converti en numérique (float)
✓ A1: converti en catégoriel (2 catégories)
✓ A4: converti en catégoriel (4 catégories)
✓ A5: converti en catégoriel (3 catégories)
✓ A6: converti en catégoriel (8 catégories)
✓ A7: converti en catégoriel (5 catégories)
✓ A9: converti en catégoriel (2 catégories)
✓ A10: converti en catégoriel (2 catégories)
✓ A12: converti en catégoriel (2 catégories)
✓ A13: converti en catégoriel (3 catégories)
✓

### Analyse détaillée des valeurs manquantes

Ce bloc de code effectue une analyse approfondie des valeurs manquantes dans le jeu de données. Il calcule le nombre et le pourcentage de valeurs manquantes par colonne, crée un tableau récapitulatif, et fournit des statistiques globales sur la complétude du dataset. Il identifie également les variables ayant un pourcentage élevé de données manquantes (plus de 10%). Enfin, il explore la distribution des valeurs manquantes par ligne et tente d'analyser les patterns de manquance en calculant la corrélation entre les indicateurs de manquance des différentes variables. Cela permet de mieux comprendre la nature des valeurs manquantes et d'orienter les stratégies d'imputation.

In [20]:
# ============================================================================
# ANALYSE DÉTAILLÉE DES VALEURS MANQUANTES
# ============================================================================

print("\n" + "="*80)
print("ANALYSE DES VALEURS MANQUANTES")
print("="*80)

# Calcul des statistiques de valeurs manquantes
valeurs_manquantes = df.isnull().sum()
pourcentage_manquant = (valeurs_manquantes / len(df)) * 100

# Création d'un DataFrame récapitulatif
missing_df = pd.DataFrame({
    'Variable': df.columns,
    'Valeurs_manquantes': valeurs_manquantes.values,
    'Pourcentage': pourcentage_manquant.values,
    'Type': df.dtypes.values
}).sort_values('Pourcentage', ascending=False)

# Affichage du tableau
print("\n" + "-"*80)
print("TABLEAU RÉCAPITULATIF DES VALEURS MANQUANTES")
print("-"*80)
print(missing_df.to_string(index=False))

# Statistiques globales
print("\n" + "-"*80)
print("STATISTIQUES GLOBALES")
print("-"*80)
print(f"Nombre total de cellules: {df.size:,}")
print(f"Nombre de cellules avec valeurs manquantes: {df.isnull().sum().sum():,}")
print(f"Pourcentage global de valeurs manquantes: {(df.isnull().sum().sum() / df.size) * 100:.2f}%")

# Identification des variables problématiques (>10% de données manquantes)
variables_problematiques = missing_df[missing_df['Pourcentage'] > 10]
if len(variables_problematiques) > 0:
    print(f"\n⚠ {len(variables_problematiques)} variable(s) avec >10% de données manquantes:")
    for idx, row in variables_problematiques.iterrows():
        print(f"  - {row['Variable']}: {row['Pourcentage']:.2f}%")
else:
    print("\n✓ Aucune variable avec plus de 10% de données manquantes")

# Analyse des lignes avec valeurs manquantes
lignes_completes = df.dropna().shape[0]
lignes_avec_manquantes = df.shape[0] - lignes_completes

print(f"\nLignes complètes (sans valeurs manquantes): {lignes_completes} ({(lignes_completes/len(df))*100:.2f}%)者に)")
print(f"Lignes avec au moins une valeur manquante: {lignes_avec_manquantes} ({(lignes_avec_manquantes/len(df))*100:.2f}%)者に)")

# Distribution du nombre de valeurs manquantes par ligne
missing_per_row = df.isnull().sum(axis=1)
print("\n" + "-"*80)
print("DISTRIBUTION DU NOMBRE DE VALEURS MANQUANTES PAR LIGNE")
print("-"*80)
print(missing_per_row.value_counts().sort_index())

# Test de pattern de données manquantes (MCAR, MAR, MNAR)
print("\n" + "-"*80)
print("ANALYSE DES PATTERNS DE DONNÉES MANQUANTES")
print("-"*80)

# Corrélation entre les données manquantes
missing_matrix = df.isnull().astype(int)
missing_corr = missing_matrix.corr()

# Identifier les paires de variables avec forte corrélation de manquance
high_corr_missing = []
for i in range(len(missing_corr.columns)):
    for j in range(i+1, len(missing_corr.columns)):
        if abs(missing_corr.iloc[i, j]) > 0.3 and missing_corr.iloc[i, j] != 1:
            high_corr_missing.append({
                'Var1': missing_corr.columns[i],
                'Var2': missing_corr.columns[j],
                'Corrélation': missing_corr.iloc[i, j]
            })

if high_corr_missing:
    print("\n⚠ Corrélations significatives détectées entre les patterns de données manquantes:")
    print("   (Suggère que les données ne sont peut-être pas MCAR)")
    for item in high_corr_missing:
        print(f"  - {item['Var1']} ↔ {item['Var2']}: r = {item['Corrélation']:.3f}")
else:
    print("\n✓ Pas de corrélation forte entre les patterns de données manquantes")
    print("   (Compatible avec l'hypothèse MCAR - Missing Completely At Random)")

print("\n✓ Analyse des valeurs manquantes terminée")


ANALYSE DES VALEURS MANQUANTES

--------------------------------------------------------------------------------
TABLEAU RÉCAPITULATIF DES VALEURS MANQUANTES
--------------------------------------------------------------------------------
Variable  Valeurs_manquantes  Pourcentage     Type
     A10                  43         6.23 category
      A5                  42         6.09 category
      A3                  39         5.65  float64
      A1                  39         5.65 category
     A12                  39         5.65 category
     A14                  38         5.51  float64
      A7                  38         5.51 category
      A2                  38         5.51  float64
      A4                  37         5.36 category
      A9                  37         5.36 category
     A15                  33         4.78  float64
      A6                  32         4.64 category
     A13                  29         4.20 category
      A8                  26         3.77  flo

### Traitement des valeurs manquantes

Ce bloc de code met en œuvre une stratégie d'imputation pour gérer les valeurs manquantes dans le jeu de données. Pour les variables continues, il utilise la **médiane** comme méthode d'imputation, car elle est plus robuste aux valeurs aberrantes que la moyenne. Pour les variables catégorielles, il utilise le **mode** (la valeur la plus fréquente) pour remplacer les valeurs manquantes. Une copie du DataFrame original est créée (`df_cleaned`) pour appliquer ces transformations, assurant ainsi que le DataFrame original reste inchangé pour d'éventuelles analyses ultérieures.

In [21]:
# ============================================================================
# TRAITEMENT DES VALEURS MANQUANTES
# ============================================================================

print("\n" + "="*80)
print("TRAITEMENT DES VALEURS MANQUANTES")
print("="*80)

# Création d'une copie du DataFrame pour le traitement
df_cleaned = df.copy()

print("\n" + "-"*80)
print("STRATÉGIES DE TRAITEMENT PAR TYPE DE VARIABLE")
print("-"*80)

# 1. TRAITEMENT DES VARIABLES CONTINUES
print("\n1. Variables continues - Imputation par la médiane")
print("   (Plus robuste aux outliers que la moyenne)")

for col in variables_continues:
    missing_count = df_cleaned[col].isnull().sum()
    if missing_count > 0:
        # Calcul de la médiane avant imputation
        mediane = df_cleaned[col].median()
        # Imputation
        df_cleaned[col].fillna(mediane, inplace=True)
        print(f"   ✓ {col}: {missing_count} valeurs imputées avec la médiane ({mediane:.2f})")
    else:
        print(f"   ✓ {col}: aucune valeur manquante")

# 2. TRAITEMENT DES VARIABLES CATÉGORIELLES
print("\n2. Variables catégorielles - Imputation par le mode")
print("   (Valeur la plus fréquente)")

for col in variables_categorielles:
    missing_count = df_cleaned[col].isnull().sum()
    if missing_count > 0:
        # Calcul du mode avant imputation
        mode_value = df_cleaned[col].mode()[0]
        # Imputation
        df_cleaned[col].fillna(mode_value, inplace=True)
        print(f"   ✓ {col}: {missing_count} valeurs imputées avec le mode ('{mode_value}')")
    else:
        print(f"   ✓ {col}: aucune valeur manquante")

# 3. VÉRIFICATION DE LA VARIABLE C


TRAITEMENT DES VALEURS MANQUANTES

--------------------------------------------------------------------------------
STRATÉGIES DE TRAITEMENT PAR TYPE DE VARIABLE
--------------------------------------------------------------------------------

1. Variables continues - Imputation par la médiane
   (Plus robuste aux outliers que la moyenne)
   ✓ A2: 38 valeurs imputées avec la médiane (44.84)
   ✓ A3: 39 valeurs imputées avec la médiane (10.38)
   ✓ A8: 26 valeurs imputées avec la médiane (7.04)
   ✓ A11: 22 valeurs imputées avec la médiane (14.50)
   ✓ A14: 38 valeurs imputées avec la médiane (520.16)
   ✓ A15: 33 valeurs imputées avec la médiane (24722.00)

2. Variables catégorielles - Imputation par le mode
   (Valeur la plus fréquente)
   ✓ A1: 39 valeurs imputées avec le mode ('b')
   ✓ A4: 37 valeurs imputées avec le mode ('t')
   ✓ A5: 42 valeurs imputées avec le mode ('g')
   ✓ A6: 32 valeurs imputées avec le mode ('k')
   ✓ A7: 38 valeurs imputées avec le mode ('bb')
   ✓ A9: 3