In [1]:
# Manipulation et analyse de données
import pandas as pd
import numpy as np
from pandas.api.types import is_numeric_dtype

# Librairies utiles
import joblib
import sys
import os

# Ajout du dossier parent dans les chemins d'import
sys.path.append(os.path.abspath(".."))

# Import d'une classe home made qui sera utilisée pour le prétraitement des variables liées au crédits actifs et approuvés
from Utils.Conditional_imputer import ConditionalImputer


In [2]:
# Chargement des données
sub_table3 = pd.read_csv(f"../Output/Variables/Variable_description_fr.csv")
App_train_enrichi = pd.read_csv("../Output/Data_clients/App_train_final.csv", index_col='SK_ID_CURR')
Home_credit_desc = pd.read_csv("../Data/HomeCredit_columns_description.csv", index_col=0, encoding='Windows-1252')
pipe  = joblib.load(f"../Output/Pipelines/pipeline_to_deployed.joblib")


FileNotFoundError: [Errno 2] No such file or directory: '../Output/Data_clients/App_train_final.csv'

# Prétraitement donnée

In [None]:
# Ajout du dossier parent dans les chemins d'import
sys.path.append(os.path.abspath(".."))

# Import d'une classe home made qui sera utilisée pour le prétraitement des variables liées au crédits actifs et approuvés
from Utils.Conditional_imputer import ConditionalImputer

# Définition des variables à garder
features = [feat for feat in App_train_enrichi.columns if feat != 'TARGET' and feat!='SK_ID_CURR']

# Séparation des données et de la cible
X_train = App_train_enrichi[features]
Y_train = App_train_enrichi['TARGET']

# Définition des variables liées aux crédits approuvés
num_cols_c_approuved = ['nb_credit_approuves', 'montant_mensuel_min', 
                       'montant_total', 'montant_mensuel_mean',
                       'n_jours_credit_mean', 'n_jours_credit_min', 'n_jours_credit_max',
                       'n_jours_retard_moyen', 'ratio_echeance_retard', 'ratio_approuve_demande']

# Définition des variables liées aux crédits actifs
num_cols_c_actifs = ['n_contrat_actif', 'montant_mensuel_actif', 'montant_dette_restante',
                     'n_jours_restant_mean', 'n_jours_restant_min', 'n_jours_restant_max']

# Définition des autres listes de variables
num_other_cols = [c for c in X_train.columns if is_numeric_dtype(X_train[c]) 
                  and c not in (num_cols_c_approuved + num_cols_c_actifs)]
cat_cols_label = [c for c in X_train.select_dtypes(include='object').columns if X_train[c].nunique() <= 2]
cat_cols_OneHot = [c for c in X_train.select_dtypes(include='object').columns if X_train[c].nunique() > 2]

# Défintion des pipelines associées aux variables numériques
num_var_approuve = Pipeline([
    ('conditional_imputer', ConditionalImputer(ref_col='nb_credit_approuves', variables=num_cols_c_approuved)),
    ('scaler', StandardScaler())
])
num_var_actif = Pipeline([
    ('conditional_imputer', ConditionalImputer(ref_col='n_contrat_actif', variables=num_cols_c_actifs)),
    ('scaler', StandardScaler())
])
num_other_var = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Définition du préprocesseur complet
preprocessor = ColumnTransformer([
    ('num_var_c_approuve', num_var_approuve, num_cols_c_approuved),
    ('num_var_c_actifs', num_var_actif, num_cols_c_actifs),
    ('num_other', num_other_var, num_other_cols),
    ('cat_cols_label', OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1), cat_cols_label),
    ('cat_cols_OneHot', OneHotEncoder(handle_unknown='ignore'), cat_cols_OneHot)
])

# Affichage du nombre d'observations et de variables des données d'entrainement
X_train.shape

In [None]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

preproc = pipe.named_steps['preprocessing']
mask = pipe.named_steps['feature_selection'].get_support()

# Liste pour stocker les noms originaux
feature_names_origin = []

for name, transformer, cols in preproc.transformers_:
    if isinstance(transformer, OneHotEncoder):
        # Pour chaque colonne encodée
        ohe_feature_names = transformer.get_feature_names_out(cols)
        # Extraire juste le nom de la colonne avant le _
        for f in ohe_feature_names:
            feature_names_origin.append(f.split("_")[0])
    else:
        # Colonnes non encodées
        feature_names_origin.extend(cols)

# Appliquer le masque des features sélectionnées
selected_feature_names_origin = [feature_names_origin[i] for i, m in enumerate(mask) if m]

print(selected_feature_names_origin)

In [None]:
description3 = [
"Variable cible (1 = client avec des difficultés de paiement : il/elle a eu un retard de paiement de plus de X jours sur au moins une des Y premières mensualités du prêt dans notre échantillon, 0 = tous les autres cas)",
"Identification si le prêt est un crédit cash ou revolving",
"Sexe du client",
"Indicateur si le client possède une voiture",
"Indicateur si le client possède une maison ou un appartement",
"Nombre d’enfants du client",
"Revenu du client",
"Montant du crédit demandé",
"Annuité du prêt",
"Personne qui accompagnait le client lors de la demande de crédit",
"Type de revenu du client (salarié, indépendant, congé maternité, …)",
"Niveau d’éducation le plus élevé atteint par le client",
"Situation familiale du client",
"Situation de logement du client (locataire, vit chez ses parents, …)",
"Population normalisée de la région où vit le client (valeur élevée = région plus peuplée)",
"Nombre de jours entre la date de début de l’emploi actuel et la demande de prêt",
"Nombre de jours entre le changement d’adresse de résidence et la demande de prêt",
"Nombre de jours entre le changement de document d’identité et la demande de prêt",
"Le client a fourni un numéro de téléphone portable (1 = OUI, 0 = NON)",
"Le client a fourni un numéro de téléphone de son entreprise (1 = OUI, 0 = NON)",
"Le client a fourni un numéro de téléphone professionnel (1 = OUI, 0 = NON)",
"Le téléphone portable du client était joignable (1 = OUI, 0 = NON)",
"Le client a fourni un numéro de téléphone fixe (1 = OUI, 0 = NON)",
"Le client a fourni un email (1 = OUI, 0 = NON)",
"Notre notation de la région de résidence du client (1, 2, 3)",
"Jour de la semaine de la demande de crédit",
"Heure approximative de la demande de crédit",
"Indicateur si l’adresse permanente ≠ adresse de contact (1 = différente, 0 = identique, au niveau région)",
"Indicateur si l’adresse de contact ≠ adresse professionnelle (1 = différente, 0 = identique, au niveau région)",
"Indicateur si l’adresse permanente ≠ adresse de contact (1 = différente, 0 = identique, au niveau ville)",
"Indicateur si l’adresse de contact ≠ adresse professionnelle (1 = différente, 0 = identique, au niveau ville)",
"Score normalisé provenant d’une source de données externe",
"Score normalisé provenant d’une source de données externe",
"Nombre d’observations dans l’entourage social du client avec un défaut de paiement ≥ 30 jours",
"Nombre d’observations dans l’entourage social du client ayant effectivement eu un défaut ≥ 30 jours",
"Nombre de jours entre le changement de téléphone et la demande de prêt",
"Le client a fourni le document 2",
"Le client a fourni le document 3",
"Le client a fourni le document 4",
"Le client a fourni le document 5",
"Le client a fourni le document 6",
"Le client a fourni le document 7",
"Le client a fourni le document 8",
"Le client a fourni le document 9",
"Le client a fourni le document 10",
"Le client a fourni le document 11",
"Le client a fourni le document 12",
"Le client a fourni le document 13",
"Le client a fourni le document 14",
"Le client a fourni le document 15",
"Le client a fourni le document 16",
"Le client a fourni le document 17",
"Le client a fourni le document 18",
"Le client a fourni le document 19",
"Le client a fourni le document 20",
"Le client a fourni le document 21",
"Nombre de demandes d’information auprès du Bureau de crédit une heure avant la demande",
"Nombre de demandes d’information auprès du Bureau de crédit un jour avant la demande (hors dernière heure)",
"Nombre de demandes d’information auprès du Bureau de crédit une semaine avant la demande (hors dernier jour)",
"Nombre de demandes d’information auprès du Bureau de crédit un mois avant la demande (hors dernière semaine)",
"Nombre de demandes d’information auprès du Bureau de crédit trois mois avant la demande (hors dernier mois)",
"Nombre de demandes d’information auprès du Bureau de crédit un an avant la demande (hors trois derniers mois)",
"Nombre moyen de jours de retard de paiement sur les prêts précédents",
"Nombre de prêts actifs",
"Montant minimal des mensualités des prêts précédents",
"Montant moyen des mensualités des prêts précédents",
"Montant total des prêts précédents",
"Durée moyenne des prêts précédents (en jours)",
"Durée minimale des prêts précédents (en jours)",
"Durée maximale des prêts précédents (en jours)",
"Montant de la dette restante",
"Durée moyenne restante des prêts",
"Durée minimale restante des prêts",
"Durée maximale restante des prêts",
"Nombre de prêts approuvés",
"Ratio des mensualités en retard sur le total des mensualités",
"Ratio des prêts approuvés sur le total des demandes",
"Montant de la mensualité des prêts actifs",
"Nombre d’autres catégories de prêts",
"Nombre de prêts cash",
"Nombre de crédits à la consommation",
"Nombre de produits de crédit à la consommation",
"Nombre de prêts immobiliers ou hypothécaires",
"Nombre de micro-crédits",
"Nombre de crédits revolving",
"Nombre de prêts liés à une activité professionnelle"
]


Features = App_train_enrichi.columns

sub_table = Home_credit_desc[Home_credit_desc['Table']=='application_{train|test}.csv']
sub_table2 = sub_table[sub_table['Row'].isin(Features)]
sub_table2 = sub_table2[['Row', 'Description']]
sub_table2['Source'] = 'Application'

sub_table2

row = ['n_jours_retard_moyen', 'n_contrat_actif', 'montant_mensuel_min',
       'montant_mensuel_mean', 'montant_total', 'n_jours_credit_mean',
       'n_jours_credit_min', 'n_jours_credit_max', 'montant_dette_restante',
       'n_jours_restant_mean', 'n_jours_restant_min', 'n_jours_restant_max',
       'nb_credit_approuves', 'ratio_echeance_retard',
       'ratio_approuve_demande', 'montant_mensuel_actif',
       'Another type of loan', 'Cash loans', 'Consumer credit',
       'Consumer loans', 'Immo_credit', 'Microloan', 'Revolving loans',
       'business credit']

description = ['Average number of days of payment delay for previous loans',
              'Number of active lonas',
               'Minimum monthly installment amount of previous loans',
               'Average monthly installment amount of previous loans',
               'Total loan amount',
               'Average previous loan duration (in days)',
               'Minimum loan duration (in days)',
               'Maximum loan duration (in days)',
               'Remaining debt amount',
               'Average number of days remaining on loans',
               'Minimum number of days remaining on loans',
               'Maximum number of days remaining on loans',
               'Number of approved loans',
               'Ratio of overdue installments to total installments',
               'Ratio of approved loans to total applications',
               'Monthly installment amount for active loans',
               'Number of another loan category',
               'Number of cash loan products',
               'Number of consumer credit loans',
               'Number of consumer loan products',
               'Number of mortgage or real estate loans',
               'Number of microloan products',
               'Number of revolving credit products',
               'Number of business-related loans']
               
               
               
              
sub_table2_int = pd.DataFrame({'Row': row,
             'Description': description})

sub_table2_int['Source']= 'Engineered'

sub_table2 = pd.concat([sub_table2, sub_table2_int])

sub_table2.loc[sub_table2['Row']=='FLAG_WORK_PHONE', 'Description'] = "Did client provide work phone (1=YES, 0=NO)"
sub_table2.loc[sub_table2['Row']=='FLAG_EMP_PHONE', 'Description'] = "Did client provide employer phone (1=YES, 0=NO)"

sub_table2['Utilisé'] = sub_table2['Row'].isin(selected_feature_names_origin)


sub_table2.to_csv(f"../Output/Variables/Variable_description_eng.csv", index=False)

sub_table2

In [None]:
print(sub_table2['Row'].tolist())

In [None]:
sub_table3 = sub_table2.copy()
sub_table3['Description'] = description3

sub_table3


In [None]:
# On mappe les dtypes pandas vers un type simplifié
def map_dtype(dtype):
    if "int" in str(dtype):
        return "int"
    elif "float" in str(dtype):
        return "float"
    elif dtype == "object" or "category" in str(dtype):
        return "cat"
    else:
        return "other"

# Création d'un DataFrame avec les types
var_types = App_train_enrichi.dtypes.apply(map_dtype).reset_index()
var_types.columns = ['Row', 'Type']

# Jointure avec ta table des variables
sub_table3 = sub_table3.merge(var_types, on='Row', how='left')



In [None]:
# Fonction pour extraire les valeurs uniques pour les variables catégorielles
def get_values(row):
    col = row['Row']
    if row['Type'] == 'cat':
        vals = App_train_enrichi[col].dropna().unique()

        # tu peux limiter le nombre pour éviter des colonnes énormes
        return ", ".join(map(str, vals[:20])) + ("..." if len(vals) > 20 else "")
    else:
        return pd.NA

# Application
sub_table3['Values'] = sub_table3.apply(get_values, axis=1)

# Sauvegarde

sub_table3[['Row', 'Type', 'Values']].head(20)

In [None]:
# Définition des variables liées aux crédits approuvés
num_cols_c_approuved = ['nb_credit_approuves', 'montant_mensuel_min', 
                       'montant_total', 'montant_mensuel_mean',
                       'n_jours_credit_mean', 'n_jours_credit_min', 'n_jours_credit_max',
                       'n_jours_retard_moyen', 'ratio_echeance_retard', 'ratio_approuve_demande']

# Définition des variables liées aux crédits actifs
num_cols_c_actifs = ['n_contrat_actif', 'montant_mensuel_actif', 'montant_dette_restante',
                     'n_jours_restant_mean', 'n_jours_restant_min', 'n_jours_restant_max']

num_other_cols = [c for c in X_train.columns if is_numeric_dtype(X_train[c]) 
                  and c not in (num_cols_c_approuved + num_cols_c_actifs)]
cat_cols_label = [c for c in X_train.select_dtypes(include='object').columns if X_train[c].nunique() <= 2]
cat_cols_OneHot = [c for c in X_train.select_dtypes(include='object').columns if X_train[c].nunique() > 2]


# Colonnes numériques et catégorielles avant preprocessing
num_cols_orig = num_cols_c_approuved + num_cols_c_actifs + num_other_cols
cat_cols_orig = {
    'label': cat_cols_label,
    'one_hot': cat_cols_OneHot
}


# Définition des variables à garder
features = [feat for feat in App_train_enrichi.columns if feat != 'TARGET' and feat!='SK_ID_CURR']

# Séparation des données et de la cible
X_train = App_train_enrichi[features]
Y_train = App_train_enrichi['TARGET']

# --- Extraction des noms après preprocessing et feature_selection ---
feature_names_after_preprocessing = pipe.named_steps['preprocessing'].get_feature_names_out(X_train.columns)
mask = pipe.named_steps['feature_selection'].get_support()
selected_feature_names = feature_names_after_preprocessing[mask]
feature_names_clean = [f.split("__")[-1] for f in selected_feature_names]

# --- Mapping feature transformée -> feature originale et nom final ---
feature_mapping = {}
final_columns = []

for f_trans in feature_names_clean:
    # Identification de la feature originale
    if f_trans in num_cols_orig or f_trans in cat_cols_orig.get('label', []):
         f_orig = f_trans
    else:
        match_cat = next((f for f in cat_cols_orig.get('one_hot', []) if f_trans.startswith(f)), None)
        f_orig = match_cat if match_cat else f_trans

    # Nom final : pour les one-hot, on garde juste la catégorie
    if f_orig in cat_cols_orig.get('one_hot', []):
        f_final = f_trans.replace(f_orig + "_", "")
    else:
        f_final = f_trans
        
    feature_mapping[f_trans] = {'original': f_orig, 'final': f_final}
    final_columns.append(f_final)

In [None]:
# Récupération de tous les noms originaux dans le dictionnaire
original_features = [v['original'] for v in feature_mapping.values()]

# Vérification dans sub_table3
sub_table3['Utilisé'] = sub_table3['Row'].isin(original_features)


# Type
conditions = [
    sub_table3['Row'].isin(cat_cols_OneHot),
    sub_table3['Row'].isin(cat_cols_label),
    sub_table3['Row'].isin(num_cols_orig)
]

choices = ["OneHot", "Label", "Num"]

sub_table3['Type_Enc'] = np.select(conditions, choices, default="Unknown")


sub_table3

In [None]:
# Affichage des descriptions
for index, row in sub_table3.iterrows():
    print(f"- {row['Row']} : {row['Description']}")
    
sub_table3.to_csv(f"../Output/Variables/Variable_description_fr.csv", index=False)