 # Lecture des données

In [1]:
import pandas as pd

train = pd.read_csv('train_merged.csv')
test = pd.read_csv( 'test_merged.csv')

# Optimiser par corrélation

## Coorrélation des variables numériques

In [2]:
import pandas as pd
import numpy as np

def optimize_dataframe_by_correlation(df, threshold):
    """
    Optimise un DataFrame en supprimant les variables redondantes basées sur un seuil de corrélation.

    :param df: DataFrame à optimiser.
    :param threshold: Seuil de corrélation pour identifier les paires de variables redondantes.
    :return: DataFrame optimisé avec les variables redondantes supprimées.
    """
    # Sélectionner uniquement les variables numériques et calculer la matrice de corrélation
    num_vars = df.select_dtypes(include=[np.number])
    num_corr_matrix = num_vars.corr()

    # Trouver les paires de variables hautement corrélées
    high_corr_pairs = []
    for i in range(len(num_corr_matrix.columns)):
        for j in range(i):
            if abs(num_corr_matrix.iloc[i, j]) > threshold:
                high_corr_pairs.append((num_corr_matrix.columns[i], num_corr_matrix.columns[j], num_corr_matrix.iloc[i, j]))

    # Identifier les variables à supprimer
    to_remove = set()
    for var1, var2, _ in high_corr_pairs:
        if var1 not in to_remove and var2 not in to_remove:
            if df[var1].isna().sum() > df[var2].isna().sum():
                to_remove.add(var1)
            else:
                to_remove.add(var2)

    # Supprimer les variables redondantes
    df_reduced = df.drop(columns=to_remove)

    return df_reduced

In [3]:
# Appliquer la méthode au DataFrame
threshold = 0.7 
train_optimized_num = optimize_dataframe_by_correlation(train, threshold)
print(train_optimized_num.shape)

(307511, 125)


## Coorrélation des variables catégorielles

In [4]:
from scipy.stats import chi2_contingency
import pandas as pd
import numpy as np

def optimize_categorical_dataframe(df, threshold_p_value):
    """
    Optimise un DataFrame en supprimant les variables catégorielles redondantes basées sur un seuil de p-value.

    :param df: DataFrame à optimiser.
    :param threshold_p_value: Seuil de p-value pour identifier les paires de variables catégorielles associées.
    :return: DataFrame optimisé avec les variables catégorielles redondantes supprimées.
    """
    # Sélectionner uniquement les variables catégorielles
    cat_vars = df.select_dtypes(exclude=[np.number])
    cat_var_names = cat_vars.columns.tolist()

    # Trouver les paires de variables catégorielles associées
    associated_pairs = []
    for i in range(len(cat_var_names)):
        for j in range(i):
            contingency_table = pd.crosstab(df[cat_var_names[i]], df[cat_var_names[j]])
            chi2, p, _, _ = chi2_contingency(contingency_table)
            if p < threshold_p_value:
                associated_pairs.append((cat_var_names[i], cat_var_names[j], p))

    # Identifier les variables catégorielles à supprimer
    to_remove = set()
    for var1, var2, p_value in associated_pairs:
        if p_value < threshold_p_value:
            if df[var1].isna().sum() > df[var2].isna().sum():
                to_remove.add(var1)
            else:
                to_remove.add(var2)

    # Supprimer les variables catégorielles redondantes
    df_reduced = df.drop(columns=to_remove)

    return df_reduced

In [5]:
# Appliquer la méthode au DataFrame
threshold_p_value = 0.05  
train_optimized_num_cat = optimize_categorical_dataframe(train_optimized_num, threshold_p_value)
print(train_optimized_num_cat.shape)

(307511, 109)


In [6]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)

In [7]:
import pandas as pd

def presence_rate(data):
    # Calculer le pourcentage de présence des données pour chaque colonne
    presence_rate = (1 - data.isnull().mean()) * 100
    
    # Trier la série presence_rate par valeurs décroissantes
    sorted_presence_rate = presence_rate.sort_values(ascending=False)
    
    # Formater chaque pourcentage avec deux chiffres après la virgule et ajouter le caractère '%'
    formatted_presence_rate = sorted_presence_rate.apply(lambda x: f'{x:.2f} %')
    
    # Retourner le taux de présence formaté et trié
    return formatted_presence_rate

In [8]:
train_optimized_num_cat.shape

(307511, 109)

In [9]:
train_optimized_num_cat.head(10)

Unnamed: 0,SK_ID_CURR,TARGET,CNT_CHILDREN,AMT_INCOME_TOTAL,AMT_CREDIT,REGION_POPULATION_RELATIVE,DAYS_BIRTH,DAYS_REGISTRATION,DAYS_ID_PUBLISH,OWN_CAR_AGE,FLAG_MOBIL,FLAG_EMP_PHONE,FLAG_WORK_PHONE,FLAG_CONT_MOBILE,FLAG_PHONE,FLAG_EMAIL,REGION_RATING_CLIENT_W_CITY,HOUR_APPR_PROCESS_START,REG_REGION_NOT_LIVE_REGION,LIVE_REGION_NOT_WORK_REGION,REG_CITY_NOT_LIVE_CITY,LIVE_CITY_NOT_WORK_CITY,ORGANIZATION_TYPE,EXT_SOURCE_1,EXT_SOURCE_2,EXT_SOURCE_3,BASEMENTAREA_MEDI,YEARS_BEGINEXPLUATATION_MEDI,YEARS_BUILD_MEDI,COMMONAREA_MEDI,ENTRANCES_MEDI,FLOORSMAX_MEDI,LANDAREA_MEDI,NONLIVINGAPARTMENTS_MEDI,NONLIVINGAREA_MEDI,TOTALAREA_MODE,OBS_60_CNT_SOCIAL_CIRCLE,DEF_60_CNT_SOCIAL_CIRCLE,DAYS_LAST_PHONE_CHANGE,FLAG_DOCUMENT_2,FLAG_DOCUMENT_3,FLAG_DOCUMENT_4,FLAG_DOCUMENT_5,FLAG_DOCUMENT_6,FLAG_DOCUMENT_7,FLAG_DOCUMENT_8,FLAG_DOCUMENT_9,FLAG_DOCUMENT_10,FLAG_DOCUMENT_11,FLAG_DOCUMENT_12,FLAG_DOCUMENT_13,FLAG_DOCUMENT_14,FLAG_DOCUMENT_15,FLAG_DOCUMENT_16,FLAG_DOCUMENT_17,FLAG_DOCUMENT_18,FLAG_DOCUMENT_19,FLAG_DOCUMENT_20,FLAG_DOCUMENT_21,AMT_REQ_CREDIT_BUREAU_HOUR,AMT_REQ_CREDIT_BUREAU_DAY,AMT_REQ_CREDIT_BUREAU_WEEK,AMT_REQ_CREDIT_BUREAU_MON,AMT_REQ_CREDIT_BUREAU_QRT,AMT_REQ_CREDIT_BUREAU_YEAR,BUREAU_DAYS_CREDIT_max,BUREAU_CREDIT_DAY_OVERDUE_sum,BUREAU_DAYS_CREDIT_ENDDATE_max,BUREAU_AMT_CREDIT_MAX_OVERDUE_max,BUREAU_CNT_CREDIT_PROLONG_sum,BUREAU_AMT_CREDIT_SUM_sum,BUREAU_AMT_CREDIT_SUM_DEBT_sum,BUREAU_AMT_CREDIT_SUM_OVERDUE_mean,BUREAU_DAYS_CREDIT_UPDATE_mean,BUREAU_AMT_ANNUITY_sum,ca_Active,ca_Bad debt,ca_Sold,ct_Another type of loan,ct_Car loan,ct_Cash loan (non-earmarked),ct_Consumer credit,ct_Credit card,ct_Interbank credit,ct_Loan for business development,ct_Loan for purchase of shares (margin lending),ct_Loan for the purchase of equipment,ct_Loan for working capital replenishment,ct_Microloan,ct_Mobile operator loan,ct_Mortgage,ct_Real estate loan,ct_Unknown type of loan,MONTHS_BALANCE_max,CNT_INSTALMENT_FUTURE_sum,SK_DPD_sum_x,SK_DPD_DEF_sum_x,AMT_CREDIT_LIMIT_ACTUAL_sum,AMT_PAYMENT_CURRENT_sum,CNT_DRAWINGS_CURRENT_sum,SK_DPD_sum_y,SK_DPD_DEF_sum_y,AMT_DOWN_PAYMENT_sum,RATE_DOWN_PAYMENT_mean,CNT_PAYMENT_sum,INST_NUM_INSTALMENT_VERSION_mean,INST_NUM_INSTALMENT_NUMBER_max,INST_DAYS_INSTALMENT_mean,INST_AMT_PAYMENT_sum
0,100002,1,0,202500.0,406597.5,0.018801,-9461,-3648.0,-2120,,1,1,0,1,1,0,2,10,0,0,0,0,Business Entity Type 3,0.083037,0.262949,0.139376,0.0369,0.9722,0.6243,0.0144,0.069,0.0833,0.0375,0.0,0.0,0.0149,2.0,2.0,-1134.0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,1.0,-103.0,0.0,780.0,5043.645,0.0,865055.565,245781.0,0.0,-499.875,0.0,2.0,0.0,0.0,0.0,0.0,0.0,4.0,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1.0,285.0,0.0,0.0,,,,,,0.0,0.0,24.0,1.052632,19.0,-295.0,219625.695
1,100003,0,0,270000.0,1293502.5,0.003541,-16765,-1186.0,-291,,1,1,0,1,1,0,1,11,0,0,0,0,School,0.311267,0.622246,,0.0529,0.9851,0.7987,0.0608,0.0345,0.2917,0.0132,0.0039,0.01,0.0714,1.0,0.0,-828.0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,-606.0,0.0,1216.0,0.0,0.0,1017400.5,0.0,0.0,-816.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-18.0,162.0,0.0,0.0,,,,,,6885.0,0.05003,30.0,1.04,12.0,-1378.16,1618864.65
2,100004,0,0,67500.0,135000.0,0.010032,-19046,-4260.0,-2531,26.0,1,1,1,1,1,0,2,9,0,0,0,0,Government,,0.555912,0.729567,,,,,,,,,,,0.0,0.0,-815.0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,-408.0,0.0,-382.0,0.0,0.0,189037.8,0.0,0.0,-532.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-24.0,9.0,0.0,0.0,,,,,,4860.0,0.212008,4.0,1.333333,3.0,-754.0,21288.465
3,100006,0,0,135000.0,312682.5,0.008019,-19005,-9833.0,-2437,,1,1,0,1,0,0,2,17,0,0,0,0,Business Entity Type 3,,0.650442,,,,,,,,,,,,2.0,0.0,-617.0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-1.0,173.0,0.0,0.0,1620000.0,0.0,0.0,0.0,0.0,69680.34,0.163412,138.0,1.125,10.0,-252.25,1007153.415
4,100007,0,0,121500.0,513000.0,0.028663,-19932,-4311.0,-3458,,1,1,0,1,0,0,2,11,0,0,0,1,Religion,,0.322738,,,,,,,,,,,,0.0,0.0,-1106.0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,-1149.0,0.0,-783.0,0.0,0.0,146250.0,0.0,0.0,-783.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1.0,592.0,0.0,0.0,,,,,,6781.5,0.159516,124.0,1.166667,17.0,-1028.606061,806127.975
5,100008,0,0,99000.0,490495.5,0.035792,-16941,-4970.0,-477,,1,1,1,1,1,0,2,16,0,0,0,0,Other,,0.354225,0.621226,,,,,,,,,,,0.0,0.0,-2536.0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,1.0,1.0,-78.0,0.0,471.0,0.0,0.0,468445.5,240057.0,0.0,-611.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-2.0,341.0,28142.0,0.0,,,,,,16645.5,0.073051,56.0,1.028571,10.0,-1263.914286,957617.595
6,100009,0,1,171000.0,1560726.0,0.035792,-13778,-1213.0,-619,17.0,1,1,0,1,1,0,2,16,0,0,0,0,Business Entity Type 3,0.774761,0.724,0.49206,,,,,,,,,,,1.0,0.0,-1562.0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0.0,0.0,0.0,1.0,1.0,2.0,-239.0,0.0,1402.0,0.0,0.0,4800811.5,1077349.5,0.0,-851.611111,0.0,4.0,0.0,0.0,0.0,0.0,0.0,16.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1.0,242.0,0.0,0.0,,,,,,64422.0,0.126602,56.0,1.0,12.0,-855.823529,487995.12
7,100010,0,0,360000.0,1530000.0,0.003122,-18850,-4597.0,-2379,8.0,1,1,1,1,0,0,3,16,0,0,0,1,Other,,0.714279,0.540654,,,,,,,,,,,2.0,0.0,-1070.0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,-1138.0,0.0,689.0,,0.0,990000.0,348007.5,0.0,-578.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-25.0,55.0,0.0,0.0,,,,,,0.0,0.0,10.0,1.0,10.0,-904.0,274492.08
8,100011,0,0,112500.0,1019610.0,0.018634,-20099,-7427.0,-3514,,1,0,0,1,0,0,2,14,0,0,0,0,XNA,0.587334,0.205747,0.751724,,,,,,,,,,,1.0,0.0,0.0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,1.0,-1309.0,0.0,-860.0,10147.23,0.0,435228.3,0.0,0.0,-1454.75,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-10.0,525.0,15425.0,26.0,12150000.0,358386.75,4.0,0.0,0.0,13594.5,0.050005,42.0,0.415385,76.0,-1154.061538,1472756.175
9,100012,0,0,135000.0,405000.0,0.019689,-14469,-14437.0,-3992,,1,1,0,1,0,0,2,8,0,0,0,0,Electricity,,0.746644,,,,,,,,,,,,2.0,0.0,-1673.0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-5.0,470.0,0.0,0.0,,,,,,0.0,0.0,54.0,2.0,23.0,-665.0,501661.71


## faire suivre l'optimisation sur test.

In [10]:
# Étape 1 : Identifier les variables à conserver
columns_to_keep = train_optimized_num_cat.columns.tolist()
if 'TARGET' in columns_to_keep:
    columns_to_keep.remove('TARGET')

# Étape 2 : Appliquer la sélection au DataFrame test
test_optimized_num_cat = test[columns_to_keep]

# Étape 3 : Vérification
print(test_optimized_num_cat.shape)


(48744, 108)


presence_rate(test_optimized_num_cat)

In [11]:
# pip install dtale

import dtale
dtale.show(train_optimized_num_cat)


# Convertir les variables days en years

In [12]:
def convert_days_to_years_and_rename(df, columns):
    """
    Convertit les valeurs en jours en années pour les colonnes spécifiées dans un DataFrame et renomme ces colonnes.

    Args:
    df (pd.DataFrame): DataFrame contenant les données.
    columns (list): Liste des noms de colonnes à convertir.

    Returns:
    pd.DataFrame: DataFrame avec les colonnes converties et renommées.
    """
    for col in columns:
        new_col_name = col.replace('DAYS_', 'YEARS_')
        # Convertir les jours en années, en évitant les valeurs aberrantes pour DAYS_EMPLOYED
        if col == 'DAYS_EMPLOYED':
            df[new_col_name] = df[col].apply(lambda x: x / -365 if x < 0 else 0)
        else:
            df[new_col_name] = df[col].apply(lambda x: x / -365)
        df.drop(columns=[col], inplace=True)
    return df

In [13]:
day_variables = [col for col in train_optimized_num_cat.columns if 'DAYS' in col or 'DATE' in col]
print("Variables représentant des nombres de jours:", day_variables)


Variables représentant des nombres de jours: ['DAYS_BIRTH', 'DAYS_REGISTRATION', 'DAYS_ID_PUBLISH', 'DAYS_LAST_PHONE_CHANGE', 'BUREAU_DAYS_CREDIT_max', 'BUREAU_DAYS_CREDIT_ENDDATE_max', 'BUREAU_DAYS_CREDIT_UPDATE_mean', 'INST_DAYS_INSTALMENT_mean']


In [14]:
# Exemple d'utilisation
columns_to_convert = day_variables
train = convert_days_to_years_and_rename(train, columns_to_convert)

In [15]:
# Exemple d'utilisation
columns_to_convert = day_variables
test = convert_days_to_years_and_rename(test, columns_to_convert)

# Traiter les variables à nombre de valeurs fini

In [16]:
def finite_unique_values_variables(df):

    # Créer un dictionnaire pour stocker le nombre de valeurs uniques pour chaque variable
    unique_counts = {col: df[col].nunique() for col in df.columns}
    
    # Filtrer pour obtenir les variables avec un nombre fini de valeurs uniques
    # Vous pouvez définir un seuil spécifique si nécessaire, par exemple, moins de 20 valeurs uniques
    finite_vars = {col: count for col, count in unique_counts.items() if count < 20}  # Exemple de seuil: 20
    
    # Afficher la liste des variables à nombre fini de valeurs uniques
    print(finite_vars)

    return finite_vars


In [17]:
finite_vars=finite_unique_values_variables(train)

{'TARGET': 2, 'NAME_CONTRACT_TYPE': 2, 'CODE_GENDER': 3, 'FLAG_OWN_CAR': 2, 'FLAG_OWN_REALTY': 2, 'CNT_CHILDREN': 15, 'NAME_TYPE_SUITE': 7, 'NAME_INCOME_TYPE': 8, 'NAME_EDUCATION_TYPE': 5, 'NAME_FAMILY_STATUS': 6, 'NAME_HOUSING_TYPE': 6, 'FLAG_MOBIL': 2, 'FLAG_EMP_PHONE': 2, 'FLAG_WORK_PHONE': 2, 'FLAG_CONT_MOBILE': 2, 'FLAG_PHONE': 2, 'FLAG_EMAIL': 2, 'OCCUPATION_TYPE': 18, 'CNT_FAM_MEMBERS': 17, 'REGION_RATING_CLIENT': 3, 'REGION_RATING_CLIENT_W_CITY': 3, 'WEEKDAY_APPR_PROCESS_START': 7, 'REG_REGION_NOT_LIVE_REGION': 2, 'REG_REGION_NOT_WORK_REGION': 2, 'LIVE_REGION_NOT_WORK_REGION': 2, 'REG_CITY_NOT_LIVE_CITY': 2, 'REG_CITY_NOT_WORK_CITY': 2, 'LIVE_CITY_NOT_WORK_CITY': 2, 'FONDKAPREMONT_MODE': 4, 'HOUSETYPE_MODE': 3, 'WALLSMATERIAL_MODE': 7, 'EMERGENCYSTATE_MODE': 2, 'DEF_30_CNT_SOCIAL_CIRCLE': 10, 'DEF_60_CNT_SOCIAL_CIRCLE': 9, 'FLAG_DOCUMENT_2': 2, 'FLAG_DOCUMENT_3': 2, 'FLAG_DOCUMENT_4': 2, 'FLAG_DOCUMENT_5': 2, 'FLAG_DOCUMENT_6': 2, 'FLAG_DOCUMENT_7': 2, 'FLAG_DOCUMENT_8': 2, 'FL

In [18]:
len(finite_vars)

74

In [19]:
import pandas as pd

def remove_single_value_columns(df):
    """
    Supprime les colonnes du DataFrame qui contiennent une seule valeur unique.

    :param df: DataFrame à nettoyer.
    :return: DataFrame sans les colonnes à valeur unique.
    """
    # Identifier les colonnes qui ont une seule valeur unique
    single_value_columns = [col for col in df.columns if df[col].nunique() == 1]
    
    # Supprimer ces colonnes
    df = df.drop(columns=single_value_columns)
    
    return df

# Pour l'utiliser, appelez la fonction avec votre DataFrame :
# train = remove_single_value_columns(train)


In [20]:
len(finite_vars)

74

In [21]:
# Appliquer la fonction à votre DataFrame
train = remove_single_value_columns(train)


print(train.shape)

(307511, 192)


# Impacter sur test

In [22]:
# Étape 1 : Identifier les variables à conserver
columns_to_keep = train.columns.tolist()
if 'TARGET' in columns_to_keep:
    columns_to_keep.remove('TARGET')

# Étape 2 : Appliquer la sélection au DataFrame test
test = test[columns_to_keep]

# Étape 3 : Vérification
print(test.shape)


(48744, 191)


# Reduire le nombre d'enfants

In [23]:
# Supprimer les entrées avec plus de 3 enfants
train = train[train['CNT_CHILDREN'] <= 3]
print(train.shape)


(306956, 192)


In [24]:
# Supprimer les entrées avec plus de 3 enfants
test = test[test['CNT_CHILDREN'] <= 3]
print(test.shape)


(48673, 191)


# Transformation des variables 

In [25]:
def symmetrical_log_transform(df, monetary_vars, small_value=1e-6):
    for var in monetary_vars:
        if var in df.columns:
            # Appliquer une transformation symétrique du logarithme
            df[var + '_log'] = np.sign(df[var]) * np.log(np.abs(df[var]) + small_value)
    return df


In [26]:
def one_hot_encode(df, cat_vars):
    return pd.get_dummies(df, columns=cat_vars, dummy_na=True, drop_first=True)


In [27]:
# Liste des variables catégorielles
cat_vars = train.select_dtypes(exclude=[np.number]).columns.tolist()

# Appliquer l'encodage One-Hot
train = one_hot_encode(train, cat_vars)
test = one_hot_encode(test, cat_vars)


In [28]:
print(train.shape)


(306956, 318)


In [29]:
money_variables = [col for col in train_optimized_num_cat.columns if 'AMT' in col or 'INCOME' in col or 'CREDIT' in col or 'ANNUITY' in col]
print("Variables représentant des montants d'argent:", money_variables)


Variables représentant des montants d'argent: ['AMT_INCOME_TOTAL', 'AMT_CREDIT', 'AMT_REQ_CREDIT_BUREAU_HOUR', 'AMT_REQ_CREDIT_BUREAU_DAY', 'AMT_REQ_CREDIT_BUREAU_WEEK', 'AMT_REQ_CREDIT_BUREAU_MON', 'AMT_REQ_CREDIT_BUREAU_QRT', 'AMT_REQ_CREDIT_BUREAU_YEAR', 'BUREAU_DAYS_CREDIT_max', 'BUREAU_CREDIT_DAY_OVERDUE_sum', 'BUREAU_DAYS_CREDIT_ENDDATE_max', 'BUREAU_AMT_CREDIT_MAX_OVERDUE_max', 'BUREAU_CNT_CREDIT_PROLONG_sum', 'BUREAU_AMT_CREDIT_SUM_sum', 'BUREAU_AMT_CREDIT_SUM_DEBT_sum', 'BUREAU_AMT_CREDIT_SUM_OVERDUE_mean', 'BUREAU_DAYS_CREDIT_UPDATE_mean', 'BUREAU_AMT_ANNUITY_sum', 'AMT_CREDIT_LIMIT_ACTUAL_sum', 'AMT_PAYMENT_CURRENT_sum', 'AMT_DOWN_PAYMENT_sum', 'INST_AMT_PAYMENT_sum']


In [30]:
finite_vars=finite_unique_values_variables(train)

{'TARGET': 2, 'CNT_CHILDREN': 4, 'FLAG_MOBIL': 2, 'FLAG_EMP_PHONE': 2, 'FLAG_WORK_PHONE': 2, 'FLAG_CONT_MOBILE': 2, 'FLAG_PHONE': 2, 'FLAG_EMAIL': 2, 'CNT_FAM_MEMBERS': 5, 'REGION_RATING_CLIENT': 3, 'REGION_RATING_CLIENT_W_CITY': 3, 'REG_REGION_NOT_LIVE_REGION': 2, 'REG_REGION_NOT_WORK_REGION': 2, 'LIVE_REGION_NOT_WORK_REGION': 2, 'REG_CITY_NOT_LIVE_CITY': 2, 'REG_CITY_NOT_WORK_CITY': 2, 'LIVE_CITY_NOT_WORK_CITY': 2, 'DEF_30_CNT_SOCIAL_CIRCLE': 10, 'DEF_60_CNT_SOCIAL_CIRCLE': 9, 'FLAG_DOCUMENT_2': 2, 'FLAG_DOCUMENT_3': 2, 'FLAG_DOCUMENT_4': 2, 'FLAG_DOCUMENT_5': 2, 'FLAG_DOCUMENT_6': 2, 'FLAG_DOCUMENT_7': 2, 'FLAG_DOCUMENT_8': 2, 'FLAG_DOCUMENT_9': 2, 'FLAG_DOCUMENT_10': 2, 'FLAG_DOCUMENT_11': 2, 'FLAG_DOCUMENT_12': 2, 'FLAG_DOCUMENT_13': 2, 'FLAG_DOCUMENT_14': 2, 'FLAG_DOCUMENT_15': 2, 'FLAG_DOCUMENT_16': 2, 'FLAG_DOCUMENT_17': 2, 'FLAG_DOCUMENT_18': 2, 'FLAG_DOCUMENT_19': 2, 'FLAG_DOCUMENT_20': 2, 'FLAG_DOCUMENT_21': 2, 'AMT_REQ_CREDIT_BUREAU_HOUR': 5, 'AMT_REQ_CREDIT_BUREAU_DAY': 9,

In [31]:
money_variables = [col for col in train.columns if 'AMT' in col or 'INCOME' in col or 'CREDIT' in col or 'ANNUITY' in col]
print("Variables représentant des montants d'argent:", money_variables)


Variables représentant des montants d'argent: ['AMT_INCOME_TOTAL', 'AMT_CREDIT', 'AMT_ANNUITY', 'AMT_GOODS_PRICE', 'AMT_REQ_CREDIT_BUREAU_HOUR', 'AMT_REQ_CREDIT_BUREAU_DAY', 'AMT_REQ_CREDIT_BUREAU_WEEK', 'AMT_REQ_CREDIT_BUREAU_MON', 'AMT_REQ_CREDIT_BUREAU_QRT', 'AMT_REQ_CREDIT_BUREAU_YEAR', 'BUREAU_DAYS_CREDIT_min', 'BUREAU_DAYS_CREDIT_mean', 'BUREAU_CREDIT_DAY_OVERDUE_max', 'BUREAU_CREDIT_DAY_OVERDUE_sum', 'BUREAU_AMT_CREDIT_MAX_OVERDUE_mean', 'BUREAU_AMT_CREDIT_MAX_OVERDUE_max', 'BUREAU_CNT_CREDIT_PROLONG_sum', 'BUREAU_AMT_CREDIT_SUM_sum', 'BUREAU_AMT_CREDIT_SUM_DEBT_sum', 'BUREAU_AMT_CREDIT_SUM_OVERDUE_mean', 'BUREAU_AMT_ANNUITY_mean', 'BUREAU_AMT_ANNUITY_sum', 'AMT_BALANCE_sum', 'AMT_CREDIT_LIMIT_ACTUAL_sum', 'AMT_DRAWINGS_ATM_CURRENT_sum', 'AMT_DRAWINGS_CURRENT_sum', 'AMT_PAYMENT_CURRENT_sum', 'AMT_ANNUITY_sum', 'AMT_APPLICATION_sum', 'AMT_CREDIT_sum', 'AMT_DOWN_PAYMENT_sum', 'AMT_GOODS_PRICE_sum', 'INST_AMT_INSTALMENT_sum', 'INST_AMT_PAYMENT_sum', 'BUREAU_YEARS_CREDIT_max', 'BURE

In [32]:
continues_money_variables = [col for col in money_variables  if col not in finite_vars]
print("Variables continues représentant des montants d'argent:", continues_money_variables)


Variables continues représentant des montants d'argent: ['AMT_INCOME_TOTAL', 'AMT_CREDIT', 'AMT_ANNUITY', 'AMT_GOODS_PRICE', 'AMT_REQ_CREDIT_BUREAU_MON', 'AMT_REQ_CREDIT_BUREAU_YEAR', 'BUREAU_DAYS_CREDIT_min', 'BUREAU_DAYS_CREDIT_mean', 'BUREAU_CREDIT_DAY_OVERDUE_max', 'BUREAU_CREDIT_DAY_OVERDUE_sum', 'BUREAU_AMT_CREDIT_MAX_OVERDUE_mean', 'BUREAU_AMT_CREDIT_MAX_OVERDUE_max', 'BUREAU_AMT_CREDIT_SUM_sum', 'BUREAU_AMT_CREDIT_SUM_DEBT_sum', 'BUREAU_AMT_CREDIT_SUM_OVERDUE_mean', 'BUREAU_AMT_ANNUITY_mean', 'BUREAU_AMT_ANNUITY_sum', 'AMT_BALANCE_sum', 'AMT_CREDIT_LIMIT_ACTUAL_sum', 'AMT_DRAWINGS_ATM_CURRENT_sum', 'AMT_DRAWINGS_CURRENT_sum', 'AMT_PAYMENT_CURRENT_sum', 'AMT_ANNUITY_sum', 'AMT_APPLICATION_sum', 'AMT_CREDIT_sum', 'AMT_DOWN_PAYMENT_sum', 'AMT_GOODS_PRICE_sum', 'INST_AMT_INSTALMENT_sum', 'INST_AMT_PAYMENT_sum', 'BUREAU_YEARS_CREDIT_max', 'BUREAU_YEARS_CREDIT_ENDDATE_max', 'BUREAU_YEARS_CREDIT_UPDATE_mean']


In [33]:
import pandas as pd
import numpy as np

def remove_outliers(data, variables_list, num_std=3):
    """
    Supprime les observations avec des valeurs aberrantes des variables spécifiées dans un DataFrame.

    :param data: DataFrame contenant les données.
    :param variables_list: Liste des noms des variables à nettoyer.
    :param num_std: Nombre d'écarts-types utilisés pour définir une valeur aberrante.
    :return: DataFrame avec les observations contenant des valeurs aberrantes supprimées.
    """
    for var in variables_list:
        if var in data.columns:
            # Calculer la moyenne et l'écart-type
            mean, std = data[var].mean(), data[var].std()
            
            # Définir les seuils pour les valeurs aberrantes
            lower_bound, upper_bound = mean - num_std * std, mean + num_std * std
            
            # Filtrer les données pour conserver uniquement les observations sans valeurs aberrantes
            data = data[(data[var] > lower_bound) & (data[var] < upper_bound)]
    
    return data


In [34]:
train=remove_outliers(train, continues_money_variables, num_std=2)

In [36]:
train.shape

(5048, 318)

In [None]:
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import KFold

def train_xgboost_with_cross_validation(df, target_column, n_splits=5, random_state=42, eval_metric='logloss'):
    """
    Entraîne un classificateur XGBoost en utilisant la validation croisée et retourne les importances moyennes des caractéristiques.

    Paramètres :
    - df (pd.DataFrame) : Le dataframe d'entrée contenant les caractéristiques et la cible.
    - target_column (str) : Le nom de la colonne cible.
    - n_splits (int) : Le nombre de subdivisions pour la validation croisée KFold.
    - random_state (int) : La graine utilisée par le générateur de nombres aléatoires.
    - eval_metric (str) : La métrique d'évaluation à utiliser pour l'entraînement du modèle.

    Retourne :
    - pd.DataFrame : Un dataframe avec deux colonnes : Feature et Importance, triées par importance.
    """

    # Séparation des caractéristiques et de la cible
    X_train = df.drop(target_column, axis=1)
    y_train = df[target_column]

    # Configuration de la validation croisée
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=random_state)

    # Initialisation de la liste pour stocker les importances des caractéristiques
    feature_importances = []

    # Boucle sur chaque division de la validation croisée
    for train_index, test_index in kf.split(X_train):
        # Séparation des données en ensembles d'entraînement et de test
        X_train_cv, X_test_cv = X_train.iloc[train_index], X_train.iloc[test_index]
        y_train_cv, y_test_cv = y_train.iloc[train_index], y_train.iloc[test_index]

        # Entraînement du modèle
        model = xgb.XGBClassifier(random_state=random_state, use_label_encoder=False, eval_metric=eval_metric)
        model.fit(X_train_cv, y_train_cv)
        # Stockage des importances des caractéristiques
        feature_importances.append(model.feature_importances_)

    # Calcul de la moyenne des importances des caractéristiques sur toutes les divisions
    mean_importances = np.mean(feature_importances, axis=0)

    # Création d'un DataFrame pour les importances des caractéristiques
    importances_df = pd.DataFrame({
        'Feature': X_train.columns,
        'Importance': mean_importances
    }).sort_values(by='Importance', ascending=False)

    return importances_df


In [35]:
uu

NameError: name 'uu' is not defined

In [None]:
plot_log_distributions(train, vars_to_log_transform)

In [None]:
# Appliquer la transformation logarithmique
train = symmetrical_log_transform(train, vars_to_log_transform)
test = symmetrical_log_transform(test, vars_to_log_transform)

In [None]:
bimodal_vars=['BUREAU_AMT_CREDIT_MAX_OVERDUE_max_log','BUREAU_AMT_CREDIT_SUM_DEBT_sum_log','BUREAU_AMT_ANNUITY_mean_log','BUREAU_AMT_ANNUITY_sum_log','AMT_BALANCE_sum_log', 'AMT_DRAWINGS_ATM_CURRENT_sum_log', 'AMT_PAYMENT_CURRENT_sum_log', 'AMT_DOWN_PAYMENT_sum_log']

In [None]:
transformed_variables = [col for col in train.columns if 'log' in col]
print("Variables représentant des montants d'argent:", transformed_variables)


In [None]:
variables_list=[var for var in transformed_variables  if var not in bimodal_vars]
variables_list

In [None]:
importances_cv = train_xgboost_with_cross_validation(train, 'TARGET')
print(importances_cv)

In [None]:
plot_feature_importance(importances_cv,30)


In [None]:
plot_importance_histogram(importances_cv['Importance'], num_bins=10)

In [None]:
import xgboost as xgb
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.model_selection import train_test_split

def calculate_variable_removal_impact(data, threshold,target='TARGET'):
    """
    Calcule l'impact potentiel de la suppression de variables en fonction d'un seuil d'importance.

    Paramètres :
    - data (pd.DataFrame) : Le dataframe contenant les données avec les variables à évaluer.
    - threshold (float) : Le seuil d'importance en pourcentage en dessous duquel les variables seront supprimées.

    Retourne :
    - dict : Un dictionnaire contenant les performances du modèle avant et après la suppression de variables.
    """

    # Séparation des caractéristiques et de la cible
    X = data.drop(target, axis=1)
    y = data[target]

    # Création d'un modèle XGBoost initial
    xgb_model_initial = xgb.XGBClassifier(random_state=42)
    
    # Division des données en ensembles d'entraînement et de test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Entraînement du modèle initial
    xgb_model_initial.fit(X_train, y_train)
    
    # Évaluation du modèle initial
    y_pred_initial = xgb_model_initial.predict(X_test)
    accuracy_initial = accuracy_score(y_test, y_pred_initial)
    roc_auc_initial = roc_auc_score(y_test, y_pred_initial)
    
    # Calcul de l'importance des caractéristiques
    feature_importances = xgb_model_initial.feature_importances_
    
    # Création d'un masque pour les variables à supprimer
    variables_to_remove = feature_importances <= threshold
    
    # Suppression des variables en dessous du seuil
    X_reduced = X.loc[:, ~variables_to_remove]
    
    # Création d'un modèle XGBoost réduit
    xgb_model_reduced = xgb.XGBClassifier(random_state=42)
    
    # Division des données réduites en ensembles d'entraînement et de test
    X_train_reduced, X_test_reduced, y_train, y_test = train_test_split(X_reduced, y, test_size=0.2, random_state=42)
    
    # Entraînement du modèle réduit
    xgb_model_reduced.fit(X_train_reduced, y_train)
    
    # Évaluation du modèle réduit
    y_pred_reduced = xgb_model_reduced.predict(X_test_reduced)
    accuracy_reduced = accuracy_score(y_test, y_pred_reduced)
    roc_auc_reduced = roc_auc_score(y_test, y_pred_reduced)
    
    # Calcul de l'impact potentiel sur les performances
    impact_potentiel = {
        'accuracy_initial': accuracy_initial,
        'roc_auc_initial': roc_auc_initial,
        'accuracy_reduced': accuracy_reduced,
        'roc_auc_reduced': roc_auc_reduced,
        'variables_removed': list(X.columns[variables_to_remove])
    }
    
    return impact_potentiel


In [None]:
calculate_variable_removal_impact(train, threshold=0.01)

In [None]:
import xgboost as xgb
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score, train_test_split
import numpy as np

def evaluate_variable_removal_impact_cv(data, threshold, num_folds=5, target='TARGET'):
    """
    Évalue l'impact potentiel de la suppression de variables en utilisant la validation croisée.

    Paramètres :
    - data (pd.DataFrame) : Le dataframe contenant les données avec les variables à évaluer.
    - threshold (float) : Le seuil d'importance en pourcentage en dessous duquel les variables seront supprimées.
    - num_folds (int) : Le nombre de plis à utiliser pour la validation croisée.
    - target (str) : Le nom de la colonne cible.

    Retourne :
    - dict : Un dictionnaire contenant les performances du modèle avant et après la suppression de variables.
    """

    # Séparation des caractéristiques et de la cible
    X = data.drop(target, axis=1)
    y = data[target]

    # Création d'un modèle XGBoost initial
    xgb_model_initial = xgb.XGBClassifier(random_state=42)
    
    # Division des données en ensembles d'entraînement et de test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Entraînement du modèle initial
    xgb_model_initial.fit(X_train, y_train)
    
    # Évaluation du modèle initial avec validation croisée
    accuracy_initial = np.mean(cross_val_score(xgb_model_initial, X, y, cv=num_folds, scoring='accuracy'))
    
    # Calcul de l'importance des caractéristiques
    feature_importances = xgb_model_initial.feature_importances_
    
    # Création d'un masque pour les variables à supprimer
    variables_to_remove = feature_importances <= threshold
    
    # Suppression des variables en dessous du seuil
    X_reduced = X.loc[:, ~variables_to_remove]
    
    # Création d'un modèle XGBoost réduit
    xgb_model_reduced = xgb.XGBClassifier(random_state=42)
    
    # Entraînement du modèle réduit
    xgb_model_reduced.fit(X_train, y_train)
    
    # Évaluation du modèle réduit avec validation croisée
    accuracy_reduced = np.mean(cross_val_score(xgb_model_reduced, X_reduced, y, cv=num_folds, scoring='accuracy'))
    
    # Calcul de l'impact potentiel sur les performances
    impact_potentiel_acc = {
        'accuracy_initial': accuracy_initial,
        'accuracy_reduced': accuracy_reduced,
        'variables_removed': list(X.columns[variables_to_remove])
    }
    
    return impact_potentiel_acc



In [None]:
evaluate_variable_removal_impact_cv(train, threshold=0.01, num_folds=5, target='TARGET')

In [None]:
from sklearn.metrics import roc_auc_score

def evaluate_variable_removal_impact_auc(data, threshold, num_folds=5, target='TARGET'):
    """
    Évalue l'impact potentiel de la suppression de variables en utilisant l'aire sous la courbe ROC (AUC-ROC).

    Paramètres :
    - data (pd.DataFrame) : Le dataframe contenant les données avec les variables à évaluer.
    - threshold (float) : Le seuil d'importance en pourcentage en dessous duquel les variables seront supprimées.
    - num_folds (int) : Le nombre de plis à utiliser pour la validation croisée.
    - target (str) : Le nom de la colonne cible.

    Retourne :
    - dict : Un dictionnaire contenant les performances du modèle avant et après la suppression de variables.
    """

    # Séparation des caractéristiques et de la cible
    X = data.drop(target, axis=1)
    y = data[target]

    # Création d'un modèle XGBoost initial
    xgb_model_initial = xgb.XGBClassifier(random_state=42)
    
    # Division des données en ensembles d'entraînement et de test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Entraînement du modèle initial
    xgb_model_initial.fit(X_train, y_train)
    
    # Calcul de l'AUC-ROC du modèle initial
    auc_roc_initial = np.mean(cross_val_score(xgb_model_initial, X, y, cv=num_folds, scoring='roc_auc'))
    
    # Calcul de l'importance des caractéristiques
    feature_importances = xgb_model_initial.feature_importances_
    
    # Création d'un masque pour les variables à supprimer
    variables_to_remove = feature_importances <= threshold
    
    # Suppression des variables en dessous du seuil
    X_reduced = X.loc[:, ~variables_to_remove]
    
    # Création d'un modèle XGBoost réduit
    xgb_model_reduced = xgb.XGBClassifier(random_state=42)
    
    # Entraînement du modèle réduit
    xgb_model_reduced.fit(X_train, y_train)
    
    # Calcul de l'AUC-ROC du modèle réduit
    auc_roc_reduced = np.mean(cross_val_score(xgb_model_reduced, X_reduced, y, cv=num_folds, scoring='roc_auc'))
    
    # Calcul de l'impact potentiel sur les performances
    impact_potentiel_auc = {
        'auc_roc_initial': auc_roc_initial,
        'auc_roc_reduced': auc_roc_reduced,
        'variables_removed': list(X.columns[variables_to_remove])
    }
    
    return impact_potentiel_auc


In [None]:
impact_potentiel_auc=evaluate_variable_removal_impact_auc(train, threshold=0.008, num_folds=5, target='TARGET')

In [None]:
impact_potentiel_auc

In [None]:
import pandas as pd

def remove_variables_based_on_impact(data, impact_potential):
    """
    Supprime les variables en fonction de l'impact potentiel calculé.

    Paramètres :
    - data (pd.DataFrame) : Le DataFrame contenant les données.
    - impact_potential (dict) : Un dictionnaire avec les clés 'variables_removed' contenant la liste des variables à supprimer.
    - threshold (float) : Le seuil pour décider quelles variables supprimer.

    Retourne :
    - pd.DataFrame : Le DataFrame de données modifié avec les variables supprimées.
    """
    variables_to_remove = impact_potential.get('variables_removed', [])

    # Supprime les variables dont l'impact potentiel est inférieur ou égal au seuil
    data_filtered = data.drop(columns=variables_to_remove)

    return data_filtered


In [None]:
# Utilisation

train_filtered = remove_variables_based_on_impact(train, impact_potentiel_auc)

# data_filtered contient maintenant les données avec les variables supprimées en fonction de l'impact potentiel.


In [None]:
test_filtered = remove_variables_based_on_impact(test, impact_potentiel_auc)

In [None]:
pp

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

def normalize_non_discrete_variables(df, max_unique_values=10):
    # Créez une liste de colonnes non discrètes
    non_discrete_cols = [col for col in df.columns if len(df[col].unique()) > max_unique_values]
    
    # Sélectionnez uniquement les colonnes non discrètes
    df_non_discrete = df[non_discrete_cols]

    # Initialisez le StandardScaler
    scaler = StandardScaler()

    # Normalisez les colonnes non discrètes
    df_normalized = pd.DataFrame(scaler.fit_transform(df_non_discrete), columns=df_non_discrete.columns)

    # Remplacez les colonnes originales par les colonnes normalisées dans le DataFrame d'origine
    df[non_discrete_cols] = df_normalized

    return df

# Exemple d'utilisation avec un DataFrame appelé train_numerized
train= normalize_non_discrete_variables(train)

In [None]:
train.to_csv("train_numerized.csv")

In [None]:
import xgboost as xgb
import pandas as pd

def train_xgboost_and_get_feature_importance(df, target_column, random_state=42, eval_metric='logloss'):
   
    """
    Entraîne un classificateur XGBoost sur le dataframe donné et la colonne cible,
    puis retourne un dataframe avec l'importance des caractéristiques.

    Paramètres :
    - df (pd.DataFrame) : Le dataframe d'entrée contenant les caractéristiques et la cible.
    - target_column (str) : Le nom de la colonne cible.
    - random_state (int) : La graine utilisée par le générateur de nombres aléatoires.
    - eval_metric (str) : La métrique d'évaluation à utiliser pour l'entraînement du modèle.

    Retourne :
    - pd.DataFrame : Un dataframe avec deux colonnes : Feature et Importance, triées par importance.
    """

    # Séparation des caractéristiques et de la cible
    X_train = df.drop(target_column, axis=1)
    y_train = df[target_column]

    # Création et entraînement du modèle XGBoost
    xgb_model = xgb.XGBClassifier(random_state=random_state, use_label_encoder=False, eval_metric=eval_metric)
    xgb_model.fit(X_train, y_train)

    # Obtention de l'importance des caractéristiques
    feature_importances = xgb_model.feature_importances_
    feature_names = X_train.columns
    importances_df = pd.DataFrame({'Feature': feature_names, 'Importance': feature_importances})

    # Retourner le DataFrame des importances triées
    return importances_df.sort_values(by='Importance', ascending=False)

# Utilisation de la fonction :
# Remplacez 'your_dataframe' par votre DataFrame réel et 'your_target_column' par le nom réel de votre colonne cible.
importances = train_xgboost_and_get_feature_importance(train, 'TARGET')
print(importances)


In [None]:
import numpy as np
import matplotlib.pyplot as plt

def plot_importance_histogram(importance_values, num_bins=10):
    # Convertir en array numpy si ce n'est pas déjà le cas
    importance_values = np.array(importance_values)
    
    # Créer les bins adaptés aux valeurs d'importance
    max_importance = np.max(importance_values)
    bins = np.linspace(0, max_importance, num_bins + 1)
    
    # Utiliser np.histogram pour obtenir le compte des valeurs dans chaque bin
    counts, edges = np.histogram(importance_values, bins)
    
    # Plot the histogram
    plt.figure(figsize=(20, 6))
    plt.bar(range(num_bins), counts, width=1, align='center', edgecolor='k')
    plt.xticks(range(num_bins), [f'{edges[i]:.4f}-{edges[i+1]:.4f}' for i in range(num_bins)])
    plt.xlabel('Importance Intervals')
    plt.ylabel('Number of Variables')
    plt.title('Number of Variables per Importance Interval')
    plt.show()

In [None]:
# Utilisation de la fonction avec vos valeurs d'importance
plot_importance_histogram(importances['Importance'], num_bins=10)

In [None]:
import matplotlib.pyplot as plt

def plot_feature_importance(importances, num_features=50):
    # Tri des importances par ordre décroissant
    importances_sorted = importances.sort_values(by='Importance', ascending=False)

    # Sélectionner les meilleures caractéristiques
    top_features = importances_sorted.head(num_features)

    # Création du diagramme de barres horizontales
    plt.figure(figsize=(10, 6))  # Ajustez la taille de la figure si nécessaire
    plt.barh(top_features['Feature'], top_features['Importance'])
    plt.xlabel('Importance')
    plt.ylabel('Feature')
    plt.title(f'Importance des {num_features} Caractéristiques les plus importantes')
    plt.gca().invert_yaxis()  # Inverser l'axe y pour afficher les caractéristiques les plus importantes en haut
    plt.show()

In [None]:
# Utilisation de la méthode avec le DataFrame des importances et spécification du nombre de caractéristiques à afficher
plot_feature_importance(importances, num_features=50)

In [None]:
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import KFold

def train_xgboost_with_cross_validation(df, target_column, n_splits=5, random_state=42, eval_metric='logloss'):
    """
    Entraîne un classificateur XGBoost en utilisant la validation croisée et retourne les importances moyennes des caractéristiques.

    Paramètres :
    - df (pd.DataFrame) : Le dataframe d'entrée contenant les caractéristiques et la cible.
    - target_column (str) : Le nom de la colonne cible.
    - n_splits (int) : Le nombre de subdivisions pour la validation croisée KFold.
    - random_state (int) : La graine utilisée par le générateur de nombres aléatoires.
    - eval_metric (str) : La métrique d'évaluation à utiliser pour l'entraînement du modèle.

    Retourne :
    - pd.DataFrame : Un dataframe avec deux colonnes : Feature et Importance, triées par importance.
    """

    # Séparation des caractéristiques et de la cible
    X_train = df.drop(target_column, axis=1)
    y_train = df[target_column]

    # Configuration de la validation croisée
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=random_state)

    # Initialisation de la liste pour stocker les importances des caractéristiques
    feature_importances = []

    # Boucle sur chaque division de la validation croisée
    for train_index, test_index in kf.split(X_train):
        # Séparation des données en ensembles d'entraînement et de test
        X_train_cv, X_test_cv = X_train.iloc[train_index], X_train.iloc[test_index]
        y_train_cv, y_test_cv = y_train.iloc[train_index], y_train.iloc[test_index]

        # Entraînement du modèle
        model = xgb.XGBClassifier(random_state=random_state, use_label_encoder=False, eval_metric=eval_metric)
        model.fit(X_train_cv, y_train_cv)
        # Stockage des importances des caractéristiques
        feature_importances.append(model.feature_importances_)

    # Calcul de la moyenne des importances des caractéristiques sur toutes les divisions
    mean_importances = np.mean(feature_importances, axis=0)

    # Création d'un DataFrame pour les importances des caractéristiques
    importances_df = pd.DataFrame({
        'Feature': X_train.columns,
        'Importance': mean_importances
    }).sort_values(by='Importance', ascending=False)

    return importances_df


In [None]:
import unittest
from sklearn.datasets import load_iris
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import KFold


class TestXGBoostCV(unittest.TestCase):

    def setUp(self):
        # Charger le jeu de données Iris
        iris = load_iris()
        self.X = pd.DataFrame(iris.data, columns=iris.feature_names)
        self.y = iris.target
        self.df = self.X.copy()
        self.df['target'] = self.y

    def test_kfold_splits(self):
        n_splits = 5
        kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)
        splits = list(kf.split(self.df.drop('target', axis=1)))
        self.assertEqual(len(splits), n_splits)

    def test_feature_importances_shape(self):
        df_importances = train_xgboost_with_cross_validation(self.df, 'target')
        self.assertEqual(df_importances.shape[1], 2)  # Deux colonnes : Feature et Importance

    def test_feature_importances_content(self):
        df_importances = train_xgboost_with_cross_validation(self.df, 'target')
        self.assertTrue(all(df_importances['Importance'] >= 0))

    def test_model_training(self):
        df_importances = train_xgboost_with_cross_validation(self.df, 'target')
        self.assertFalse(df_importances.empty)

    def test_fold_importances(self):
        n_splits = 5
        kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)
        X = self.df.drop('target', axis=1)
        y = self.df['target']
        for train_index, test_index in kf.split(X):
            X_train_cv = X.iloc[train_index]
            y_train_cv = y.iloc[train_index]

            model = xgb.XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss')
            model.fit(X_train_cv, y_train_cv)
            self.assertTrue(np.all(model.feature_importances_ >= 0))

if __name__ == '__main__':
    unittest.main(argv=[''], exit=False)


In [None]:
import unittest
from sklearn.datasets import make_classification


class TestXGBoostCV(unittest.TestCase):
    """
    Ce script de test unitaire vérifie plusieurs aspects de notre fonction de validation croisée :
    
    1. Le nombre correct de splits est créé par KFold.
    2. Le DataFrame des importances des caractéristiques a la bonne forme.
    3. Les valeurs des importances sont des nombres réels non négatifs.
    4. Le modèle est bien entraîné et renvoie des importances des caractéristiques.
    5. Chaque fold renvoie des importances des caractéristiques non nulles et positives.  
    """
    def setUp(self):
        # Créer un jeu de données de test
        self.X, self.y = make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=10, random_state=42)
        self.df = pd.DataFrame(self.X)
        self.df['target'] = self.y

    def test_kfold_splits(self):
        # Testez si KFold crée le bon nombre de splits
        n_splits = 5
        kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)
        splits = list(kf.split(self.df.drop('target', axis=1)))
        self.assertEqual(len(splits), n_splits)

    def test_feature_importances_shape(self):
        # Testez si le DataFrame des importances des caractéristiques a la bonne forme
        df_importances = train_xgboost_with_cross_validation(self.df, 'target')
        self.assertEqual(df_importances.shape[1], 2) # Deux colonnes : Feature et Importance

    def test_feature_importances_content(self):
        # Testez si les importances des caractéristiques sont des nombres réels non négatifs
        df_importances = train_xgboost_with_cross_validation(self.df, 'target')
        self.assertTrue(all(df_importances['Importance'] >= 0))
    
    def test_model_training(self):
        # Testez si le modèle est bien entraîné et renvoie un objet
        df_importances = train_xgboost_with_cross_validation(self.df, 'target')
        self.assertFalse(df_importances.empty)
    
    def test_fold_importances(self):
        # Testez si l'importance des caractéristiques pour chaque fold est enregistrée et non nulle
        n_splits = 5
        kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)
        X_train = self.df.drop('target', axis=1)
        y_train = self.df['target']
        feature_importances = []
        for train_index, _ in kf.split(X_train):
            X_train_cv = X_train.iloc[train_index]
            y_train_cv = y_train.iloc[train_index]
    
            model = xgb.XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss')
            model.fit(X_train_cv, y_train_cv)
            feature_importances.append(model.feature_importances_)

        # Assurez-vous qu'il y a des importances enregistrées pour chaque fold
        self.assertEqual(len(feature_importances), n_splits)
        # Vérifiez que chaque liste d'importance n'est pas vide
        for importance in feature_importances:
            self.assertTrue(len(importance) > 0)
            self.assertTrue(np.all(importance >= 0))

    if __name__ == '__main__':
        unittest.main(argv=[''], exit=False)







In [None]:
importances_cv = train_xgboost_with_cross_validation(train, 'TARGET')
print(importances_cv)

In [None]:
plot_feature_importance(importances_cv,30)


In [None]:
plot_importance_histogram(importances_cv['Importance'], num_bins=10)

In [None]:
import xgboost as xgb
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.model_selection import train_test_split

def calculate_variable_removal_impact(data, threshold,target='TARGET'):
    """
    Calcule l'impact potentiel de la suppression de variables en fonction d'un seuil d'importance.

    Paramètres :
    - data (pd.DataFrame) : Le dataframe contenant les données avec les variables à évaluer.
    - threshold (float) : Le seuil d'importance en pourcentage en dessous duquel les variables seront supprimées.

    Retourne :
    - dict : Un dictionnaire contenant les performances du modèle avant et après la suppression de variables.
    """

    # Séparation des caractéristiques et de la cible
    X = data.drop(target, axis=1)
    y = data[target]

    # Création d'un modèle XGBoost initial
    xgb_model_initial = xgb.XGBClassifier(random_state=42)
    
    # Division des données en ensembles d'entraînement et de test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Entraînement du modèle initial
    xgb_model_initial.fit(X_train, y_train)
    
    # Évaluation du modèle initial
    y_pred_initial = xgb_model_initial.predict(X_test)
    accuracy_initial = accuracy_score(y_test, y_pred_initial)
    roc_auc_initial = roc_auc_score(y_test, y_pred_initial)
    
    # Calcul de l'importance des caractéristiques
    feature_importances = xgb_model_initial.feature_importances_
    
    # Création d'un masque pour les variables à supprimer
    variables_to_remove = feature_importances <= threshold
    
    # Suppression des variables en dessous du seuil
    X_reduced = X.loc[:, ~variables_to_remove]
    
    # Création d'un modèle XGBoost réduit
    xgb_model_reduced = xgb.XGBClassifier(random_state=42)
    
    # Division des données réduites en ensembles d'entraînement et de test
    X_train_reduced, X_test_reduced, y_train, y_test = train_test_split(X_reduced, y, test_size=0.2, random_state=42)
    
    # Entraînement du modèle réduit
    xgb_model_reduced.fit(X_train_reduced, y_train)
    
    # Évaluation du modèle réduit
    y_pred_reduced = xgb_model_reduced.predict(X_test_reduced)
    accuracy_reduced = accuracy_score(y_test, y_pred_reduced)
    roc_auc_reduced = roc_auc_score(y_test, y_pred_reduced)
    
    # Calcul de l'impact potentiel sur les performances
    impact_potentiel = {
        'accuracy_initial': accuracy_initial,
        'roc_auc_initial': roc_auc_initial,
        'accuracy_reduced': accuracy_reduced,
        'roc_auc_reduced': roc_auc_reduced,
        'variables_removed': list(X.columns[variables_to_remove])
    }
    
    return impact_potentiel


In [None]:
calculate_variable_removal_impact(train, threshold=0.01)

In [None]:
import xgboost as xgb
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score, train_test_split
import numpy as np

def evaluate_variable_removal_impact_cv(data, threshold, num_folds=5, target='TARGET'):
    """
    Évalue l'impact potentiel de la suppression de variables en utilisant la validation croisée.

    Paramètres :
    - data (pd.DataFrame) : Le dataframe contenant les données avec les variables à évaluer.
    - threshold (float) : Le seuil d'importance en pourcentage en dessous duquel les variables seront supprimées.
    - num_folds (int) : Le nombre de plis à utiliser pour la validation croisée.
    - target (str) : Le nom de la colonne cible.

    Retourne :
    - dict : Un dictionnaire contenant les performances du modèle avant et après la suppression de variables.
    """

    # Séparation des caractéristiques et de la cible
    X = data.drop(target, axis=1)
    y = data[target]

    # Création d'un modèle XGBoost initial
    xgb_model_initial = xgb.XGBClassifier(random_state=42)
    
    # Division des données en ensembles d'entraînement et de test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Entraînement du modèle initial
    xgb_model_initial.fit(X_train, y_train)
    
    # Évaluation du modèle initial avec validation croisée
    accuracy_initial = np.mean(cross_val_score(xgb_model_initial, X, y, cv=num_folds, scoring='accuracy'))
    
    # Calcul de l'importance des caractéristiques
    feature_importances = xgb_model_initial.feature_importances_
    
    # Création d'un masque pour les variables à supprimer
    variables_to_remove = feature_importances <= threshold
    
    # Suppression des variables en dessous du seuil
    X_reduced = X.loc[:, ~variables_to_remove]
    
    # Création d'un modèle XGBoost réduit
    xgb_model_reduced = xgb.XGBClassifier(random_state=42)
    
    # Entraînement du modèle réduit
    xgb_model_reduced.fit(X_train, y_train)
    
    # Évaluation du modèle réduit avec validation croisée
    accuracy_reduced = np.mean(cross_val_score(xgb_model_reduced, X_reduced, y, cv=num_folds, scoring='accuracy'))
    
    # Calcul de l'impact potentiel sur les performances
    impact_potentiel_acc = {
        'accuracy_initial': accuracy_initial,
        'accuracy_reduced': accuracy_reduced,
        'variables_removed': list(X.columns[variables_to_remove])
    }
    
    return impact_potentiel_acc



In [None]:
evaluate_variable_removal_impact_cv(train, threshold=0.01, num_folds=5, target='TARGET')

In [None]:
from sklearn.metrics import roc_auc_score

def evaluate_variable_removal_impact_auc(data, threshold, num_folds=5, target='TARGET'):
    """
    Évalue l'impact potentiel de la suppression de variables en utilisant l'aire sous la courbe ROC (AUC-ROC).

    Paramètres :
    - data (pd.DataFrame) : Le dataframe contenant les données avec les variables à évaluer.
    - threshold (float) : Le seuil d'importance en pourcentage en dessous duquel les variables seront supprimées.
    - num_folds (int) : Le nombre de plis à utiliser pour la validation croisée.
    - target (str) : Le nom de la colonne cible.

    Retourne :
    - dict : Un dictionnaire contenant les performances du modèle avant et après la suppression de variables.
    """

    # Séparation des caractéristiques et de la cible
    X = data.drop(target, axis=1)
    y = data[target]

    # Création d'un modèle XGBoost initial
    xgb_model_initial = xgb.XGBClassifier(random_state=42)
    
    # Division des données en ensembles d'entraînement et de test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Entraînement du modèle initial
    xgb_model_initial.fit(X_train, y_train)
    
    # Calcul de l'AUC-ROC du modèle initial
    auc_roc_initial = np.mean(cross_val_score(xgb_model_initial, X, y, cv=num_folds, scoring='roc_auc'))
    
    # Calcul de l'importance des caractéristiques
    feature_importances = xgb_model_initial.feature_importances_
    
    # Création d'un masque pour les variables à supprimer
    variables_to_remove = feature_importances <= threshold
    
    # Suppression des variables en dessous du seuil
    X_reduced = X.loc[:, ~variables_to_remove]
    
    # Création d'un modèle XGBoost réduit
    xgb_model_reduced = xgb.XGBClassifier(random_state=42)
    
    # Entraînement du modèle réduit
    xgb_model_reduced.fit(X_train, y_train)
    
    # Calcul de l'AUC-ROC du modèle réduit
    auc_roc_reduced = np.mean(cross_val_score(xgb_model_reduced, X_reduced, y, cv=num_folds, scoring='roc_auc'))
    
    # Calcul de l'impact potentiel sur les performances
    impact_potentiel_auc = {
        'auc_roc_initial': auc_roc_initial,
        'auc_roc_reduced': auc_roc_reduced,
        'variables_removed': list(X.columns[variables_to_remove])
    }
    
    return impact_potentiel_auc


In [None]:
impact_potentiel_auc=evaluate_variable_removal_impact_auc(train, threshold=0.008, num_folds=5, target='TARGET')

In [None]:
impact_potentiel_auc

In [None]:
import pandas as pd

def remove_variables_based_on_impact(data, impact_potential):
    """
    Supprime les variables en fonction de l'impact potentiel calculé.

    Paramètres :
    - data (pd.DataFrame) : Le DataFrame contenant les données.
    - impact_potential (dict) : Un dictionnaire avec les clés 'variables_removed' contenant la liste des variables à supprimer.
    - threshold (float) : Le seuil pour décider quelles variables supprimer.

    Retourne :
    - pd.DataFrame : Le DataFrame de données modifié avec les variables supprimées.
    """
    variables_to_remove = impact_potential.get('variables_removed', [])

    # Supprime les variables dont l'impact potentiel est inférieur ou égal au seuil
    data_filtered = data.drop(columns=variables_to_remove)

    return data_filtered


In [None]:
# Utilisation

train_filtered = remove_variables_based_on_impact(train, impact_potentiel_auc)

# data_filtered contient maintenant les données avec les variables supprimées en fonction de l'impact potentiel.


In [None]:
test_filtered = remove_variables_based_on_impact(test, impact_potentiel_auc)

In [None]:
presence_rate(test_filtered)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

def plot_distributions(df, variables):
    # Calculez le nombre de lignes et de colonnes pour organiser les sous-graphes
    num_variables = len(variables)
    num_cols = int(num_variables ** 0.5)
    num_rows = (num_variables + num_cols - 1) // num_cols

    # Créez une figure et une grille de sous-graphes
    fig, axes = plt.subplots(num_rows, num_cols, figsize=(20, 10))
    fig.subplots_adjust(hspace=1)
    
    # Parcourez les variables et créez des sous-graphes pour chaque variable
    for i, variable in enumerate(variables):
        row = i // num_cols
        col = i % num_cols
        ax = axes[row, col]
        
        # Utilisez Seaborn pour tracer la distribution de la variable
        sns.histplot(df[variable], ax=ax, kde=True)
        #ax.set_title(variable)
        
    # Réduisez la taille de la police pour les étiquettes des axes x et y
        ax.set_xlabel(ax.get_xlabel(), fontsize=8)
        ax.set_ylabel(ax.get_ylabel(), fontsize=8)
    
    # Supprimez les sous-graphes non utilisés
    for i in range(num_variables, num_rows * num_cols):
        fig.delaxes(axes.flatten()[i])
    
    plt.show()

In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

def plot_log_distributions(df, monetary_vars, small_value=1e-6):
    # Créez une copie temporaire de df pour les transformations
    temp_df = df.copy()
    
    # Liste pour stocker les noms des nouvelles variables transformées
    transformed_vars = []
    
    # Appliquer une transformation symétrique du logarithme
    for var in monetary_vars:
        if var in temp_df.columns:
            transformed_var = var + '_log'
            temp_df[transformed_var] = np.sign(temp_df[var]) * np.log(np.abs(temp_df[var]) + small_value)
            transformed_vars.append(transformed_var)
    
    # Calculez le nombre de lignes et de colonnes pour organiser les sous-graphes
    num_variables = len(transformed_vars)
    num_cols = int(np.ceil(np.sqrt(num_variables)))
    num_rows = int(np.ceil(num_variables / num_cols))
    
    # Créez une figure et une grille de sous-graphes
    fig, axes = plt.subplots(num_rows, num_cols, figsize=(20, 10))
    fig.subplots_adjust(hspace=0.4, wspace=0.4)
    
    # Parcourez les variables transformées et créez des sous-graphes pour chaque variable
    for i, transformed_var in enumerate(transformed_vars):
        row = i // num_cols
        col = i % num_cols
        ax = axes[row][col] if num_rows > 1 else axes[col]
        
        # Utilisez Seaborn pour tracer la distribution de la variable
        sns.histplot(temp_df[transformed_var], ax=ax, kde=True)
        ax.set_xlabel(transformed_var, fontsize=10)
        ax.set_ylabel('Count', fontsize=10)
    
    # Supprimez les sous-graphes non utilisés
    for j in range(i+1, num_rows*num_cols):
        fig.delaxes(axes.flatten()[j])
    
    plt.tight_layout()
    plt.show()



In [None]:
finite_vars=finite_unique_values_variables(train)

In [None]:
money_variables = [col for col in train.columns if 'AMT' in col or 'INCOME' in col or 'CREDIT' in col or 'ANNUITY' in col]
print("Variables représentant des montants d'argent:", money_variables)


In [None]:
continues_money_variables = [col for col in money_variables  if col not in finite_vars]
print("Variables continues représentant des montants d'argent:", continues_money_variables)


In [None]:

plot_distributions(train, continues_money_variables)

In [None]:
train_filtered.to_csv('train_filtered.csv')

In [None]:
test_filtered.to_csv('test_filtered.csv')

In [None]:
finite_unique_values_variables(train_filtered)

In [None]:
train_filtered.head(25)

In [None]:
import pandas as pd
from sklearn.impute import SimpleImputer

def impute_data(data):
    # Créer un dictionnaire pour stocker le nombre de valeurs uniques pour chaque variable
    unique_counts = {col: data[col].nunique() for col in data.columns}
    
    # Filtrer pour obtenir les variables avec un nombre fini de valeurs uniques
    # Vous pouvez définir un seuil spécifique si nécessaire, par exemple, moins de 20 valeurs uniques
    finite_vars = {col: count for col, count in unique_counts.items() if count < 20}  # Exemple de seuil: 20
    
    # Liste des variables numériques (à l'exclusion de la cible)
    numeric_vars = data.select_dtypes(include='number').columns.tolist()
    
    # Liste des variables catégorielles (y compris les binaires)
    categorical_vars = [col for col in data.columns if col not in numeric_vars]
    
    # Imputer les valeurs manquantes pour les variables sélectionnées avec le mode
    mode_imputer = SimpleImputer(strategy='most_frequent')
    data[list(finite_vars.keys())] = mode_imputer.fit_transform(data[list(finite_vars.keys())])
    
    # Imputer les valeurs manquantes pour les variables numériques avec la moyenne
    mean_imputer = SimpleImputer(strategy='mean')
    data[numeric_vars] = mean_imputer.fit_transform(data[numeric_vars])
    
    # Imputer les valeurs manquantes pour les variables catégorielles avec une nouvelle catégorie 'Missing'
    data[categorical_vars] = data[categorical_vars].fillna('Missing')
    
    return data

In [None]:
# Appliquer l'imputation à votre ensemble de données train_filtered
train_filtered_imputed = impute_data(train_filtered)

In [None]:
train_filtered_imputed.info()

In [None]:
# Appliquer l'imputation à votre ensemble de données train_filtered
test_filtered_imputed = impute_data(test_filtered)

In [None]:
test_filtered_imputed.info()

In [None]:
train_filtered_imputed.to_csv("train_filtered_imputed.csv")

In [None]:
test_filtered_imputed.to_csv("test_filtered_imputed.csv")

In [None]:
presence_rate(train_filtered_imputed)

In [None]:
evaluate_variable_removal_impact_auc(train_filtered_imputed, threshold=0.01, num_folds=5, target='TARGET')

In [None]:
pp

In [None]:
import mlflow
import mlflow.sklearn
import xgboost as xgb
import pandas as pd
import os

# Créez une nouvelle expérience avec un nom spécifique et obtenez son ID
def create_or_get_experiment(experiment_name):
    experiment = mlflow.get_experiment_by_name(experiment_name)
    if experiment is None:
        experiment_id = mlflow.create_experiment(experiment_name)
    else:
        experiment_id = experiment.experiment_id
    return experiment_id

In [None]:
def log_feature_importance(experiment_id, df, target_column, random_state=42, eval_metric='logloss'):
    # Séparation des caractéristiques et de la cible
    X_train = df.drop(target_column, axis=1)
    y_train = df[target_column]

    # Enregistrement d'un nouveau run avec l'ID de l'expérience spécifiée
    with mlflow.start_run(experiment_id=experiment_id):
        # Entraînement du modèle XGBoost
        xgb_model = xgb.XGBClassifier(random_state=random_state, use_label_encoder=False, eval_metric=eval_metric)
        xgb_model.fit(X_train, y_train)

        # Enregistrement des caractéristiques d'importance avec MLflow
        mlflow.sklearn.log_model(xgb_model, "xgboost_model")
        feature_importances = pd.DataFrame({'Feature': X_train.columns, 'Importance': xgb_model.feature_importances_})
        
        # Enregistrez la DataFrame en tant que fichier CSV temporaire
        feature_importances.to_csv("feature_importance_temp.csv", index=False)
        
        # Enregistrez le fichier CSV temporaire en tant qu'artefact
        mlflow.log_artifact("feature_importance_temp.csv", "feature_importance.csv")
        
        # Supprimez le fichier CSV temporaire après l'avoir enregistré en tant qu'artefact
        os.remove("feature_importance_temp.csv")

        mlflow.log_param("eval_metric", eval_metric)
        mlflow.log_param("random_state", random_state)

    # Affichage des caractéristiques d'importance
    print("Caractéristiques d'importance enregistrées avec succès.")
    return feature_importances

target_column_name = 'TARGET'
experiment_name = "train_and_log_feature_importance"

# Créez ou obtenez l'ID de l'expérience
experiment_id = create_or_get_experiment(experiment_name)

# Utilisation de la fonction pour enregistrer les caractéristiques d'importance
importances = log_feature_importance(experiment_id, train, target_column_name)

In [None]:
def log_feature_importance(experiment_id, df, target_column, random_state=42, eval_metric='logloss'):
    # Vérifiez si une exécution est déjà active et fermez-la si nécessaire
    if mlflow.active_run():
        mlflow.end_run()
    
    # Séparation des caractéristiques et de la cible
    X_train = df.drop(target_column, axis=1)
    y_train = df[target_column]

    # Enregistrement d'un nouveau run avec l'ID de l'expérience spécifiée
    with mlflow.start_run(experiment_id=experiment_id):
        # Entraînement du modèle XGBoost
        xgb_model = xgb.XGBClassifier(random_state=random_state, use_label_encoder=False, eval_metric=eval_metric)
        xgb_model.fit(X_train, y_train)

        # Enregistrement des caractéristiques d'importance avec MLflow
        mlflow.sklearn.log_model(xgb_model, "xgboost_model")
        feature_importances = pd.DataFrame({'Feature': X_train.columns, 'Importance': xgb_model.feature_importances_})
        
        # Enregistrez la DataFrame en tant que fichier CSV temporaire
        feature_importances.to_csv("feature_importance_temp.csv", index=False)
        
        # Enregistrez le fichier CSV temporaire en tant qu'artefact
        mlflow.log_artifact("feature_importance_temp.csv", "feature_importance.csv")
        
        # Supprimez le fichier CSV temporaire après l'avoir enregistré en tant qu'artefact
        os.remove("feature_importance_temp.csv")

        mlflow.log_param("eval_metric", eval_metric)
        mlflow.log_param("random_state", random_state)

    # Affichage des caractéristiques d'importance
    print("Caractéristiques d'importance enregistrées avec succès.")
    return feature_importances

In [None]:
import mlflow
import mlflow.sklearn
import xgboost as xgb
import pandas as pd
import os

# Créez une nouvelle expérience avec un nom spécifique et obtenez son ID
def create_or_get_experiment(experiment_name):
    experiment = mlflow.get_experiment_by_name(experiment_name)
    if experiment is None:
        experiment_id = mlflow.create_experiment(experiment_name)
    else:
        experiment_id = experiment.experiment_id
    return experiment_id

def log_feature_importance(experiment_id, df, target_column, random_state=42, eval_metric='logloss'):
    # Séparation des caractéristiques et de la cible
    X_train = df.drop(target_column, axis=1)
    y_train = df[target_column]

    # Enregistrement d'un nouveau run avec l'ID de l'expérience spécifiée
    with mlflow.start_run(experiment_id=experiment_id, nested=True):
        # Entraînement du modèle XGBoost
        xgb_model = xgb.XGBClassifier(random_state=random_state, use_label_encoder=False, eval_metric=eval_metric)
        xgb_model.fit(X_train, y_train)

        # Enregistrement des caractéristiques d'importance avec MLflow
        mlflow.sklearn.log_model(xgb_model, "xgboost_model")
        feature_importances = pd.DataFrame({'Feature': X_train.columns, 'Importance': xgb_model.feature_importances_})
        
        # Enregistrez la DataFrame en tant que fichier CSV temporaire
        feature_importances.to_csv("feature_importance_temp.csv", index=False)
        
        # Enregistrez le fichier CSV temporaire en tant qu'artefact
        mlflow.log_artifact("feature_importance_temp.csv", "feature_importance.csv")
        
        # Supprimez le fichier CSV temporaire après l'avoir enregistré en tant qu'artefact
        os.remove("feature_importance_temp.csv")

        mlflow.log_param("eval_metric", eval_metric)
        mlflow.log_param("random_state", random_state)

    # Affichage des caractéristiques d'importance
    print("Caractéristiques d'importance enregistrées avec succès.")
    return feature_importances

target_column_name = 'TARGET'
experiment_name = "train_and_log_feature_importance"

# Créez ou obtenez l'ID de l'expérience
experiment_id = create_or_get_experiment(experiment_name)

# Utilisation de la fonction pour enregistrer les caractéristiques d'importance
importances = log_feature_importance(experiment_id, train, target_column_name)


In [None]:
target_column_name = 'TARGET'
experiment_name = "train_and_log_feature_importance"

# Créez ou obtenez l'ID de l'expérience
experiment_id = create_or_get_experiment(experiment_name)

# Utilisation de la fonction pour enregistrer les caractéristiques d'importance
importances = log_feature_importance(experiment_id, train, target_column_name)

In [None]:
import mlflow


# Recherchez les runs de l'expérience spécifiée
runs = mlflow.search_runs(experiment_ids=[experiment_id])

# Affichez les résultats
print(runs)


In [None]:
import mlflow
import mlflow.sklearn
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import KFold

def train_xgboost_with_cross_validation_and_log(df, target_column, experiment_name, n_splits=5, random_state=42, eval_metric='logloss'):
    """
    Entraîne un classificateur XGBoost en utilisant la validation croisée, enregistre les résultats avec MLflow,
    et retourne les importances moyennes des caractéristiques.

    Paramètres :
    - df (pd.DataFrame) : Le dataframe d'entrée contenant les caractéristiques et la cible.
    - target_column (str) : Le nom de la colonne cible.
    - experiment_name (str) : Le nom de l'expérience MLflow.
    - n_splits (int) : Le nombre de subdivisions pour la validation croisée KFold.
    - random_state (int) : La graine utilisée par le générateur de nombres aléatoires.
    - eval_metric (str) : La métrique d'évaluation à utiliser pour l'entraînement du modèle.

    Retourne :
    - pd.DataFrame : Un dataframe avec deux colonnes : Feature et Importance, triées par importance.
    """

    # Créer ou obtenir l'ID de l'expérience
    experiment_id = create_or_get_experiment(experiment_name)

    # Séparation des caractéristiques et de la cible
    X_train = df.drop(target_column, axis=1)
    y_train = df[target_column]

    # Configuration de la validation croisée
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=random_state)
    # Initialisation de la liste pour stocker les importances des caractéristiques pour chaque pli
    feature_importances_list = []

    # Enregistrement d'un nouveau run avec l'ID de l'expérience spécifiée
    with mlflow.start_run(experiment_id=experiment_id) as parent_run:
        # Boucle sur chaque division de la validation croisée
        for fold, (train_index, test_index) in enumerate(kf.split(X_train)):
            # Démarrez un run imbriqué pour chaque pli
            with mlflow.start_run(nested=True) as child_run:
                # Séparation des données en ensembles d'entraînement et de test
                X_train_cv, X_test_cv = X_train.iloc[train_index], X_train.iloc[test_index]
                y_train_cv, y_test_cv = y_train.iloc[train_index], y_train.iloc[test_index]
                
                # Entraînement du modèle
                model = xgb.XGBClassifier(random_state=random_state, use_label_encoder=False, eval_metric=eval_metric)
                model.fit(X_train_cv, y_train_cv)
                
                # Stockage des importances des caractéristiques pour le pli actuel
                feature_importances_list.append(model.feature_importances_)
                
                # Enregistrement des paramètres et métriques du modèle pour le pli actuel avec MLflow
                mlflow.log_param("fold", fold)
                mlflow.sklearn.log_model(model, "model_fold_{}".format(fold))
                # Vous pourriez également enregistrer des métriques ici avec mlflow.log_metric(...)
                
                # Les runs imbriqués sont automatiquement fermés à la fin du bloc 'with'
    
        # Calcul de la moyenne des importances des caractéristiques sur tous les plis
        mean_importances = np.mean(feature_importances_list, axis=0)
    
        # Création d'un DataFrame pour les importances des caractéristiques
        importances_df = pd.DataFrame({
            'Feature': X_train.columns,
            'Importance': mean_importances
        }).sort_values(by='Importance', ascending=False)
        
        # Enregistrement du DataFrame des importances moyennes en tant que fichier CSV final
        final_importances_file = "mean_feature_importance.csv"
        importances_df.to_csv(final_importances_file, index=False)
        
        # Enregistrement du fichier CSV final des importances moyennes en tant qu'artefact avec MLflow
        mlflow.log_artifact(final_importances_file, "feature_importance")
        os.remove(final_importances_file)  # Supprimez le fichier CSV après enregistrement
    
    # Pas besoin d'appeler mlflow.end_run() ici car 'with' s'en occupe
    return importances_df


In [None]:
import mlflow
import mlflow.sklearn
from sklearn.model_selection import KFold
import xgboost as xgb
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score, log_loss  # Importez accuracy_score et log_loss ici
import os

def train_xgboost_with_cross_validation_and_log(df, target_column, experiment_name, n_splits=5, random_state=42, eval_metric='logloss'):
    """
    Entraîne un classificateur XGBoost en utilisant la validation croisée, enregistre les résultats avec MLflow,
    et retourne les importances moyennes des caractéristiques.

    Paramètres :
    - df (pd.DataFrame) : Le dataframe d'entrée contenant les caractéristiques et la cible.
    - target_column (str) : Le nom de la colonne cible.
    - experiment_name (str) : Le nom de l'expérience MLflow.
    - n_splits (int) : Le nombre de subdivisions pour la validation croisée KFold.
    - random_state (int) : La graine utilisée par le générateur de nombres aléatoires.
    - eval_metric (str) : La métrique d'évaluation à utiliser pour l'entraînement du modèle.

    Retourne :
    - pd.DataFrame : Un dataframe avec deux colonnes : Feature et Importance, triées par importance.
    """

    # Créer ou obtenir l'ID de l'expérience
    experiment_id = create_or_get_experiment(experiment_name)

    # Séparation des caractéristiques et de la cible
    X_train = df.drop(target_column, axis=1)
    y_train = df[target_column]

    # Configuration de la validation croisée
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=random_state)
    # Initialisation de la liste pour stocker les importances des caractéristiques pour chaque pli
    feature_importances_list = []

    # Enregistrement d'un nouveau run avec l'ID de l'expérience spécifiée
    with mlflow.start_run(experiment_id=experiment_id) as parent_run:
        # Boucle sur chaque division de la validation croisée
        for fold, (train_index, test_index) in enumerate(kf.split(X_train)):
            # Démarrez un run imbriqué pour chaque pli
            with mlflow.start_run(nested=True) as child_run:
                # Séparation des données en ensembles d'entraînement et de test
                X_train_cv, X_test_cv = X_train.iloc[train_index], X_train.iloc[test_index]
                y_train_cv, y_test_cv = y_train.iloc[train_index], y_train.iloc[test_index]
                
                # Entraînement du modèle
                model = xgb.XGBClassifier(random_state=random_state, use_label_encoder=False, eval_metric=eval_metric)
                model.fit(X_train_cv, y_train_cv)
                
                # Stockage des importances des caractéristiques pour le pli actuel
                feature_importances_list.append(model.feature_importances_)
                
                # Enregistrement des paramètres et métriques du modèle pour le pli actuel avec MLflow
                mlflow.log_params({
                    "fold": fold,
                    "n_splits": n_splits,
                    "random_state": random_state,
                    "eval_metric": eval_metric
                })
                
                mlflow.log_metrics({
                    "accuracy": accuracy_score(y_test_cv, model.predict(X_test_cv)),
                    "log_loss": log_loss(y_test_cv, model.predict_proba(X_test_cv))
                })
                
                mlflow.sklearn.log_model(model, "model_fold_{}".format(fold))
    
        # Calcul de la moyenne des importances des caractéristiques sur tous les plis
        mean_importances = np.mean(feature_importances_list, axis=0)
    
        # Création d'un DataFrame pour les importances des caractéristiques
        importances_df = pd.DataFrame({
            'Feature': X_train.columns,
            'Importance': mean_importances
        }).sort_values(by='Importance', ascending=False)
        
        # Enregistrement du DataFrame des importances moyennes en tant que fichier CSV final
        final_importances_file = "mean_feature_importance.csv"
        importances_df.to_csv(final_importances_file, index=False)
        
        # Enregistrement du fichier CSV final des importances moyennes en tant qu'artefact avec MLflow
        mlflow.log_artifact(final_importances_file, "feature_importance")
        os.remove(final_importances_file)  # Supprimez le fichier CSV après enregistrement
    
    # Pas besoin d'appeler mlflow.end_run() ici car 'with' s'en occupe
    return importances_df


In [None]:
# 2. Définissez le nom de votre expérience MLflow
experiment_name = "train_and_log_feature_importance_XGBoost_CV"

# 3. Créez ou obtenez l'ID de l'expérience
experiment_id = create_or_get_experiment(experiment_name)

# 4. Appliquez la fonction à votre DataFrame train avec la colonne cible 'TARGET'
importances_cv = train_xgboost_with_cross_validation_and_log(train, 'TARGET', experiment_name)
print(importances_cv)

In [None]:
plot_importance_histogram(importances_cv['Importance'], num_bins=10)

In [None]:
import mlflow


# Recherchez les runs de l'expérience spécifiée
runs = mlflow.search_runs(experiment_ids=[experiment_id])

# Affichez les résultats
print(runs)


In [None]:
import mlflow

# Définissez les run_ids que vous souhaitez examiner
run_ids_to_examine = ["7658b3eb13314f5ebd5b8fff238de6b8", "ea383ff9214a44c7a5818d87da9115e3"]

# Obtenez toutes les exécutions de l'expérience
all_runs = mlflow.search_runs(experiment_ids="408424567618291276")

# Filtrez les exécutions pour les run_ids spécifiés
runs_to_examine = all_runs[all_runs['run_id'].isin(run_ids_to_examine)]

# Affichez les informations sur les exécutions à examiner
print(runs_to_examine)



In [None]:
import os
import mlflow

# Remplacez le chemin de l'artefact par celui de l'exécution que vous souhaitez examiner
artifact_uri = "mlflow-artifacts:/408424567618291276/7658b3eb13314f5ebd5b8fff238de6b8/artifacts"

# Obtenez le chemin complet du répertoire de l'artefact
artifact_dir = mlflow.get_artifact_uri(artifact_uri)

# Affichez la liste des fichiers dans le répertoire de l'artefact
for filename in os.listdir(artifact_dir):
    if filename.startswith("mlflow.log"):
        log_file_path = os.path.join(artifact_dir, filename)
        with open(log_file_path, 'r') as log_file:
            log_content = log_file.read()
            print(f"Contenu du fichier {filename} :")
            print(log_content)


