# Prêt à dépenser : Construire un modèle de scoring


## Contexte

"Prêt à dépenser" (Home Credit) est une société financière qui propose des crédits à la consommation pour des personnes ayant peu ou pas d'historique de prêt.
Pour accorder un crédit à la consommation, l'entreprise calcule la probabilité qu'un client le rembourse, ou non. Elle souhaite donc développer un algorithme de scoring pour aider à décider si un prêt peut être accordé à un client.

Les chargés de relation client seront les utilisateurs du modèle de scoring. Puisqu'ils s'adressent aux clients, ils ont besoin que votre modèle soit facilement interprétable. Les chargés de relation souhaitent, en plus, disposer d'une mesure de l'importance des variables qui ont poussé le modèle à donner cette probabilité à un client.


## Chargement des modules du projet

Afin de simplifier le Notebook, le code métier du projet est placé dans le répertoire [src/](../src/).


In [1]:
# Import project modules from source directory

# Hide warnings
import warnings
warnings.simplefilter(action='ignore', category=UserWarning)

# System modules
import os
import sys

# Append source directory to system path
src_path = os.path.abspath(os.path.join("../src"))
if src_path not in sys.path:
    sys.path.append(src_path)

# Helper functions
import data.helpers as data_helpers
import features.helpers as feat_helpers
import visualization.helpers as vis_helpers
import models.helpers as models_helpers



Nous allons utiliser le langage [Python](https://www.python.org/about/gettingstarted/), et présenter ici le code, les résultats et l'analyse sous forme de [Notebook JupyterLab](https://jupyterlab.readthedocs.io/en/stable/getting_started/overview.html).

Nous allons aussi utiliser les bibliothèques usuelles d'exploration et analyse de données, afin d'améliorer la simplicité et la performance de notre code :
  * [NumPy](https://numpy.org/doc/stable/user/quickstart.html) et [Pandas](https://pandas.pydata.org/docs/user_guide/index.html) : effectuer des calculs scientifiques (statistiques, algèbre, ...) et manipuler des séries et tableaux de données volumineuses et complexes
  * [scikit-learn](https://scikit-learn.org/stable/getting_started.html) et [XGBoost](https://xgboost.readthedocs.io/en/latest/get_started.html) : pour effectuer des analyses prédictives 
  * [Matplotlib](https://matplotlib.org/stable/tutorials/introductory/usage.html), [Pyplot](https://matplotlib.org/stable/tutorials/introductory/pyplot.html), [Seaborn](https://seaborn.pydata.org/tutorial/function_overview.html) et [Plotly](https://plotly.com/python/getting-started/) : générer des graphiques lisibles, intéractifs et pertinents


In [2]:
# numpy and pandas for data manipulation
import numpy as np
import pandas as pd

# sklearn preprocessing for dealing with categorical variables
from sklearn.model_selection import train_test_split

# matplotlib and seaborn for plotting
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Accelerate the development cycle
SAMPLE_FRAC: float = 1

# Prevent excessive memory usage used by plotly
DRAW_PLOTS: bool = False


## Chargement des données

Les données mises à disposition sont issues de [Home Credit](https://www.homecredit.net/) et plus précisément de la compétition hébergée sur Kaggle [Home Credit Default Risk - Can you predict how capable each applicant is of repaying a loan?](https://www.kaggle.com/c/home-credit-default-risk)

Les données sont fournies sous la forme de plusieurs fichiers CSV pouvant être liés entre eux de la manière suivante :

![Home Credit data relations](https://storage.googleapis.com/kaggle-media/competitions/home-credit/home_credit.png)

_source : [Introduction: Home Credit Default Risk Competition](https://www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction) by [Will Koehrsen](https://www.kaggle.com/willkoehrsen)_


In [3]:
# Download and extract the raw data
data_helpers.download_extract_zip(
    zip_file_url="https://s3-eu-west-1.amazonaws.com/static.oc-static.com/prod/courses/files/Parcours_data_scientist/Projet+-+Impl%C3%A9menter+un+mod%C3%A8le+de+scoring/Projet+Mise+en+prod+-+home-credit-default-risk.zip",
    files_names=(
        "application_test.csv",
        "application_train.csv",
        "bureau_balance.csv",
        "bureau.csv",
        "credit_card_balance.csv",
        "installments_payments.csv",
        "POS_CASH_balance.csv",
        "previous_application.csv",
    ),
    target_path="../data/raw/",
)


Nous allons charger toutes les données du fichier `application_train.csv` afin de travailler préparer les données du jeu d'entraînement et de test (variable `TARGET` vaut `O` : le client n'a pas fait défaut ou `1` : le client a fait défaut). Nous les séparerons les jeux de données au moment de l'entraînement et évaluation de nos modèles.

Les fichiers contiennent un grand nombre de variables booléennes et catégorielles que nous pouvons déjà typer comme telles.


In [4]:
# Read column names
application_train_column_names = pd.read_csv(
    "../data/raw/application_train.csv", nrows=0
).columns.values

# TARGET variable must be present in the Train datase
if "TARGET" not in application_train_column_names:
    raise ValueError(
        "TARGET column not found in application_train.csv. Please check that the file is not corrupted."
    )

# SK_ID_CURR variable must be present in the Train datase
if "SK_ID_CURR" not in application_train_column_names:
    raise ValueError(
        "SK_ID_CURR column not found in application_train_column_names.csv. Please check that the file is not corrupted."
    )

# Set column types according to fields description (../data/raw/HomeCredit_columns_description.csv)
# Categorical variables
column_types = {
    col: "category"
    for col in application_train_column_names
    if col.startswith(("NAME_",))
    or col.endswith(("_TYPE"))
    or col
    in [
        "CODE_GENDER",
        "WEEKDAY_APPR_PROCESS_START",
        "FONDKAPREMONT_MODE",
        "HOUSETYPE_MODE",
        "WALLSMATERIAL_MODE",
        "EMERGENCYSTATE_MODE",
    ]
}
# Boolean variables
column_types |= {
    col: bool
    for col in application_train_column_names
    if col.startswith(("FLAG_", "REG_", "LIVE_"))
}

# Load application data
app_df = pd.read_csv(
    "../data/raw/application_train.csv",
    dtype=column_types,
    true_values=["Y", "Yes", "1"],
    false_values=["N", "No", "0"],
    na_values=["XNA"], # bad values
)

# Sample to speed up development
if  float == type(SAMPLE_FRAC) and 0 < SAMPLE_FRAC < 1:
    app_df = app_df.sample(frac=SAMPLE_FRAC)

# Let's display basic statistical info about the data
app_df.describe(include="all")


Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,AMT_CREDIT,AMT_ANNUITY,...,FLAG_DOCUMENT_18,FLAG_DOCUMENT_19,FLAG_DOCUMENT_20,FLAG_DOCUMENT_21,AMT_REQ_CREDIT_BUREAU_HOUR,AMT_REQ_CREDIT_BUREAU_DAY,AMT_REQ_CREDIT_BUREAU_WEEK,AMT_REQ_CREDIT_BUREAU_MON,AMT_REQ_CREDIT_BUREAU_QRT,AMT_REQ_CREDIT_BUREAU_YEAR
count,307511.0,307511.0,307511,307507,307511,307511,307511.0,307511.0,307511.0,307499.0,...,307511,307511,307511,307511,265992.0,265992.0,265992.0,265992.0,265992.0,265992.0
unique,,,2,2,2,2,,,,,...,2,2,2,2,,,,,,
top,,,Cash loans,F,False,True,,,,,...,False,False,False,False,,,,,,
freq,,,278232,202448,202924,213312,,,,,...,305011,307328,307355,307408,,,,,,
mean,278180.518577,0.080729,,,,,0.417052,168797.9,599026.0,27108.573909,...,,,,,0.006402,0.007,0.034362,0.267395,0.265474,1.899974
std,102790.175348,0.272419,,,,,0.722121,237123.1,402490.8,14493.737315,...,,,,,0.083849,0.110757,0.204685,0.916002,0.794056,1.869295
min,100002.0,0.0,,,,,0.0,25650.0,45000.0,1615.5,...,,,,,0.0,0.0,0.0,0.0,0.0,0.0
25%,189145.5,0.0,,,,,0.0,112500.0,270000.0,16524.0,...,,,,,0.0,0.0,0.0,0.0,0.0,0.0
50%,278202.0,0.0,,,,,0.0,147150.0,513531.0,24903.0,...,,,,,0.0,0.0,0.0,0.0,0.0,1.0
75%,367142.5,0.0,,,,,1.0,202500.0,808650.0,34596.0,...,,,,,0.0,0.0,0.0,0.0,0.0,3.0


In [5]:
app_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307511 entries, 0 to 307510
Columns: 122 entries, SK_ID_CURR to AMT_REQ_CREDIT_BUREAU_YEAR
dtypes: bool(34), category(14), float64(65), int64(9)
memory usage: 187.7 MB


Le jeu de données contient 122 variables, dont la variable cible que nous devons estimer : `TARGET`. Parmis ces variables, nous avons :
- 34 variables booléennes
- 14 variables catégorielles
- 74 variables numériques

## Analyse exploratoire

Nous allons analyser la distribution de quelques variables.

### Variable cible

Voyons spécifiquement la distribution de la variable `TARGET` qui est celle que nous devrons estimer par la suite.
Les valeurs nulles représentent notre jeu d'entrainement.
Nous pouvons oberver que nous avons à faire à un problème de __classification binaire déséquilibré__ (il y a deux valeurs possibles, mais les deux valeurs ne sont pas également représentées).
Ceci va influencer la manière dont nous allons construire et entraîner notre modèle.


In [6]:
# Let's plot the distribution of the TARGET variable
if DRAW_PLOTS:
    fig = px.bar(
        app_df["TARGET"].replace({
            "0": "TARGET=0 : payments OK", 
            "1": "TARGET=1 : payment difficulties", 
        }).value_counts(),
        title="Distribution of TARGET variable",
        width=800,
        height=400,
    ).update_xaxes(
        title="TARGET",
    ).update_yaxes(title="Count")
    fig.show()


### Valeurs vides

Nous voyons que toutes les variables ont moins de 30% de valeurs vides, et près de la moitié a moins de 1% de valeurs vides. Le jeu de données est donc relativement bien rempli, ce qui ne devrait pas poser de problème pour la suite.


In [7]:
# Let's display variables with missing values ratio
if DRAW_PLOTS:
    vis_helpers.plot_empty_values(app_df)


### Valeurs impossibles

Quelques valeurs présentes dans les données semblent impossibles. Nous allons supprimer ces "outliers".


In [8]:
# Define data constraints
data_constraints = {
    "DAYS_EMPLOYED": {"min": -35000, "max": 0,}, # max 100 years, only negative values
}

if DRAW_PLOTS:
    # Let's display box plots for variables with outliers
    vis_helpers.plot_boxes(app_df, plot_columns=data_constraints.keys(), categorical_column="TARGET")

# Remove values that are outside possible range
app_df = feat_helpers.drop_impossible_values(
    app_df, constraints=data_constraints,
)


### Variables quantitatives

Nous allons simplement afficher la distribution de quelques variables numériques. Nous voyons déjà que selon la valeur de TARGET, la distribution (moyenne) des variables peut être sensiblement différente.


In [9]:
# Draw the BoxPlots of some numeric columns, split per Target
if DRAW_PLOTS:
    vis_helpers.plot_boxes(app_df,
        plot_columns=[
            "AMT_INCOME_TOTAL",
            "AMT_CREDIT",
            "AMT_ANNUITY",
            "AMT_GOODS_PRICE",
            "DAYS_BIRTH",
            "DAYS_EMPLOYED",
            "OWN_CAR_AGE",
            "REGION_RATING_CLIENT",
            "REGION_RATING_CLIENT_W_CITY",
            "EXT_SOURCE_1",
            "EXT_SOURCE_2",
            "EXT_SOURCE_3",
            "DAYS_LAST_PHONE_CHANGE",
            "AMT_REQ_CREDIT_BUREAU_YEAR",
        ],
        categorical_column="TARGET",
    )


### Variables qualitatives

De la même manière, nous allons simplement afficher la distribution de quelques variables catégorielles. Nous voyons déjà que selon la valeur de TARGET, la distribution (répartition entre classes) des variables peut être sensiblement différente (`TARGET=0` pour 77,6% des `NAME_CONTRACT_TYPE="Cash loans"`, tandis que `TARGET=0` pour 93,1% des `NAME_CONTRACT_TYPE="Revolving loans"`).
Certaines variables ont une répartition très inégale entre classes (`FLAG_MOBIL` vaut systématiquement `True` et jamais `False`).


In [10]:
# Draw the Bar charts of some categorical columns, split per Target
if DRAW_PLOTS:
    vis_helpers.plot_categories_bars(app_df,
        plot_columns=[
            "NAME_CONTRACT_TYPE",
            "CODE_GENDER",
            "FLAG_OWN_CAR",
            "FLAG_OWN_REALTY",
            "NAME_INCOME_TYPE",
            "NAME_EDUCATION_TYPE",
            "NAME_FAMILY_STATUS",
            "NAME_HOUSING_TYPE",
            "OCCUPATION_TYPE",
            "FLAG_MOBIL",
        ],
        categorical_column="TARGET",
    )


### Encodage des catégories

Lorsque les données qualitatives ne sont pas ordinales (on ne peu pas les classer selon un certain ordre), l'encodage "One Hot Encoding" sera plus performant que le "Label Encoding".


In [11]:
## Pandas get_dummies() categorical data encoder
# https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html
# Convert categorical variable into dummy/indicator variables.
# a.k.a "One Hot Encoding"

app_df = pd.get_dummies(app_df, dtype=bool)

app_df.describe(include="bool")


Unnamed: 0,FLAG_OWN_CAR,FLAG_OWN_REALTY,FLAG_MOBIL,FLAG_EMP_PHONE,FLAG_WORK_PHONE,FLAG_CONT_MOBILE,FLAG_PHONE,FLAG_EMAIL,REG_REGION_NOT_LIVE_REGION,REG_REGION_NOT_WORK_REGION,...,HOUSETYPE_MODE_terraced house,WALLSMATERIAL_MODE_Block,WALLSMATERIAL_MODE_Mixed,WALLSMATERIAL_MODE_Monolithic,WALLSMATERIAL_MODE_Others,WALLSMATERIAL_MODE_Panel,"WALLSMATERIAL_MODE_Stone, brick",WALLSMATERIAL_MODE_Wooden,EMERGENCYSTATE_MODE_No,EMERGENCYSTATE_MODE_Yes
count,252137,252137,252137,252137,252137,252137,252137,252137,252137,252137,...,252137,252137,252137,252137,252137,252137,252137,252137,252137,252137
unique,2,2,2,2,2,2,2,2,2,2,...,2,2,2,2,2,2,2,2,2,2
top,False,True,True,True,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
freq,157719,171082,252136,252125,190830,251601,182123,236126,247790,236525,...,251130,244626,250217,250616,250778,197798,198699,247695,131341,250191


Nous avons ici créé 134 nouvelles variables booléennes qui correspondent aux différentes classes de chacune des 14 anciennes variables catégorielles qui ont été encodées et supprimées.


## Feature Engineering

Nous allons tenter d'enrichir nos données en intégrant des variables qui sont des compositions non linéaires des variables existantes.


### Données métier

Afin d'apporter plus de sens aux données que nous allons fournir à nos modèles, nous pouvons faire appel aux experts métier qui peuvent nous indiquer des informations qui sont réputées importantes afin de prédire si un client risque d'avoir des problèmes de remboursement ou non.

Les informations métier pertinentes sont :
- Montant emprunté / Prix du bien acheté : `AMT_CREDIT / AMT_GOODS_PRICE`
- Montant des annuités / Montant emprunté : `AMT_ANNUITY / AMT_CREDIT`
- Montant des annuités / Revenu annuel : `AMT_ANNUITY / AMT_INCOME_TOTAL`
- Ancienneté au travail / Age : `DAYS_EMPLOYED / DAYS_BIRTH`


In [12]:
# Create the new features
app_df["CREDIT_PRICE_RATIO"] = app_df["AMT_CREDIT"] / app_df["AMT_GOODS_PRICE"]
app_df["ANNUITY_CREDIT_RATIO"] = app_df["AMT_ANNUITY"] / app_df["AMT_CREDIT"]
app_df["ANNUITY_INCOME_RATIO"] = app_df["AMT_ANNUITY"] / app_df["AMT_INCOME_TOTAL"]
app_df["EMPLOYED_BIRTH_RATIO"] = app_df["DAYS_EMPLOYED"] / app_df["DAYS_BIRTH"]

# Draw the BoxPlots for these features
if DRAW_PLOTS:
    vis_helpers.plot_boxes(app_df,
        plot_columns=[
            "CREDIT_PRICE_RATIO",
            "ANNUITY_CREDIT_RATIO",
            "ANNUITY_INCOME_RATIO",
            "EMPLOYED_BIRTH_RATIO",
        ],
        categorical_column="TARGET",
    )


### Composition polynomiales de variables existantes

Les variables `EXT_SOURCE_{1-3}` n'ont a priori pas de sens concret. On peut imaginer que `TARGET` ne soit pas forcément linéairement dépendant de ces variables. Nous allons donc générer des combinaisons polynomiales de ces variables.


In [13]:
from sklearn.preprocessing import PolynomialFeatures


# Let's keep only non null data
ext_source = app_df[["SK_ID_CURR", "TARGET", "EXT_SOURCE_1", "EXT_SOURCE_2", "EXT_SOURCE_3"]].dropna()

# Let's create the new features
poly = PolynomialFeatures()
poly_feat = pd.DataFrame(poly.fit_transform(
        X=ext_source[["EXT_SOURCE_1", "EXT_SOURCE_2", "EXT_SOURCE_3"]],
        y=ext_source["TARGET"],
    )
)
poly_feat.columns=poly.get_feature_names()

poly_feat.insert(0, "SK_ID_CURR", ext_source["SK_ID_CURR"].values)

# Merge the new features with the original dataset
app_df = app_df.merge(
    poly_feat,
    on="SK_ID_CURR",
    how="left",
)

# Draw the BoxPlots for these features
if DRAW_PLOTS:
    vis_helpers.plot_boxes(app_df,
        plot_columns=poly_feat.columns[5:],
        categorical_column="TARGET",
    )


### Features selection

Le but ici est d'éliminer un certain nombre de variables afin d'accélérer l'entrainement et la prédiction de nos modèles. Nous souhaitons éliminer les variables qui pénaliseront le moins possible les performances de nos modèles.

Nous savons déjà que les colonnes `SK_ID_CURR` (simple identifiant sans sens métier), `1` et `x{0-2}` (variables polynomiales d'ordre 0 et 1), et `FLAG_MOBIL` (vaut toujours 1) n'apportent pas d'information. Nous allons donc les éliminer.

In [14]:
# Let's drop the features that are not useful for the prediction
app_df = app_df.drop(
    columns=["SK_ID_CURR", "1", "x0", "x1", "x2", "FLAG_MOBIL"]
)


Nous allons ici observer la corrélation :
- de chaque variable avec la variables cible `TARGET` : les variables les moins corrélées à `TARGET` seront a priori les moins utiles pour prédire sa valeur.
- entre les différentes variables deux à deux : si deux variables sont très corrélées, elles apportent une information redondante et nous pouvons donc en éliminer une des deux.


In [15]:
# Let's compute the correlation matrix
app_correlations = app_df.corr().abs().sort_values(
    "TARGET", ascending=False, axis=0
).sort_values(
    "TARGET", ascending=False, axis=1
)

if DRAW_PLOTS:
    fig = px.imshow(app_correlations,
        title="Correlations between features",
        width=1200,
        height=1200,
    )
    fig.show()


Nous voyons qu'il y a des variables très peu corrélées à `TARGET` (ex. : `abs(corr("TARGET", "FLAG_EMP_PHONE")) < 0.0001`), et d'autres très corrélées entre elles (ex. : `abs(corr("LIVINGAPARTMENTS_AVG", ""LIVINGAPARTMENTS_MEDI")) > 0.99`).
Nous allons simplifier notre jeu de données en supprimant ces variables.


In [16]:
# Let's find variables that are highly de-correlated from TARGET
corr_target_min_threshold = 0.01
highly_decorrelated_from_target = pd.DataFrame(columns=["correlation with TARGET"])
for col in app_correlations.columns:
    if col != "TARGET" and (
        pd.isnull(app_correlations[col]["TARGET"])
        or abs(app_correlations[col]["TARGET"]) < corr_target_min_threshold
    ):
        highly_decorrelated_from_target.loc[col] = {
            "correlation with TARGET": app_correlations[col]["TARGET"],
        }

highly_decorrelated_from_target.sort_values(by=["correlation with TARGET"])


Unnamed: 0,correlation with TARGET
ORGANIZATION_TYPE_Industry: type 11,0.000023
FLAG_EMP_PHONE,0.000080
NAME_EDUCATION_TYPE_Incomplete higher,0.000223
FLAG_DOCUMENT_20,0.000241
ORGANIZATION_TYPE_Trade: type 1,0.000328
...,...
ORGANIZATION_TYPE_Kindergarten,0.009678
YEARS_BEGINEXPLUATATION_MODE,0.009697
ORGANIZATION_TYPE_University,0.009729
OCCUPATION_TYPE_Cooking staff,0.009858


In [17]:
# Let's find variables that have a highly correlated pair
corr_pair_max_threshold = 0.9
highly_correlated = pd.DataFrame(columns=["pair", "correlation"])
for i in range(len(app_correlations.columns)):
    for j in range(i + 1, len(app_correlations.columns)):
        if app_correlations.iloc[i, j] > corr_pair_max_threshold:
            # variables are highly correlated
            if app_correlations.iloc[0, i] > app_correlations.iloc[0, j]:
                # first variable is more correlated with target => we want to keep it
                keep_index = i
                drop_index = j
            else:
                keep_index = j
                drop_index = i

            highly_correlated.loc[app_correlations.columns[drop_index]] = {
                "pair": app_correlations.columns[keep_index],
                "correlation": app_correlations.iloc[i, j],
            }

highly_correlated.sort_values(by="correlation", ascending=False)


Unnamed: 0,pair,correlation
NAME_CONTRACT_TYPE_Revolving loans,NAME_CONTRACT_TYPE_Cash loans,1.0
CODE_GENDER_F,CODE_GENDER_M,0.999966
YEARS_BUILD_AVG,YEARS_BUILD_MEDI,0.998625
OBS_60_CNT_SOCIAL_CIRCLE,OBS_30_CNT_SOCIAL_CIRCLE,0.998473
FLOORSMIN_MEDI,FLOORSMIN_AVG,0.99728
FLOORSMAX_MEDI,FLOORSMAX_AVG,0.997094
ENTRANCES_MEDI,ENTRANCES_AVG,0.996868
COMMONAREA_AVG,COMMONAREA_MEDI,0.996439
ELEVATORS_MEDI,ELEVATORS_AVG,0.996105
LIVINGAREA_MEDI,LIVINGAREA_AVG,0.995623


In [18]:
# Drop irrelevant columns
app_df.drop(
    columns=highly_decorrelated_from_target.index,
    inplace=True,
    errors="ignore",
)
app_df.drop(
    columns=highly_correlated.index,
    inplace=True,
    errors="ignore",
)

app_df.describe(include="all")


Unnamed: 0,TARGET,FLAG_OWN_CAR,AMT_ANNUITY,AMT_GOODS_PRICE,REGION_POPULATION_RELATIVE,DAYS_BIRTH,DAYS_EMPLOYED,DAYS_REGISTRATION,DAYS_ID_PUBLISH,OWN_CAR_AGE,...,WALLSMATERIAL_MODE_Monolithic,WALLSMATERIAL_MODE_Panel,"WALLSMATERIAL_MODE_Stone, brick",EMERGENCYSTATE_MODE_No,CREDIT_PRICE_RATIO,ANNUITY_CREDIT_RATIO,ANNUITY_INCOME_RATIO,x0 x1,x0 x2,x1 x2
count,252137.0,252137,252125.0,251881.0,252137.0,252137.0,252137.0,252137.0,252137.0,94413.0,...,252137,252137,252137,252137,251881.0,252125.0,252125.0,98963.0,98963.0,98963.0
unique,,2,,,,,,,,,...,2,2,2,2,,,,,,
top,,False,,,,,,,,,...,False,False,False,True,,,,,,
freq,,157719,,,,,,,,,...,250616,197798,198699,131341,,,,,,
mean,0.0866,,27812.325168,549405.7,0.020894,-14769.133174,-2384.169325,-4635.430849,-2800.639724,11.950187,...,,,,,1.1235,0.053892,0.177266,0.2667788,0.24654,0.2643175
std,0.281248,,14647.759104,373268.5,0.013874,3662.573769,2338.360162,3252.169156,1515.360629,11.981952,...,,,,,0.126625,0.022521,0.090983,0.1558798,0.152676,0.1452604
min,0.0,,1980.0,40500.0,0.00029,-25200.0,-17912.0,-22928.0,-7197.0,0.0,...,,,,,0.15,0.022073,0.000224,5.740538e-07,1.4e-05,3.255191e-07
25%,0.0,,17073.0,247500.0,0.010006,-17563.0,-3175.0,-6952.0,-4177.0,5.0,...,,,,,1.0,0.03706,0.1125,0.139738,0.12325,0.1466391
50%,0.0,,25834.5,450000.0,0.01885,-14573.0,-1648.0,-4265.0,-2886.0,9.0,...,,,,,1.1188,0.05,0.160333,0.2514975,0.223662,0.2585384
75%,0.0,,35617.5,693000.0,0.028663,-11775.0,-767.0,-1845.0,-1487.0,15.0,...,,,,,1.198,0.064314,0.22496,0.380305,0.349307,0.3744008


Après simplification, nous voyons que nous avons drastiquement réduit le nombre de variables pour ne conserver que celles réellement pertinentes pour la prédiction de `TARGET`.


## Préparation des données

Nous allons transformer les données pour que nos modèles puissent les exploiter au mieux. Afin d'éviter la "fuite d'information" entre le jeu de données d'entraînement et de test, nous allons maintenant séparer notre jeu de données en deux. Les transformations seront apprises uniquement sur le jeu d'entraînement, mais appliquées aux deux jeux de données (entraînement et test).


In [19]:
# Given data
X = app_df.drop(["TARGET"], axis=1)
# Data to predict
y = app_df["TARGET"]

del app_df

# Let's split the whole dataset into a training set (80% of data) and a test set (20% of data)
# The dataset will be split in a stratified way, in order to have a good distribution of the target variable
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y , random_state=42)

# Save the processed data
X_train.to_csv("../data/processed/X_train.csv", index=False)
X_test.to_csv("../data/processed/X_test.csv", index=False)
y_train.to_csv("../data/processed/y_train.csv", index=False)
y_test.to_csv("../data/processed/y_test.csv", index=False)



### Normalisation des données

Afin d'éviter que certains modèles pondèrent l'importance de certaines variables à cause de leur ordre de grandeur, nous allons normaliser chaque variable afin de les ramener à une moyenne nulle et une variance de 1.


In [None]:
## StandardScaler
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html
# Standardize features by removing the mean and scaling to unit variance


from sklearn.preprocessing import StandardScaler


if os.path.exists("../data/processed/X_train_scaled.csv") and os.path.exists("../data/processed/X_test_scaled.csv"):
    X_train = pd.read_csv("../data/processed/X_train_scaled.csv")
    X_test = pd.read_csv("../data/processed/X_test_scaled.csv")
else:
    # define scaler
    scaler = StandardScaler()

    # fit scaler on train data only, to avoid data leak
    X_train = pd.DataFrame(
        scaler.fit_transform(X_train),
        columns=X.columns,
    )
    X_test = pd.DataFrame(
        scaler.transform(X_test),
        columns=X.columns,
    )

    # Save the processed data
    X_train.to_csv("../data/processed/X_train_scaled.csv", index=False)
    X_test.to_csv("../data/processed/X_test_scaled.csv", index=False)

X_train.describe(include="all")


Nous avons ici équilibré les ordres de grandeur de chaque variables, afin que nos futurs modèles ne soient pas influencés par leur différence.


### Imputation des valeurs manquantes

Afin d'éviter que certains modèles ne puissent être utilisés à cause des valeurs manquantes, nous allons remplacer toutes les valeurs nulles par leur meilleure estimation possible.


In [None]:
## IterativeImputer
# https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html
# Impute missing values by modeling each feature with missing values as a function of other features in a round-robin fashion


from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer


if os.path.exists("../data/processed/X_train_imputed.csv") and os.path.exists("../data/processed/X_test_imputed.csv"):
    X_train = pd.read_csv("../data/processed/X_train_imputed.csv")
    X_test = pd.read_csv("../data/processed/X_test_imputed.csv")
else:
    # define imputer
    imputer = IterativeImputer(
        n_nearest_features=min(5, int(len(X.columns) / 10)),
    )

    # fit imputer on train data only, to avoid data leak
    X_train = pd.DataFrame(
        imputer.fit_transform(X_train),
        columns=X.columns,
    )
    X_test = pd.DataFrame(
        imputer.transform(X_test),
        columns=X.columns,
    )

    # Save the processed data
    X_train.to_csv("../data/processed/X_train_imputed.csv", index=False)
    X_test.to_csv("../data/processed/X_test_imputed.csv", index=False)

X_train.describe(include="all")


### Ré-équilibrage des classes de TARGET

Comme nous l'avons vu, nos classes de TARGET sont largement déséquilibrées, ce qui va introduire un fort biais dans l'apprentissage de nos modèles.
Nous allons donc ré-équilibrer ces classes dans nos jeux d'apprentissage afin de palier à ce problème.

L'algorithme utilisé va dans un premier temps générer plus de données de la classe sous-représentée (SMOTE: Synthetic Minority Over-sampling Technique), puis éliminer certains individus de la classe sur-représentées (ENN : Edited Nearest Neighbours).

![Over- and Under-sampling](https://raw.githubusercontent.com/rafjaa/machine_learning_fecib/master/src/static/img/resampling.png)


In [None]:
## SMOTEENN re-sampler
# https://imbalanced-learn.org/stable/references/generated/imblearn.combine.SMOTEENN.html
# Combine over- and under-sampling using SMOTE and Edited Nearest Neighbours.


from imblearn.combine import SMOTEENN


if False and os.path.exists("../data/processed/X_train_balanced.csv") and os.path.exists("../data/processed/y_train_balanced.csv"):
    X_train = pd.read_csv("../data/processed/X_train_balanced.csv")
    y_train = pd.read_csv("../data/processed/y_train_balanced.csv")
else:
    # define sampler
    smote_enn = SMOTEENN(
        sampling_strategy='all',
        n_jobs=-1, 
        random_state=42
    )

    # Let's both oversample the minority class and undersample the majority class
    X_train, y_train = smote_enn.fit_resample(X_train, y_train)

    # Save the processed data
    X_train.to_csv("../data/processed/X_train_balanced.csv", index=False)
    y_train.to_csv("../data/processed/y_train_balanced.csv", index=False)

X_train.describe(include="all")


In [None]:
# Let's plot the distribution of the TARGET variable
if True or DRAW_PLOTS:
    fig = px.bar(
        y_train["TARGET"].replace({
            "0": "TARGET=0 : payments OK", 
            "1": "TARGET=1 : payment difficulties", 
        }).value_counts(),
        title="Distribution of TARGET variable",
        width=800,
        height=400,
    ).update_xaxes(
        title="TARGET",
    ).update_yaxes(title="Count")
    fig.show()

target_count = y_train["TARGET"].value_counts()


### Analyse en composantes principales (PCA)

Avant de modéliser et prédire la valeur de TARGET, essayons de voir comment sont répartis nos individus dans le plan défini par les deux composantes principales. Ceci nous permettra de visualiser la distribution de nos données et des varaibles dans l'espace des composantes principales et d'évaluer la difficulté de la classification.


In [None]:
# Let's plot the data and features in the 2D PCA plane
if True or DRAW_PLOTS:
    vis_helpers.plot_pca_2d(X_train, y_train)


## Modélisation et évaluation des modèles

Nous allons ici entraîner différents modèles de classification binaire et évaluer leur efficacité selon trois critères :
- le **temps d'exécution** : temps nécessaire au modèle pour les phases d'apprentissage (`fit`) et de prédiction (`predict`).
- l'**interprétabilité** du modèle : la capacité du modèle à nous indiquer quelles sont les variables qui expliquent le mieux la prédiction.
- la **performance** : nous allons mesurer différentes métriques (`accuracy` = taux de prédictions positives ou négatives correctes, `precision` = taux de prédictions positives correctes, `recall` = taux de positifs correctement prédits, `F1 score` = moyenne harmonique de la `precision` et du `recall`) pour chaque modèle. Nous utiliserons le `F1 score` comme mesure principale de la performance, car nous sommes face à un problème où les deux classes de la variable prédite ne sont pas équilibrées (`TARGET=0 ~ 92%`) dans le jeu de données, et nous voulons maximiser en priorité le `recall` (bien prédire les problèmes de paiement). Nous tracerons les courbes de `Precision-Recall` et de `ROC (Receiver operating characteristic)` qui compare le `recall` au taux de faux positifs.

Afin d'améliorer la qualité du modèle et minimiser le biais de sélection du jeu d'entraînement, nous allons utiliser la méthode `StratifiedKFold()` qui permet de "mixer" les résultats sur plusieurs sous-ensembles du jeu d'entraînement.

Afin de chercher les meilleurs hyper-paramètres de chacun des modèles, nous allons utiliser la recherche `HalvingRandomSearchCV()` qui permet d'éliminer des combinaisons d'hyper-paramètres en plusieurs étapes, et d'optimiser les ressources allouées à chaque étape.


In [None]:
# let's store the results of each model in a DataFrame
results = pd.DataFrame(columns=(
    'model',
    'params',
    'score',
    'predict_time',
    'cv_results_',
    'best_index_',
    'confusion_matrix',
    'f1',
    'accuracy',
    'precision',
    'recall',
    'average_precision',
    'precision_recall_curve',
    'roc_auc_score',
    'roc_curve',
))


### Modèle de référence

Nous allons utiliser un modèle bête et méchant qui se contente de faire des prédictions aléatoires.


In [None]:
## Dummy Classifier
# https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyClassifier.html

# DummyClassifier permet de faire des prédictions aléatoires.


from sklearn.dummy import DummyClassifier


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=DummyClassifier(random_state=42),
    params={
        'strategy': ['stratified', 'most_frequent', 'prior', 'uniform']
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)


# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


In [None]:
b
r
e
a
k

### Modèle linéaire

Nous allons utiliser un modèle linéaire


In [None]:
## Ridge Classifier (linear model)
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeClassifier.html
# RidgeClassifier is a linear model with a linear loss function. It is useful for regularized linear models.

# - La norme ℓ2 du vecteur de poids peut être utilisée comme terme de régularisation de la régression linéaire.
# - Cela s'appelle la régularisation de Tykhonov, ou régression ridge.
# - La régression ridge admet toujours une solution analytique unique.
# - La régression ridge permet d'éviter le surapprentissage en restraignant l'amplitude des poids.
# - La régression ridge a un effet de sélection groupée : les variables corrélées ont le même coefficient.


from sklearn.linear_model import RidgeClassifier


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=RidgeClassifier(random_state=42),
    params={
        'alpha': np.logspace(-10, 10, 50),
        'fit_intercept': [True, False],
        'normalize': [True, False],
        'solver': ['auto', 'svd', 'cholesky', 'lsqr', 'sparse_cg', 'sag', 'saga'],
        'class_weight': [None, 'balanced'],
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)

# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


In [None]:
top_coefficients = pd.Series(
    best_model_score[
        'model'
    ].coef_[0],
    X_train.columns,
).map(abs).sort_values(ascending=False).head(20)

if DRAW_PLOTS:
    fig = px.bar(
        top_coefficients,
        color=top_coefficients.values,
        title="Top 20 variables importance",
        labels={
            "index": "Variable name",
            "value": "Coefficient",
            "color": "Coefficient",
        },
        width=1200,
        height=800,
    )
    fig.show()

### Modèle Logistique



In [None]:
## Logistic Regression
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
# Logistic regression is a probabilistic, linear classifier. It is parametrized by a weight matrix
# and a bias vector. It is also able to fit non-linear decision boundaries, such as the
# logistic function found in Support Vector Machines.

# - La régression logistique modélise la probabilité qu'une observation appartienne à la classe positive comme une transformation logistique d'une combinaison linéaire des variables.
# - Les coefficients d'une régression logistique s'apprennent par maximisation de vraisemblance, mais il n'existe pas de solution explicite.
# - La vraisemblance est convexe, et de nombreux solveurs peuvent être utilisés pour trouver une solution numérique.
# - Les concepts de régularisation ℓ1 et ℓ2 s'appliquent aussi à la régression logistique.


from sklearn.linear_model import LogisticRegression


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=LogisticRegression(random_state=42),
    params={
        'penalty': ['l1', 'l2', 'elasticnet', 'none'],
        'C': np.logspace(-8, 1, 20),
        'l1_ratio': np.linspace(0.00001, 0.99999, 10),
        'solver': ['saga'],
        'class_weight': [None, 'balanced'],
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)

# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


In [None]:
top_coefficients = pd.Series(
    best_model_score[
        'model'
    ].coef_[0],
    X_train.columns,
).map(abs).sort_values(ascending=False).head(20)

if True or DRAW_PLOTS:
    fig = px.bar(
        top_coefficients,
        color=top_coefficients.values,
        title="Top 20 variables importance",
        labels={
            "index": "Variable name",
            "value": "Coefficient",
            "color": "Coefficient",
        },
        width=1200,
        height=800,
    )
    fig.show()

In [None]:
from sklearn.metrics import mean_squared_error

c_range = np.logspace(-8, 1, 20)
l1_ratio = best_model_score['params']['l1_ratio']

coefficients = pd.DataFrame(index=X_train.columns, columns=c_range)
errors = []
for c in c_range:
    logistic = LogisticRegression(C=c, l1_ratio=l1_ratio)
    logistic.fit(X_train, y_train)
    coefficients.loc[:, c] = logistic.coef_[0]
    errors.append(mean_squared_error(y_test, logistic.predict(X_test)))


fig = go.Figure()
for col in coefficients.index:
    fig.add_trace(go.Scatter(x=c_range, y=coefficients.loc[col, :], name=col,))

fig.update_xaxes(type="log", autorange="reversed")
fig.update_layout(
    title="Logistic regression coefficients as a function of the regularization",
    xaxis_title="log(C)",
    yaxis_title="coefficient",
    width=1200,
    height=800,
)
fig.show()

fig = go.Figure()
fig.add_trace(go.Scatter(x=c_range, y=errors, name="MSE"))
fig.update_xaxes(type="log", autorange="reversed")
fig.update_layout(
    title="Logistic regression MSE as a function of the regularization",
    xaxis_title="log(C)",
    yaxis_title="MSE",
    width=1200,
    height=800,
)
fig.show()


### Modèle Support Vector Machine 



In [None]:
## Support Vector Machine
# https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html
# Support Vector Machines (SVMs) are supervised learning models that learn to classify data points according to a set of hyperplanes.
# The model is based on the idea that the data points are separated by a hyperplane, and the hyperplane is the only way to classify the data points.
# The model is a linear classifier, meaning that it makes a linear decision boundary.
# The model is non-parametric, meaning that it does not require any parameters to be learned.
# The model is usually a good choice for handling unbalanced classes.
# The model is fast to train, and can be used for large datasets.

# Linear SVC
# - Les SVM (Support Vector Machines), aussi appelées en français Machines à Vecteurs de Support et parfois Séparatrices à Vaste Marge, cherchent à séparer linéairement les données.
# - La version primale résout un problème d'optimisation à p variables et est donc préférable si on a moins de variables que d'échantillons.
# - À l'inverse, la version duale résout un problème d'optimisation à n variables et est donc préférable si on a moins d'échantillons que de variables.
# - Les vecteurs de support sont les points du jeu de données qui sont les plus proches de l'hyperplan séparateur.
# - La fonction de décision peut s'exprimer uniquement en fonction du produit scalaire du point à étiqueter avec les vecteurs de support.

from sklearn.svm import SVC


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=SVC(
        cache_size=1000, 
        max_iter=1e4,
        random_state=42
    ),
    params={
        "C": np.logspace(-2, 2, 5),
        "gamma": ["scale", "auto"] | np.logspace(-2, 2, 5),
        "degree": range(2, 5),
        "kernel": ["linear", "poly", "rbf"],
        "class_weight": [None, 'balanced'],
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)

# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


In [None]:
# if the kernel is linear, we can use the coefficients to plot the decision boundary
if best_model_score['params']['kernel'] == 'linear':
    top_coefficients = pd.Series(
        best_model_score['model'].coef_[0],
        X_train.columns,
    ).map(abs).sort_values(ascending=False).head(20)

    if True or DRAW_PLOTS:
        fig = px.bar(
            top_coefficients,
            color=top_coefficients.values,
            title="Top 20 variables importance",
            labels={
                "index": "Variable name",
                "value": "Coefficient",
                "color": "Coefficient",
            },
            width=1200,
            height=800,
        )
        fig.show()
else:
    print("Kernel is not linear, impossible to estimate feature importances.")


### K nearest neighbours



In [None]:
## K-nearest-neighbours
# https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
# K-nearest neighbors (KNN) is a non-parametric method used for classification and regression.


from sklearn.neighbors import KNeighborsClassifier


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=KNeighborsClassifier(),
    params={
        "n_neighbors": range(2, 20, 3),
        "weights": ["uniform", "distance"],
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)

# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


### Modèles ensemblistes

In [None]:
## Bagging
# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html
# Bagging is a meta-estimator that fits base learners on random subsets of the dataset and use averaging to improve the predictive accuracy and control over-fitting.
# The base estimator is a decision tree.


from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVC
from sklearn.ensemble import BaggingClassifier


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=BaggingClassifier(random_state=42),
    params={
        "base_estimator": [
            DecisionTreeClassifier(),
            DecisionTreeClassifier(max_depth=2),
            DecisionTreeClassifier(max_depth=10),
            ElasticNet(),
            SVC(),
        ],
        "n_estimators": np.logspace(1, 3, 10).astype(int),
        "max_samples": np.logspace(1, 4, 10).astype(int),
        "max_features": np.linspace(5, int(len(X_train.columns)/2), 5).astype(int),
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)

# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


### Random Forest



In [None]:
## Random Forest
# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
# Random forest is a meta-estimator that fits a number of classifical decision trees on various sub-samples of the dataset and use averaging to improve the predictive accuracy and control over-fitting.
# The base estimator is a decision tree.


from sklearn.ensemble import RandomForestClassifier


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=RandomForestClassifier(random_state=42),
    params={
        "n_estimators": np.logspace(1, 3, 10).astype(int),
        "max_depth": [None, 2, 10],
        "max_features": ["auto", "sqrt", "log2"],
        "class_weight": [None, 'balanced_subsample', 'balanced'],
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)

# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


### XGBoost



In [None]:
## XGBoost
# https://xgboost.readthedocs.io/en/latest/parameter.html
# XGBoost is a fast, scalable, high-performance gradient boosting framework.
# It supports both classification and regression.


from xgboost import XGBClassifier


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=XGBClassifier(
        objective="binary:logistic",
        eval_metric="auc",
        scale_pos_weight=float(target_count[0]) / target_count[1],
        random_state=42,
    ),
    params={
        "n_estimators": np.logspace(1, 3, 5).astype(int),
        "learning_rate": np.linspace(0.01, 0.5, 5),
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)

# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


### LGBMClassifier



In [None]:
## LGBMClassifier
# https://lightgbm.readthedocs.io/en/latest/Parameters.html
# LightGBM is a fast, scalable, high performance gradient boosting library.
# It supports both classification and regression.


import re
from lightgbm import LGBMClassifier


X_train = X_train.rename(columns = lambda x:re.sub('[^A-Za-z0-9_]+', '', x))
X_test = X_test.rename(columns = lambda x:re.sub('[^A-Za-z0-9_]+', '', x))


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=LGBMClassifier(random_state=42),
    params={
        "n_estimators": np.logspace(1, 3, 5).astype(int),
        "learning_rate": np.linspace(0.01, 0.5, 5),
        "is_unbalance": [True, False],
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)

# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


### MLPClassifier



In [None]:
## Neural Network
# https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html
# Neural network is a supervised learning model that can learn nonlinear functions.
# It is a generalization of logistic regression, which is used for binary classification.

# - Le perceptron permet d'apprendre des modèles paramétriques basés sur une combinaison linéaire des variables.
# - Le perceptron permet d'apprendre des modèles de régression (la fonction d'activation est l'identité), de classification binaire (la fonction d'activation est la fonction logistique) ou de classification multi-classe (la fonction d'activation est la fonction softmax).
# - Le perceptron est entraîné par des mises à jour itératives de ses poids grâce à l'algorithme du gradient. La même règle de mise à jour des poids s'applique dans le cas de la régression, de la classification binaire ou de la classification multi-classe.
# - Empiler des perceptrons en un réseau de neurones multi-couches (feed-forward) permet de modéliser des fonctions arbitrairement complexes. C'est ce qui donne aux réseaux de neurones profonds la puissance prédictive qui fait actuellement leur succès.
# - L'entraînement de ces réseaux se fait par rétro-propagation. Attention, cet algorithme ne converge pas nécessairement, et pas nécessairement vers la solution optimale !
# - Plus il y a de paramètres (i.e. de poids de connexion), plus il faut de données pour pouvoir apprendre les valeurs de ces paramètres sans risquer le sur-apprentissage.
# - Il existe de nombreuses autres architectures de réseaux de neurones que celle présentée ici, et qui permettent de modéliser des types de données particuliers (images, sons, dépendances temporelles...).


from sklearn.neural_network import MLPClassifier


# Compute scores
best_model_score = models_helpers.find_best_params_classifier(
    X_train=X_train, y_train=y_train, X_test=X_test, y_test=y_test,
    estimator=MLPClassifier(random_state=42),
    params={
        "hidden_layer_sizes": [(2,), (2,3,), (2,3,5,), (2,5,3,), (3,), (3,5,), (5,3,), (5,), (10,), (20,)],
        "alpha": np.logspace(-5, 1, 5),
    },
)
print({
    "params": best_model_score['params'], 
    "score": best_model_score['score'],
    "predict_time": best_model_score['predict_time'],
})
results = results.append(best_model_score, ignore_index=True)

# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=best_model_score['model'],
    X_test=X_test,
    y_test=y_test,
)


In [None]:
## AutoML
# https://automl.github.io/auto-sklearn/
# AutoML is a machine learning library that automatically tunes the hyperparameters of a machine learning model.
# It is a wrapper around scikit-learn, which is a machine learning library.


from autosklearn.classification import AutoSklearnClassifier
from autosklearn.experimental.askl2 import AutoSklearn2Classifier
from autosklearn.metrics import roc_auc, f1


clf = AutoSklearn2Classifier(
    time_left_for_this_task=120, 
    metric=f1,
    n_jobs=4,
)
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)
y_pred_proba = clf.predict_proba(X_test)


# Plot best model curves
vis_helpers.plot_classifier_results(
    classifier=clf,
    X_test=X_test,
    y_test=y_test,
)



---

# Annexe

Les Notebooks Kaggle [Introduction: Home Credit Default Risk Competition](https://www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction) (et suivants) de [Will Koehrsen](https://www.kaggle.com/willkoehrsen) ont été d'une très grande aide dans l'exploration des données.

Comment bien choisir la métrique de score d'un algorithme de classification ?

![How to Choose a Metric for Imbalanced Classification](https://machinelearningmastery.com/wp-content/uploads/2019/12/How-to-Choose-a-Metric-for-Imbalanced-Classification-latest.png)