In [6]:
# Désactivation des warnings
import warnings
warnings.filterwarnings('ignore')

# Traitement des données
import pandas as pd
import numpy as np

# visualisation
import seaborn as sns
import matplotlib.pyplot as plt

# system
import os

# Json - importation du fichier config
import json
with open('config.json', 'r') as f:
    config = json.load(f)

In [7]:
# pour debugger le script - permet de se restreindre à un nombre modéré de lignes et ainsi de faire tourner
# un modèle plus léger
NUM_ROWS = config["NUM_ROWS"]

## Chemin vers le dossier contenant les fichiers
PATH = config["PATH"]

# I. Exploration des datasets

Dans cette partie on explore les différents datasets. Dans la mesure où la mission ici est centrée sur le déploiement du modèle via une api et non sur la construction du modèle lui-même, on se reportera au kernel fourni dans les ressources du projet, et on ré-utilisera le feature engineering réalisé dans ce kernel. On se contentera d'analyser les features créées - statistiques univariées, corrélations via les statistiques bivariées, valeurs manquantes, possibilité de retirer des colonnes/imputer et finalement feature importance.

In [8]:
# liste des fichiers
os.listdir(PATH)

['application_test.csv',
 'application_train.csv',
 'bureau.csv',
 'bureau_balance.csv',
 'credit_card_balance.csv',
 'HomeCredit_columns_description.csv',
 'installments_payments.csv',
 'POS_CASH_balance.csv',
 'previous_application.csv',
 'Projet+Mise+en+prod+-+home-credit-default-risk.zip',
 'sample_submission.csv']

Il y a 9 fichiers, et on sait par la description donnée sur kaggle qu'ils sont liés entre eux via le schéma suivant

![home_credit](./data/home_credit.png)

## I.1 application train|test

Il y a deux dataframes correspondants: application_train, et application_test. application_test est utile pour la compétition kaggle, mais ne contient pas de colonne target. On n'utilisera donc que le premier dataset ici

### application_train.csv
- This is the main table, broken into two files for Train (with TARGET) and Test (without TARGET).
- Static data for all applications. One row represents one loan in our data sample.

On commence par charger le dataset

In [10]:
app_train = pd.read_csv('./data/application_train.csv')
app_train.head()

Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,AMT_CREDIT,AMT_ANNUITY,...,FLAG_DOCUMENT_18,FLAG_DOCUMENT_19,FLAG_DOCUMENT_20,FLAG_DOCUMENT_21,AMT_REQ_CREDIT_BUREAU_HOUR,AMT_REQ_CREDIT_BUREAU_DAY,AMT_REQ_CREDIT_BUREAU_WEEK,AMT_REQ_CREDIT_BUREAU_MON,AMT_REQ_CREDIT_BUREAU_QRT,AMT_REQ_CREDIT_BUREAU_YEAR
0,100002,1,Cash loans,M,N,Y,0,202500.0,406597.5,24700.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,1.0
1,100003,0,Cash loans,F,N,N,0,270000.0,1293502.5,35698.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
2,100004,0,Revolving loans,M,Y,Y,0,67500.0,135000.0,6750.0,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,100006,0,Cash loans,F,N,Y,0,135000.0,312682.5,29686.5,...,0,0,0,0,,,,,,
4,100007,0,Cash loans,M,N,Y,0,121500.0,513000.0,21865.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
