# DESCRIPTION

Many people struggle to get loans due to insufficient or non-existent credit histories. And, unfortunately, this population is often taken advantage of by untrustworthy lenders.

Home Credit strives to broaden financial inclusion for the unbanked population by providing a positive and safe borrowing experience. In order to make sure this underserved population has a positive loan experience, Home Credit makes use of a variety of alternative data (including telco and transactional information) to predict their clients' repayment abilities.

Find more about this project here : https://www.kaggle.com/c/home-credit-default-risk/

# DATA PRESENTATION

In [1]:
# IMPORTATION DES LIBRAIRIES

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import chi2_contingency

In [2]:
data_path = "D://TRAININGS//CREDIT_RISK_ANALYSIS//home-credit-default-risk//"

application_data = pd.read_csv(data_path+'application_train.csv')
application_data

Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,AMT_CREDIT,AMT_ANNUITY,...,FLAG_DOCUMENT_18,FLAG_DOCUMENT_19,FLAG_DOCUMENT_20,FLAG_DOCUMENT_21,AMT_REQ_CREDIT_BUREAU_HOUR,AMT_REQ_CREDIT_BUREAU_DAY,AMT_REQ_CREDIT_BUREAU_WEEK,AMT_REQ_CREDIT_BUREAU_MON,AMT_REQ_CREDIT_BUREAU_QRT,AMT_REQ_CREDIT_BUREAU_YEAR
0,100002,1,Cash loans,M,N,Y,0,202500.0,406597.5,24700.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,1.0
1,100003,0,Cash loans,F,N,N,0,270000.0,1293502.5,35698.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
2,100004,0,Revolving loans,M,Y,Y,0,67500.0,135000.0,6750.0,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,100006,0,Cash loans,F,N,Y,0,135000.0,312682.5,29686.5,...,0,0,0,0,,,,,,
4,100007,0,Cash loans,M,N,Y,0,121500.0,513000.0,21865.5,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
307506,456251,0,Cash loans,M,N,N,0,157500.0,254700.0,27558.0,...,0,0,0,0,,,,,,
307507,456252,0,Cash loans,F,N,Y,0,72000.0,269550.0,12001.5,...,0,0,0,0,,,,,,
307508,456253,0,Cash loans,F,N,Y,0,153000.0,677664.0,29979.0,...,0,0,0,0,1.0,0.0,0.0,1.0,0.0,1.0
307509,456254,1,Cash loans,F,N,Y,0,171000.0,370107.0,20205.0,...,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0


In [3]:
application_data.dtypes

SK_ID_CURR                      int64
TARGET                          int64
NAME_CONTRACT_TYPE             object
CODE_GENDER                    object
FLAG_OWN_CAR                   object
                               ...   
AMT_REQ_CREDIT_BUREAU_DAY     float64
AMT_REQ_CREDIT_BUREAU_WEEK    float64
AMT_REQ_CREDIT_BUREAU_MON     float64
AMT_REQ_CREDIT_BUREAU_QRT     float64
AMT_REQ_CREDIT_BUREAU_YEAR    float64
Length: 122, dtype: object

# RESUME DE LA TABLE

La table **application_data** est la table principale qui contient tous les crédits collectés. Chaque ligne est idéntifiée par la colonne **(SKR_ID_CURR)**, qui est l'identifiant d'un crédit. <br><br>
La table **application_data** contient **307511** lignes et **122** colonnes, soit **307511** crédits enregistrés.
La colonne **TARGET** étant la colonne cible, un crédit comporte **121** caractéristiques différentes.

## Remarque

En excluant la variable SK_ID_CURR qui est l'identifiant unique d'un crédit, la table application_data_X comprend : <br>
- **16** variables qualitatives <br>
- **104** variables quantitatives, dont **39** discrètes et **65** continues

### Recherche de doublons

In [4]:
application_data_duplicates = application_data.loc[np.where(application_data.duplicated().to_numpy()==True)]
application_data_duplicates

Unnamed: 0,SK_ID_CURR,TARGET,NAME_CONTRACT_TYPE,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,AMT_CREDIT,AMT_ANNUITY,...,FLAG_DOCUMENT_18,FLAG_DOCUMENT_19,FLAG_DOCUMENT_20,FLAG_DOCUMENT_21,AMT_REQ_CREDIT_BUREAU_HOUR,AMT_REQ_CREDIT_BUREAU_DAY,AMT_REQ_CREDIT_BUREAU_WEEK,AMT_REQ_CREDIT_BUREAU_MON,AMT_REQ_CREDIT_BUREAU_QRT,AMT_REQ_CREDIT_BUREAU_YEAR


**Conclusion** Il n'y a pas de doublons dans la table application_data

# ANALYSES DESCRIPTIVES

### La variable cible : TARGET
**TARGET** est une variable binaire qui vaut : <br>
- 1 si le client présente un défaut de paiement : des retards de paiement ont été observés sur plus de X jours sur au moins une échéance 
- 0 dans le cas contraire

In [None]:
# On vérifie s'il y a des données manquantes dans la colonne TARGET
application_data['TARGET'].isnull()[application_data['TARGET'].isnull() != False]

**Conclusion :** Il n'y a pas de données manquante dans la colonne TARGET

In [None]:
application_data['TARGET'] = application_data['TARGET'].astype("str")
application_data['TARGET'].dtype

In [None]:
pd.crosstab(application_data['TARGET'], "TARGET")

In [None]:
ax = sns.countplot(application_data, x="TARGET", hue = "TARGET", order = ["0", "1"], palette=['#432371',"#FAAE7B"])
ax.set_ylim(0, 350000)
for p in ax.patches:
    ax.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 9), textcoords='offset points')
plt.show()

On a 24825 dossiers de crédit en défaut contre 282686 dossiers de crédit sains, ce qui représente un taux de défaut de **8.78%**

# Etude de variables qualitatives

In [None]:
quali = application_data.select_dtypes(include=['object'])
quali

In [None]:
qual_var_df = quali.drop("TARGET", axis = 1)
qual_var_df

In [None]:
qual_var_df.describe(include = "all")

In [None]:
for col in qual_var_df.columns: 
    print(f"Number of nan values in {col} = {int(qual_var_df[col].isna().sum())}")

Les colonnes **NAME_TYPE_SUITE, OCCUPATION_TYPE, FONDKAPREMONT_MODE, HOUSETYPE_MODE, WALLSMATERIAL_MODE, EMERGENCYSTATE_MODE** comportent des valeurs manquantes

### Analyse des variables entièrement renseignées

In [None]:
for col in qual_var_df.columns : 
    df_counts = None
    
    print(f"****************************************************VARIABLE {col}****************************************************")
    counts = qual_var_df[col].value_counts(dropna=False)
    df_counts = counts.to_frame()
    df_counts = df_counts.reset_index()
    df_counts["percent"] = df_counts["count"]/len(qual_var_df)
    df_counts.fillna("Not_filled", axis=1, inplace=True)
    print(df_counts)
    
    plt.figure(figsize=(8, 8))
    ax = sns.barplot(df_counts, x=col, y="count")
    ax.set_xlabel(f"Variable {col}")
    ax.set_ylabel("Nombre d'occurrences")
    
    for p in ax.patches:
        ax.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 9), textcoords='offset points')
    
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()
    
    df_counts.sort_values(by="count", ascending=False, inplace=True)
    mode = df_counts.loc[0, col]
    print(f"Le mode de cette variable est {mode}")
    print("\n\n")

### Résultats des analyses

**NAME_CONTRACT_TYPE :** La classe la plus représentée est Cash Loans avec un pourcentage de 90.48%

**CODE_GENDER :** La majorité de la population est de sexe féminin, avec un pourcentage de 65.83%. On note la présente de la modalité "XNA" qui correspond à des données mal renseignées. Puisque cela représente un pourcentage presque nul de la population, on va imputer le mode à ces lignes

**FLAG_OWN_CAR :** 66% de la population ne possède pas de voiture

**FLAG_OWN_REALTY :** 69.37% de la population possède une maison ou un appartement

**NAME_INCOME_TYPE :** 51.63% de la population est constituée de salariés. En revanche les chômeurss étudiants, businessmen et les femmes en congé maternité représentent au total moins d'un pourcent de la population

**NAME_EDUCATION_TYPE :** 71% de la population a fait des études secondaires et 24.34% ont fait des études supérieures. Les 4.5% restants sont constituées des autres modalités

**NAME_FAMILY_STATUS :** Sur 2 crédits, la statut familial est inconnu. On va imputer la médiane (classe Married) qui représente 63.88%  de la population

**NAME_HOUSING_TYPE :** La classe House / apartment est largement représentée, avec un pourcentage de 88.73%

**WEEKDAY_APPR_PROCESS_START :** Sur cette variable on remarque que les population est pratiquement distribuée de façon équivalente, avec de pourcentages autour de 16%-17%. En combinant les modalités SATURDAY et SUNDAY on constate également qu'on obtient un pourcentage total 16.26%

**ORGANIZATION_TYPE :** Cette variable comporte 58 modalités dont 50% représentent chacune moins de 10% de la population. On note une forte présence de valeurs mal renseignées (XNA), soit 18.01% de la population. 

**NAME_TYPE_SUITE :** La modalité Unaccompanied représente plus de 80% de la population. Les modalités Unaccompanied et Family représentent ensemle plus de 93% de la population. On note aussi que 1292 crédit n'ont pas la variable NAME_TYPE_SUITE renseignée (0.4%)

**FONDKAPREMONT_MODE :** cette variable n'est pas renseignée à 68.39%. La deuxième classe la plus représentée est reg oper account avec 24% d'occurences

**HOUSETYPE_MODE :** cette variable n'est pas renseignée à 50.17% 

**WALLSMATERIAL_MODE :** la variable n'est pas renseignée à plus de 50%

**EMERGENCYSTATE_MODE :** on note également une forte proportion de données manquantes (47.4%)

### Traitement des valeurs mal renseignées (NAME_FAMILY_STATUS et CODE_GENDER)
Pour ces deux variables, la stratégie adoptée est d'imputer le mode

In [None]:
quali.replace({"CODE_GENDER" : "XNA", "NAME_FAMILY_STATUS" : "Unknown"}, {"CODE_GENDER" : "F", "NAME_FAMILY_STATUS" : "Married"}, inplace=True)
quali.fillna("Not_filled", axis=1, inplace=True)
print(quali.CODE_GENDER.unique())
print(quali.NAME_FAMILY_STATUS.unique())

### Test du chi2 entre les variables qualitatives et TARGET
On rappelle que : <br>
H0 : Les deux variables sont indépendantes <br>
H1 : Les deux variables sont dépendantes

In [None]:
indep_var_list = []
for col in qual_var_df.columns :
    print("\n\n")
    print(f"****************************************************VARIABLE {col}****************************************************")
    cross_tab = pd.crosstab(quali[col], quali['TARGET'], margins=True, margins_name="subtotal")
    chi, p, dof, expected = chi2_contingency(cross_tab)
    print(f"Statistique du chi-carré: {chi}")
    print(f"Valeur p: {p}")
    if (p<0.05):
        print("Rejet de H0 : oui ==> Dépendance des variables")
    else : 
        print("Rejet de H0 : non ==> Indépendance des variables")
        indep_var_list.append(col)

print("Liste des variables indépendantes")
print(indep_var_list)

***Ce résultat corrobore les observations faites précédemment. En effet, les fréquences observées dans les différentes classes étaient assez proches***

In [None]:
quali.NAME_INCOME_TYPE.replace(["Unemployed", "Student", "Businessman", "Maternity leave"], "Other", inplace=True)
quali.NAME_INCOME_TYPE.unique()

In [None]:
cross_tab = pd.crosstab(quali["NAME_INCOME_TYPE"], quali['TARGET'], margins=True, margins_name="subtotal")
chi, p, dof, expected = chi2_contingency(cross_tab)
print(f"Statistique du chi-carré: {chi}")
print(f"Valeur p: {p}")
if (p<0.05):
    print("Rejet de H0 : oui ==> Dépendance des variables")
else :
    print("Rejet de H0 : non ==> Indépendance des variables")

In [None]:
cross_tab = pd.crosstab(application_data.NAME_CONTRACT_TYPE, application_data.TARGET, dropna=False)
cross_tab

In [None]:
chi2, p, dof, ex = chi2_contingency(cross_tab)

In [None]:
print(f"Statistique du chi-carré: {chi2}")
print(f"Valeur p: {p}")