<h1 style="color:#189AB4"> Initiation au Machine Learning</h2>

<h2>But de l'exercice</h2>

<p>Afin d'éviter qu'un prêt ne devienne un défaut de paiement, les banques doivent trouver comment
les prédire en exploitant les données basées sur les comportements des clients. Les modèles d'apprentissage automatique semblent être l'une des solutions les plus efficaces pour prévoir les défauts de paiement. Par conséquent, l'objectif de ce projet est de construire des modèles supervisés pour les prédictions de défaut de prêt et d'explorer les impacts des facteurs comportementaux des clients sur la poursuite des prévisions.</p>

<h2>Livrables</h2>

- Un notebook : visualisation et de nettoyage de données
- Un notebook : modélisation

<h2>Importation des bibliothèques</h2>

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

<h2>Lecture du fichier csv</h2>

In [None]:
train = pd.read_csv('train.csv')

<h2>Création d'une copie du fichier csv</h2>

In [None]:
train_copie = train.copy()

<i style="color:#90ADC6">-> je crée des copy des fichiers csv originaux car je ne veux pas écraser l'original.</p>

<h2>Affichage et vérifications des données</h2>

In [None]:
pd.set_option('display.max_columns', None) #affiche toutes les colonnes
train_copie.head()

In [None]:
train_copie.shape

In [None]:
train_copie.info()

In [None]:
train_copie.describe()

In [None]:
train_copie.duplicated().sum()

<i style="color:#90ADC6">->Il y a 3 doublons dans ce dataset, les lignes sont identiques, je penses que ce n'est pas pertinent de garder ces données, mais je ne les supprime pas pour le moment, il faut que je fasse plus de recherche pour prendre une décision final.</i>

In [None]:
train_copie.dtypes

<i style="color:#90ADC6">->Au total, il y a 2100 transactions. Parmis ces données, 612 lignes ne sont pas des prêts je pense où alors les données de prêt sont manquantes.</i>

<h2>Vérification des valeurs nulles</h2>

In [None]:
train_copie.isnull().sum()

<i style="color:#90ADC6">->Je vois qu'il y a des lignes en trop dans DueDate, LoanApplicationId, ThirdPartyId, et je trouve ça anormal, par exemple, pourquoi est-ce qu'il y a 614 dates limite de remboursement (DueDate) mais seulement 612 id de transaction de prêt (LoanId), il y a des lignes de trop. </p>

In [None]:
train_null = train_copie[train_copie.isna().any(axis=1)]
train_null

<i style="color:#90ADC6">->J'affiche les lignes qui ont au moins 1 "nan". Je vois que tous les gens qui ont un "nan" ont transactionstatus à 0, donc je vais explorer cette colonne.</p>

In [None]:
train_null['TransactionStatus'].value_counts()

<i style="color:#90ADC6">->Je vois qu'il y a 9 valeurs à 1, donc 9 lignes avec un prêt accepté, mais qui ont des valeurs manquantes dans certaines colonnes, ce qui est anormal. Je vais afficher ces 9 lignes suspects.</p>

In [None]:
train_null.loc[train_null['TransactionStatus'] == 1]

<i style="color:#90ADC6">->Parmis les 9 lignes affichés, je vois le CustomerId_258 avec 3 transactions sans LoandApplicationId mais qui ont le même BatchId, donc c'est peut-être un paiement en plusieurs fois, un remboursement. Je pense que ce n'est pas une ligne de demande de prêt, la demande de prêt doit être sur une autre ligne à mon avis. Ce n'est qu'une hypothèse. </p>

In [None]:
train_copie[train_copie['CustomerId'] == "CustomerId_258"]

In [None]:
train_null.loc[train_null['TransactionId'] == "TransactionId_1041"]

In [None]:
train_null.loc[train_null['BatchId'] == "BatchId_1970"]

<i style="color:#90ADC6">->Ma théorie qui disait que la demande de prêt doit être sur une autre ligne est fausse. J'affiche toutes les transactions de la personnes qui ont le même BatchId ou TransactionId mais il y en a pas. Ou alors je recherche la mauvaise donnée.</p>

In [None]:
train_copie[(train_copie['CustomerId'] == 'CustomerId_258') & (train_copie['LoanApplicationId'].notna())]

<i style="color:#90ADC6">->J'affiche les transactions du CustomerId_258 qui n'ont pas de LoanApplicationId, donc pas de demande de prêt.</p>

<h2>Modifications des types de données incorrectes</h2>

In [None]:
train_copie[['TransactionStartTime', 'IssuedDateLoan', 'PaidOnDate', 'DueDate']] = train_copie[['TransactionStartTime', 'IssuedDateLoan', 'PaidOnDate', 'DueDate']].apply(pd.to_datetime, errors='coerce')
train_copie[['TransactionStatus', 'IsFinalPayBack', 'IsThirdPartyConfirmed', 'IsDefaulted']] = train_copie[['TransactionStatus', 'IsFinalPayBack', 'IsThirdPartyConfirmed', 'IsDefaulted']].fillna(0).astype(int)

<i style="color:#90ADC6">-> Après une analyse des types de données, je vois que certaines colonnes n'ont pas le bon type de données, donc je les convertis. J'ai aussi dû les convertir rapidement car j'avais besoin d'effectuer des calcules mais les colonnes n'avaient pas le bon type, donc ça me mettait une erreur.</p>

<h2>Affichage des clients avec un retard de paiement</h2>

In [None]:
train_copie['DaysLate'] = (train_copie['PaidOnDate'] - train_copie['DueDate']).dt.days
train_copie

<i style="color:#90ADC6">->Ici, je crée une nouvelle colonne qui affiche le nombre de jour en retard ou non d'un remboursement de prêt. </p>

In [None]:
retard_paiement = train_copie[train_copie['DaysLate'] > 0]
retard_paiement

<i style="color:#90ADC6">-> Je vois que certaines lignes ont dépasser le délais de paiement mais IsDefaulted est à 0, ce qui est illogique car il est censé être à 1 puisque ils n'ont pas payé à temps.</p>

In [None]:
train_copie['DaysLate'] = train_copie['DaysLate'].fillna(0).astype(int)

<i style="color:#90ADC6">->Je convertis ma nouvelle colonne DaysLate en entier et je remplace les valeurs "NAN" par 0. </p>

In [None]:
#afficher les lignes qui ont un retard de paiement mais qui sont pas en defaut IsDefaulted (0)
train_copie.loc[(train_copie['IsDefaulted'] == 0) & (train_copie['PaidOnDate'] > train_copie['DueDate'])]

<i style="color:#90ADC6"> ->Ici, je m'apperçois qu'il y a 341 anomalies. Ils sont pas en défaut mais ont un retard de paiement.  </p>

In [None]:
train_copie.loc[(train_copie['IsDefaulted'] == 1) & (train_copie['IsFinalPayBack'] == 0)]

<i style="color:#90ADC6"> -> Ici, mon but est de vérifier que IsDefaulted s'applique bien aux personnes qui n'ont pas fini de payer(IsFinalPayback) donc j'affiche les personnes qui sont en défaut (1) et qui ne sont pas au dernier versement(0) pour voir si une personne peut-être en défaut avant d'avoir fini de payer. En finalité, je vois que les personnes qui n'ont pas fini de payer ne sont pas en défaut s'ils n'ont pas fini de payer. </p>

In [None]:
train_nvl_colonne = train_copie.copy()

In [None]:
train_nvl_colonne.head()

In [None]:
train_nvl_colonne['NumberTransaction'] = train_nvl_colonne.groupby('CustomerId')['TransactionId'].transform('count')

<i style="color:#90ADC6"> -> Je crée une nouvelle colonne pour afficher les transactions par client. </i>

In [None]:
nb_prets = train_nvl_colonne[train_nvl_colonne['AmountLoan'].notnull()].groupby('CustomerId').size().rename('NumberLoan')
train_nvl_colonne = train_nvl_colonne.merge(nb_prets, on='CustomerId', how='left')
train_nvl_colonne['NumberLoan'] = train_nvl_colonne['NumberLoan'].fillna(0).astype(int)

<i style="color:#90ADC6"> -> Je crée une nouvelle colonne pour afficher les prêts par client. Je récupère toutes les lignes qui comporte un AmountLoan, car il y a des lignes ou il y en a pas.</i>

In [None]:
train_nvl_colonne.tail()

<h2>Vérification des corélations entre les colonnes</h2>

In [None]:
pearson_corr = train_copie.select_dtypes(include=['int64', 'float']).corr(method='pearson')
pearson_corr

In [None]:
sns.heatmap(pearson_corr, annot=True, cmap='coolwarm')
plt.title("Pearson Correlation Heatmap")
plt.show()

<i style="color:#90ADC6"> -> Je vérifie les liens que les colonnes ont entres elles.</i>

<h2>Correction de mon dataframe après avoir essayé de modéliser</h2>

<i style="color:#90ADC6">-> En essayant d'entraîner mon modèle j'obtiens une erreur, ça me dit que il y a des valeurs manquantes "Input X contains NaN". Je vais essayer de corriger l'erreur.</i>

In [None]:
train_copie['IsDefaulted'].isnull().sum()

<i style="color:#90ADC6">-> Je vois que parmis les colonnes pertinentes que je veux utiliser pour entraîner le modèle, il y a AmountLoan et days_late qui comportent des "nan" donc je vais les remplacer.</i>

In [None]:
train_nvl_colonne.head()

<h2>Exportation de mon dataframe</h2>

In [None]:
train_nvl_colonne.to_csv('train_copie.csv', index=False)

<i style="color:#90ADC6"> -> J'exporte mon nouveau dataset pour pouvoir l'utiliser dans mon autre notebook, la où je vais faire la modélisation.</i>