# Imports

In [38]:
import pandas as pd
import matplotlib.pyplot as plt

# Charger, observer et comprendre le dataset

In [39]:
df = pd.read_csv('credit.csv')
df.head(10)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


# **Explications :**

La première étape est de trouver **la variable cible** grâce au tableau.

Le but est de trouver la variable que l'on **souhaiterait prédire** dans notre problème, cette variable est souvent localisé dans la **dernière colonne du tableau**.

Dans notre cas la variable cible est **"Loan_Status"** car elle permet de savoir si **la personne peut obtenir un prêt ou non**.

# **Regression ou Classification ?**

Pour savoir si le modèle est **un modèle de régression ou de classificatio**n, il suffit d'observer la **variable cible**.

Dans notre cas, le modèle cherche à **prédire une catégorie** en l'occurence **"Y"** ou **"N"**, la variable cible est donc une variable **discréte** et le modèle est donc un **modèle de classification**.

# Transformer les données catégorielles en données numériques

In [66]:
# ---- Import ---- #
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder

# ---- Création d'objet ---- #
ord_encoder = OrdinalEncoder() #Utilisé pour les features
label_encoder = LabelEncoder() #Utilisé pour les variables cibles

# ---- Séparation des données entre la variable cible et les features ---- #
features = df.columns[:-1]
features = features.drop("Loan_ID") #Pas d'influence sur le modèle donc peut-être supprimé

X = df[features] #Features
y = df['Loan_Status'] #Variable cible

# ---- Transformation des données catégorielles en données numériques ---- #
X_categorielles = X.select_dtypes(include=['object', 'category']).columns #Permet de récupérer seulement les features catégorielles

X.loc[:, X_categorielles] = ord_encoder.fit_transform(X[X_categorielles])
y = label_encoder.fit_transform(y)

# ---- Conversion des données en DataFrame pour structurer et maintenir les noms de colonnes  ---- #
X = pd.DataFrame(X, columns=features)
y = pd.DataFrame(y, columns=['Loan_Status'])

In [41]:
X.head(10)

Unnamed: 0,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area
0,1.0,0.0,0.0,0.0,0.0,5849,0.0,,360.0,1.0,2.0
1,1.0,1.0,1.0,0.0,0.0,4583,1508.0,128.0,360.0,1.0,0.0
2,1.0,1.0,0.0,0.0,1.0,3000,0.0,66.0,360.0,1.0,2.0
3,1.0,1.0,0.0,1.0,0.0,2583,2358.0,120.0,360.0,1.0,2.0
4,1.0,0.0,0.0,0.0,0.0,6000,0.0,141.0,360.0,1.0,2.0
5,1.0,1.0,2.0,0.0,1.0,5417,4196.0,267.0,360.0,1.0,2.0
6,1.0,1.0,0.0,1.0,0.0,2333,1516.0,95.0,360.0,1.0,2.0
7,1.0,1.0,3.0,0.0,0.0,3036,2504.0,158.0,360.0,0.0,1.0
8,1.0,1.0,2.0,0.0,0.0,4006,1526.0,168.0,360.0,1.0,2.0
9,1.0,1.0,1.0,0.0,0.0,12841,10968.0,349.0,360.0,1.0,1.0


In [42]:
y.head(10)

Unnamed: 0,Loan_Status
0,1
1,0
2,1
3,1
4,1
5,1
6,1
7,0
8,1
9,0


# **Explications :**

Cette étape, permet donc de **transformer toutes nos données en données numériques** et de pouvoir **séparer** notre tableau principal en 2 tableaux de données : **les features (X)** et **la variable cible (y)**.

# Afficher et traiter les données manquantes
Pour traiter les données manquantes, regarder `SimpleImputer` ou `KNNImputer`

In [49]:
# ---- Visualiser les données manquantes ---- #
missing_values_X = X.isnull().sum()
missing_values_y = y.isnull().sum()
print("Features : ")
print(missing_values_X)
print("\nVariable cible : ")
print(missing_values_y)

Features : 
Gender               13
Married               3
Dependents           15
Education             0
Self_Employed        32
ApplicantIncome       0
CoapplicantIncome     0
LoanAmount           22
Loan_Amount_Term     14
Credit_History       50
Property_Area         0
dtype: int64

Variable cible : 
Loan_Status    0
dtype: int64


In [51]:
# ---- Import  ---- #
from sklearn.impute import SimpleImputer

# ---- Traitement des données manquantes  ---- #
imputer = SimpleImputer(strategy='mean')
X = pd.DataFrame(imputer.fit_transform(X), columns=features)

X.head(10)

Unnamed: 0,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area
0,1.0,0.0,0.0,0.0,0.0,5849.0,0.0,146.412162,360.0,1.0,2.0
1,1.0,1.0,1.0,0.0,0.0,4583.0,1508.0,128.0,360.0,1.0,0.0
2,1.0,1.0,0.0,0.0,1.0,3000.0,0.0,66.0,360.0,1.0,2.0
3,1.0,1.0,0.0,1.0,0.0,2583.0,2358.0,120.0,360.0,1.0,2.0
4,1.0,0.0,0.0,0.0,0.0,6000.0,0.0,141.0,360.0,1.0,2.0
5,1.0,1.0,2.0,0.0,1.0,5417.0,4196.0,267.0,360.0,1.0,2.0
6,1.0,1.0,0.0,1.0,0.0,2333.0,1516.0,95.0,360.0,1.0,2.0
7,1.0,1.0,3.0,0.0,0.0,3036.0,2504.0,158.0,360.0,0.0,1.0
8,1.0,1.0,2.0,0.0,0.0,4006.0,1526.0,168.0,360.0,1.0,2.0
9,1.0,1.0,1.0,0.0,0.0,12841.0,10968.0,349.0,360.0,1.0,1.0


In [52]:
# ---- Visualiser les données manquantes ---- #
missing_values_X = X.isnull().sum()
missing_values_y = y.isnull().sum()
print("Features : ")
print(missing_values_X)
print("\nVariable cible : ")
print(missing_values_y)

Features : 
Gender               0
Married              0
Dependents           0
Education            0
Self_Employed        0
ApplicantIncome      0
CoapplicantIncome    0
LoanAmount           0
Loan_Amount_Term     0
Credit_History       0
Property_Area        0
dtype: int64

Variable cible : 
Loan_Status    0
dtype: int64


# Standardiser les données

In [54]:
# ---- Import ---- #
from sklearn.preprocessing import StandardScaler

# ---- Standardisation des données ---- #
scaler = StandardScaler()
X = pd.DataFrame(scaler.fit_transform(X), columns=features)

X.head(10)

Unnamed: 0,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area
0,0.483728,-1.370299,-0.76149,-0.528362,-0.415953,0.072991,-0.554487,-5.786179e-18,0.279851,0.45164,1.223298
1,0.483728,0.733351,0.236612,-0.528362,-0.415953,-0.134412,-0.038732,-0.2192733,0.279851,0.45164,-1.318513
2,0.483728,0.733351,-0.76149,-0.528362,2.536301,-0.393747,-0.554487,-0.957641,0.279851,0.45164,1.223298
3,0.483728,0.733351,-0.76149,1.892641,-0.415953,-0.462062,0.25198,-0.3145466,0.279851,0.45164,1.223298
4,0.483728,-1.370299,-0.76149,-0.528362,-0.415953,0.097728,-0.554487,-0.06445428,0.279851,0.45164,1.223298
5,0.483728,0.733351,1.234714,-0.528362,2.536301,0.002218,0.8806,1.436099,0.279851,0.45164,1.223298
6,0.483728,0.733351,-0.76149,1.892641,-0.415953,-0.503019,-0.035995,-0.6122755,0.279851,0.45164,1.223298
7,0.483728,0.733351,2.232816,-0.528362,-0.415953,-0.38785,0.301914,0.1380014,0.279851,-2.410441,-0.047607
8,0.483728,0.733351,1.234714,-0.528362,-0.415953,-0.228939,-0.032575,0.2570929,0.279851,0.45164,1.223298
9,0.483728,0.733351,0.236612,-0.528362,-0.415953,1.218457,3.196713,2.41265,0.279851,0.45164,-0.047607


# **Explications :**

La standardisation permet de rendre **comparables** les données des features.

En effet, certaines colonnes ont des données compris entre **[0;1000]** alors que d'autres entre **[0;1]** il est donc **difficible de les comparer** et cela peut créer un **biai dans les résultats du modèle**.

**La standardisation ne se fait pas sur la variable cible !**

# Séparer le dataset en train et test

In [60]:
# ---- Import ---- #
from sklearn.model_selection import train_test_split

# ---- Séparation du dataset en train et test ---- #
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Régression logistique
Entrainer une régression logistique avec les hyper-paramètres par défaut

In [61]:
from sklearn.linear_model import LogisticRegression

lg = LogisticRegression()
lg.fit(X_train, y_train)

  y = column_or_1d(y, warn=True)


# KNN
Entrainer un KNN avec les hyper-paramètres par défaut
Avec `GridSearchCV` ou `RandomizedSearchCV`, optimiser les hyper-paramètres. Utiliser une validation croisée de 5 splits. Vous explorerez les paramètres suivants:
- k : 3, 5, 7, 9, 11,
- poids : uniform, distance,
- distances : euclidean, manhattan, minkowski

# SVM
Entrainer un SVM avec les hyper-paramètres par défaut
Avec `GridSearchCV` ou `RandomizedSearchCV`, optimiser les hyper-paramètres. Utiliser une validation croisée de 5 splits. Vous explorerez les paramètres suivants:
- C : 0.01, 0.1, 1, 10, 100,
- noyau : linear, poly, rbf, sigmoid,
- gamma : scale, auto, 0.001, 0.01, 0.1, 1,
- degrée du polynome : 2, 3, 4, 5

# DecisionTree
Entrainer un arbre de décision avec les hyper-paramètres par défaut
Avec `GridSearchCV` ou `RandomizedSearchCV`, optimiser les hyper-paramètres. Utiliser une validation croisée de 5 splits. Vous explorerez les hyper-paramètres suivants:
- critère : gini, entropy,
- profondeur maximale : None, 10, 20, 30, 40, 50,
- nombre minimum d'exemples par split : 2, 5, 10, 20,
- nombre minimum d'exemples par feuille : 1, 2, 4, 6,
- nombre de features maximum : None, sqrt, log2

# RandomForest
Entrainer une forêt aléatoire avec les paramètres par défaut
Avec `GridSearchCV` ou `RandomizedSearchCV`, optimiser les hyper-paramètres. Utiliser une validation croisée de 5 splits. Vous explorerez les hyper-paramètres suivants:
- nombre d'arbres : 50, 100, 200, 300,
- critère : gini, entropy,
- profondeur maximale : None, 10, 20, 30, 40, 50,
- nombre minimum d'exemples par split : 2, 5, 10, 20,
- nombre minimum d'exemples par feuille : 1, 2, 4, 6,
- nombre de features maximum : None, sqrt, log2,
- remise des exemples : vrai, faux

# Rapporter et analyser les résultats obtenir. Choisir le meilleur modèle

# Analyser le meilleur modèle
En utilisant `classification_report`, afficher différentes métriques en train et en test du modèle choisit. Afficher la matrice de confusion en train et en test de ce même modèle. Qu'en concluez-vous sur la qualité de ce modèle?

# A faire à la maison : Développer un notebook similaire pour une tâche de régression