# Imports

In [140]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Charger, observer et comprendre le dataset

In [141]:
df = pd.read_csv('credit.csv')
df.head(10)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y
5,LP001011,Male,Yes,2,Graduate,Yes,5417,4196.0,267.0,360.0,1.0,Urban,Y
6,LP001013,Male,Yes,0,Not Graduate,No,2333,1516.0,95.0,360.0,1.0,Urban,Y
7,LP001014,Male,Yes,3+,Graduate,No,3036,2504.0,158.0,360.0,0.0,Semiurban,N
8,LP001018,Male,Yes,2,Graduate,No,4006,1526.0,168.0,360.0,1.0,Urban,Y
9,LP001020,Male,Yes,1,Graduate,No,12841,10968.0,349.0,360.0,1.0,Semiurban,N


In [142]:
missing_values = df.isnull().sum()
print(missing_values)

Loan_ID               0
Gender               13
Married               3
Dependents           15
Education             0
Self_Employed        32
ApplicantIncome       0
CoapplicantIncome     0
LoanAmount           22
Loan_Amount_Term     14
Credit_History       50
Property_Area         0
Loan_Status           0
dtype: int64


# **Explications :**

La première étape est de trouver **la variable cible** grâce au tableau.

Le but est de trouver la variable que l'on **souhaiterait prédire** dans notre problème, cette variable est souvent localisé dans la **dernière colonne du tableau**.

Dans notre cas la variable cible est **"Loan_Status"** car elle permet de savoir si **la personne peut obtenir un prêt ou non**.

# **Regression ou Classification ?**

Pour savoir si le modèle est **un modèle de régression ou de classificatio**n, il suffit d'observer la **variable cible**.

Dans notre cas, le modèle cherche à **prédire une catégorie** en l'occurence **"Y"** ou **"N"**, la variable cible est donc une variable **discréte** et le modèle est donc un **modèle de classification**.

# Transformer les données catégorielles en données numériques

In [143]:
# ---- Import ---- #
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder

# ---- Création d'objet ---- #
ord_encoder = OrdinalEncoder() #Utilisé pour les features
label_encoder = LabelEncoder() #Utilisé pour les variables cibles

# ---- Séparation des données entre la variable cible et les features ---- #
features = df.columns[:-1]
features = features.drop("Loan_ID") #Pas d'influence sur le modèle donc peut-être supprimé

X = df[features] #Features
y = df['Loan_Status'] #Variable cible

# ---- Transformation des données catégorielles en données numériques ---- #
X_categorielles = X.select_dtypes(include=['object', 'category']).columns #Permet de récupérer seulement les features catégorielles

X = X.copy() #Crée une copie indépendante de X pour éviter de modifier l'original
X[X_categorielles] = ord_encoder.fit_transform(X[X_categorielles])
y = label_encoder.fit_transform(y)

# ---- Conversion des données en DataFrame pour structurer et maintenir les noms de colonnes  ---- #
X = pd.DataFrame(X, columns=features)
y_visu = pd.DataFrame(y, columns=['Loan_Status'])

In [144]:
X.head(10)

Unnamed: 0,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area
0,1.0,0.0,0.0,0.0,0.0,5849,0.0,,360.0,1.0,2.0
1,1.0,1.0,1.0,0.0,0.0,4583,1508.0,128.0,360.0,1.0,0.0
2,1.0,1.0,0.0,0.0,1.0,3000,0.0,66.0,360.0,1.0,2.0
3,1.0,1.0,0.0,1.0,0.0,2583,2358.0,120.0,360.0,1.0,2.0
4,1.0,0.0,0.0,0.0,0.0,6000,0.0,141.0,360.0,1.0,2.0
5,1.0,1.0,2.0,0.0,1.0,5417,4196.0,267.0,360.0,1.0,2.0
6,1.0,1.0,0.0,1.0,0.0,2333,1516.0,95.0,360.0,1.0,2.0
7,1.0,1.0,3.0,0.0,0.0,3036,2504.0,158.0,360.0,0.0,1.0
8,1.0,1.0,2.0,0.0,0.0,4006,1526.0,168.0,360.0,1.0,2.0
9,1.0,1.0,1.0,0.0,0.0,12841,10968.0,349.0,360.0,1.0,1.0


In [145]:
y_visu.head(10)

Unnamed: 0,Loan_Status
0,1
1,0
2,1
3,1
4,1
5,1
6,1
7,0
8,1
9,0


# **Explications :**

Cette étape, permet donc de **transformer toutes nos données en données numériques** et de pouvoir **séparer** notre tableau principal en 2 tableaux de données : **les features (X)** et **la variable cible (y)**.

# Afficher et traiter les données manquantes
Pour traiter les données manquantes, regarder `SimpleImputer` ou `KNNImputer`

In [146]:
# ---- Visualiser les données manquantes ---- #
missing_values_X = X.isnull().sum()
print("Features : ")
print(missing_values_X)

Features : 
Gender               13
Married               3
Dependents           15
Education             0
Self_Employed        32
ApplicantIncome       0
CoapplicantIncome     0
LoanAmount           22
Loan_Amount_Term     14
Credit_History       50
Property_Area         0
dtype: int64


In [147]:
# ---- Import  ---- #
from sklearn.impute import SimpleImputer

# ---- Traitement des données manquantes  ---- #
imputer = SimpleImputer(strategy='mean')
X = pd.DataFrame(imputer.fit_transform(X), columns=features)

X.head(10)

Unnamed: 0,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area
0,1.0,0.0,0.0,0.0,0.0,5849.0,0.0,146.412162,360.0,1.0,2.0
1,1.0,1.0,1.0,0.0,0.0,4583.0,1508.0,128.0,360.0,1.0,0.0
2,1.0,1.0,0.0,0.0,1.0,3000.0,0.0,66.0,360.0,1.0,2.0
3,1.0,1.0,0.0,1.0,0.0,2583.0,2358.0,120.0,360.0,1.0,2.0
4,1.0,0.0,0.0,0.0,0.0,6000.0,0.0,141.0,360.0,1.0,2.0
5,1.0,1.0,2.0,0.0,1.0,5417.0,4196.0,267.0,360.0,1.0,2.0
6,1.0,1.0,0.0,1.0,0.0,2333.0,1516.0,95.0,360.0,1.0,2.0
7,1.0,1.0,3.0,0.0,0.0,3036.0,2504.0,158.0,360.0,0.0,1.0
8,1.0,1.0,2.0,0.0,0.0,4006.0,1526.0,168.0,360.0,1.0,2.0
9,1.0,1.0,1.0,0.0,0.0,12841.0,10968.0,349.0,360.0,1.0,1.0


In [148]:
# ---- Visualiser les données manquantes ---- #
missing_values_X = X.isnull().sum()
print("Features : ")
print(missing_values_X)

Features : 
Gender               0
Married              0
Dependents           0
Education            0
Self_Employed        0
ApplicantIncome      0
CoapplicantIncome    0
LoanAmount           0
Loan_Amount_Term     0
Credit_History       0
Property_Area        0
dtype: int64


# Standardiser les données

In [149]:
# ---- Import ---- #
from sklearn.preprocessing import StandardScaler

# ---- Standardisation des données ---- #
scaler = StandardScaler()
X = scaler.fit_transform(X)

# ---- Conversion des données en DataFrame pour structurer et maintenir les noms de colonnes  ---- #
X_visu = pd.DataFrame(X, columns=features)
X_visu.head(10)

Unnamed: 0,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area
0,0.483728,-1.370299,-0.76149,-0.528362,-0.415953,0.072991,-0.554487,0.0,0.279851,0.45164,1.223298
1,0.483728,0.733351,0.236612,-0.528362,-0.415953,-0.134412,-0.038732,-0.219273,0.279851,0.45164,-1.318513
2,0.483728,0.733351,-0.76149,-0.528362,2.536301,-0.393747,-0.554487,-0.957641,0.279851,0.45164,1.223298
3,0.483728,0.733351,-0.76149,1.892641,-0.415953,-0.462062,0.25198,-0.314547,0.279851,0.45164,1.223298
4,0.483728,-1.370299,-0.76149,-0.528362,-0.415953,0.097728,-0.554487,-0.064454,0.279851,0.45164,1.223298
5,0.483728,0.733351,1.234714,-0.528362,2.536301,0.002218,0.8806,1.436099,0.279851,0.45164,1.223298
6,0.483728,0.733351,-0.76149,1.892641,-0.415953,-0.503019,-0.035995,-0.612275,0.279851,0.45164,1.223298
7,0.483728,0.733351,2.232816,-0.528362,-0.415953,-0.38785,0.301914,0.138001,0.279851,-2.410441,-0.047607
8,0.483728,0.733351,1.234714,-0.528362,-0.415953,-0.228939,-0.032575,0.257093,0.279851,0.45164,1.223298
9,0.483728,0.733351,0.236612,-0.528362,-0.415953,1.218457,3.196713,2.41265,0.279851,0.45164,-0.047607


# **Explications :**

La standardisation permet de rendre **comparables** les données des features.

En effet, certaines colonnes ont des données compris entre **[0;1000]** alors que d'autres entre **[0;1]** il est donc **difficible de les comparer** et cela peut créer un **biai dans les résultats du modèle**.

**La standardisation ne se fait pas sur la variable cible !**

# Séparer le dataset en train et test

In [150]:
# ---- Import ---- #
from sklearn.model_selection import train_test_split

# ---- Séparation du dataset en train et test ---- #
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# ---- Tableau pour comparer les modèles ---- #
results = []

# Régression logistique
Entrainer une régression logistique avec les hyper-paramètres par défaut

In [151]:
# ---- Import ---- #
from sklearn.linear_model import LogisticRegression

# ---- Entrainement ---- #
lg = LogisticRegression()
lg.fit(X_train, y_train)

# ---- Scores ---- #
print(f'Scoring of default {lg.__class__} train: {lg.score(X_train,y_train)}')
print(f'Scoring of default {lg.__class__} test : {lg.score(X_test,y_test)}')

results.append({
        'Algorithm': "LogisticRegression",
        'Best Hyperparameters': "default",
        'Train Score': lg.score(X_train,y_train),
        'Test Score': lg.score(X_test,y_test)
})

Scoring of default <class 'sklearn.linear_model._logistic.LogisticRegression'> train: 0.8217391304347826
Scoring of default <class 'sklearn.linear_model._logistic.LogisticRegression'> test : 0.7727272727272727


# KNN
Entrainer un KNN avec les hyper-paramètres par défaut
Avec `GridSearchCV` ou `RandomizedSearchCV`, optimiser les hyper-paramètres. Utiliser une validation croisée de 5 splits. Vous explorerez les paramètres suivants:
- k : 3, 5, 7, 9, 11,
- poids : uniform, distance,
- distances : euclidean, manhattan, minkowski

In [152]:
# ---- Paramètres par défaut ---- #
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)

print(f'Scoring of default {knn.__class__} train: {knn.score(X_train,y_train)}')
print(f'Scoring of default {knn.__class__} test : {knn.score(X_test,y_test)}')

results.append({
        'Algorithm': "KneighborsClassifier",
        'Best Hyperparameters': "default",
        'Train Score': knn.score(X_train,y_train),
        'Test Score': knn.score(X_test,y_test)
})

Scoring of default <class 'sklearn.neighbors._classification.KNeighborsClassifier'> train: 0.8304347826086956
Scoring of default <class 'sklearn.neighbors._classification.KNeighborsClassifier'> test : 0.7532467532467533


In [153]:
# ---- Meilleurs paramètres avec GridSearch ---- #
from sklearn.model_selection import GridSearchCV

knn = KNeighborsClassifier()
param_grid = {
    'n_neighbors': [3, 5, 7, 9, 11],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan', 'minkowski']
}
grid_search_knn = GridSearchCV(knn, param_grid, cv=5)
grid_search_knn.fit(X_train, y_train)

print(f'Scoring of GridSearchCV {grid_search_knn.__class__} train: {grid_search_knn.score(X_train,y_train)}')
print(f'Scoring of GridSearchCV {grid_search_knn.__class__} test : {grid_search_knn.score(X_test,y_test)}')
print(f'Best parameters: {grid_search.best_params_}')

results.append({
        'Algorithm': "KneighborsClassifier",
        'Best Hyperparameters': grid_search_knn.best_params_,
        'Train Score': grid_search_knn.score(X_train,y_train),
        'Test Score': grid_search_knn.score(X_test,y_test)
})

Scoring of GridSearchCV <class 'sklearn.model_selection._search.GridSearchCV'> train: 0.8195652173913044
Scoring of GridSearchCV <class 'sklearn.model_selection._search.GridSearchCV'> test : 0.7792207792207793
Best parameters: {'criterion': 'entropy', 'max_depth': 20, 'max_features': 'log2', 'min_samples_leaf': 6, 'min_samples_split': 20}


# **Explications :**

**GridSearchCV :** **Technique d'optimisation d'hyperparamètres**, permet de tester plusieurs combinaisons de réglages de paramètres, en effectuant une **validation croisée** au fur et à mesure pour déterminer quel ensemble de paramètres produit **les meilleures performances du modèle**.


# SVM
Entrainer un SVM avec les hyper-paramètres par défaut
Avec `GridSearchCV` ou `RandomizedSearchCV`, optimiser les hyper-paramètres. Utiliser une validation croisée de 5 splits. Vous explorerez les paramètres suivants:
- C : 0.01, 0.1, 1, 10, 100,
- noyau : linear, poly, rbf, sigmoid,
- gamma : scale, auto, 0.001, 0.01, 0.1, 1,
- degrée du polynome : 2, 3, 4, 5

In [154]:
# ---- Paramètres par défaut ---- #
from sklearn.svm import SVC

svm = SVC()
svm.fit(X_train, y_train)

print(f'Scoring of default {svm.__class__} train: {svm.score(X_train,y_train)}')
print(f'Scoring of default {svm.__class__} test : {svm.score(X_test,y_test)}')

results.append({
        'Algorithm': "SVM",
        'Best Hyperparameters': "default",
        'Train Score': svm.score(X_train,y_train),
        'Test Score': svm.score(X_test,y_test)
})

Scoring of default <class 'sklearn.svm._classes.SVC'> train: 0.8347826086956521
Scoring of default <class 'sklearn.svm._classes.SVC'> test : 0.7857142857142857


In [155]:
# ---- Meilleurs paramètres avec GridSearch ---- #
from sklearn.model_selection import GridSearchCV

svm = SVC()
param_grid = {
    'C': [0.01, 0.1, 1, 10, 100],
    'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
    'gamma': ['scale', 'auto', 0.001, 0.01, 0.1, 1],
    'degree': [2, 3, 4, 5]
}
grid_search = GridSearchCV(svm, param_grid, cv=5)
grid_search.fit(X_train, y_train)

print(f'Scoring of {grid_search.__class__} train: {grid_search.score(X_train,y_train)}')
print(f'Scoring of {grid_search.__class__} test : {grid_search.score(X_test,y_test)}')
print(f'Best parameters: {grid_search.best_params_}')

results.append({
        'Algorithm': "SVM",
        'Best Hyperparameters': grid_search.best_params_,
        'Train Score': grid_search.score(X_train,y_train),
        'Test Score': grid_search.score(X_test,y_test)
})

Scoring of <class 'sklearn.model_selection._search.GridSearchCV'> train: 0.8217391304347826
Scoring of <class 'sklearn.model_selection._search.GridSearchCV'> test : 0.7727272727272727
Best parameters: {'C': 0.01, 'degree': 2, 'gamma': 'scale', 'kernel': 'linear'}


# DecisionTree
Entrainer un arbre de décision avec les hyper-paramètres par défaut
Avec `GridSearchCV` ou `RandomizedSearchCV`, optimiser les hyper-paramètres. Utiliser une validation croisée de 5 splits. Vous explorerez les hyper-paramètres suivants:
- critère : gini, entropy,
- profondeur maximale : None, 10, 20, 30, 40, 50,
- nombre minimum d'exemples par split : 2, 5, 10, 20,
- nombre minimum d'exemples par feuille : 1, 2, 4, 6,
- nombre de features maximum : None, sqrt, log2

In [156]:
# ---- Paramètres par défaut ---- #
from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)

print(f'Scoring of default {dt.__class__} train: {dt.score(X_train,y_train)}')
print(f'Scoring of default {dt.__class__} test : {dt.score(X_test,y_test)}')

results.append({
        'Algorithm': "DecisionTree",
        'Best Hyperparameters': "default",
        'Train Score': dt.score(X_train,y_train),
        'Test Score': dt.score(X_test,y_test)
})

Scoring of default <class 'sklearn.tree._classes.DecisionTreeClassifier'> train: 1.0
Scoring of default <class 'sklearn.tree._classes.DecisionTreeClassifier'> test : 0.6948051948051948


In [157]:
# ---- Meilleurs paramètres avec GridSearch ---- #
from sklearn.model_selection import GridSearchCV

dt = DecisionTreeClassifier()
param_grid = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [None, 10, 20, 30, 40, 50],
    'min_samples_split': [2, 5, 10, 20],
    'min_samples_leaf': [1, 2, 4, 6],
    'max_features': [None, 'sqrt', 'log2']
}
grid_search = GridSearchCV(dt, param_grid, cv=5)
grid_search.fit(X_train, y_train)

print(f'Scoring of {grid_search.__class__} train: {grid_search.score(X_train,y_train)}')
print(f'Scoring of {grid_search.__class__} test : {grid_search.score(X_test,y_test)}')
print(f'Best parameters: {grid_search.best_params_}')

results.append({
        'Algorithm': "DecisionTree",
        'Best Hyperparameters': grid_search.best_params_,
        'Train Score': grid_search.score(X_train,y_train),
        'Test Score': grid_search.score(X_test,y_test)
})

Scoring of <class 'sklearn.model_selection._search.GridSearchCV'> train: 0.8673913043478261
Scoring of <class 'sklearn.model_selection._search.GridSearchCV'> test : 0.6948051948051948
Best parameters: {'criterion': 'entropy', 'max_depth': None, 'max_features': 'log2', 'min_samples_leaf': 1, 'min_samples_split': 20}


# RandomForest
Entrainer une forêt aléatoire avec les paramètres par défaut
Avec `GridSearchCV` ou `RandomizedSearchCV`, optimiser les hyper-paramètres. Utiliser une validation croisée de 5 splits. Vous explorerez les hyper-paramètres suivants:
- nombre d'arbres : 50, 100, 200, 300,
- critère : gini, entropy,
- profondeur maximale : None, 10, 20, 30, 40, 50,
- nombre minimum d'exemples par split : 2, 5, 10, 20,
- nombre minimum d'exemples par feuille : 1, 2, 4, 6,
- nombre de features maximum : None, sqrt, log2,
- remise des exemples : vrai, faux

In [158]:
# ---- Paramètres par défaut ---- #
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier()
rf.fit(X_train, y_train)

print(f'Scoring of default {rf.__class__} train: {rf.score(X_train,y_train)}')
print(f'Scoring of default {rf.__class__} test : {rf.score(X_test,y_test)}')

results.append({
        'Algorithm': "RandomForest",
        'Best Hyperparameters': "default",
        'Train Score': rf.score(X_train,y_train),
        'Test Score': rf.score(X_test,y_test)
})

Scoring of default <class 'sklearn.ensemble._forest.RandomForestClassifier'> train: 1.0
Scoring of default <class 'sklearn.ensemble._forest.RandomForestClassifier'> test : 0.7792207792207793


In [159]:
# ---- Meilleurs paramètres avec GridSearch ---- #
from sklearn.model_selection import RandomizedSearchCV

rf = RandomForestClassifier()
param_rand = {
    'n_estimators': [50, 100, 200, 300],
    'criterion': ['gini', 'entropy'],
    'max_depth': [None, 10, 20, 30, 40, 50],
    'min_samples_split': [2, 5, 10, 20],
    'min_samples_leaf': [1, 2, 4, 6],
    'max_features': [None, 'sqrt', 'log2'],
    'bootstrap': [True, False]
}
random_search = RandomizedSearchCV(rf, param_distributions=param_rand, n_iter=100, cv=5, n_jobs=-1)
random_search.fit(X_train, y_train)
print(f'Scoring of {random_search.__class__} train: {random_search.score(X_train,y_train)}')
print(f'Scoring of {random_search.__class__} test : {random_search.score(X_test,y_test)}')
print(f'Best parameters: {random_search.best_params_}')

results.append({
        'Algorithm': "RandomForest",
        'Best Hyperparameters': grid_search.best_params_,
        'Train Score': grid_search.score(X_train,y_train),
        'Test Score': grid_search.score(X_test,y_test)
})

Scoring of <class 'sklearn.model_selection._search.RandomizedSearchCV'> train: 0.8434782608695652
Scoring of <class 'sklearn.model_selection._search.RandomizedSearchCV'> test : 0.7792207792207793
Best parameters: {'n_estimators': 300, 'min_samples_split': 20, 'min_samples_leaf': 4, 'max_features': None, 'max_depth': 20, 'criterion': 'gini', 'bootstrap': True}


# **Explications:**

**RandomizedSearchCV :** Possède le même **objectif** que **GridSearchCV** cependant RandomizedSearchCV choisis de manière **aléatoire un sous-ensemble de combinaison**.

Il est pratique de l'utiliser lorsque notre modèle possède un **grand nombre de paramètres et de valeurs possibles**. Voici pourquoi il a été utilisé pour l'algorithme RandomForest, GridSearchCV aurait été trop long.

Mais dans notre cas nous **n'explorons pas toutes les possibilités** donc il est possbile de ne pas avoir les **meilleurs paramètres**.

# Rapporter et analyser les résultats obtenir. Choisir le meilleur modèle

In [160]:
df_results = pd.DataFrame(results)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_columns', None)
df_results

Unnamed: 0,Algorithm,Best Hyperparameters,Train Score,Test Score
0,LogisticRegression,default,0.821739,0.772727
1,KneighborsClassifier,default,0.830435,0.753247
2,KneighborsClassifier,"{'metric': 'euclidean', 'n_neighbors': 11, 'weights': 'uniform'}",0.819565,0.779221
3,SVM,default,0.834783,0.785714
4,SVM,"{'C': 0.01, 'degree': 2, 'gamma': 'scale', 'kernel': 'linear'}",0.821739,0.772727
5,DecisionTree,default,1.0,0.694805
6,DecisionTree,"{'criterion': 'entropy', 'max_depth': None, 'max_features': 'log2', 'min_samples_leaf': 1, 'min_samples_split': 20}",0.867391,0.694805
7,RandomForest,default,1.0,0.779221
8,RandomForest,"{'criterion': 'entropy', 'max_depth': None, 'max_features': 'log2', 'min_samples_leaf': 1, 'min_samples_split': 20}",0.867391,0.694805


# **Meilleur modèle ?**

Pour trouver le meilleur modèle, il faut trouver le modèle ayant** le score le plus élevé** lors de la phase de **test** tout en ayant une **stabilité avec le score d'entrainement**. Il ne faut pas que la **diffénrece** entre les deux scores soit **trop élevée**.

Dans mon cas le meilleur modèle semble être l'algorithme KNN avec les hypers-paramètres : {'metric': 'euclidean', 'n_neighbors': 11, 'weights': 'uniform'}.

# Analyser le meilleur modèle
En utilisant `classification_report`, afficher différentes métriques en train et en test du modèle choisit. Afficher la matrice de confusion en train et en test de ce même modèle. Qu'en concluez-vous sur la qualité de ce modèle?

In [165]:
from sklearn.metrics import classification_report

print("Train:")
print(classification_report(y_train, grid_search_knn.predict(X_train)))

print("\nTest:")
print(classification_report(y_test, grid_search_knn.predict(X_test)))


Test:
              precision    recall  f1-score   support

           0       0.95      0.39      0.55        54
           1       0.75      0.99      0.85       100

    accuracy                           0.78       154
   macro avg       0.85      0.69      0.70       154
weighted avg       0.82      0.78      0.75       154

Train:
              precision    recall  f1-score   support

           0       0.91      0.44      0.60       138
           1       0.80      0.98      0.88       322

    accuracy                           0.82       460
   macro avg       0.86      0.71      0.74       460
weighted avg       0.84      0.82      0.80       460



#**Explications Tests :**

**Precision :** Lorsque l'on prédit la classe 0 le taux de précision est de **95%**. Lorsque l'on prédit la classe 1 le taux de précision est de **75%** ce qui veut dire **25% d'erreur**.

**Precision** = Vrai Positifs (VP) / (Faux Positifs (FP) + Vrai Positifs (VP))

**Recall :** Le modèle a prédit **39%** des personnes ne pouvant pas faire de prêt parmi celles qui l'étaient. Le modèle a prédit **99%** des personnes pouvant faire un prêt parmi celles qui l'étaient.

**Precision** = Vrai Positifs (VP) / (Vrai Positifs (VP) + Faux Négatifs (FN))

**F1-Score =** (2 * Precision * recall) / (Precision + recall)

Pour la classe 1, le modèle équilibre bien la précision et le rappel : 85%

Pour la classe 0, il y a un compromis entre la précision et le rappel car la moyenne est plus faible : 55%

**En résumé, lors des tests, le modèle prédit bien mieux la classe 1 malgré 25% d'erreur contrairement a la classe 0 qu'il a du mal à détecter 39% mais ou il fait peu d'erreur 5%.**


# A faire à la maison : Développer un notebook similaire pour une tâche de régression