### <h3 ><center>Projet Data Mining:</center></h3>

<h1><center>Predicting Credit Card Approval</center></h1>

<h3><center>Réalisé par: Hazem Mejri & Nada Ben Slimen</center></h3>

## I- Introduction

Les banques reçoivent beaucoup de demandes de cartes de crédit. Beaucoup d'entre eux sont rejetés pour de nombreuses raisons, comme des soldes de prêts élevés, de faibles niveaux de revenus ou un trop grand nombre de demandes de renseignements sur le rapport de crédit d'un individu. 
L'analyse manuelle de ces applications est banale, sujette aux erreurs et prend du temps. Heureusement, cette tâche peut être automatisée grâce à la puissance de l'apprentissage automatique et à peu près toutes les banques appliquent cette méthode. 


## II- Objectif

Nous allons créer un prédicteur automatique d'approbation de carte de crédit en utilisant des techniques d'apprentissage automatique, tout comme le font les vraies banques.

## III- Les étapes à suivre

* Tout d'abord, nous allons commencer par charger et visualiser l'ensemble de données: *Nous verrons que l'ensemble de données a un mélange de caractéristiques numériques et non numériques, qu'il contient des 
valeurs de différentes plages, plus qu'il contient un certain nombre d'entrées manquantes.*
* Nous devrons prétraiter l'ensemble de données pour nous assurer que le modèle d'apprentissage automatique que nous choisissons peut faire de bonnes prédictions.
* Une fois nos données en bon état, nous procéderons à une analyse exploratoire des données pour construire nos intuitions.
* Enfin, nous construirons un modèle d'apprentissage automatique qui peut prédire si la demande de carte de crédit d'un individu sera acceptée.

### 1- Chargement et visualisation de l'ensemble de données

In [1]:
import pandas as pd 
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler


In [2]:
#conda install -c conda-forge rise

In [3]:
cc_apps = pd.read_csv('datasets/cc_approvals.data', header = None)

<p style='background :yellow'> Voici le <code>head()</code> du dataset  </p>

cc_apps.head()

In [4]:
cc_apps_description = cc_apps.describe()
print(cc_apps_description)
print("\n")

               2           7          10             14
count  690.000000  690.000000  690.00000     690.000000
mean     4.758725    2.223406    2.40000    1017.385507
std      4.978163    3.346513    4.86294    5210.102598
min      0.000000    0.000000    0.00000       0.000000
25%      1.000000    0.165000    0.00000       0.000000
50%      2.750000    1.000000    0.00000       5.000000
75%      7.207500    2.625000    3.00000     395.500000
max     28.000000   28.500000   67.00000  100000.000000




In [5]:
cc_apps_info = cc_apps.info()
print(cc_apps_info)
print("\n")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 690 entries, 0 to 689
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       690 non-null    object 
 1   1       690 non-null    object 
 2   2       690 non-null    float64
 3   3       690 non-null    object 
 4   4       690 non-null    object 
 5   5       690 non-null    object 
 6   6       690 non-null    object 
 7   7       690 non-null    float64
 8   8       690 non-null    object 
 9   9       690 non-null    object 
 10  10      690 non-null    int64  
 11  11      690 non-null    object 
 12  12      690 non-null    object 
 13  13      690 non-null    object 
 14  14      690 non-null    int64  
 15  15      690 non-null    object 
dtypes: float64(2), int64(2), object(12)
memory usage: 86.4+ KB
None




<p style='background :yellow'> => On remarque qu'il y a 4 features numérique et 12 non numériques</p>

### 2- Handling the missing values

In [6]:
print(cc_apps.tail(17))


    0      1       2  3  4   5   6      7  8  9   10 11 12     13   14 15
673  ?  29.50   2.000  y  p   e   h  2.000  f  f   0  f  g  00256   17  -
674  a  37.33   2.500  u  g   i   h  0.210  f  f   0  f  g  00260  246  -
675  a  41.58   1.040  u  g  aa   v  0.665  f  f   0  f  g  00240  237  -
676  a  30.58  10.665  u  g   q   h  0.085  f  t  12  t  g  00129    3  -
677  b  19.42   7.250  u  g   m   v  0.040  f  t   1  f  g  00100    1  -
678  a  17.92  10.210  u  g  ff  ff  0.000  f  f   0  f  g  00000   50  -
679  a  20.08   1.250  u  g   c   v  0.000  f  f   0  f  g  00000    0  -
680  b  19.50   0.290  u  g   k   v  0.290  f  f   0  f  g  00280  364  -
681  b  27.83   1.000  y  p   d   h  3.000  f  f   0  f  g  00176  537  -
682  b  17.08   3.290  u  g   i   v  0.335  f  f   0  t  g  00140    2  -
683  b  36.42   0.750  y  p   d   v  0.585  f  f   0  f  g  00240    3  -
684  b  40.58   3.290  u  g   m   v  3.500  f  f   0  t  s  00400    0  -
685  b  21.08  10.085  y  p   e   h  1

<p style='background :yellow'>=> On remarque que notre dataset contient des valeurs manquantes donc pour le moment on va les remplacer par <code>nan</code>  </p>

In [7]:
# Replace the '?'s with NaN
cc_apps = cc_apps.replace('?', np.nan)

# Inspect the missing values again
print(cc_apps.tail(17))

      0      1       2  3  4   5   6      7  8  9   10 11 12     13   14 15
673  NaN  29.50   2.000  y  p   e   h  2.000  f  f   0  f  g  00256   17  -
674    a  37.33   2.500  u  g   i   h  0.210  f  f   0  f  g  00260  246  -
675    a  41.58   1.040  u  g  aa   v  0.665  f  f   0  f  g  00240  237  -
676    a  30.58  10.665  u  g   q   h  0.085  f  t  12  t  g  00129    3  -
677    b  19.42   7.250  u  g   m   v  0.040  f  t   1  f  g  00100    1  -
678    a  17.92  10.210  u  g  ff  ff  0.000  f  f   0  f  g  00000   50  -
679    a  20.08   1.250  u  g   c   v  0.000  f  f   0  f  g  00000    0  -
680    b  19.50   0.290  u  g   k   v  0.290  f  f   0  f  g  00280  364  -
681    b  27.83   1.000  y  p   d   h  3.000  f  f   0  f  g  00176  537  -
682    b  17.08   3.290  u  g   i   v  0.335  f  f   0  t  g  00140    2  -
683    b  36.42   0.750  y  p   d   v  0.585  f  f   0  f  g  00240    3  -
684    b  40.58   3.290  u  g   m   v  3.500  f  f   0  t  s  00400    0  -
685    b  21

In [8]:
# Count the number of NaNs in the dataset to verify
print(cc_apps.isna().sum())

0     12
1     12
2      0
3      6
4      6
5      9
6      9
7      0
8      0
9      0
10     0
11     0
12     0
13    13
14     0
15     0
dtype: int64


<p style='background :yellow'> Les colonnes 2-7-10-14 sont de type Int64 et float64 , on va leur appliqué la methode <code>mean()</code> pour  remplir les valeurs manquantes par une valeur moyenne  </p>

In [9]:
# Impute the missing values with mean imputation
cc_apps.loc[[2,7,10,14]].fillna(np.mean, inplace=True)

# Count the number of NaNs in the dataset to verify
print(cc_apps.isna().sum())



0     12
1     12
2      0
3      6
4      6
5      9
6      9
7      0
8      0
9      0
10     0
11     0
12     0
13    13
14     0
15     0
dtype: int64


<p style='background :yellow'> Pour les colonnes de type <code>object</code> on doit les remplir par les valeurs les plus fréquentes </p>

In [10]:
# Iterate over each column of cc_apps
for col in list(cc_apps):
    # Check if the column is of object type
    if cc_apps[col].dtypes == 'object':
        # Impute with the most frequent value
        cc_apps = cc_apps.fillna(cc_apps[col].value_counts().index[0])

# Count the number of NaNs in the dataset and print the counts to verify   
print(cc_apps.isna().sum())       

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
dtype: int64


<p style='background :yellow'> => Il n'y a plus de valeurs manquantes </p>

### 2- Preprocessing the data

In [11]:
# Instantiate LabelEncoder
le = LabelEncoder()
# Iterate over all the values of each column and extract their dtypes
for col in cc_apps.columns.values:
    # Compare if the dtype is object
    if cc_apps[col].dtypes=='object':
    # Use LabelEncoder to do the numeric transformation
        cc_apps[col]=le.fit_transform(cc_apps[col])


In [12]:
cc_apps_info = cc_apps.info()
print(cc_apps_info)
print("\n")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 690 entries, 0 to 689
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       690 non-null    int32  
 1   1       690 non-null    int32  
 2   2       690 non-null    float64
 3   3       690 non-null    int32  
 4   4       690 non-null    int32  
 5   5       690 non-null    int32  
 6   6       690 non-null    int32  
 7   7       690 non-null    float64
 8   8       690 non-null    int32  
 9   9       690 non-null    int32  
 10  10      690 non-null    int64  
 11  11      690 non-null    int32  
 12  12      690 non-null    int32  
 13  13      690 non-null    int32  
 14  14      690 non-null    int64  
 15  15      690 non-null    int32  
dtypes: float64(2), int32(12), int64(2)
memory usage: 54.0 KB
None




<p  style='background :yellow' > Aprés le remplissage des valeurs manquantes et la conversion des colonnes non-numeriques au numeriques, on obtient la dataset suivante  </p>

In [13]:
cc_apps.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,1,156,0.0,2,1,13,8,1.25,1,1,1,0,0,68,0,0
1,0,328,4.46,2,1,11,4,3.04,1,1,6,0,0,11,560,0
2,0,89,0.5,2,1,11,4,1.5,1,0,0,0,0,96,824,0
3,1,125,1.54,2,1,13,8,3.75,1,1,5,1,0,31,3,0
4,1,43,5.625,2,1,13,8,1.71,1,0,0,0,2,37,0,0


<p  style='background :yellow'> On doit maintenant diviser la dataset en train set et test set  </p>

### 3- Splitting the dataset into train and test sets¶


<p  style='background :yellow'> Les features tels que *DriversLicense* et *ZipCode* ne sont pas aussi importantes que les autres features afin de prédire les approbations de carte de crédit. Nous devrions les supprimer pour concevoir notre modèle d'apprentissage automatique avec le meilleur ensemble de features.  </p>

In [14]:
# Drop the features 11 and 13 and convert the DataFrame to a NumPy array
cc_apps = cc_apps.drop([11,13], axis=1)
cc_apps = cc_apps.values


<p  style='background :yellow'> Maintenant, nous allons diviser nos données en ensemble de trains et ensemble de test pour préparer nos données pour deux phases différentes de la modélisation de l'apprentissage automatique : le training et le test.   </p>

In [15]:
# Segregate features and labels into separate variables
X,y = cc_apps[:,0:12] , cc_apps[:,13]
print(cc_apps)
# Split into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X,
                                y,
                                test_size=0.33,
                                random_state=42)
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

[[1.000e+00 1.560e+02 0.000e+00 ... 0.000e+00 0.000e+00 0.000e+00]
 [0.000e+00 3.280e+02 4.460e+00 ... 0.000e+00 5.600e+02 0.000e+00]
 [0.000e+00 8.900e+01 5.000e-01 ... 0.000e+00 8.240e+02 0.000e+00]
 ...
 [0.000e+00 9.700e+01 1.350e+01 ... 0.000e+00 1.000e+00 1.000e+00]
 [1.000e+00 2.000e+01 2.050e-01 ... 0.000e+00 7.500e+02 1.000e+00]
 [1.000e+00 1.970e+02 3.375e+00 ... 0.000e+00 0.000e+00 1.000e+00]]
(462, 12) (462,)
(228, 12) (228,)


<p  style='background :yellow'> Il ne nous reste qu'une dernière étape de preprocessing de scaling avant de pouvoir adapter un modèle d'apprentissage automatique aux données  </p>

### 4- Fitting a logistic regression model to the train set

<p  style='background :yellow'>  Parmi 690 instances, il y a 383 (55,5 %) demandes qui ont été refusées et 307 (44,5 %) demandes qui ont été approuvées. Cela nous donne une référence. Un bon modèle de machine learning doit être capable de prédire avec précision l'état des applications par rapport à ces statistiques

</p>

<p  style='background :yellow'>les modèles linéaires généralisés fonctionnent bien dans ces cas. Commençons notre modélisation d'apprentissage automatique avec un modèle de régression logistique (un modèle linéaire généralisé).</p>

In [16]:
# Import MinMaxScaler
# Instantiate MinMaxScaler and use it to rescale X_train and X_test
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX_train = scaler.fit_transform(X_train)
rescaledX_test = scaler.fit_transform(X_test)

print(rescaledX_train.shape)
print(rescaledX_test.shape)

(462, 12)
(228, 12)


<p  style='background :yellow'> On applique maintenant la méthode Logistic Regression sur rescaledX_train et y_train </p>

In [17]:
from sklearn.linear_model import LogisticRegression
# Instantiate a LogisticRegression classifier with default parameter values
logreg = LogisticRegression(solver='lbfgs')

# Fit logreg to the train set
logreg.fit(rescaledX_train,y_train)

LogisticRegression()

In [18]:
# Import confusion_matrix
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

# Use logreg to predict instances from the test set and store it
y_pred = logreg.predict(rescaledX_test)

# Get the accuracy score of logreg model and print it
print("Accuracy of logistic regression classifier: ", accuracy_score(y_test,y_pred))

# Print the confusion matrix of the logreg model
print(confusion_matrix(y_test,y_pred))

Accuracy of logistic regression classifier:  0.8377192982456141
[[93 10]
 [27 98]]


<p  style='background :yellow'>Notre modèle était bon ! Il a pu donner un score de précision de près de 84%.</p>

<p  style='background :yellow'>Voyons si nous pouvons faire mieux. Nous pouvons effectuer un grid search des paramètres du modèle pour améliorer la capacité du modèle à prédire les approbations de carte de crédit.</p>

GridSearchCV essaie toutes les combinaisons des valeurs passées dans le dictionnaire et évalue le modèle pour chaque combinaison à l'aide de la méthode de Cross-validation. Par conséquent, après avoir utilisé cette fonction, nous obtenons une précision/perte pour chaque combinaison d'hyperparamètres et nous pouvons choisir celui qui offre les meilleures performances.

In [19]:
# Import GridSearchCV
from sklearn.model_selection import GridSearchCV

# Define the grid of values for tol and max_iter
#tol: Tolerance for stopping criteria
#max_iter: Maximum number of iterations taken for the solvers to converge.

tol = [0.01,0.001,0.0001]
max_iter = [100,150,200]

# Create a dictionary where tol and max_iter are keys and the lists of their values are corresponding values
param_grid = dict(tol = tol, max_iter = max_iter)


In [20]:
# Instantiate GridSearchCV with the required parameters
grid_model = GridSearchCV(estimator=logreg, param_grid=param_grid, cv=5)

# Use scaler to rescale X and assign it to rescaledX
rescaledX = scaler.fit_transform(X_train)

# Fit data to grid_model
grid_model_result = grid_model.fit(rescaledX, y_train)

# Summarize results
best_score, best_params = grid_model_result.best_score_, grid_model_result.best_params_
print("Best: %f using %s" % (best_score, best_params))

Best: 0.863651 using {'max_iter': 100, 'tol': 0.01}


<p  style='background :yellow'> On obtient donc un modèle plus précis grace à GridSearch avec les parametres: {'max_iter': 100, 'tol': 0.01}</p>