<a href="https://colab.research.google.com/github/mars241/Machine-Learning/blob/main/AAM_WCS_4_3_ML_Optimisation_Pipeline_GridSearch_%26_Randomized_Search.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🦾 Challenge
#Objectifs
* Comprendre la notion de [GridSearch](https://lovelyanalytics.com/2017/10/16/grid-search/)
* Savoir utiliser la GridSearch implémentée dans Scikit-Learn

* Une [comparaison des performances entre GridSearch et RandomSearch](https://blog.usejournal.com/a-comparison-of-grid-search-and-randomized-search-using-scikit-learn-29823179bc85?gi=8ded5e72d6f1)

* Une utilisation de GridSearch et RandomSearch avec Scikit-Learn

Nous allons nous replonger dans le Titanic. [Le dataset se situe ici](https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv). A partir de ce dataset :

1. Tu vas effectuer une classification supervisée sur la colonne "survived", en utilisant le classifieur decision tree. Tu dois faire apparaitre clairement l'**accuracy score du jeu de test**.
2. Avec ce même classifieur, tu vas lancer une GridSearch avec les valeurs :

tous les entiers de 1 à 50 du paramètre max_depth

tous les entiers entre 1 et 15 du paramètre min_samples_leaf

(2, 5, 7, 10, 15, 30) du paramètre min_samples_split

* Attention, le traitement devrait durer quelques minutes, car GridSearch doit tester 4500 combinaisons de paramètres ! En effet, les combinaisons de paramètres sont 50 * 15 * 6 = 4500

3. Avec cette recherche via GridSearch, quelles sont le meilleures valeurs des hyperparamètres si on cherche à maximiser l'accuracy score ?
4. Avec ce même classifieur, tu vas lancer un RandomSearch sur les mêmes valeurs des paramètres en limitant à 200 itérations.
* Cette fois, le traitement devrait durer quelques secondes, car nous avons limité à 200 itérations.

5. Avec cette recherche via RandomSearch, quelles sont le meilleures valeurs des hyperparamètres si on cherche à maximiser l'accuracy score ?
Les paramètres optimaux peuvent être différents entre les deux méthodes. En effet :
* en randomsearch, tous les paramètres ne sont pas testés
* si les scores sont très proches entre plusieurs combinaisons de paramètres.
Ici, est-ce bien le cas ? Les paramètres sont-ils identiques entre grid et random ? Sinon, les scores sont-ils bien très proches ?
# Critères de validation

Le notebook Colab est partagé

La classification est effectuée avec un decision tree

La recherche de paramètre via GridSearch est effectuée

Les meilleurs paramètres sont clairement mis en avant

La recherche de paramètre via RandomSearch est effectuée

Les meilleurs paramètres sont clairement mis en avant

In [None]:
# Importation de la Bibliothèque pour la lecture/traitement de DF
import pandas as pd
import numpy as np

# Importe ce dataset relatif au Titanic dans un DataFrame.
link = "https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv"
df_titanic = pd.read_csv(link)
df_titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.05


In [None]:
# Afin de s'assurer un nombre concéquent de variables explicatives possibles
# Ajouter une colonne sexe en numérique par la méthode ".factorize()[0]"
df_titanic['sex_numeric'] = df_titanic['Sex'].factorize()[0]
df_titanic

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare,sex_numeric
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.2500,0
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833,1
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.9250,1
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1000,1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.0500,0
...,...,...,...,...,...,...,...,...,...
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.0000,0
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.0000,1
884,0,3,Miss. Catherine Helen Johnston,female,7.0,1,2,23.4500,1
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.0000,0


1) Tu vas effectuer une classification supervisée sur la colonne "survived", en utilisant le classifieur **decision tree**. Tu dois faire apparaitre clairement l'**accuracy** score du jeu de test.

In [None]:
# importons les bibliothèques
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier


X = df_titanic.select_dtypes(include=np.number) # le ".select_dtypes(include=np.number)" s'assure de pratiquer le ML sur les variables numériques du DF
y = df_titanic["Survived"]

# Diviser les données
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Entraînement du modèle "arbre de décision"
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

# Prédire sur l'ensemble de test
y_pred = clf.predict(X_test)

# Calculer et afficher le score de la précision du jeux test
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# RMQ: Bingo!!! Score de précision trop parfait ?!

Accuracy: 1.0


In [None]:
# Afin de corriger le tire , assignons mieux le X & y en supprimant la variable qui est suspect de biasé notre ML
X = df_titanic.select_dtypes(include='number').drop(columns=['Survived'])
y = df_titanic['Survived']

# re-entraînons le model de classification "clt" de l'"arbre de décision"
X_train, X_test, y_train, y_test = train_test_split(X,y)
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

print("Accuracy:", accuracy)

# RMQ: Bof!, pas très grand changement sur l'Accuracy !

Accuracy: 1.0


In [None]:
#Afficher les paramètres de bases du modèle "arbre de décision"
clf.get_params()

{'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': None,
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'random_state': None,
 'splitter': 'best'}

In [None]:
# Voir la matrice de confusion pour les données de test et les prédictions

# import des 3 métriques du ML
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

confusion_matrix(y_test, y_pred)

array([[104,  41],
       [ 40,  37]])

In [None]:
# Voir le "classification_report" pour les données de test et les prédictions

classification_report(y_test, y_pred)

'              precision    recall  f1-score   support\n\n           0       0.72      0.72      0.72       145\n           1       0.47      0.48      0.48        77\n\n    accuracy                           0.64       222\n   macro avg       0.60      0.60      0.60       222\nweighted avg       0.64      0.64      0.64       222\n'

In [None]:
# Obtenir le score du train et du test
tree_train_score = clf.score(X_train, y_train)
tree_test_score = clf.score(X_test, y_test)
score_tree_df = pd.DataFrame({'train score' : [tree_train_score],
                              'test score' : [tree_test_score]})
score_tree_df

# RMQ: les scores semblent correctes!

Unnamed: 0,train score,test score
0,0.986466,0.756757


In [None]:
# Imprimer chaque colonne de variables explicatives avec son importance

importance_df = pd.DataFrame(clf.feature_importances_,
                             X.columns).sort_values(by=0, ascending=False).T
importance_df

# RMQ : le sexe a plus tendance à expliquer la survie/ ou non sur le Titanic !

Unnamed: 0,sex_numeric,Fare,Age,Pclass,Siblings/Spouses Aboard,Parents/Children Aboard
0,0.325778,0.269552,0.233882,0.096478,0.05037,0.023941


2) Avec ce même classifieur, tu vas lancer une **GridSearch** avec les valeurs :
* tous les entiers de 1 à 50 du paramètre max_depth tous les entiers entre 1 et
* 15 du paramètre min_samples_leaf
* (2, 5, 7, 10, 15, 30) du paramètre min_samples_split

In [None]:
# import de la librairie GridSearch
from sklearn.model_selection import GridSearchCV

param_grid = {'max_depth': range(1,51),
              'min_samples_leaf': range(1,16),
              'min_samples_split': [2, 5, 7, 10, 15, 30]
             }


/ ! \ Le traitement ci-dessous 👇🏽 devrait durer quelques minutes

In [None]:
# Effectuer le Cross-Validation avec GridSearch pour la Classification
grid_search = GridSearchCV(clf, param_grid, scoring='accuracy')
grid_search.fit(X,y)

In [None]:
# Afficher tout les paramètres de bases du modèle de cross-validation avec la méthode "GridSearch"
grid_search.get_params()

{'cv': None,
 'error_score': nan,
 'estimator__ccp_alpha': 0.0,
 'estimator__class_weight': None,
 'estimator__criterion': 'gini',
 'estimator__max_depth': None,
 'estimator__max_features': None,
 'estimator__max_leaf_nodes': None,
 'estimator__min_impurity_decrease': 0.0,
 'estimator__min_samples_leaf': 1,
 'estimator__min_samples_split': 2,
 'estimator__min_weight_fraction_leaf': 0.0,
 'estimator__random_state': None,
 'estimator__splitter': 'best',
 'estimator': DecisionTreeClassifier(),
 'n_jobs': None,
 'param_grid': {'max_depth': range(1, 51),
  'min_samples_leaf': range(1, 16),
  'min_samples_split': [2, 5, 7, 10, 15, 30]},
 'pre_dispatch': '2*n_jobs',
 'refit': True,
 'return_train_score': False,
 'scoring': 'accuracy',
 'verbose': 0}

In [None]:
# Afficher le résultat de la "GridSearch" dans un DF
import pandas as pd
grid_cv_df = pd.DataFrame(grid_search.cv_results_)
grid_cv_df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_leaf,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.003699,0.000865,0.002341,0.000497,1,1,2,"{'max_depth': 1, 'min_samples_leaf': 1, 'min_s...",0.803371,0.803371,0.785311,0.751412,0.785311,0.785755,0.018976,4288
1,0.002682,0.000055,0.001969,0.000088,1,1,5,"{'max_depth': 1, 'min_samples_leaf': 1, 'min_s...",0.803371,0.803371,0.785311,0.751412,0.785311,0.785755,0.018976,4288
2,0.002804,0.000117,0.001948,0.000030,1,1,7,"{'max_depth': 1, 'min_samples_leaf': 1, 'min_s...",0.803371,0.803371,0.785311,0.751412,0.785311,0.785755,0.018976,4288
3,0.002665,0.000165,0.002634,0.001486,1,1,10,"{'max_depth': 1, 'min_samples_leaf': 1, 'min_s...",0.803371,0.803371,0.785311,0.751412,0.785311,0.785755,0.018976,4288
4,0.003793,0.001201,0.002328,0.000471,1,1,15,"{'max_depth': 1, 'min_samples_leaf': 1, 'min_s...",0.803371,0.803371,0.785311,0.751412,0.785311,0.785755,0.018976,4288
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4495,0.002492,0.000115,0.001462,0.000130,50,15,5,"{'max_depth': 50, 'min_samples_leaf': 15, 'min...",0.780899,0.769663,0.853107,0.824859,0.785311,0.802768,0.031308,3625
4496,0.002738,0.000483,0.001684,0.000202,50,15,7,"{'max_depth': 50, 'min_samples_leaf': 15, 'min...",0.780899,0.769663,0.853107,0.824859,0.785311,0.802768,0.031308,3625
4497,0.002863,0.000279,0.001805,0.000285,50,15,10,"{'max_depth': 50, 'min_samples_leaf': 15, 'min...",0.780899,0.769663,0.853107,0.824859,0.785311,0.802768,0.031308,3625
4498,0.002658,0.000184,0.001678,0.000273,50,15,15,"{'max_depth': 50, 'min_samples_leaf': 15, 'min...",0.780899,0.769663,0.853107,0.824859,0.785311,0.802768,0.031308,3625


**/ ! \ Attention**, le traitement ci-dessous 👇🏽 devrait durer quelques minutes, car GridSearch doit tester 4500 combinaisons de paramètres ! En effet, les combinaisons de paramètres sont 50 * 15 * 6 = 4500

3) Avec cette recherche via GridSearch, quelles sont le meilleures valeurs des **hyperparamètres** si on cherche à maximiser l'**accuracy score** ?

In [None]:
# Entraînement du modèle GridSearch
grid_search.fit(X_train, y_train)

# Afficher les "best" paramètres pris en compte pour un "parfait" l'Accuracy
print("Les meilleures parametrès sont :", grid_search.best_params_)
print("Le meilleure Score de précision du GridSearch (Accuracy) est:", grid_search.best_score_)

Les meilleures parametrès sont : {'max_depth': 1, 'min_samples_leaf': 1, 'min_samples_split': 2}
Le meilleure Score de précision du GridSearch (Accuracy) est: 1.0


In [None]:
# Best Estimateur du GridSearch est...
grid_search.best_estimator_

# ...c'est pour un profondeur égale à 1 ("max_depth=1" ): l'arbre de décision

4) Avec ce même classifieur, tu vas lancer un **RandomSearch** sur les mêmes valeurs des paramètres en limitant à 200 itérations.

Cette fois, le traitement devrait durer quelques secondes, car nous avons limité à 200 itérations.

In [None]:
# import de la librairie de RandomizedSearch
from sklearn.model_selection import RandomizedSearchCV
# import la/ de(s) librairie des(s) métrique(s) associé(s) au RandomizedSearch
from scipy.stats import randint as sp_randint
# import de la librairie de Classification KNN
from sklearn.neighbors import KNeighborsClassifier

param_dist = {'max_depth': list(range(1,51)),
              'min_samples_leaf': list(range(1,16)),
              'min_samples_split': [2, 5, 7, 10, 15, 30]
             }

In [None]:
# RandomizedSearch avec random forest Classifier:

#import des librairies
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
RDSCV = RandomizedSearchCV(model, param_dist ,scoring="accuracy")
RDSCV.fit(X_train,y_train)
RDSCV.best_params_
best_model = RDSCV.best_estimator_

In [None]:
# les paramètres du best model de RandomizedSearch
best_model

In [None]:
#  Les métriques du best modèle: accuracy
y_pred_test = best_model.predict(X_test)
print(accuracy_score(y_test, y_pred_test))

0.8378378378378378


In [None]:
# Les métriques du best modèle : matrice de confusion
confusion_matrix(y_test, y_pred_test)

array([[117,   5],
       [ 31,  69]])

5) Avec cette recherche via RandomSearch, quelles sont le meilleures valeurs des hyperparamètres si on cherche à maximiser l'accuracy score ?
Les paramètres optimaux peuvent être différents entre les deux méthodes. En effet :

* en randomsearch, tous les paramètres ne sont pas testés

* si les scores sont très proches entre plusieurs combinaisons de paramètres. Ici, est-ce bien le cas ? Les paramètres sont-ils identiques entre grid et random ? Sinon, les scores sont-ils bien très proches ?


In [None]:
# Effectuer le Cross-Validation avec RandomizedSearch pour la Classification
random_search = RandomizedSearchCV(clf, param_distributions=param_dist, n_iter=200, scoring='accuracy')

# test plus "classique" c_a_d "train" avec le modèle RandomizedSearch
random_search.fit(X_train, y_train)

# Afficher les "best" paramètres pris en compte pour un "parfait" l'Accuracy
print("Les meilleures parametrès sont :", random_search.best_params_)
print("Le meilleure Score de précision du RandomizedSearch (Accuracy) est:", random_search.best_score_)

Les meilleures parametrès sont : {'min_samples_split': 10, 'min_samples_leaf': 8, 'max_depth': 14}
Le meilleure Score de précision du RandomizedSearch (Accuracy) est: 0.8330827067669173


In [None]:
# Afficher les resultats dans un DF
rando_cv_df = pd.DataFrame(random_search.cv_results_)
rando_cv_df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_min_samples_split,param_min_samples_leaf,param_max_depth,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.003102,0.001260,0.001544,0.000121,10,6,45,"{'min_samples_split': 10, 'min_samples_leaf': ...",0.842105,0.834586,0.796992,0.812030,0.804511,0.818045,0.017407,36
1,0.002407,0.000119,0.001594,0.000180,30,7,29,"{'min_samples_split': 30, 'min_samples_leaf': ...",0.819549,0.759398,0.804511,0.789474,0.759398,0.786466,0.024060,179
2,0.003397,0.001423,0.002072,0.000768,10,9,24,"{'min_samples_split': 10, 'min_samples_leaf': ...",0.849624,0.834586,0.796992,0.842105,0.766917,0.818045,0.031327,36
3,0.002452,0.000223,0.001403,0.000165,7,6,30,"{'min_samples_split': 7, 'min_samples_leaf': 6...",0.842105,0.834586,0.796992,0.812030,0.804511,0.818045,0.017407,36
4,0.002814,0.000535,0.001648,0.000415,15,2,27,"{'min_samples_split': 15, 'min_samples_leaf': ...",0.834586,0.827068,0.796992,0.834586,0.774436,0.813534,0.023966,74
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,0.002490,0.000224,0.001673,0.000321,15,4,23,"{'min_samples_split': 15, 'min_samples_leaf': ...",0.819549,0.842105,0.819549,0.842105,0.796992,0.824060,0.016880,14
196,0.002591,0.000141,0.001471,0.000069,10,1,41,"{'min_samples_split': 10, 'min_samples_leaf': ...",0.819549,0.849624,0.796992,0.812030,0.796992,0.815038,0.019375,58
197,0.002365,0.000072,0.001474,0.000045,15,15,43,"{'min_samples_split': 15, 'min_samples_leaf': ...",0.849624,0.759398,0.827068,0.781955,0.781955,0.800000,0.033151,120
198,0.002442,0.000121,0.001468,0.000074,5,7,42,"{'min_samples_split': 5, 'min_samples_leaf': 7...",0.849624,0.804511,0.842105,0.812030,0.804511,0.822556,0.019375,24
