# Importation des packages

In [1]:
#import all necessary libraries
import sklearn
from sklearn.datasets import load_breast_cancer
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.datasets import load_breast_cancer
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Importation des données

In [2]:
#load the dataset and split it into training and testing sets
dataset = load_breast_cancer()

X=dataset.data
Y=dataset.target

X_train, X_test, y_train, y_test = train_test_split(X,Y,test_size = 0.10, random_state = 123)

scaler = StandardScaler()

scaler.fit(X_train)

X_train_norm = scaler.transform(X_train)

X_test_norm = scaler.transform(X_test)

# Utilisation de GridSearch avec Sklearn

Dans presque tous les projets de Machine Learning, nous entraînons différents modèles sur l'ensemble de données et sélectionnons celui qui présente les meilleures performances.

Cependant, il est possible de l'améliorer, car nous ne pouvons pas affirmer avec certitude que ce modèle particulier est le meilleur pour le problème en question. Notre objectif est donc d'améliorer le modèle par tous les moyens possibles.

Un facteur important dans les performances de ces modèles sont leurs hyperparamètres, une fois que nous définissons des valeurs appropriées pour ces hyperparamètres, la performance d'un modèle peut s'améliorer de manière significative. Dans ce carnet, nous verrons comment trouver des valeurs optimales pour les hyperparamètres d'un modèle en utilisant GridSearchCV.

## Qu'est-ce que GridSearch ?

Tout d'abord, comprenons ce que fait GridSearch. Il s'agit du processus d'ajustement des hyperparamètres afin de déterminer les valeurs optimales pour un modèle donné. Comme nous l'avons mentionné plus haut, les performances d'un modèle dépendent fortement de la valeur des hyperparamètres. Il est à noter qu'il n'existe aucun moyen de connaître à l'avance les meilleures valeurs pour les hyperparamètres, de sorte qu'idéalement, nous devons essayer toutes les valeurs possibles pour connaître les valeurs optimales. Ce travail manuel peut prendre beaucoup de temps et de ressources, c'est pourquoi nous utilisons GridSearchCV pour automatiser l'ajustement des hyperparamètres.

GridSearchCV est une fonction qui fait partie du package model_selection de Scikit-learn. Cette fonction permet de parcourir en boucle les hyperparamètres prédéfinis et d'ajuster votre estimateur (modèle) sur votre ensemble d'apprentissage. Ainsi, à la fin, nous pouvons sélectionner les meilleurs paramètres parmi les hyperparamètres listés.

N'hésitez pas à consulter la [documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) pour plus d'informations.

# Comment fonctionne GirdSearch ?

As mentioned above, we pass predefined values for hyperparameters to the GridSearchCV function. We do this by defining a dictionary in which we mention a particular hyperparameter along with the values it can take.

Here is an example of it :

In [3]:
 dict_of_hyperparametrs = { 'C': [0.1, 1, 10, 100, 1000],
                            'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
                            'kernel': ['rbf','linear','sigmoid']  }

Here C, gamma and kernels are some of the hyperparameters of an SVM model. Note that the rest of the hyperparameters will be set to their default values.

GridSearchCV tries all the combinations of the values passed in the dictionary and evaluates the model for each combination using the Cross-Validation method. Hence after using this function we get accuracy/loss for every combination of hyperparameters and we can choose the one with the best performance.

# How to use gridearch ?

In this section, we shall see how to use GridSearchCV and also find out how it improves the performance of the model.

First, let us see some of the various arguments that are taken by GridSearchCV function:

**estimator**: Pass the model instance for which you want to check the hyperparameters.

**params_grid**: the dictionary object that holds the hyperparameters you want to try

**scoring**: evaluation metric that you want to use, you can simply pass a valid string/object of evaluation metric

**cv**: number of cross-validation you have to try for each selected set of hyperparameters

**verbose**: you can set it to 1 to get the detailed print out while you fit the data to GridSearchCV

**n_jobs**: number of processes you wish to run in parallel for this task if it -1 it will use all available processors.

# Use Girdsearch

## Entraîner un modèle avec les hyperparamètres par défaut

Initialisez un modèle de machine à vecteur de support pour la classification en utilisant les hyperparamètres par défaut.

N'hésitez pas à utiliser la [documentation](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html#sklearn.svm.SVR).

In [4]:
# train the model on train set without using GridSearchCV
model = SVC()

Entraîner le modèle

In [5]:
model.fit(X_train_norm, y_train)

Appliquez le modèle sur le jeu de données de test.

In [6]:
default_predictions = model.predict(X_test_norm)

Utilisez *classification_report* pour obtenir les performances de votre modèle.

N'hésitez pas à utiliser la [documentation](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html).

In [7]:
print(classification_report(y_test, default_predictions))

              precision    recall  f1-score   support

           0       1.00      0.96      0.98        24
           1       0.97      1.00      0.99        33

    accuracy                           0.98        57
   macro avg       0.99      0.98      0.98        57
weighted avg       0.98      0.98      0.98        57



## Entrapinez un modèle avec des hyperparamètres optimisés

Définir un dictionnaire appelé *param_grid* avec les hyperparamètres suivants

**C** : 0.1, 1, 10

**gamma** : 0.1, 0.01

**kernel** : linéaire, rbf

In [8]:
# defining parameter range
param_grid = {'C': [0.1, 1, 10],
              'gamma' : [0.1, 0.01] ,
              'kernel': ['linear','rbf']}

Initialiser la fonction *Gridsearch*.

N'hésitez pas à utiliser la [documentation](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html).

In [9]:
grid = GridSearchCV(SVC(), param_grid, verbose=3)

Entraînez le modèle avec la fonction GirdSearch

In [10]:
# fitting the model for grid search
grid.fit(X_train_norm, y_train)

Fitting 5 folds for each of 12 candidates, totalling 60 fits
[CV 1/5] END ...C=0.1, gamma=0.1, kernel=linear;, score=1.000 total time=   0.0s
[CV 2/5] END ...C=0.1, gamma=0.1, kernel=linear;, score=0.961 total time=   0.0s
[CV 3/5] END ...C=0.1, gamma=0.1, kernel=linear;, score=0.990 total time=   0.0s
[CV 4/5] END ...C=0.1, gamma=0.1, kernel=linear;, score=0.980 total time=   0.0s
[CV 5/5] END ...C=0.1, gamma=0.1, kernel=linear;, score=0.951 total time=   0.0s
[CV 1/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.990 total time=   0.0s
[CV 2/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.951 total time=   0.0s
[CV 3/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.922 total time=   0.0s
[CV 4/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.951 total time=   0.0s
[CV 5/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.902 total time=   0.0s
[CV 1/5] END ..C=0.1, gamma=0.01, kernel=linear;, score=1.000 total time=   0.0s
[CV 2/5] END ..C=0.1, gamma=0.01, kernel=linear;

Printez les paramètres qui donne le modèle le plus performant.

In [11]:
# print best parameter after tuning
print(grid.best_params_)
grid_predictions = grid.predict(X_test_norm)

{'C': 10, 'gamma': 0.01, 'kernel': 'rbf'}


Utilisez *classification_report* pour obtenir les performances de votre modèle.

N'hésitez pas à utiliser la [documentation](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html).

In [12]:
# print classification report
print(classification_report(y_test, grid_predictions))

              precision    recall  f1-score   support

           0       1.00      0.96      0.98        24
           1       0.97      1.00      0.99        33

    accuracy                           0.98        57
   macro avg       0.99      0.98      0.98        57
weighted avg       0.98      0.98      0.98        57

