<center><h1> TD N°1 : SVM avec sklearn <center><h1>

## Import package

In [389]:
import os

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
from sklearn import datasets

#sklearn
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures

from sklearn.model_selection import train_test_split

#Classifier
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.linear_model import SGDClassifier , LogisticRegression

from sklearn.multiclass import OneVsRestClassifier
from sklearn.multiclass import OneVsOneClassifier
#Regressor
from sklearn.svm import LinearSVR
from sklearn.svm import SVR

from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.metrics import classification_report



## Function


In [230]:
def plot_svc_decision_boundary(svm_clf, xmin, xmax):
    
    '''
    
    SEULEMENT pour la fonction SVC de skealearn, pas de LinearSVC
    
    Function qui permet de recupérer la constante et le coefficient directeur
    d'un svm après entraintement.
    
    Un svm lineaire est de la forme w0*w0+w1*x1 +b =0
    donc 
    >= x1= -w0/w1 *x0 -b/w1
    
    avoir x1 en fonction de x0 permet de tracer la zone de décision du SVM 
    et ainsi avoir une réprésentation graphique
    
    Pour calculer les marges on rajoute +- 1/w[1]
    
    
    '''
    
    w = svm_clf.coef_[0]
    b = svm_clf.intercept_[0]

    # At the decision boundary, w0*x0 + w1*x1 + b = 0
    # => x1 = -w0/w1 * x0 - b/w1
    x0 = np.linspace(xmin, xmax, 200)
    decision_boundary = -w[0]/w[1] * x0 - b/w[1]

    margin = 1/w[1]
    gutter_up = decision_boundary + margin
    gutter_down = decision_boundary - margin

    svs = svm_clf.support_vectors_
    plt.scatter(svs[:, 0], svs[:, 1], s=180, facecolors='#FFAAAA')
    plt.plot(x0, decision_boundary, "k-", linewidth=2)
    plt.plot(x0, gutter_up, "k--", linewidth=2)
    plt.plot(x0, gutter_down, "k--", linewidth=2)

In [392]:
def svm_f_importances(coef_svm , names):
    ''' 
    Cette fonction permet de visualiser l'importance de chaque variable pour le modèle SVM
    Vous devez passer 2 arguments :
    
    - coef_svm : Les coéfficients du modèle disponible après votre .fit()
      On le récupère avec la commande suite  svc_fit.coef_[0]
      
    - names : est le nom des features que vous avez utilisée.
      ATTENTION à passer dans le même ordre que pour l'entrainement du modèle
    
    '''
    imp = coef_svm
    imp,names = zip(*sorted(zip(imp,names)))
    plt.barh(range(len(names)), imp, align='center')
    plt.yticks(range(len(names)), names)
    plt.show()

#features_names = ['input1', 'input2']
#svm = svm.SVC(kernel='linear')
#svm.fit(X, Y)
#f_importances(svm.coef_[0], features_names)

## Exercice N°1 : Classification données IRIS avec un SVM


#### Exploration and data analysis (EDA)
1) Importer le dataset Iris

2) Faire des stats descriptives pour mieux comprendre le dataset

3) Recoder les données dans le bon format si nécessaire 

4) Découper le dataset en train et test

#### Modélisation binaire

5) Importer les modèles de  régression logistic , SVC, LinearSVC et SGDClassifier avec sklearn

6) Supprimer une des target du data Iris et créer un nouveau dataset qui ne contient que 2 espèces.

7) Choisir maximum 2 colonnes dans votre nouveau data et entrainer un SVM avec le module SVC.<br>
7.1) Tracer la frontière de décision de votre modèle avec la fonction fournie. Visualiser le résultat.<br>
7.2) Faites varier le critère de régularisation $C$ et regarder son impact sur la frontière de décision. Tester plusieurs valeurs.<br>
7.3) Commenter l'effet de C sur votre modèle<br>
7.4) Recommencer avec une autre paire de features pour fit votre modèle.<br>


8) Entrainer les 4 modèles sur les données et évaluer la performance des modèles (uniquement avec le dataset train)
   Utiliser les valeurs par défaut des modèles, ne pas tuner.<br>
   Réaliser une cross-validation pour évaluer votre modèle.<br>
   Justifier le type de cross_validation choisie.<br>

9) Imaginons que ce soit le SVM par défaut qui donne le meilleur score, tuner ce modèle pour l'améliorer

9.1) Utiliser un grid search pour définir les meilleurs hyperparamètres.<br>
9.2) Utiliser une learning curve pour voir comment votre modèle apprend à partir des données.<br>
9.3) **Uniquement si vous avez le temps**, examiner l'influence des hyperparamètres sur la qualité de votré modèle avec des          *validation curve*.

9) Entrainer votre modèle sur les meilleurs hyperparamètres. 

10) Réaliser une prédiction avec votre modèle sur le dataset test.<br> 
    Evaluer la performance de votre modèle.<br>
    Regarder les variables qui participent le plus à votre modèle, utiliser la fonction fournie.<br>
    Commenter les résultats


#### Modélisation multiclass

11) A partir du dataset iris avec les 3 espèces, réaliser une classification multiclass
    Tester les différentes méthodes, OVR et OVO
    Tuner votre modèle pour obtenir la meilleur performance possible.
    Commenter. Existe-il des différences entre les méthodes?

## Partie code, a vous de jouer 🐍

### Exploration and data analysis

#### 1) Importer le dataset Iris depuis sklearn

In [381]:
#1
#Import dataset from sklearn

<df_name> = datasets.load_iris()

#Si besoin
#pd.DataFrame(data= np.c_[<df_name>.data, <df_name>.target], columns=<df_name>['feature_names']+['species'] )



#### 2) Statistiques descriptives

In [None]:
#.describe() d'un pandas dataframe peut aider

#### 3) Recoder variable si besoin

### Modélisation binaire

Attention à bien choisir un dataset contenant uniquement **2** espèces pour la modélisation

#### 4) Découper data set en train et test

#### 5) Importer les modules pour la modélisation

#### 6) Supprimer une espèce de fleur du dataset iris

#### 7) Garder uniquement 2 colonnes du dataset et entrainer un SVM avec module SVC

7.1) Tracer la frontière de décision de votre modèle avec la fonction **plot_svc_decision_boundary**. Visualiser le résultat.<br>
7.2) Faites varier le critère de régularisation $C$ et regarder son impact sur la frontière de décision. Tester plusieurs valeurs.<br>
7.3) Commenter l'effet de $C$ sur votre modèle<br>
7.4) Recommencer avec une autre paire de features pour fit votre modèle.<br>



In [None]:
#Train model SVC



In [387]:
#Tracer d'abord les données d'entrainement avant d'utiliser la fonction ci-dessous
#Regarder les commentaires de la fonction pour mieux comprendre, au début du notebook


#plot_svc_decision_boundary(svm_clf, xmin, xmax)

#### 8) Entrainer les 4 modèles sur votre dataset d'entrainement

- LogisticRegression
- LinearSVC
- SVC
- SGDClassifier

Conseils :
- Utiliser les valeurs par défaut des modèles, ne pas tuner.<br>
- Réaliser une cross-validation pour évaluer votre modèle.<br>
- Justifier le type de cross_validation choisie.<br>

In [None]:
#On continue de travailler sur le dataset iris mais vous allez charger une version légérement modifiée.
#Elle est disponible directement sur github dans
# cours_iae/01_SVM/td/data/

<df_name> = pd.read_csv('.csv', sep=';')

#### 9)  Tuner le modèle SVM pour améliorer ses performances

A vous de choirsir entre **SGDClassifier** ou **SVC** ou **LinearSVC** mais justifier pourquoi l'un ou l'autre.

9.1) Utiliser un grid search pour définir les meilleurs hyperparamètres.<br>
9.2) Utiliser une learning curve pour voir comment votre modèle apprend à partir des données.<br>
9.3) Uniquement si vous avez le temps, examiner l'influence des hyperparamètres sur la qualité de votré modèle avec des validation curve.

#### 10) Entrainer votre modèle sur les hyperparamètres qui donne la meilleur performance

#### 11) Réaliser une prédiction avec votre modèle sur le dataset test. 

- Evaluer la performance de votre modèle 
- Regarder les variables qui participent le plus à votre modèle, utiliser la fonction fournie 
- Commenter les résultats

In [None]:
#Nom de vos features 
features_names = ['input1', 'input2','inputN']
#Votre meilleur modèle

#svm = svm.SVC(kernel='linear')
#svm.fit(X, Y)

#Plot l'importance des features pour le modèle en fonction de ses coéfficients
svm_f_importances(svm.coef_[0], features_names)

## Exercice N°2 : Modélisation multiclass avec dataset IRIS

#### 1) Importer le dataset Iris depuis sklearn

Avec le module datasets.load_iris(). A ce stade plus besoin d'utiliser mon dataset Iris modifié.

Ne supprimer pas la 3ème espèce de fleur, nous allons maintenant utiliser les 3 target.

#### 2 Entrainer un SVM pour une classification multiclass

- Définir la stratégie en s'appuyant sur les éléments vus en cours
- Que faut-il modifier pour que le SVM puisse faire une classification multiclass?

- Combien de modèle faut-il prédire?
- Tester avec la méthode OVO et OVR

In [None]:
#OneVsRestClassifier
#OneVsOneClassifier


3) Existe-t-il des différences entre OVO et OVR?

<center><h3> Merci de rendre lisible votre code, un groupe présentera ses travaux à l'oral à la fin du cours.</h3></center>