## SVM (Support Vector Machines)
https://openclassrooms.com/fr/courses/4470406-utilisez-des-modeles-supervises-non-lineaires/4722466-classifiez-vos-donnees-avec-une-svm-a-noyau

https://zestedesavoir.com/tutoriels/1760/un-peu-de-machine-learning-avec-les-svm/#4-entrainement-des-svm (XEL)


Une machine à vecteurs de support (SVM) est un outil d'apprentissage automatique de type supervisé très puissant et polyvalent
modèle, capable d'effectuer une classification linéaire ou non linéaire, une régression et même
détection des valeurs aberrantes. C'est l'un des modèles les plus populaires en Machine Learning . 

**Les SVM sont particulièrement bien adapté à la classification d'ensembles de données complexes mais de petite ou moyenne taille.**

**L'idée fondamentale** derrière Support Vector Machines est de s'adapter à la "rue" la plus large possible entre les classes. En d'autres termes, le but est d'avoir la plus grande marge possible entre la frontière de décision qui sépare les deux classes et
les instances de formation. Lors de la classification des marges souples, le SVM
cherche un compromis entre une séparation parfaite des deux classes et
dans la rue la plus large possible.
Une autre idée clé est d'utiliser des noyaux lors de la formation sur des ensembles de données non linéaires.

**Quelques exemples d’utilisation du modèle SVM :**

- **Reconnaissances des formes :**

    Reconnaissance de chiffres manuscrits.
    
    Reconnaissance de visages.

- **Diagnostic médical :**

    Evaluation des risques de cancer.
    
    Détection d’arythmie cardiaque.

Les **SVM** sont une généralisation des classifieurs linéaires (algorithmes de classement statistique)  dont le principe est de séparer les données en classe à l’aide d’une frontière, de telle façon que la distance entre les différents groupes de données et la frontière séparatrice soit maximale. Cette distance est appelée marge. Et les données les plus proches de la frontière sont appelées vecteurs de support.

### SVM Regression : 

Pour la régression la bibliothèque scikit-learn de Python met en place principalement les trois classes suivantes : **SVR**, **NuSVR** et **LinearSVR**.
https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html

### - SVR

Le SVR (Support Vector Regression) est une régression vectorielle de type Epsilon-support et est implémenté au niveau de libsvm.

SVR peut prendre le paramètre optionnel epsilon qui spécifie le tube epsilon dans lequel aucune pénalité dans la fonction de perte de training n’est associée aux points prédits à une distance epsilon de la valeur réelle. 
Ce paramètre prend par défaut la valeur 0.1.

##### Exemple

In [15]:
from sklearn.svm import SVR
x = [[10, 10], [18,18]]
y = [0, 2]
#instanciation
model_SVR = SVR( kernel = 'linear' , gamma = 'auto')
#training
model_SVR.fit( x, y)
#Prédiction
model_SVR.predict( [[20,20]])

array([2.35])

**Les attributs**

**support_** : Renvoie les indices des vecteurs de support.

**support_vectors_** :Renvoie les vecteurs de support.

**n_support_** : Représente le nombre de vecteurs de support pour chaque classe.

**dual_coef_** : Les coefficients des vecteurs de support dans la fonction de décision.

**coef_** : Renvoie le poids attribué aux caractéristiques.
    (Cet attribut n’est disponible que dans le cas d’un noyau linéaire.)

**intercept_** : Représente le terme constant dans la fonction de décision.

**fit_status_** : Renvoie 0 si la sortie est correctement ajustée et 1 si elle est mal ajustée.

**classes_** : Renvoie les étiquettes des classes.

In [16]:
model_SVR.support_ 

array([0, 1])

In [17]:
model_SVR.support_vectors_ 

array([[10., 10.],
       [18., 18.]])

In [18]:
model_SVR.n_support_

array([2])

In [19]:
model_SVR.dual_coef_

array([[-0.0140625,  0.0140625]])

In [20]:
model_SVR.coef_

array([[0.1125, 0.1125]])

In [21]:
model_SVR.intercept_

array([-2.15])

In [22]:
model_SVR.fit_status_

0

### LinearSVR

LinearSVR est la régression vectorielle de support linéaire et est similaire au SVR quand le noyau est linéaire (kernel = ‘linear’). La différence entre ces deux est que le linearSVR est implémenté en liblinear, le SVRquant à lui est implémenté en libsvm.

Le linearSVCR est plus adapté au grand nombre d’échantillons. Pour ces paramètres, il n’accepte pas le paramètre kernel car implicitement il est considéré linéaire. Il accepte en revanche le paramètre optionnel :Loss qui représente la fonction de perte et prend par défaut « epsilon_insensitive ».

**Remarque :**

Le linearSVC n’accepte pas les attributs suivants : support_, support_vectors_, n_support_, fit_status_ et dual_coef_.

**Exemple :**

Dans cet exemple on importe la classe make_regression qui permet de générer un problème de régression aléatoire, sur lequel va se former notre modèle linearSVR en lui appliquant la méthode fit().

In [24]:
from sklearn.svm import LinearSVR
from sklearn.datasets import make_regression
x, y = make_regression( n_features = 3, random_state = 0)
model_linearSVR = LinearSVR( dual = False, random_state = 0,
loss = 'squared_epsilon_insensitive', tol = 1e-5)
model_linearSVR.fit( x, y)
model_linearSVR.predict( [[0,0,0]])

array([0.05550606])

#### NuSVR

Le NuSVR est la régression vectorielle de support Nu, ce modèle est similaire au NuSVC sauf que le NuSVR utilise le paramètre nu pour contrôler le nombre de vecteurs de support ainsi ce dernier remplace epsilon.

**Exemple :**

In [28]:
from sklearn.svm import NuSVR
import numpy as np
echantillons = 20
caracteristiques = 15
np.random.seed(0)
x = np.random.randn( echantillons, caracteristiques)
y = np.random.randn( echantillons)
#instanciation
model_NuSVR = NuSVR( kernel = 'linear', gamma = 'auto', C = 1.0, nu = 0.1)
model_NuSVR.fit(x, y)
model_SVR.predict( [[20,20]])

array([2.35])

### SVM classification

Pour la classification, la bibliothèque scikit-learn de Python met en place trois classes : **SVC**, **NuSVC** et **LinearSVC**.

In [56]:
from sklearn.model_selection import train_test_split
data = pd.read_csv('../Data/Iris.csv')
x=df[["PetalLengthCm","PetalWidthCm"]].values
y = df.loc[:, "Species"]
df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [57]:
from sklearn.svm import SVC
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.20)
model_SVC = SVC( kernel = 'linear', gamma = 'scale', shrinking = False,)
model_SVC.fit( x_train, y_train)
print( model_SVC.score( x_test, y_test))#calcule de précision
#Prédiction_test
longueur = 2.5
largeur = 0.75
prediction = model_SVC.predict( [[longueur, largeur]])
resultat = "Résultat : "
if prediction[0] == 0:
    resultat = resultat + "setosa"
if prediction[0] == 1:
    resultat = resultat + "versicolor"
if prediction[0] == 2:
    resultat = resultat + "virginica"
print( resultat)

1.0
Résultat : 


### NuSVC


**NuSVC** est l’acronyme de Nu Support Vector Classification. C’est une classe fournie par la bibliothèque Scikit-learn et qui permet de faire la classification multi-classes. Le **NuSVC** ressemble au **SVC** avec une légère différence dans les paramètres.

Le **NuSVC** accepte un paramètre nu qui prend une valeur à virgule dans l’intervalle (0, 1] par défaut égale à 0.5 et qui représente une limite supérieure de la fraction des erreurs de training et une limite inférieure de la fraction des vecteurs de support.

Appliquons celui-ci sur la dataset « Iris.csv ».

In [59]:
from sklearn.svm import NuSVC
#instanciation
model_NuSVC = NuSVC( kernel = 'linear', gamma = 'scale', shrinking = False,)
#training
model_NuSVC.fit( x_train, y_train)
#calcule de précision
print(model_NuSVC.score( x_test, y_test))
#Prédiction
longueur = 2.5
largeur = 0.75
prediction = model_NuSVC.predict( [[longueur, largeur]])
#affichage des résultats
resultat = "Résultat : "
if prediction[0] == 0:
    resultat = resultat + "setosa"
if prediction[0] == 1:
    resultat = resultat + "versicolor"
if prediction[0] == 2:
    resultat = resultat + "virginica"
print(resultat)

1.0
Résultat : 


### LinearSVC

Le **linearSVC** est similaire à un certain degré au **SVC** dont le noyau est linéaire (kernel = ‘linear’). La différence entre ces deux est que le linearSVC est implémenté en liblinear, le SVC, quant à lui, est implémenté enlibsvm.

Le **linearSVC** est plus adapté au grand nombre d’échantillons. Pour ces paramètres, il n’accepte pas le paramètre kernel car implicitement il est considéré comme étant linéaire. Il accepte en revanche les deux paramètres optionnels suivants :

- **Penalty** : spécifie la norme utilisée dans la pénalisation. Et qui est soit l1 soit l2.

- **Loss** : représente la fonction de perte.

**Remarque :**

Le **linearSVC** n’accepte pas les attributs suivants : **support_**, **support_vectors_**,
    **n_support_**, **fit_status_ et dual_coef_**.

Appliquons ce modèle à la dataset « iris ».

In [64]:
from sklearn.svm import LinearSVC
model_linearSVC = LinearSVC( dual = False, random_state = 0, penalty = 'l1', tol = 1e-3)
model_linearSVC.fit( x_train, y_train) #training
print(model_linearSVC.score( x_test, y_test))#calcule de précision
#Prédiction_test
longueur = 2.5
largeur = 0.75
prediction = model_linearSVC.predict( [[longueur, largeur]])
#affichage des résultats
resultat = "Résultat : "
if prediction[0] == 0:
    resultat = resultat + "setosa"
if prediction[0] == 1:
    resultat = resultat + "versicolor"
if prediction[0] == 2:
    resultat = resultat + "virginica"
print(resultat)

0.9666666666666667
Résultat : 
