### Introduction au algorithme SVM (Support Vector Machine)


Le sypport vector machine est un autre algorithme simple que tout expert en Machine learning devrait avoir dans son profil. Le SVM est hautement préférée par beaucoup car il produit une précision importante avec une puissance de calcul moindre. Le SVM  peut être utilisée pour des tâches de régression et de classification. Mais elle est largement utilisée dans les objectifs de classification.

L'objectif de l'algorithme SVM est de trouver un hyperplan dans un espace à N dimensions (N - le nombre de features) qui classifie distinctement les points de données.
Pour séparer les deux classes de points de données, de nombreux hyperplans peuvent être choisis. Notre objectif est de trouver un plan qui a la marge maximale, c'est-à-dire la distance maximale entre les points de données des deux classes. La maximisation de la distance de marge apporte un certain renforcement afin que les futurs points de données puissent être classés avec plus de confiance et de précision.

Les hyperplans sont des limites de décision qui aident à classer les points de données. Les points de données qui tombent de part et d'autre de l'hyperplan peuvent être attribués à différentes classes. De plus, la dimension de l'hyperplan dépend du nombre de features. Si le nombre de features d'entrée est de 2, alors l'hyperplan n'est qu'une ligne. Si le nombre d'éléments d'entrée est de 3, l'hyperplan devient un plan bidimensionnel. Il devient difficile à imaginer lorsque le nombre d'éléments dépasse 3.

Les Support vectors sont des points de données qui sont plus proches de l'hyperplan et qui influencent la position et l'orientation de l'hyperplan. En utilisant ces vecteurs de support, nous maximisons la marge du classificateur. La suppression des vecteurs de support modifiera la position de l'hyperplan. Ce sont les points qui nous aident à construire notre SVM.

"Autre définition"

SVM est un algorithme supervisé qui peut classer les cas en trouvant un séparateur.
Le SVM fonctionne en faisant d'abord correspondre les données à un espace de features à haute dimension afin que les points de données puissent être classés, même lorsque les données ne sont pas par ailleurs séparables de manière linéaire.
Ensuite, un séparateur est estimé pour les données.
Les données doivent être transformées de manière à ce qu'un séparateur puisse être dessiné comme un hyperplan.



Les applications de SVM : 
Face detection  : Détection de visages
text and hypertext categorization : la catégorisation des textes et des hypertextes
classification of images  : la classification des images 
bioinformatics : bio-informatique
remote homology detection : détection d'homologie à distance
handwriting detection : détection de l'écriture manuscrite
Generalized predictive control : Contrôle prédictif généralisé 

### A propos du dataset 

Iris dataset  est un ensemble de données multivariées introduit par le statisticien et biologiste britannique Ronald Fisher dans son article de 1936 intitulé "The use of multiple measurements in taxonomic problems". On l'appelle parfois Iris dataset d'Anderson parce qu'Edgar Anderson a recueilli les données pour quantifier la variation morphologique des fleurs d'iris de trois espèces apparentées. L'ensemble de données comprend 50 échantillons de chacune des trois espèces d'iris (Iris Setosa, Iris virginica et Iris versicolor). Quatre caractéristiques ont été mesurées à partir de chaque échantillon : la longueur et la largeur des sépales et des pétales, en centimètres.

Cet ensemble de données est devenu un cas d'essai typique pour de nombreuses techniques de classification statistique dans l'apprentissage machine, comme SVM.


L'ensemble de données contient un ensemble de 150 enregistrements sous 5 attributs - longueur de pétale, largeur de pétale, longueur de sépale, largeur de sépale et classe (espèce).



### Importer les modules nécessaires : 


In [1]:
from sklearn import datasets 
from sklearn.model_selection import train_test_split 
from sklearn import svm 
from sklearn import metrics 

### La collecte de données

In [3]:
cancer_data=datasets.load_breast_cancer()

In [5]:
print(cancer_data)

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
 

In [6]:
# le variable à prédire 
cancer_data['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

### Train & test 


In [26]:
X_train,X_test,y_train,y_test=train_test_split(cancer_data.data,cancer_data.target,test_size=0.4,random_state=0)

In [8]:
classifier=svm.SVC(kernel="linear")
classifier.fit(X_train,y_train)


SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='linear', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [20]:
prediction=classifier.predict(X_test)

### Evaluation 

In [21]:
print("accuracy : ",metrics.accuracy_score(y_test,y_pred=prediction))

accuracy :  0.9736842105263158


In [22]:
print("precision : ",metrics.precision_score(y_test,y_pred=prediction))

precision :  0.9793103448275862


In [23]:
print("recall : ",metrics.recall_score(y_test,y_pred=prediction))

recall :  0.9793103448275862


In [25]:
#ou bien 
print(metrics.classification_report(y_test,y_pred=prediction))

              precision    recall  f1-score   support

           0       0.96      0.96      0.96        83
           1       0.98      0.98      0.98       145

    accuracy                           0.97       228
   macro avg       0.97      0.97      0.97       228
weighted avg       0.97      0.97      0.97       228

