# Support Vector Machines

Voici un tutoriel étape par étape pour expliquer ce code Python, qui utilise des outils de machine learning de la bibliothèque scikit-learn. L'objectif est de construire et d'évaluer deux modèles de classification pour prédire si une tumeur est bénigne ou maligne à partir de données sur le cancer du sein.

Explication : Machine à Vecteurs de Support (SVM)

La Machine à Vecteurs de Support (SVM, pour Support Vector Machine) est un modèle d'apprentissage automatique puissant utilisé pour résoudre des problèmes de classification et de régression. Voici une explication complète et détaillée, enrichie pour clarifier son fonctionnement et ses avantages :
Définition et Objectif

    Une SVM est un algorithme d'apprentissage supervisé qui permet de classer des données en catégories. Par exemple, dans ce cas, elle aide à prédire si une tumeur est bénigne ou maligne.
    Elle est particulièrement efficace pour les problèmes complexes, souvent surpassant d'autres algorithmes comme les réseaux de neurones pour des données bien structurées.
    Le but principal d'une SVM est de trouver une fonction mathématique linéaire ou non linéaire qui sépare les données en classes distinctes.

Principe Fondamental

    Hyperplan : La SVM cherche à déterminer un hyperplan optimal qui divise les données en deux classes. Un hyperplan est une ligne (en 2D), un plan (en 3D) ou une structure de dimension supérieure dans des espaces plus complexes.
    Marge (Margin) : La marge est la distance entre l'hyperplan et les points les plus proches de chaque classe (appelés vecteurs de support).
        La SVM maximise cette marge, ce qui rend la classification plus robuste.
    Infinité de solutions : Théoriquement, il y a une infinité d'hyperplans possibles pour séparer les classes, mais la SVM choisit celui avec la plus grande marge, car cela réduit le risque d'erreur.

Pourquoi la SVM est-elle puissante ?

    Elle utilise des concepts mathématiques avancés pour transformer les données non linéaires en un espace où elles deviennent linéairement séparables grâce à des noyaux (kernels).
        Par exemple, le noyau linéaire est utilisé dans le tutoriel, mais on peut aussi utiliser des noyaux comme polynomiaux ou RBF (Radial Basis Function) pour des séparations plus complexes.
    Test intelligent : Une fois entraînée, la SVM peut prédire la classe des points inconnus en fonction de leur position par rapport à l'hyperplan.

Pourquoi SVM > Réseaux de Neurones dans certains cas ?

    Elle est souvent plus performante sur des données de petite ou moyenne taille et lorsque les classes sont bien définies.
    Contrairement aux réseaux de neurones, la SVM est moins sensible aux paramètres initiaux et nécessite généralement moins de données pour bien fonctionner.

Étapes dans l'entraînement d'une SVM

    Extraction des données : Identifier les caractéristiques (features) importantes dans vos données.
    Choix du noyau : Décider du type de fonction (noyau) qui sera utilisé pour trouver l'hyperplan optimal (linéaire, RBF, polynômial, etc.).
    Optimisation : Utiliser des techniques d'optimisation pour maximiser la marge.
    Évaluation : Tester le modèle sur des données inconnues (ensemble de test) pour évaluer sa précision.

Conclusion

La SVM est un modèle mathématique rigoureux et efficace pour classer les données. En maximisant la marge et en trouvant l'hyperplan optimal, elle offre souvent des performances élevées, même dans des contextes où d'autres modèles comme les réseaux de neurones pourraient nécessiter plus de données ou de réglages. Elle est particulièrement utile dans des applications médicales, comme la détection de maladies, où une précision élevée est cruciale.

# 1. Importation des bibliothèques

load_breast_cancer : Charge un ensemble de données prédéfini dans scikit-learn sur le cancer du sein.
train_test_split : Divise les données en un ensemble d'entraînement et un ensemble de test.
SVC : Importation du classificateur "Support Vector Machine" (SVM).
KNeighborsClassifier : Importation du classificateur basé sur les k plus proches voisins (k-NN).

In [6]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

# 2. Chargement et préparation des données

data : Contient l'ensemble des données sur le cancer du sein.

    data.data : Matrice des caractéristiques (dimensions des tumeurs, textures, etc.).
    data.target : Les étiquettes (0 = maligne, 1 = bénigne).

X : Les caractéristiques d'entrée.
Y : Les étiquettes de sortie.

In [26]:
data = load_breast_cancer()
X = data.data
Y = data.target

# 3. Division des données

train_test_split : Divise les données en deux parties :

    x_train et y_train : Ensemble d'entraînement utilisé pour construire les modèles.
    x_test et y_test : Ensemble de test utilisé pour évaluer les modèles.

test_size=0.2 : 20% des données sont réservées pour les tests.

In [15]:
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)
# 0.2 = 20 %

# 4. Construction du premier modèle : Support Vector Classifier (SVC)

SVC :

kernel='linear' : Utilise un noyau linéaire pour séparer les données.
C=3 : Contrôle la régularisation. Une valeur plus élevée donne plus d'importance à la classification correcte des exemples
d'entraînement.

fit(x_train, y_train) : Entraîne le modèle avec les données d'entraînement.

In [27]:
clf = SVC(kernel='linear', C=3)
clf.fit(x_train, y_train)

SVC(C=3, kernel='linear')

# 5. Construction du deuxième modèle : k-Nearest Neighbors (k-NN)

KNeighborsClassifier :

    n_neighbors=3 : Utilise 3 voisins pour classer chaque exemple.

fit(x_train, y_train) : Entraîne le modèle sur les données d'entraînement.

In [23]:
#ajouter un deuxiéme classificateur 
clf2 = KNeighborsClassifier(n_neighbors=3)
clf2.fit(x_train, y_train)

KNeighborsClassifier(n_neighbors=3)

# 6. Évaluation des modèles

clf.score et clf2.score :

Calculent la précision des modèles respectifs
sur les données de test. La précision est la proportion des prédictions correctes.

In [25]:
# score en pourcentage
print(clf.score(x_test, y_test))
print(clf2.score(x_test, y_test))

0.9385964912280702
0.8771929824561403


# 7. Résultats

Le modèle SVM avec un noyau linéaire a une précision d'environ 93.9%.
Le modèle k-NN avec 3 voisins a une précision d'environ 87.7%.

# 8. Conclusion

Ce tutoriel montre comment utiliser scikit-learn pour :

    Charger un jeu de données.
    Diviser les données en ensembles d'entraînement et de test.
    Construire et entraîner deux modèles différents (SVM et k-NN).
    Comparer les performances des modèles.

Vous pouvez expérimenter avec différents paramètres pour SVC (par ex. kernel='rbf') ou KNeighborsClassifier (par ex. changer n_neighbors) pour voir comment ils affectent la précision.