# Classification avec SVM

Dans scikit-learn, il existe un classifieur *LinearSVC()* https://scikit-learn.org/stable/modules/svm.html. Comme son nom l'indique, ce classifier utilise uniquement un noyau linéaire. Dans le classificateur LinearSVC(), nous ne transmettons pas la valeur du noyau car il n'est utilisé qu'à des fins de classification linéaire.

Scikit-Learn fournit deux autres classifiers - *SVC()* et *NuSVC()* qui sont utilisés à des fins de classification. Ces classifiers sont pour la plupart similaires avec quelques différences dans les paramètres. NuSVC() est similaire à SVC() mais utilise un paramètre pour contrôler le nombre de vecteurs de support. Nous passons les valeurs de kernel, gamma et C ainsi que d'autres paramètres. Par défaut, le paramètre du noyau utilise rbf comme valeur, mais nous pouvons transmettre des valeurs telles que poly, linear, sigmoïde ou fonction appelable.

### description du dataset
Les pulsars sont un type rare d'étoile à neutrons qui produisent des émissions radio détectables ici sur Terre. Ils présentent un intérêt scientifique considérable en tant que sondes de l'espace-temps, du milieu interstellaire et des états de la matière. Des algorithmes de classification en particulier sont adoptés, qui traitent les ensembles de données comme des problèmes de classification binaire. Ici, les exemples légitimes de pulsar forment la classe positive minoritaire et les exemples fallacieux forment la classe négative majoritaire.

L'ensemble de données partagé ici contient 16 259 exemples parasites causés par RFI/bruit et 1 639 exemples réels de pulsar. Chaque ligne répertorie les variables en premier, et l'étiquette de classe est l'entrée finale. Les étiquettes de classe utilisées sont 0 (négatif) et 1 (positif).

In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt # for data visualization
import seaborn as sns # for statistical data visualization

data = '../Data/data5/pulsar_data_train.csv'

df = pd.read_csv(data)

In [None]:
df['target_class'].value_counts()

In [None]:
df.info()

In [None]:
df.isnull().sum()

In [None]:
# df = ___

In [None]:
X_train = df.drop(['target_class'], axis=1)

y_train = df['target_class']

In [None]:
df_test = pd.read_csv('../Data/data5/pulsar_data_test.csv')
#df_test = ___

X_test = df_test.drop(['target_class'], axis=1)

y_test = df_test['target_class']

In [None]:
# Feature Scaling 

cols = df.columns.drop('target_class')

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_train = scaler.fit_transform(X_train)

X_test = scaler.transform(X_test)

X_train = pd.DataFrame(X_train, columns=[cols])

X_test = pd.DataFrame(X_test, columns=[cols])

X_train.describe()

## Run SVM with default hyperparameters

In [None]:
# import SVC classifier
from sklearn.svm import SVC
# import metrics to compute accuracy
from sklearn.metrics import accuracy_score

# instantiate classifier with default hyperparameters
svc=SVC() 

# fit classifier to training set
svc.fit(X_train, y_train)

Vous avez probablement rencontré une erreur avec ce message
`ValueError: Input contains NaN, infinity or a value too large for dtype('float64').`
**Pourquoi et quelle est la solution ?**

In [None]:
# make predictions on test set
y_pred=svc.predict(X_test)

# compute and print accuracy score
print('Model accuracy score with default hyperparameters: {0:0.4f}'. format(accuracy_score(y_test, y_pred)))

**Run SVM with rbf kernel and C=100.0**

In [None]:
# instantiate classifier with rbf kernel and C=100
svc = ___

# fit classifier to training set
svc.___

# make predictions on test set
y_pred = svc.___

# compute and print accuracy score
print('Model accuracy score with rbf kernel and C=100.0 : {0:0.4f}'.format(accuracy_score(y_test, y_pred)))

**Run SVM with rbf kernel and C=1000.0**

Comparez les valeurs d'accuracy ?

## Run SVM with linear kernel

In [None]:
# instantiate classifier with linear kernel and C=1.0
linear_svc = SVC(kernel='linear', C=1.0) 

linear_svc.fit(X_train,y_train)

y_pred_test = linear_svc.predict(X_test)

# compute and print accuracy score
print('Model accuracy score with linear kernel and C=1.0 : {0:0.4f}'. format(accuracy_score(y_test, y_pred_test)))

**Run SVM with rbf kernel and C=100.0 then C=1000.0**

**Compare the train-set and test-set accuracy**

Now, we will compare the train-set and test-set accuracy to check for overfitting.

In [None]:
y_pred_train = linear_svc.predict(___)

In [None]:
print('Training-set accuracy score: {0:0.4f}'. format(accuracy_score(y_train, y_pred_train)))

## Run SVM with polynomial kernel

**Run SVM with polynomial kernel and C=1.0 then C=100.0**

In [None]:
# instantiate classifier with polynomial kernel and C=1.0
poly_svc = SVC(___) 

poly_svc.fit(X_train,y_train)

y_pred = poly_svc.predict(X_test)

# compute and print accuracy score
print('Model accuracy score with polynomial kernel and C=1.0 : {0:0.4f}'. format(accuracy_score(y_test, y_pred)))

## Run SVM with sigmoid kernel

**Run SVM with sigmoid kernel and C=1.0 then C=100.0**

**Commentaires**

Nous obtenons une précision maximale avec rbf et un noyau linéaire avec C=100.0. et la précision est de 0,9832. Sur la base de l'analyse ci-dessus, nous pouvons conclure que la précision de notre modèle de classification est très bonne. Notre modèle fait un très bon travail en termes de prédiction des étiquettes de classe.

Mais ce n'est pas vrai. Ici, nous avons un ensemble de données déséquilibré. Le problème est que la précision est une mesure inadéquate pour quantifier les performances prédictives dans le problème de jeu de données déséquilibré.

Nous devons donc explorer des métriques alternatives qui fournissent une meilleure orientation dans la sélection des modèles. En particulier, nous aimerions connaître la distribution sous-jacente des valeurs et le type d'erreurs que fait notre classificateur.

Une telle métrique pour analyser les performances du modèle dans le problème des classes déséquilibrées est la matrice de confusion.

## Matrice de confusion

Une matrice de confusion est un outil permettant de résumer les performances d'un algorithme de classification. Une matrice de confusion nous donnera une image claire des performances du modèle de classification et des types d'erreurs produites par le modèle. Elle nous donne un résumé des prédictions correctes et incorrectes ventilées par catégorie. Le résumé est représenté sous forme de tableau.

Quatre types de résultats sont possibles lors de l'évaluation des performances d'un modèle de classification. Ces quatre résultats sont décrits ci-dessous :

**Vrais positifs (TP)** - Les vrais positifs se produisent lorsque nous prédisons qu'une observation appartient à une certaine classe et que l'observation appartient en fait à cette classe.

**Vrais négatifs (TN)** - Les vrais négatifs se produisent lorsque nous prédisons qu'une observation n'appartient pas à une certaine classe et que l'observation n'appartient pas à cette classe.

**Faux positifs (FP)** - Les faux positifs se produisent lorsque nous prédisons qu'une observation appartient à une certaine classe mais que l'observation n'appartient pas à cette classe. Ce type d'erreur est appelé erreur de type I.

**Faux négatifs (FN)** - Les faux négatifs se produisent lorsque nous prédisons qu'une observation n'appartient pas à une certaine classe mais que l'observation appartient en fait à cette classe. C'est une erreur très grave et elle est appelée erreur de type II.

Ces quatre résultats sont résumés dans une matrice de confusion donnée ci-dessous.

In [None]:
# Print the Confusion Matrix and slice it into four pieces

from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred_test)
cm

In [None]:
print('Confusion matrix\n', cm)

print('True Positives(TP) = ', cm[0,0])

print('True Negatives(TN) = ', cm[1,1])

print('False Positives(FP) = ', cm[0,1])

print('False Negatives(FN) = ', cm[1,0])

### Rapport de classification

Le rapport de classification est un autre moyen d'évaluer les performances du modèle de classification. Il affiche les scores de précision, de rappel, de f1 et de support pour le modèle. J'ai décrit ces termes plus tard.

Nous pouvons imprimer un rapport de classification comme suit :

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred_test))