### Import librairies
Nous importons les bibliothèque fondamentale pour la programme

In [69]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Import donnée
Nous allons importer les données des trainSet et testSet dans les features et la variable à déviner

In [70]:
def importData(path, predictColumn=False):
    columnNames=["ECP","RC","MIN","MAX","MEAN","START","END","DURATION","CV","A1","A2","A3","A4","FP"]
    #columnNames=["RC","MIN","MAX","MEAN","START","END","DURATION","CV","A1","A2","A3","A4","FP"]
    delimit=','
    data = pd.read_csv(path, names=columnNames, sep=delimit)
    #data = data.drop(columns="ECP")
    if predictColumn:
        x=data.iloc[:, 1:-1].values
        y=data['FP'].values
        return x, y
    else:
        x=data.iloc[:,:].values
        return x

In [71]:
#pathTrain='../3-DataSet/dataFinale/p25/traintSet_p25.csv'
pathTrain='../3-DataSet/dataFinale/p27/traintSet_p27.csv'
#pathTrain='../3-DataSet/dataFinale/p30/traintSet_p30.csv'
X_train, y_train = importData(pathTrain,True)

#pathTest='../3-DataSet/dataFinale/p25/testSet_p25.csv'
pathTest='../3-DataSet/dataFinale/p27/testSet_p27.csv'
#pathTest='../3-DataSet/dataFinale/p30/testSet_p30.csv'
X_test, y_test = importData(pathTest,True)

### Normalisation et mise en echelle
Avant de faire des prédictions réelles, il est toujours recommandé de mettre à l'échelle les entités afin que toutes puissent être évaluées uniformément. 
L'algorithme de descente de gradient (qui est utilisé dans la formation de réseaux de neurones et d'autres algorithmes d'apprentissage automatique) converge également plus rapidement avec des fonctionnalités normalisées.
![](scaling.JPG)

In [72]:
from sklearn.preprocessing import StandardScaler

def scaleData(data):
    scaler = StandardScaler()
    scaler.fit(data)
    return scaler.transform(data)


X_train = scaleData(X_train)
X_test = scaleData(X_test)

### Classification & prediction
Les machines à vecteurs de support ou séparateurs à vaste marge (en anglais support vector machine, SVM) sont un ensemble de techniques d'apprentissage supervisé destinées à résoudre des problèmes de discrimination et de régression. Les SVM sont une généralisation des classifieurs linéaires.

Les séparateurs à vaste marge ont été développés dans les années 1990 à partir des considérations théoriques de Vladimir Vapnik sur le développement d'une théorie statistique de l'apprentissage : la théorie de Vapnik-Tchervonenkis. Ils ont rapidement été adoptés pour leur capacité à travailler avec des données de grandes dimensions, le faible nombre d'hyperparamètres, leurs garanties théoriques, et leurs bons résultats en pratique.

Les SVM ont été appliqués à de très nombreux domaines (bio-informatique, recherche d'information, vision par ordinateur, finance…). Selon les données, la performance des machines à vecteurs de support est de même ordre, ou même supérieure, à celle d'un réseau de neurones ou d'un modèle de mélanges gaussiens.

In [73]:
from sklearn.svm import SVC

#Classification
svmLinear = SVC(kernel="linear",random_state=0)
svmLinear.fit(X_train, y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=0, shrinking=True,
  tol=0.001, verbose=False)

In [74]:
#prediction
y_pred_svm_linear = svmLinear.predict(X_test)

## Evaluation
Pour évaluer un algorithme, la matrice de confusion, la précision, le rappel et le score f1 sont les mesures les plus couramment utilisées. Les méthodes confusion_matrixet classification_reportde sklearn.metricspeuvent être utilisées pour calculer ces métriques. Jetez un œil au script suivant:

In [75]:
from sklearn.metrics import classification_report, confusion_matrix
from sklearn import metrics

def printMetrics(yTest, yPred):
    print("Accuracy: ", metrics.accuracy_score(yTest, yPred))
    print("Ajusted Rand Square",metrics.adjusted_rand_score(yTest, yPred))
    
def showConfusionMatrix(ytest,ypred):
    print("Confusion Matrix \n",confusion_matrix(ytest, ypred))
    print("Repport: \n",classification_report(ytest, ypred))
    
def showScore(classifier, xtest, ytest):
    print('Score: %f' % classifier.score(xtest,ytest))
    print('Erreur: %f' % (1-classifier.score(xtest,ytest)))

In [76]:
showConfusionMatrix(y_test,y_pred_svm_linear)
showScore(svmLinear, X_test,y_test)
printMetrics(y_test, y_pred_svm_linear)

Confusion Matrix 
 [[328   0]
 [ 14  14]]
Repport: 
              precision    recall  f1-score   support

          0       0.96      1.00      0.98       328
          1       1.00      0.50      0.67        28

avg / total       0.96      0.96      0.95       356

Score: 0.960674
Erreur: 0.039326
Accuracy:  0.960674157303
Ajusted Rand Square 0.619402806859


In [77]:
#Classification gaussien
svmRbf = SVC(kernel='rbf',random_state=0)
svmRbf.fit(X_train, y_train)

#prediction
y_pred_rbf = svmRbf.predict(X_test)

showConfusionMatrix(y_test,y_pred_rbf)
showScore(svmRbf, X_test,y_test)
printMetrics(y_test, y_pred_rbf)

Confusion Matrix 
 [[328   0]
 [ 17  11]]
Repport: 
              precision    recall  f1-score   support

          0       0.95      1.00      0.97       328
          1       1.00      0.39      0.56        28

avg / total       0.95      0.95      0.94       356

Score: 0.952247
Erreur: 0.047753
Accuracy:  0.952247191011
Ajusted Rand Square 0.514730434536


### Save Model
Nous allons sauvegarder le model pour pouvoir l'utiliser pour la prochaine fois sans faire l'apprentissage désormais.

In [88]:
import pickle
filename = 'gaussianSVC_Model.sav'
pickle.dump(svmRbf, open(filename, 'wb'))

In [78]:
#Classification gaussien
svmPoly = SVC(kernel='poly', degree=8,random_state=0)
svmPoly.fit(X_train, y_train)

#prediction
y_predPoly = svmPoly.predict(X_test)

showConfusionMatrix(y_test,y_predPoly)
showScore(svmPoly, X_test,y_test)
printMetrics(y_test, y_predPoly)

Confusion Matrix 
 [[327   1]
 [ 19   9]]
Repport: 
              precision    recall  f1-score   support

          0       0.95      1.00      0.97       328
          1       0.90      0.32      0.47        28

avg / total       0.94      0.94      0.93       356

Score: 0.943820
Erreur: 0.056180
Accuracy:  0.943820224719
Ajusted Rand Square 0.422593652061


In [79]:
#Classification gaussien
svmSig = SVC(kernel='sigmoid',random_state=0)
svmSig.fit(X_train, y_train)

#prediction
y_predSig = svmSig.predict(X_test)

showConfusionMatrix(y_test,y_predSig)
showScore(svmSig, X_test,y_test)
printMetrics(y_test, y_predSig)

Confusion Matrix 
 [[309  19]
 [ 19   9]]
Repport: 
              precision    recall  f1-score   support

          0       0.94      0.94      0.94       328
          1       0.32      0.32      0.32        28

avg / total       0.89      0.89      0.89       356

Score: 0.893258
Erreur: 0.106742
Accuracy:  0.893258426966
Ajusted Rand Square 0.230240266567


### Predict other Data
Nous allons maintenant tester la prédiction d'autres données qui ne sont pas les tests

In [82]:
path='../3-DataSet/dataFinale/p25/testSet_p25.csv'
#path='../3-DataSet/dataFinale/p27/testSet_p27.csv'
#path='../3-DataSet/dataFinale/p230/testSet_p30.csv'

#cols=["ECP","RC","MIN","MAX","MEAN","START","END","DURATION","CV","A1","A2","A3","A4"]
cols=["ECP","RC","MIN","MAX","MEAN","START","END","DURATION","CV","A1","A2","A3","A4","FP"]
toPredict = pd.read_csv(path,names=cols, sep=',')
toPredict.head(5)

Unnamed: 0,ECP,RC,MIN,MAX,MEAN,START,END,DURATION,CV,A1,A2,A3,A4,FP
0,3005FB63AC1F3681EC8815B921,9,-58.5,-52.0,-56.555556,1581420973596918,1581420974726948,1130030,-0.040071,3,0,6,0,0
1,E2806890000000001834376767,2,-63.0,-62.0,-62.5,1581427757606159,1581427757711480,105321,-0.008,0,0,2,0,0
2,E2806890000000001834531777,66,-63.5,-58.0,-60.045455,1581426772161856,1581426781271598,9109742,-0.016888,66,0,0,0,1
3,2005FB63EAC13681E4EC0FD224,4,-65.0,-59.0,-62.0,1581420375415960,1581420375804651,388691,-0.038253,0,4,0,0,0
4,3005FB63AC1F3681EC88142830,7,-57.5,-45.0,-50.928571,1581414771515647,1581414773005717,1490070,-0.087408,7,0,0,0,0


In [86]:
#toPredict.loc[:,'RC':'A4']
X_toPredict = scaleData(toPredict.loc[:,'RC':'A4'])
y_toPredict = toPredict['FP']

#new_pred = svmLinear.predict(X_toPredict)
new_pred = svmRbf.predict(X_toPredict)

#showScore(svmLinear, X_toPredict,y_toPredict)
showScore(svmRbf, X_toPredict,y_toPredict)

showConfusionMatrix(y_toPredict,new_pred)
printMetrics(y_toPredict, new_pred)

Score: 0.991150
Erreur: 0.008850
Confusion Matrix 
 [[218   0]
 [  2   6]]
Repport: 
              precision    recall  f1-score   support

          0       0.99      1.00      1.00       218
          1       1.00      0.75      0.86         8

avg / total       0.99      0.99      0.99       226

Accuracy:  0.991150442478
Ajusted Rand Square 0.844601574612


In [87]:
toPredict['IS_FP']=new_pred
toPredict

Unnamed: 0,ECP,RC,MIN,MAX,MEAN,START,END,DURATION,CV,A1,A2,A3,A4,FP,IS_FP
0,3005FB63AC1F3681EC8815B921,9,-58.5,-52.0,-56.555556,1581420973596918,1581420974726948,1130030,-0.040071,3,0,6,0,0,0
1,E2806890000000001834376767,2,-63.0,-62.0,-62.500000,1581427757606159,1581427757711480,105321,-0.008000,0,0,2,0,0,0
2,E2806890000000001834531777,66,-63.5,-58.0,-60.045455,1581426772161856,1581426781271598,9109742,-0.016888,66,0,0,0,1,1
3,2005FB63EAC13681E4EC0FD224,4,-65.0,-59.0,-62.000000,1581420375415960,1581420375804651,388691,-0.038253,0,4,0,0,0,0
4,3005FB63AC1F3681EC88142830,7,-57.5,-45.0,-50.928571,1581414771515647,1581414773005717,1490070,-0.087408,7,0,0,0,0,0
5,3005FB63AC1F3681EC88116627,2,-52.0,-52.0,-52.000000,1581419573582440,1581419573687269,104829,-0.000000,0,0,2,0,0,0
6,7336CEF1C1FE3682DEA1004C27,2,-54.5,-53.5,-54.000000,1581419574129930,1581419574275670,145740,-0.009259,0,0,2,0,0,0
7,7336CEF1C1FE3682DEA1004A31,4,-60.0,-52.5,-56.000000,1581415047199925,1581415047726415,526490,-0.058888,0,0,0,4,0,0
8,E2806890000000001834531775,62,-60.5,-57.5,-58.258065,1581429871609955,1581429880213044,8603089,-0.013326,62,0,0,0,1,1
9,7336CEF1C1FE3682DEA1005027,2,-56.5,-56.5,-56.500000,1581419574136143,1581419574289249,153106,-0.000000,0,0,2,0,0,0


In [109]:
#Export predict data
pathExport='../6-ClassifiedData/knn_predict_30_2.csv'
toPredict.to_csv(pathExport, index = None, header=True)