
# Métodos SVM - SVC - Kernels Lineal, No Lineal y Naive Bayes (GaussianNB)

*@autor: Jesús Manuel Puentes Gutiérrez*

*Universidad de Alcalá*
______________________________________________


En este cuaderno vamos a ejecutar 3 métodos con los mismos datos aleatorios seleccionados, de modo que podamos comparar la eficiencia de estos algoritmos.

En el caso del **kernel No Lineal** utiliza el *kernel No Lineal* de *sklearn* con los parámetros por defecto, es decir, un *kernel RBF* con grado 3 y valor automático de gamma. Se utiliza la librería *SVC()* con una estrategia multi-clase de *one-against-one*.

El **kernel Lineal** utiliza la librería *LinearSVC* que implementa una estrategia multi-clase de *one-vs-the-rest*. La fórmula matemática que utiliza es una función lineal:

$$(x, x')$$

El algoritmo utilizado con el último método, **Naive Bayes (Gaussian NB)**, asume que las variables o características son independientes dada la clase o salida.


______________________________________________



In [1]:
import csv
import random
import math
import operator

from sklearn import svm
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB

#### Función loadDataset
Con esta función seleccionaremos los datos de entrada de forma aleatoria

In [2]:
def loadDataset(filename, split, trainingSet=[] , testSet=[]):
	with open(filename) as csvfile:
	    lines = csv.reader(csvfile)
	    dataset = list(lines)
	    for x in range(len(dataset)-1):
	        for y in range(10):
	            dataset[x][y] = float(dataset[x][y])
	        if random.random() < split:
	            trainingSet.append(dataset[x])
	        else:
	            testSet.append(dataset[x])

#### Función getAccuracy
Con esta función obtenemos la precisión con la que se realizan las predicciones mediante los datos de prueba seleccionados

In [3]:
def getAccuracy(testSet, predictions):
	correct = 0
	for x in range(len(testSet)):
		if testSet[x][-1] == predictions[x]:
			correct += 1
	return (correct/float(len(testSet))) * 100.0


### Programa principal

Preparamos los datos y los cargamos de nuestro dataset preparado en un archivo tipo *csv*.

Seleccionamos un **67%** de los datos para entrenamiento y el resto para prueba





In [4]:
trainingSet=[]
testSet=[]
split = 0.67

# En Windows
# loadDataset(r'C:\Users\Chus\Google Drive\DOCTORADO\DataSet\Data set CAR PSQ H12O\cmbd10.csv', split, trainingSet, testSet)

# En Mac
loadDataset('/Users/shuli/Desktop/Universidad de Alcalá/DOCTORADO/DataSet/Data set CAR PSQ H12O/cmbd10.csv', split, trainingSet, testSet)

Mostramos como se han distribuido los datos de entrenamiento y los de prueba

In [5]:
print ('Train set: ' + repr(len(trainingSet)))
print ('Test set: ' + repr(len(testSet)))

Train set: 42775
Test set: 20979


Se eligen y preparan los datos que se van a usar como entrenamiento:

- Se selecciona como parte **X** (características del dataset) todas las variables menos la última
- Se selecciona como parte **y** (clases del dataset) la última variable del dataset, que es la variable resultado

In [6]:
X = []
y = []

for x in range(len(trainingSet)):
    X.append(trainingSet[x][:-1])
    
for x in range(len(trainingSet)):
    y.append(trainingSet[x][-1])

Se eligen y preparan los datos que se van a usar como pruebas:

- Se selecciona como parte **X_test** (características del dataset) todas las variables menos la última
- Se selecciona como parte **y_test** (clases del dataset) la última variable del dataset. Esta variable contendrá los valores reales que deberán compararse con la variable predicha para ver su porcentaje de acierto

In [7]:
X_test = []
y_test = []

for x in range(len(testSet)):
    X_test.append(testSet[x][:-1])

for x in range(len(testSet)):
    y_test.append(testSet[x][-1])

### Kernel No Lineal

Elegimos el **kernel No Lineal** y lo entrenamos  -- Tiempo de ejecución elevado

In [8]:
clf=SVC()

clf.fit(X,y)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

A continuación se predice el resultado con el algoritmo que hemos entrenado

In [9]:
y_predicted = []

y_predicted = clf.predict(X_test)

### Resultados

Se comparan los resultados reales (*y_test*) con los que hemos predicho y se muestra la precisión real del algoritmo 

In [10]:
accuracy = getAccuracy(y_test, y_predicted)

print('Accuracy: ' + repr(accuracy) + '%')

Accuracy: 85.86681920015253%


### Kernel Lineal

Elegimos el **kernel Lineal** y lo entrenamos

In [11]:
lin_clf = svm.LinearSVC()

lin_clf.fit(X,y)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

A continuación se predice el resultado con el algoritmo que hemos entrenado

In [12]:
y_predicted = []

y_predicted = lin_clf.predict(X_test)

### Resultados

Se comparan los resultados reales (*y_test*) con los que hemos predicho y se muestra la precisión real del algoritmo 

In [13]:
accuracy = getAccuracy(y_test, y_predicted)

print('Accuracy: ' + repr(accuracy) + '%')

Accuracy: 85.77625244291912%


### Kernel Naive Bayes

Elegimos el **kernel Naive Bayes** y lo entrenamos

In [14]:
gnb = GaussianNB()

gnb.fit(X,y)

GaussianNB()

A continuación se predice el resultado con el algoritmo que hemos entrenado

In [15]:
y_predicted = []

y_predicted = gnb.predict(X_test)

### Resultados

Se comparan los resultados reales (*y_test*) con los que hemos predicho y se muestra la precisión real del algoritmo 

In [16]:
accuracy = getAccuracy(y_test, y_predicted)

print('Accuracy: ' + repr(accuracy) + '%')

Accuracy: 85.7381190714524%
