# Support vector machines
### Juan Pablo Carranza Hurtado 20000607

## Generalidades sobre algoritmo y su historia

El algoritmo de machine learning conocido como Support Vector Machine (SVM) fue creado por Vladimir Vapnik y Alexey Ya. Chervonenkis en el año 1963. Sin embargo, fue hasta el año 1992 en el que Vapnik, junto a otros colegas en AT&T Bell technologies decidieron desarrollar por completo la idea de aplicar el *kernel trick* a su algoritmo para poder crear hiperplanos que preservan un máximo margen entre dos clases. Fue hasta el año 1995 en el que la actual forma en la que se aplica SVM con *soft margins* fue publicada por Vapnik y Corinna Cortes.

El algoritmo de SVM es considerado como uno de los algoritmos de aprendizaje supervisado más robustos y simples de aplicar actualmente a cualquier tipo de problema de machine learning. La idea se basa en crear un clasificador que genere un plano de separación máximo entre diferentes clases, y por lo tanto crear un margen óptimo.

A continuación se ampliará un poco sobre las bases matemáticas de dicho algoritmo.

## Fundamentos para algoritmo de SVM

Como mencionado anteriormente, en el algoritmo de Support Vector Machine, la idea es crear un algoritmo de clasificación que funcione por medio de crear márgenes óptimos entre dos diferentes clases.

<img src='svm.png'>
<p style="text-align: center;">Créditos a Andrew Ng</p>

En la anterior imagen podemos observar un plano de separación entre dos distintas clases. Consideremos, que en SVM las clases toman valores de -1 y 1, en lugar de 0 y 1 como en el caso de regresión logística. Este plano de separación constituye en si, la hipótesis de el clasificador:

$$h_{w,b}(x) = g(w^{T} x + b)$$

En la que para cualquier caso $g(z)$ = 1 si $z\geq0$ y $g(z)=-1$ para cualquier $z$ negativo. Por lo tanto necesitamos optimizar la hipótesis a manera de que un $w^{T}x + b \geq 0$ cuando $y^{(i)} = 1$ y $w^{T}x + b < 0$ cuando $y^{(i)} = -1$. Nos interesa además, que para los puntos que se encuentran muy separados del plano de separación, tengamos una predicción más certera, y por lo tanto, un número más positivo o negativo como resultado de $w^{T}x + b$. 

Para podes clasificar dos clases por medio de márgenes óptimos debemos entender el concepto de márgenes geométricos. El márgen geométrico \gamma^{(i)} para cada dato de entrenamiento $(x^{(i)},y^{(i)})$ está definido por la siguiente ecuación.

$$ \gamma^{(i)} = y^{(i)}((\frac{w}{\left \| w \right \|})^{T} x^{(i)} + \frac{b}{\left \|w \right \|}) $$

Además, para set de datos $S$, el margen geométrico con respecto a $(w,b)$ está dado como el más pequeño de todos los márgenes geométricos de los ejemplos individuales.

$$\gamma = \underset{i=1,...,m}{\min} \gamma^(i)$$

### Clasificador de márgenes óptimos


Es de nuestro interés por lo tanto, al crear un clasificador de márgenes óptimos, buscar que el margen geométrico del set de datos sea maximizado, a manera de dejar un "espacio" entre las dos clases que se quieren clasificar.

Tenemos por lo tanto el siguiente problema de optimización con las siguientes restricciones:

* $\underset{i=1,...,m}{\max} \gamma$
 
 
* $y^{(i)}(w^{T}x^{(i)} + b) \geq \gamma, i = 1,...,m$


* $\left \| w \right \| = 1$


Lo cual también puede reescribirse de la siguiente manera:

* $\underset{i=1,...,m}{\min}\frac{1}{2}\left\|w\right\|^2$


* $y^{(i)}(w^{T}x^{(i)} + b) \geq \gamma, i = 1,...,m$




### Lagrangiano:

Para resolver el problema de optimización con restricciones es conveniente utilizar un lagrangiano que nos permita encontrar el valor óptimo de $w$ y $b$.

El lagrangiano para este problema es:

$$\mathcal{L}(w,b,\alpha) = \frac{1}{2}\left\|w\right\|^2 - \sum_{m}^{i=1}\alpha_{i}[y^{(i)}(w^{T}x^{(i)}+b) -1]$$

Al tomar el gradiente de este lagrangiano obtenemos:

$$\triangledown_w\mathcal{L}(w,b,\alpha) = w-  \sum_{m}^{i=1}\alpha_{i}y^{(i)}x^{(i)}$$

lo cual implica que:

$$w = \sum_{m}^{i=1}\alpha_{i}y^{(i)}x^{(i)}$$

Esta es una expresión para $w$ en forma de un producto punto entre los datos de entrenamiento y un multiplicador lagrangiano $\alpha$. Esto es sumamente conveniente para ampliar el poder de esta algoritmo a para sets no linealmente separables por medio de kernels.

### Vectores de soporte

Por medio del anterior problema de optimización restringido encontramos que el clasificador maximiza el margen entre las dos clases por medio de "vectores de soporte". Estos puntos exactos, que representan los datos del set que se encuentrán a menor distancia del plano de separación, y por lo tanto, son los que buscamos minimizar, es a los que precisamente se les hace llamar *vectores de soporte*. Estos representan los casos en los que el mulitplicador lagrangiano $\alpha$ no es igual a 0, y por lo tanto los casos que son soluciones óptimas para nuestro problemas de optimización con las restricciones deseadas.

<img src='supportvectors.png'>
<p style="text-align: center;">Créditos a Andrew Ng</p>

Ahora bien, como se observa en la anterior imagen, este es un set de datos linealmente separable, por lo que nuestra definición para el problema de optimización que hemos tenido hasta el momento suficiente para encontrar una solución. Sin embargo, en muchas ocasiones el set de datos no es linealmente separable, y aún si lo fuera, tener un clasificador con un 100% de exactitud en datos de entrenamiento podría llevarnos a overfitting, y a una mala generalización del algoritmo. Es por esto que para su uso práctico se utiliza un tipo de SVM conocido como de "margen suave" o "soft margin", con la siguiente función de costo conocida como ***hinge loss***:

$$\max(0,1-y_i(w^{T}x_i -b))$$

Esto nos da como resultado la siguiente función como la que debe de optimizarse para obtener un buen clasificador de márgenes óptimos.

$$\frac{1}{2}\left\|w\right\|^2 + C[\sum_{i=1}^{n}\max(0,1-y_i(w^{T}x_i + b))]  $$

donde $C$ es un hiperparámetro que indica que tanto se penaliza al algoritmo por hacer clasificaciones incorrectas, y a la vez es un parámetro de regularización. En el caso en el que un set de datos no es linealmente separable, es conveniente utilizar la función de costo ***hinge*** junto a este hiperparámetro C para poder encontrar el plano de separación que mejor clasifique los datos de entrenamiento, pero que a la vez, tenga una buena generalización.

<img src='C.png'>


### Kernel trick

Primero formalicemos la idea de utilizar una función de transformación de datos. Si tenemos un vector $x$ de características de entrenamiento, y queremos transformarlo hacia otro espacio, podemos utilizar una función $\phi(x)$ de tal manera que al aplicarla obtengamos el vector $x$ de features transformados.

ahora bien, recordemos la siguiente ecuación que fue anteriormente mencionada:

$$w = \sum_{i=1}^{m}\alpha_{i}y^{(i)}x^{(i)}$$

Como mencionamos anteriormente, debido a que el cálculo de w puede realizarse directamente por medio de un producto punto de dos vectores de input, este también podría realizarse de la siguiente forma:

$$w = \sum_{i=1}^{m}\alpha_{i}\phi(y^{(i)})\phi(x^{(i)})$$

Un kernel se define entonces como una función que nos permite encontrar un mapeo de características hacia otro espacio por medio de un producto punto de los vectores de entrada:

$$K(x,z) = \phi(x)^{T}\phi(z)$$

Por lo que podríamos de igual forma que el kernel es una función que nos permite encontrar que tan parecidos son los dos vectores de entrada, a manera de que, si ambos vectores se encuentran cercanos, esperamos que el kernel tome el valor grande, mientras que si los vectores son ortogonales, tome un valor pequeño.

La realidad utilidad del kernel radica en que a pesar de que $K(x,z)$ sea una operación computacionalmente poco pesada de calcular, encontrar la transformación $\phi(x)$ puede tomar mucho tiempo, específicamente si el vector tiene muchas dimensiones.

Por lo tanto, al utilizar una manera rápida de calcular $K(x,z)$, podemos hacer que el SVM encuentre un hiperplano de clasificación óptima en un espacio dimensional mayor sin necesariamente tener que hacer los cálculos de las transformaciones. El siguiente dataset, por ejemplo, se vuelve linealmente separable por medio de aplicar el kernel trick.

<img src='circular.png'>

Los siguientes son algunos de los kernels más comúnmente utilizados:

<img src='kernels.png'>
<p style="text-align: center;">Créditos a Hastie, T. et.al.</p>

https://towardsdatascience.com/understanding-support-vector-machine-part-2-kernel-trick-mercers-theorem-e1e6848c6c4d

Cabe recalcar que el uso de kernels se extiende más allá de SVM, y puede ser utilizado también en otros algoritmos de aprendizaje, como mostrado en la imagen.

## Ejemplo utilizando tensorflow

Reformalizando nuevamente la idea que obtuvimos de la explicación, tenemos lo siguiente para nuestro algoritmo de Support Vector Machine:

Función de costo:

$$\frac{1}{2}\left\|w\right\|^2 + C[\sum_{i=1}^{n}\max(0,1-y_i(w^{T}x_i + b))]$$

Hipótesis: 

$$h(x^{(i)}) = \left\{
\begin{array}{ll}
      w^{T}x + b \geq 0 & y^{(i)}=1 \\
      w^{T}x + b < 0 & y^{(i)}=0\\
\end{array} 
\right.  $$

Por lo que se procederá a realizar un ejemplo de dicho algoritmo utilizando tensorflow:

In [283]:
# Importar librerias

import tensorflow as tf
import numpy as np
from sklearn import datasets
import pandas as pd
from sklearn.model_selection import train_test_split
import datetime
%load_ext tensorboard


In [21]:
# Se utilizará un dataset correspondiente a pacientes con cáncer

cancer = datasets.load_breast_cancer()


In [28]:
# los features a utilizar para hacer la predicción
print("features are", cancer.feature_names)

# los labels que se quieren predecir, que indican si un tumor es maligno o no
print("targets names are ", cancer.target_names)


features are ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
targets names are  ['malignant' 'benign']


In [33]:
# Tamaño del dataset de entrenamiento
cancer.data.shape

(569, 30)

In [84]:
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.3,random_state=109)

In [193]:
# Feature engineering para cambiar los targets de 0 y 1 a -1 y 1:
y_train = np.array([1 if z==1 else -1 for z in y_train])
y_test = np.array([1 if z==1 else -1 for z in y_test])

# Agregar bias a matriz de entrenamiento y de test
X_train = np.insert(X_train, 0, np.ones(len(X_train)), axis=1).astype(np.float32)
X_test = np.insert(X_test, 0, np.ones(len(X_train)), axis=1).astype(np.float32)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [264]:
print("training size:", X_train.shape)
print("test size:", X_test.shape)

training size: (398, 31)
test size: (171, 31)


In [268]:
y_train = y_train.reshape(-1,1)

y_test = y_test.reshape(-1,1)

In [269]:
print(y_train.shape)

print(y_test.shape)

(398, 1)
(171, 1)


In [265]:
398,31 x 31, 1

SyntaxError: invalid syntax (<ipython-input-265-96f7e5f87178>, line 1)

In [276]:
# Definición de modelo en tensorflow




class SVMclassifier:
    
    def __init__(self, C_parameter, x, y):

        self.w = tf.get_variable("weights", dtype = tf.float32, shape = [1,x.shape[1]], initializer = tf.zeros_initializer())
        self.C = tf.constant(C_parameter, dtype=tf.float32)
        
    def model(self,x):
        with tf.name_scope("model"):
            return tf.matmul(x, tf.transpose(self.w))
        # 398, 1
        
    def prediction(self,x):
        with tf.name_scope("prediction"):
            return tf.sign(self.model(x))
        
    def accuracy(self, y_hat, y):
        with tf.name_scope("accuracy"):
            accuracy = tf.equal(y_hat, y)
            accuracy = tf.cast(accuracy, tf.int32)
            accuracy = tf.divide(tf.reduce_sum(accuracy), tf.shape(y)[0])
            return accuracy 
    
    
    def loss(self, x, y ):
        with tf.name_scope("lossFunction"):
            w_norm = tf.multiply(tf.constant(0.5), tf.reduce_sum(tf.square(self.w)))
            hinge_loss = tf.reduce_sum(tf.maximum(tf.constant(0.0), tf.subtract(tf.constant(1.0), tf.multiply(y, self.model(x)))))
            loss = tf.add(w_norm, tf.multiply(self.C, hinge_loss))
            return loss
            
    def update(self, x_train, y_train, x_test, y_test, learningrate):
        with tf.name_scope("error"):
            train_error = self.loss(x_train, y_train)
            train_error_summary = tf.summary.scalar("TrainError", train_error)
            test_error = self.loss(x_test, y_test)
            test_error_summary = tf.summary.scalar("TestError", test_error)
        with tf.name_scope("accuracy"):
            train_accuracy = self.accuracy(self.prediction(x_train), y_train)
            train_accuracy_summary = tf.summary.scalar("TrainAccuracy", train_accuracy)
            test_accuracy = self.accuracy(self.prediction(x_test), y_test)
            test_accuracy_summary = tf.summary.scalar("TestAccuracy", test_accuracy)
        # update parameters via gradient descent
        gradient = tf.gradients(train_error, [self.w])
        updated_w = tf.assign(self.w, self.w - learningrate * gradient[0])
        return updated_w, train_error, test_error, train_accuracy, test_accuracy, train_error_summary, test_error_summary, train_accuracy_summary, test_accuracy_summary
        
        

In [281]:
def training(lr, C_parameter, epochs, frecprint, x_train, x_test, y_train, y_test):
    # String para definicion de experimento
    string = './graphs/'+ datetime.datetime.now().strftime("%Y%m%d-%H%M%S") +"_lr="+str(lr)+ "_epochs="+str(epochs)

    g = tf.Graph()
    with g.as_default():
        # Inicialización de objeto de clase LogisticRegressionSoftmax
        modelo = SVMclassifier(C_parameter, x_train, y_train)
        # Definicion de placeholders para input de data a grafo
        with tf.name_scope("train_tensors"):
            tensor_x_train = tf.placeholder(tf.float32, [None,x_train.shape[1]], "tensor_x_train")
            tensor_labels_train = tf.placeholder(tf.float32, [None,y_train.shape[1]], "tensor_labels_train")
        with tf.name_scope("test_tensors"):
            tensor_x_test = tf.placeholder(tf.float32, [x_test.shape[0], x_test.shape[1]], "tensor_x_test")
            tensor_labels_test = tf.placeholder(tf.float32, [y_test.shape[0], y_test.shape[1]], "tensor_labels_test")
        # Utilizacion de método update para hacer el entrenamiento
        update_parameters = modelo.update(tensor_x_train, tensor_labels_train, tensor_x_test, tensor_labels_test, lr)
    
        # Writer para utilizacion de tensorboard
        writer = tf.summary.FileWriter(string, g)
        
        batch_size = 32
        
        total_steps = int((y_train.shape[0] / batch_size) * epochs)  
        
        with tf.train.MonitoredSession() as session:
            
            for i in range(total_steps + 1):
                # Mini batch gradient descent with batch size 32
                offset = (i * batch_size) % (y_train.shape[0] - batch_size)
                batch_data = x_train[offset:(offset + batch_size),]
                batch_labels = y_train[offset:(offset + batch_size),]
                feed_dict = {tensor_x_train:batch_data, tensor_labels_train:batch_labels,tensor_x_test:x_test, tensor_labels_test:y_test}
                # Entrenamiento
                training = session.run(update_parameters, feed_dict = feed_dict)
                if (i)%frecprint == 0:
                    # Cálculo de pesos para print por cada frecprint epocas
                    weights = session.run(modelo.w, feed_dict = feed_dict)
                    # Agregar datos a writer para poder visualizarlos en tensorboard
                    writer.add_summary(training[5], i)
                    writer.add_summary(training[6], i)
                    writer.add_summary(training[7], i)
                    writer.add_summary(training[8], i)
                    print("Mini-batch:", i, "train error:", training[1], "train accuracy:", training[3])
                    print("Epoch:", int(i//(y_train.shape[0] / batch_size)+1), "test error:", training[2], "test accuracy:", training[4])
                    print("-------------------------------------------------------------------------")
            
            return weights

            writer.close()

<img src = 'graph.png'>

## Training

In [285]:
training(0.0001, 2, 100, 10, X_train, X_test, y_train, y_test)

INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
Mini-batch: 0 train error: 64.0 train accuracy: 0.0
Epoch: 1 test error: 342.0 test accuracy: 0.0
-------------------------------------------------------------------------
Mini-batch: 10 train error: 127258.37 train accuracy: 0.34375
Epoch: 1 test error: 632073.06 test accuracy: 0.3684210526315789
-------------------------------------------------------------------------
Mini-batch: 20 train error: 15556.307 train accuracy: 0.65625
Epoch: 2 test error: 83737.83 test accuracy: 0.6432748538011696
-------------------------------------------------------------------------
Mini-batch: 30 train error: 19894.252 train accuracy: 0.59375
Epoch: 3 test error: 90228.59 test accuracy: 0.6432748538011696
-------------------------------------------------------------------------
Mini-batch: 40 train error: 91176.234 train accuracy: 0.3125
Epoch: 4 test error: 420624.12 test accuracy: 

Mini-batch: 420 train error: 1105.3318 train accuracy: 0.96875
Epoch: 34 test error: 5923.733 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 430 train error: 38339.55 train accuracy: 0.65625
Epoch: 35 test error: 160946.28 test accuracy: 0.7017543859649122
-------------------------------------------------------------------------
Mini-batch: 440 train error: 3312.2373 train accuracy: 0.9375
Epoch: 36 test error: 5753.966 test accuracy: 0.935672514619883
-------------------------------------------------------------------------
Mini-batch: 450 train error: 4428.2085 train accuracy: 0.8125
Epoch: 37 test error: 7025.8257 test accuracy: 0.9239766081871345
-------------------------------------------------------------------------
Mini-batch: 460 train error: 7525.5137 train accuracy: 0.5625
Epoch: 37 test error: 23065.701 test accuracy: 0.8070175438596491
------------------------------------------------------------------

Mini-batch: 880 train error: 2467.111 train accuracy: 0.9375
Epoch: 71 test error: 21378.027 test accuracy: 0.8771929824561403
-------------------------------------------------------------------------
Mini-batch: 890 train error: 734.85547 train accuracy: 0.875
Epoch: 72 test error: 7392.85 test accuracy: 0.9122807017543859
-------------------------------------------------------------------------
Mini-batch: 900 train error: 1396.5444 train accuracy: 0.90625
Epoch: 73 test error: 5958.5547 test accuracy: 0.9181286549707601
-------------------------------------------------------------------------
Mini-batch: 910 train error: 8522.561 train accuracy: 0.78125
Epoch: 74 test error: 21341.334 test accuracy: 0.8070175438596491
-------------------------------------------------------------------------
Mini-batch: 920 train error: 1683.7865 train accuracy: 0.90625
Epoch: 74 test error: 6909.2197 test accuracy: 0.9122807017543859
------------------------------------------------------------------

array([[ 2.9845381e-01,  2.3001518e+00,  3.1370325e+00,  1.3356177e+01,
         5.0660100e+00,  2.0251611e-02, -1.0740964e-02, -4.5304161e-02,
        -1.9810950e-02,  3.6940001e-02,  1.6305648e-02, -1.1705446e-02,
         1.6341053e-01, -2.1289635e-01, -8.0483503e+00,  1.0638546e-03,
        -3.1822845e-03, -6.5424843e-03, -1.0731387e-03,  3.0482390e-03,
         9.0549343e-05,  2.4254887e+00,  3.8369269e+00,  1.3329382e+01,
        -7.6994114e+00,  2.5584644e-02, -4.8248239e-02, -9.8721676e-02,
        -2.4857316e-02,  4.9575593e-02,  1.3799145e-02]], dtype=float32)

In [284]:


%tensorboard --logdir ./graphs --port 6008



ERROR: Timed out waiting for TensorBoard to start. It may still be running as pid 1052.

In [286]:
training(0.0001, 2, 1000, 100, X_train, X_test, y_train, y_test)

INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
Mini-batch: 0 train error: 64.0 train accuracy: 0.0
Epoch: 1 test error: 342.0 test accuracy: 0.0
-------------------------------------------------------------------------
Mini-batch: 100 train error: 5418.8853 train accuracy: 0.65625
Epoch: 9 test error: 46972.406 test accuracy: 0.5380116959064327
-------------------------------------------------------------------------
Mini-batch: 200 train error: 34899.434 train accuracy: 0.71875
Epoch: 17 test error: 75613.38 test accuracy: 0.8011695906432748
-------------------------------------------------------------------------
Mini-batch: 300 train error: 3990.0122 train accuracy: 0.875
Epoch: 25 test error: 7579.827 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 400 train error: 6724.1387 train accuracy: 0.90625
Epoch: 33 test error: 57776.18 test accur

Mini-batch: 4100 train error: 3497.414 train accuracy: 0.90625
Epoch: 330 test error: 6510.614 test accuracy: 0.9532163742690059
-------------------------------------------------------------------------
Mini-batch: 4200 train error: 5976.067 train accuracy: 0.90625
Epoch: 338 test error: 14059.773 test accuracy: 0.8888888888888888
-------------------------------------------------------------------------
Mini-batch: 4300 train error: 5383.413 train accuracy: 0.78125
Epoch: 346 test error: 43058.504 test accuracy: 0.8479532163742689
-------------------------------------------------------------------------
Mini-batch: 4400 train error: 1319.8334 train accuracy: 0.9375
Epoch: 354 test error: 5017.883 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 4500 train error: 9796.215 train accuracy: 0.78125
Epoch: 362 test error: 19709.615 test accuracy: 0.8830409356725146
--------------------------------------------------------

Mini-batch: 8200 train error: 2595.6135 train accuracy: 0.9375
Epoch: 660 test error: 21006.11 test accuracy: 0.8830409356725146
-------------------------------------------------------------------------
Mini-batch: 8300 train error: 1795.315 train accuracy: 0.875
Epoch: 668 test error: 8594.363 test accuracy: 0.9005847953216374
-------------------------------------------------------------------------
Mini-batch: 8400 train error: 1601.9554 train accuracy: 0.90625
Epoch: 676 test error: 5278.257 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 8500 train error: 9337.733 train accuracy: 0.59375
Epoch: 684 test error: 23982.809 test accuracy: 0.783625730994152
-------------------------------------------------------------------------
Mini-batch: 8600 train error: 1762.9247 train accuracy: 0.9375
Epoch: 692 test error: 5180.6743 test accuracy: 0.9415204678362572
-----------------------------------------------------------

Mini-batch: 12300 train error: 2384.493 train accuracy: 0.84375
Epoch: 989 test error: 5750.6777 test accuracy: 0.9239766081871345
-------------------------------------------------------------------------
Mini-batch: 12400 train error: 3746.3777 train accuracy: 0.78125
Epoch: 997 test error: 7374.101 test accuracy: 0.9122807017543859
-------------------------------------------------------------------------


array([[ 5.11149049e-01,  3.96483445e+00, -1.38242221e+00,
         1.92155075e+01,  5.06042671e+00,  3.65094165e-03,
        -1.34524658e-01, -2.48409733e-01, -1.05217949e-01,
         4.66401689e-03,  1.32655557e-02, -2.40363274e-02,
        -2.51319885e-01, -9.14777160e-01, -1.18902893e+01,
        -2.01629871e-03, -3.54693681e-02, -5.29222973e-02,
        -1.25745535e-02, -3.85429687e-03, -2.99056107e-03,
         4.20132685e+00, -5.16067505e+00,  1.43313570e+01,
        -6.46015453e+00, -1.81752462e-02, -5.10926664e-01,
        -7.15085030e-01, -1.95985407e-01, -6.21086843e-02,
        -2.73706000e-02]], dtype=float32)

In [287]:
training(0.00001, 2, 10000, 1000, X_train, X_test, y_train, y_test)

INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
Mini-batch: 0 train error: 64.0 train accuracy: 0.0
Epoch: 1 test error: 342.0 test accuracy: 0.0
-------------------------------------------------------------------------
Mini-batch: 1000 train error: 956.6464 train accuracy: 0.84375
Epoch: 81 test error: 1564.1195 test accuracy: 0.894736842105263
-------------------------------------------------------------------------
Mini-batch: 2000 train error: 477.13824 train accuracy: 0.8125
Epoch: 161 test error: 1102.6914 test accuracy: 0.8888888888888888
-------------------------------------------------------------------------
Mini-batch: 3000 train error: 4.255453 train accuracy: 1.0
Epoch: 242 test error: 1264.7894 test accuracy: 0.8830409356725146
-------------------------------------------------------------------------
Mini-batch: 4000 train error: 8.325874 train accuracy: 0.96875
Epoch: 322 test error: 782.3335 test ac

Mini-batch: 40000 train error: 176.57164 train accuracy: 0.9375
Epoch: 3217 test error: 441.26596 test accuracy: 0.9649122807017543
-------------------------------------------------------------------------
Mini-batch: 41000 train error: 86.99953 train accuracy: 0.9375
Epoch: 3297 test error: 694.1676 test accuracy: 0.9064327485380117
-------------------------------------------------------------------------
Mini-batch: 42000 train error: 230.50482 train accuracy: 0.90625
Epoch: 3377 test error: 1195.6892 test accuracy: 0.9239766081871345
-------------------------------------------------------------------------
Mini-batch: 43000 train error: 687.3901 train accuracy: 0.8125
Epoch: 3458 test error: 1707.2524 test accuracy: 0.8479532163742689
-------------------------------------------------------------------------
Mini-batch: 44000 train error: 12.128187 train accuracy: 1.0
Epoch: 3538 test error: 685.20703 test accuracy: 0.9415204678362572
-------------------------------------------------

Mini-batch: 80000 train error: 619.2645 train accuracy: 0.75
Epoch: 6433 test error: 1225.8156 test accuracy: 0.8888888888888888
-------------------------------------------------------------------------
Mini-batch: 81000 train error: 127.73072 train accuracy: 0.9375
Epoch: 6513 test error: 415.01642 test accuracy: 0.935672514619883
-------------------------------------------------------------------------
Mini-batch: 82000 train error: 151.69467 train accuracy: 0.90625
Epoch: 6593 test error: 663.5742 test accuracy: 0.9064327485380117
-------------------------------------------------------------------------
Mini-batch: 83000 train error: 79.07579 train accuracy: 0.90625
Epoch: 6674 test error: 641.30585 test accuracy: 0.9064327485380117
-------------------------------------------------------------------------
Mini-batch: 84000 train error: 107.534164 train accuracy: 0.9375
Epoch: 6754 test error: 645.40204 test accuracy: 0.9064327485380117
-----------------------------------------------

Mini-batch: 120000 train error: 35.241604 train accuracy: 0.96875
Epoch: 9649 test error: 337.68295 test accuracy: 0.9473684210526315
-------------------------------------------------------------------------
Mini-batch: 121000 train error: 601.5137 train accuracy: 0.875
Epoch: 9729 test error: 2163.6082 test accuracy: 0.8888888888888888
-------------------------------------------------------------------------
Mini-batch: 122000 train error: 373.25735 train accuracy: 0.875
Epoch: 9810 test error: 1184.3195 test accuracy: 0.9298245614035088
-------------------------------------------------------------------------
Mini-batch: 123000 train error: 30.951809 train accuracy: 0.96875
Epoch: 9890 test error: 355.5501 test accuracy: 0.9707602339181286
-------------------------------------------------------------------------
Mini-batch: 124000 train error: 382.2429 train accuracy: 0.875
Epoch: 9970 test error: 336.4983 test accuracy: 0.9590643274853801
--------------------------------------------

array([[ 2.1301281e-01,  1.6160085e+00,  3.7338197e-02,  4.8051329e+00,
         1.4776056e-01, -2.2636635e-02, -1.4465831e-01, -2.2451143e-01,
        -9.4252683e-02, -3.5045773e-02, -5.1569385e-03,  3.9172743e-02,
         8.2452834e-02, -4.1622853e-01, -1.1549261e+00, -2.7259421e-03,
        -3.4654796e-02, -5.1512893e-02, -1.2378232e-02, -6.3226102e-03,
        -3.3192656e-03,  1.7476654e+00, -2.9032159e+00, -1.4500158e-01,
        -5.6024945e-01, -5.1478863e-02, -5.1023769e-01, -6.7841631e-01,
        -1.8887867e-01, -1.2067022e-01, -4.6168368e-02]], dtype=float32)

In [288]:
training(0.00001, 20, 10000, 1000, X_train, X_test, y_train, y_test)

INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
Mini-batch: 0 train error: 640.0 train accuracy: 0.0
Epoch: 1 test error: 3420.0 test accuracy: 0.0
-------------------------------------------------------------------------
Mini-batch: 1000 train error: 11185.872 train accuracy: 0.875
Epoch: 81 test error: 104254.69 test accuracy: 0.8830409356725146
-------------------------------------------------------------------------
Mini-batch: 2000 train error: 56800.305 train accuracy: 0.8125
Epoch: 161 test error: 137298.89 test accuracy: 0.8654970760233918
-------------------------------------------------------------------------
Mini-batch: 3000 train error: 370.2453 train accuracy: 1.0
Epoch: 242 test error: 120859.04 test accuracy: 0.8830409356725146
-------------------------------------------------------------------------
Mini-batch: 4000 train error: 1788.0316 train accuracy: 0.96875
Epoch: 322 test error: 84990.914 tes

Mini-batch: 40000 train error: 20687.594 train accuracy: 0.9375
Epoch: 3217 test error: 52723.285 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 41000 train error: 4424.216 train accuracy: 0.96875
Epoch: 3297 test error: 49181.293 test accuracy: 0.9298245614035088
-------------------------------------------------------------------------
Mini-batch: 42000 train error: 14890.988 train accuracy: 0.90625
Epoch: 3377 test error: 81771.72 test accuracy: 0.935672514619883
-------------------------------------------------------------------------
Mini-batch: 43000 train error: 63012.54 train accuracy: 0.8125
Epoch: 3458 test error: 144304.73 test accuracy: 0.8596491228070176
-------------------------------------------------------------------------
Mini-batch: 44000 train error: 1195.3481 train accuracy: 1.0
Epoch: 3538 test error: 71306.45 test accuracy: 0.9415204678362572
--------------------------------------------------

Mini-batch: 80000 train error: 50615.992 train accuracy: 0.78125
Epoch: 6433 test error: 92728.18 test accuracy: 0.8888888888888888
-------------------------------------------------------------------------
Mini-batch: 81000 train error: 23723.92 train accuracy: 0.84375
Epoch: 6513 test error: 303164.7 test accuracy: 0.8654970760233918
-------------------------------------------------------------------------
Mini-batch: 82000 train error: 14642.648 train accuracy: 0.90625
Epoch: 6593 test error: 64834.523 test accuracy: 0.9005847953216374
-------------------------------------------------------------------------
Mini-batch: 83000 train error: 3883.0244 train accuracy: 0.96875
Epoch: 6674 test error: 38261.754 test accuracy: 0.935672514619883
-------------------------------------------------------------------------
Mini-batch: 84000 train error: 10624.899 train accuracy: 0.9375
Epoch: 6754 test error: 42167.617 test accuracy: 0.9298245614035088
--------------------------------------------

Mini-batch: 120000 train error: 6424.456 train accuracy: 0.9375
Epoch: 9649 test error: 55644.273 test accuracy: 0.9064327485380117
-------------------------------------------------------------------------
Mini-batch: 121000 train error: 69762.18 train accuracy: 0.875
Epoch: 9729 test error: 265601.03 test accuracy: 0.8771929824561403
-------------------------------------------------------------------------
Mini-batch: 122000 train error: 28066.824 train accuracy: 0.90625
Epoch: 9810 test error: 79556.42 test accuracy: 0.935672514619883
-------------------------------------------------------------------------
Mini-batch: 123000 train error: 4928.8447 train accuracy: 0.9375
Epoch: 9890 test error: 32396.863 test accuracy: 0.9473684210526315
-------------------------------------------------------------------------
Mini-batch: 124000 train error: 36096.156 train accuracy: 0.875
Epoch: 9970 test error: 32409.873 test accuracy: 0.9590643274853801
--------------------------------------------

array([[ 2.1126506e+00,  1.5999085e+01,  1.1305169e-01,  4.7914799e+01,
         1.1556553e+00, -2.2358303e-01, -1.4200932e+00, -2.2100995e+00,
        -9.3062365e-01, -3.4722686e-01, -4.9086783e-02,  3.6725280e-01,
         7.9669642e-01, -4.2131596e+00, -1.1671913e+01, -2.6112767e-02,
        -3.4009424e-01, -5.0602096e-01, -1.2289716e-01, -6.3030861e-02,
        -3.2303263e-02,  1.7265306e+01, -2.9264614e+01, -1.4091884e+00,
        -5.3097091e+00, -5.0743526e-01, -5.0148206e+00, -6.6849694e+00,
        -1.8721683e+00, -1.1948850e+00, -4.5036629e-01]], dtype=float32)

In [289]:
training(0.00001, 0.5, 10000, 1000, X_train, X_test, y_train, y_test)

INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
Mini-batch: 0 train error: 16.0 train accuracy: 0.0
Epoch: 1 test error: 85.5 test accuracy: 0.0
-------------------------------------------------------------------------
Mini-batch: 1000 train error: 34.9511 train accuracy: 0.84375
Epoch: 81 test error: 44.158443 test accuracy: 0.9532163742690059
-------------------------------------------------------------------------
Mini-batch: 2000 train error: 19.192326 train accuracy: 0.84375
Epoch: 161 test error: 46.315655 test accuracy: 0.9181286549707601
-------------------------------------------------------------------------
Mini-batch: 3000 train error: 7.1026344 train accuracy: 0.96875
Epoch: 242 test error: 38.864212 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 4000 train error: 0.27430105 train accuracy: 1.0
Epoch: 322 test error: 49.4814 test 

Mini-batch: 40000 train error: 33.687103 train accuracy: 0.90625
Epoch: 3217 test error: 115.64019 test accuracy: 0.9005847953216374
-------------------------------------------------------------------------
Mini-batch: 41000 train error: 5.5060396 train accuracy: 0.9375
Epoch: 3297 test error: 47.0027 test accuracy: 0.9239766081871345
-------------------------------------------------------------------------
Mini-batch: 42000 train error: 9.33013 train accuracy: 0.90625
Epoch: 3377 test error: 50.794823 test accuracy: 0.9473684210526315
-------------------------------------------------------------------------
Mini-batch: 43000 train error: 45.740593 train accuracy: 0.8125
Epoch: 3458 test error: 104.07312 test accuracy: 0.871345029239766
-------------------------------------------------------------------------
Mini-batch: 44000 train error: 0.88303924 train accuracy: 1.0
Epoch: 3538 test error: 52.67539 test accuracy: 0.9415204678362572
--------------------------------------------------

Mini-batch: 80000 train error: 41.342014 train accuracy: 0.78125
Epoch: 6433 test error: 80.118385 test accuracy: 0.8888888888888888
-------------------------------------------------------------------------
Mini-batch: 81000 train error: 12.591083 train accuracy: 0.875
Epoch: 6513 test error: 193.11388 test accuracy: 0.871345029239766
-------------------------------------------------------------------------
Mini-batch: 82000 train error: 10.6833 train accuracy: 0.90625
Epoch: 6593 test error: 45.57042 test accuracy: 0.9064327485380117
-------------------------------------------------------------------------
Mini-batch: 83000 train error: 3.3406215 train accuracy: 0.96875
Epoch: 6674 test error: 32.290928 test accuracy: 0.935672514619883
-------------------------------------------------------------------------
Mini-batch: 84000 train error: 8.200165 train accuracy: 0.96875
Epoch: 6754 test error: 32.151756 test accuracy: 0.935672514619883
------------------------------------------------

Mini-batch: 120000 train error: 2.3953028 train accuracy: 0.96875
Epoch: 9649 test error: 27.388054 test accuracy: 0.9707602339181286
-------------------------------------------------------------------------
Mini-batch: 121000 train error: 14.407929 train accuracy: 0.9375
Epoch: 9729 test error: 42.464752 test accuracy: 0.9473684210526315
-------------------------------------------------------------------------
Mini-batch: 122000 train error: 20.024685 train accuracy: 0.90625
Epoch: 9810 test error: 57.295284 test accuracy: 0.935672514619883
-------------------------------------------------------------------------
Mini-batch: 123000 train error: 3.1747727 train accuracy: 0.96875
Epoch: 9890 test error: 26.043667 test accuracy: 0.9707602339181286
-------------------------------------------------------------------------
Mini-batch: 124000 train error: 38.055252 train accuracy: 0.8125
Epoch: 9970 test error: 71.612724 test accuracy: 0.894736842105263
--------------------------------------

array([[ 5.45265153e-02,  4.20962840e-01,  2.73974575e-02,
         1.26506352e+00,  4.23811823e-02, -6.04879577e-03,
        -3.71051095e-02, -5.84147312e-02, -2.47291271e-02,
        -8.96930788e-03, -1.35080225e-03,  1.02179553e-02,
         2.03174427e-02, -1.08777344e-01, -3.07340562e-01,
        -7.63764838e-04, -8.93033668e-03, -1.34069035e-02,
        -3.25717009e-03, -1.59427407e-03, -8.60709173e-04,
         4.52032983e-01, -7.68435121e-01, -3.00635900e-02,
        -1.34691119e-01, -1.38964485e-02, -1.30828798e-01,
        -1.75884560e-01, -4.93848473e-02, -3.08478568e-02,
        -1.19559038e-02]], dtype=float32)

In [290]:
training(0.000001, 0.3, 100000, 10000, X_train, X_test, y_train, y_test)

INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
Mini-batch: 0 train error: 9.6 train accuracy: 0.0
Epoch: 1 test error: 51.300003 test accuracy: 0.0
-------------------------------------------------------------------------
Mini-batch: 10000 train error: 1.5300477 train accuracy: 0.9375
Epoch: 805 test error: 6.5808935 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 20000 train error: 2.076969 train accuracy: 0.875
Epoch: 1609 test error: 6.5993533 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 30000 train error: 1.2422115 train accuracy: 0.96875
Epoch: 2413 test error: 7.1833744 test accuracy: 0.9473684210526315
-------------------------------------------------------------------------
Mini-batch: 40000 train error: 2.4765644 train accuracy: 0.90625
Epoch: 3217 test error: 

Mini-batch: 400000 train error: 1.1256537 train accuracy: 0.96875
Epoch: 32161 test error: 5.424934 test accuracy: 0.9590643274853801
-------------------------------------------------------------------------
Mini-batch: 410000 train error: 0.16210514 train accuracy: 1.0
Epoch: 32965 test error: 9.910276 test accuracy: 0.9298245614035088
-------------------------------------------------------------------------
Mini-batch: 420000 train error: 1.7249786 train accuracy: 0.9375
Epoch: 33769 test error: 5.1448236 test accuracy: 0.9590643274853801
-------------------------------------------------------------------------
Mini-batch: 430000 train error: 0.99707603 train accuracy: 0.96875
Epoch: 34573 test error: 5.4467874 test accuracy: 0.9590643274853801
-------------------------------------------------------------------------
Mini-batch: 440000 train error: 1.484369 train accuracy: 0.9375
Epoch: 35377 test error: 5.461642 test accuracy: 0.9532163742690059
-------------------------------------

Mini-batch: 800000 train error: 2.3814547 train accuracy: 0.90625
Epoch: 64322 test error: 5.0446963 test accuracy: 0.9590643274853801
-------------------------------------------------------------------------
Mini-batch: 810000 train error: 1.6352545 train accuracy: 0.9375
Epoch: 65126 test error: 5.8454876 test accuracy: 0.9473684210526315
-------------------------------------------------------------------------
Mini-batch: 820000 train error: 0.41693848 train accuracy: 1.0
Epoch: 65930 test error: 8.056177 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 830000 train error: 1.8293027 train accuracy: 0.90625
Epoch: 66734 test error: 5.4417415 test accuracy: 0.9532163742690059
-------------------------------------------------------------------------
Mini-batch: 840000 train error: 1.4177094 train accuracy: 0.9375
Epoch: 67538 test error: 4.9858747 test accuracy: 0.9590643274853801
-----------------------------------

Mini-batch: 1200000 train error: 2.674802 train accuracy: 0.90625
Epoch: 96483 test error: 7.7727046 test accuracy: 0.9415204678362572
-------------------------------------------------------------------------
Mini-batch: 1210000 train error: 2.4930758 train accuracy: 0.90625
Epoch: 97287 test error: 5.094146 test accuracy: 0.9590643274853801
-------------------------------------------------------------------------
Mini-batch: 1220000 train error: 1.5443629 train accuracy: 0.9375
Epoch: 98091 test error: 5.3357196 test accuracy: 0.9532163742690059
-------------------------------------------------------------------------
Mini-batch: 1230000 train error: 0.9102416 train accuracy: 0.96875
Epoch: 98895 test error: 5.863785 test accuracy: 0.9532163742690059
-------------------------------------------------------------------------
Mini-batch: 1240000 train error: 1.7784462 train accuracy: 0.9375
Epoch: 99699 test error: 5.2629313 test accuracy: 0.9532163742690059
-----------------------------

array([[ 0.03594806,  0.21814501,  0.08055913,  0.30233037, -0.00929404,
        -0.00652369, -0.03084944, -0.04548372, -0.01957222, -0.00759017,
        -0.00160668,  0.00691859,  0.05750658, -0.01637404, -0.04527319,
        -0.00079842, -0.00664879, -0.01119717, -0.00279965, -0.00126752,
        -0.00075494,  0.23832671, -0.18341836, -0.14464629, -0.0117211 ,
        -0.01193411, -0.09928361, -0.1333789 , -0.0388058 , -0.02434793,
        -0.01001539]], dtype=float32)

<img src='training.png'>

## Conclusiones:

* El agoritmo de SVM es una útil herramienta para realizar clasificación de cualquier tipo de dataset por medio de diferentes tipos de kernel tricks.
* Por medio de este algoritmo se pudo determinar con aproximadamente un 95% de exactitud que pacientes poseían tumores malignos con el dataset *cancer* de sklearn. El modelo con el mejor rendimiento fue aquel en el que se escogió un valor de C de 0.3, y un learning rate bajo, a manera de disminuir la oscilación que existía entre cada iteración de entrenamiento. podemos observar que el modelo convergió a un error mínimo debido a la naturaleza convexa del problema de optimización planteado.
* Es frecuente toparse con datos que no son linealmente separables, por lo que se debe de recurrir a utilizar diferentes tipos de kernels para encontrar hiperplanos que puedan separar los datos efectivamente en espacios dimensionales mayores.
