In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import ipywidgets as widgets
%matplotlib widget
layout = widgets.Layout(align_items = 'center')

<h1>MÁQUINA DE VECTOR SOPORTE</h1>
La máquina de vector soporte (Support Vector Machine, <b>SVM</b>) es un
tipo de algoritmo supervisado de aprendizaje automático que es utilizado
mayormente para problemas de clasificación, aunque también puede utilizarse
para casos de regresión. Su mayor ventaja es que logra un muy buen 
desempeño con un menor costo computacional. 

<h2>CLASIFICADOR DE VECTOR SOPORTE</h2>

El clasificador de vector soporte es un hiperplano
en un espacio N dimensional, siendo N el número de features o 
variables de entrada, que permite separar los datos en sus
correspondientes clases. Es necesario tener en cuanta que, 
por ejemplo, para separar los datos en 2 clases existen muchos 
hiperplanos que podrían elegirse. Sin embargo, se busca el 
<strong>margen máximo</strong>, es decir, la máxima distancia entre el 
hiperplano y los datos de ambas clases 
más cercanos a él. 

<center>
<img src="./figures/svm.png"  height="600" width="600"/>
</center>

<dl> 
    <dt>HIPERPLANOS</dt>
        <dd>
            Son límites de decisión (umbrales) que ayudan a clasificar los datos según
            se encuentren a un lado u otro de ellos. La dimensión de un 
            hiperplano depende del número de features.
        </dd>
    <br>
    <dt>VECTORES SOPORTE</dt>
        <dd>
            Son los datos que se encuentran más cercanos al hiperplano e 
            influencian en la posición y orientación del mismo.
        </dd>
    <br>
    <dt>MARGEN</dt>
        <dd>
            La menor distancia entre los datos (observaciones) y el hiperplano.
            Cuando el umbral se encuentra en el punto medio entre las observaciones más
            cercanas a él de cada clase, el margen es máximo y el clasificador se 
            denomina <strong>Clasificador de margen grande</strong> (Large Margin Classifier).
        </dd>
</dl>


<div  class="alert alert-block alert-info"> 
   Mientras mayor sea el margen o distancia entre el hiperplano 
   y los datos de cada clase más cercanos a él de cada lado,
   mayor es la confianza que se puede tener de que el clasificador 
    de vector soporte está tomando la decisión correcta al 
    clasificar los datos.
</div>

<h2>HARD MARGIN vs SOFT MARGIN</h2>


Los clasificadores de margen grande son extremadamente 
sensibles a los datos atípicos (outliers), es por ello que
existen dos tipos de algoritmos:

<dl> 
    <dt><strong>De margen duro</strong> (Hard Margin)</dt>
        <dd>
            Buscan encontrar un hiperplano sin ningún error
            de clasificación (misclassification). Un modelo 
            generado con datos atípicos en el set de 
            entrenamiento puede sufrir de <strong>overfitting 
            ó high variance</strong>.
        </dd>
    <br>
    <dt><strong>De margen blando</strong> (Soft Margin)</dt>
        <dd>
           Poseen una cierta tolerancia a errores de clasificación
           (misclassifications). Esto genera que los datos atípicos 
           puedan ser clasificados erróneamente, pero el umbral 
           seleccionado será más correcto para utilizar con nuevos 
           datos. 
        <br>
           Para determinar cuál es el margen blando más adecuado 
            para seleccionar, se hace uso de la <strong>validación 
            cruzada</strong>. De manera de determinar cuántos errores de 
            clasificación y observaciones pueden ser permitidos 
            dentro del margen blando para obtener la mejor clasificación.
        </dd>
</dl>

<center>
<img src="./figures/softAndHard.jpeg"  height="800" width="800"/>
</center>

<h2>FUNCIÓN COSTO</h2>
En regresión logística, se toma la salida de una función lineal
y se la transforma a un valor en el rango $[0,1]$ mediante la
utilización de una función sigmoide $g(z)$.

<ul>
    <li>Si $y = 1$, entonces $h_\Theta(x) = 1$ para $g(z)\geq 0$, siendo $z = \Theta^T x \geq 0$.</li>
    <li>Si $y = 0$, entonces $h_\Theta(x) = 0$ para $g(z) < 0$, siendo $z = \Theta^T x < 0$.</li>
</ul>

La función de costo correspondiente a la regresión logística
sin regularización es:

$$
    J(\theta)=-\frac{1}{m}\sum_{i_1}^m \left[y^i\log\left(\frac{1}{1+e^{-\Theta^Tx^i}}\right)
                    +(1-y^i)\log\left(1-\frac{1}{1+e^{-\Theta^Tx^i}}\right)\right]
             =\frac{1}{m}\sum_{i_1}^m cost(h_\theta(x^i),y^i)
$$

$$
    cost(h_\theta(x^i),y^i)= -\log(h_\theta(x^i)) \leftrightarrow y=1
$$
$$
    cost(h_\theta(x^i),y^i)= -\log(1-h_\theta(x^i)) \leftrightarrow  y=0
$$

Para obtener la función costo de un SVM, simplemente se modifica el primer 
término de la función costo de regresión logística $-\log(h_\Theta(x))=
-\left(\frac{1}{1+e^{-\Theta^Tx}}\right)$ 
de manera que cuando $\Theta^T x > 1$ la salida sea 0 y para valores 
menores a 1, la función de decrecimiento sea lineal y no curva. De igual
manera, se modifica el segundo término $-\log(1-h_\Theta(x))=-\log
\left(1-\frac{1}{1+e^{-\Theta^Tx}}\right)$ para que cuando $\Theta^T x < -1$ 
la salida sea 0 y para valores mayores a -1, la función creciente sea lineal.

<center>
<img src="./figures/costFunctionSVM.png"  height="600" width="600"/>
</center>

Por lo tanto, si $z=\Theta^Tx$, estas funciones son:

$$
    cost_1(z)= max(0,(1-z)) \leftrightarrow y=1
$$
$$
    cost_0(z)= max(0,(1+z)) \leftrightarrow  y=0
$$

Si reemplazamos estos términos en la función de costo para regresión logística
con regularización:

$$
    J(\theta)=\frac{1}{m}\sum_{i=1}^m\left[y^i\left(-\log(h_\theta(x^i))\right)+(1-y^i)\left(-\log(1-h_\theta(x^i))\right)\right]+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2
$$

Se obtiene la función de costo para SVM:

$$
    J(\theta)=\frac{1}{m}\sum_{i=1}^m\left[y^icost_1(\Theta^Tx)+(1-y^i)cost_0(\Theta^Tx)\right]+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2
$$

Es común que se elimine el factor $m$ ya que el mismo no afecta a la 
optimización. A su vez, la regularización se realiza mediante 
el parámetro $C$ en lugar de $\lambda$. Para aumentar la regularización 
el valor $C$ debe reducirse, mientras que para disminuir la regularización 
aplicada, el valor de $C$ debe ser mayor:

$$
    J(\theta)= C \sum_{i=1}^m\left[y^icost_1(\Theta^Tx)+(1-y^i)cost_0(\Theta^Tx)\right]+\frac{1}{2}\sum_{j=1}^n\theta_j^2
$$


<div  class="alert alert-block alert-info"> 
   La hipótesis de SVM no es interpretada como una probabilidad de 
   que $y$ sea 1 o 0, como se hace en el caso de la regresión logística.
   Sino que la salida es simplemente 1 ó 0.
</div>

<h2>UMBRAL DE DECISIÓN</h2>
Para minimizar la función costo del SVM:
<ul>
    <li>Si $y=1$, no es suficiente que $\Theta^Tx \geq 0$, 
        es necesario que $\Theta^Tx \geq 1$.</li>
    <li>Si $y=0$, no es suficiente que $\Theta^Tx < 0$, 
        es necesario que $\Theta^Tx \leq -1$.</li>
</ul>

Si se considera un valor $C$ muy grande (una regularización muy
pequeña), es necesario que los parámetros $\Theta$ sean seleccionados
de manera que el primer término de la función $J(\Theta)$ sea cercano
a cero para que la misma se minimice. De esta manera, la función costo 
que se desea minimizar queda definida como:

$$
    J(\Theta) = C*0 + \frac{1}{2}\sum_{j=1}^n\theta_j^2 \quad \text{siempre que }
                \left\{
                       \begin{array}{ll}
                     \Theta^Tx \geq 1  & \mathrm{para\ } y=1 \\
                     \Theta^Tx \leq -1     & \mathrm{para\ } y=0
                       \end{array}
                     \right.
$$

El umbral de decisión para SVM tiene la propiedad de encontrarse 
<strong>lo más alejado posible</strong> tanto de
los ejemplos positivos como de los negativos.
La distancia del umbral de decisión con el ejemplo más cercano 
a el se denomina <b>margen</b>. Dado que SVM pretende maximizar 
el margen, se lo denomina también  clasificador de margen grande (Large 
Margin Classifiers)

<h2>FUNCIONES KERNEL</h2>
SVM utiliza las denominadas funciones Kernel para encontrar sistemáticamente
clasificadores de vector soporte de mayores dimensiones.

<center>
<img src="./figures/kernel.png"  height="600" width="600"/>
</center>

<dl> 
    <dt>KERNEL LINEAL</dt>
        <dd>$$
                K(\vec{x},\vec{u})=\vec{x} \cdot \vec{u}
            $$</dd>
    <br>
    <dt>KERNEL POLINÓMICO</dt>
        <dd>
            Utiliza un parámetro $d$ que identifica el grado del polinomio e 
            incrementa las dimensiones sistemáticamente cambiando el valor de 
            este parámetro. Las relaciones entre cada par de observaciones
            en estas dimensiones son utilizadas para encontrar un 
            clasificador de vector soporte.
            La validación cruzada puede ser utilizada para encontrar el valor 
            óptimo de $d$
            $$
                K(\vec{x},\vec{u})=(\gamma \vec{x} \cdot \vec{u}+r)^d
            $$
        </dd>
    <br>
    <dt>KERNEL RADIAL (Gaussiano)</dt>
        <dd>
            Encuentra clasificadores de vector soporte en dimensiones
            infinitas. En esta función, las observaciones más próximas a cada
            nueva observación tienen una gran influencia en su clasificación.
            Mientras que las observaciones que se encuentran alejadas tienen una
            influencia muy pequeña.
            $$
                K(\vec{x},\vec{u})= e ^{- \gamma \left\|\vec{x} - \vec{u}\right\|^2}
            $$   
        </dd>
</dl>

<h3>TRUCO DEL KERNEL</h3>
Las funciones Kernel calculan únicamente las relaciones entre los pares de datos
como si se encontraran en otra dimensión mayor, pero <strong>no realizan la 
transformación</strong> de los datos a estas dimensiones. Este hecho,
denominado el <strong>truco del Kernel</strong> (Kernel Trick), permite
reducir la cantidad de cálculos requeridos por las SVM, eliminando la 
matemática necesaria para transformar
los datos de dimensiones pequeñas a mayores dimensiones.