In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import ipywidgets as widgets
%matplotlib widget
layout = widgets.Layout(align_items = 'center')

<h1>FUNDAMENTO MATEMÁTICO</h1>

Existen muchas rectas que podrían seleccionarse si
se busca encontrar la recta que separe los ejemplos
correspondientes a cada una de las clases (en este caso
clase + y clase $\circ$). Sin embargo, 
este algoritmo pretende encontrar aquella recta que 
pase por el punto medio de la distancia más grande
entre los ejemplos <b>positivos (+)</b> y <b>negativos ($\circ$)</b>.

<center>
<img src="./figures/mathematic.png"  height="600" width="600"/>
</center>

Se considera que el vector denominado $\vec{w}$, sea cual 
sea su longitud, es <b>perpendicular</b> a la línea media 
(umbral de decisión). Y que $\vec{u}$ corresponde a un vector 
que apunta hacia un nuevo dato que se desea clasificar, por lo 
cual se realiza su <strong>proyección sobre el vector 
$\vec{w}$</strong>. De esta manera se obtiene un valor de 
distancia en la dirección de $\vec{w}$, que
mientras mayor sea, más cerca se encontrará el ejemplo de estar 
en el lado derecho de la línea media (clase + en este caso).
Por lo tanto, el nuevo ejemplo corresponderá a la clase positiva
(+) cuando:


$$
    \vec{w} \cdot \vec{u} \geq C
$$

<div  class="alert alert-block alert-success"> 
  <ol>
    <li>REGLA DE DECISIÓN (siendo $C = -b$):
       $$
            \vec{w} \cdot \vec{u} + b \geq 0 \quad \rightarrow \quad \text{es positivo}
       $$
    </li>
  </ol>
</div>


Existen entonces 2 variables desconocidas: $\vec{w}$ y $b$. 
Por lo que se van a adicionar un par de restricciones (constraints) 
para poder calcular estos valores. En primer lugar, para 
asegurar una separación entre los ejemplos positivos de 
los negativos, y teniendo en cuenta que $\vec{x_+}$ denota un 
ejemplo positivo (clase +) y $\vec{x_-}$ un ejemplo negativo 
(clase $\circ$):

$$
    \vec{w} \cdot \vec{x_+} + b \geq 1
$$
$$
    \vec{w} \cdot \vec{x_-} + b \leq -1
$$

Si introducimos una nueva variable denominada $y_i$, tal que:

$$
    y_i =  \left\{
                   \begin{array}{ll}
                     1      & \text{para muestras positivas}\\
                     -1     & \text{para muestras negativas}
                   \end{array}
             \right.
$$


De esta manera, multiplicando las
restricciones anteriores por esta nueva variable, se obtiene 
una única ecuación tanto para muestras positivas como negativas:

$$
   y_i(\vec{w} \cdot \vec{x_+} + b) \geq 1
$$
$$
   y_i(\vec{w} \cdot \vec{x_-} + b) \geq 1
$$

$$
   \boxed{y_i(\vec{w} \cdot \vec{x_i} + b)-1 \geq 0}
$$

<div  class="alert alert-block alert-success"> 
  <ol start="2">
    <li>RESTRICCIÓN:
       $$
           y_i(\vec{w} \cdot \vec{x_i} + b)-1 = 0 \quad \text{para todas 
           las muestras que se encuentran sobre las rectas determinadas
           por los vectores soporte}
       $$
    </li>
  </ol>
</div>

Como ya se mencionó anteriormente, el objetivo es encontrar
la recta que separe las muestras positivas de las negativas 
que tenga el margen más grande. Es decir, que la distancia 
entre las rectas que pasan por los vectores soporte sea máxima.
Si se considera a $\vec{x_+}$ y $\vec{x_-}$ como 2 vectores
soporte correspondientes a una muestra positiva y una negativa, 
respectivamente, la distancia puede ser calculada como:

$$
    width = (\vec{x_+}-\vec{x_-}) \cdot \frac{\vec{w}}{\left\|\vec{w}\right\|}
$$

<ul>
    <li>Siendo $\frac{\vec{w}}{\left\|\vec{w}\right\|}$ el vector normal unitario
        en la dirección de $\vec{w}$, es decir, perpendicular al umbral de
        decisión.</li>
</ul>

Teniendo en cuenta el recuadro <strong>2</strong>:

$$
    \vec{x_+} \cdot \vec{w} = 1 - b
$$

$$
    -(\vec{x_-} \cdot \vec{w}) = 1 + b
$$


<div  class="alert alert-block alert-success"> 
  <ol start="3">
    <li>DISTANCIA ENTRE RECTAS DEFINIDAS POR VECTORES SOPORTE:
       $$
         width = \frac{2}{\left\|\vec{w}\right\|}
       $$
    </li>
  </ol>
</div>

Dado que el objetivo es maximizar la distancia, se puede 
intentar maximizar $\frac{1}{\left\|\vec{w}\right\|}$. Lo
cual equivale a minimizar el valor de $\left\|\vec{w}\right\|$
o a encontrar el valor:

$$
    \boxed{ \min \frac{1}{2}\left\|\vec{w}\right\|^2 }
$$

Para encontrar este valor es posible aplicar el método de los
multiplicadores de Lagrange,
el cual es un procedimiento para encontrar los máximos y mínimos 
de funciones de múltiples variables sujetas a restricciones. 
Por lo tanto, la función de Lagrange es:

$$
    L = \frac{1}{2}\left\|\vec{w}\right\|^2 -
        \sum \alpha_i \left[y_i(\vec{w} \cdot \vec{x_i} + b)-1\right]
$$

<ul>
    <li>Siendo el segundo término una suma de todas las restricciones, 
        cada una multiplicada por un determinado $\alpha_i$</li>
</ul>

Para encontrar el valor extremo, las derivadas de la función $L$ deben ser iguales a cero:

$$
     \frac{\partial L}{\partial\vec{w}} = \vec{w} - \sum \alpha_i y_i \vec{x_i} = 0
$$

$$
    \boxed{ \vec{w} = \sum \alpha_i y_i \vec{x_i} }
$$

$$
    \frac{\partial L}{\partial b} = - \sum\alpha_i y_i = 0
$$

$$
    \boxed{ \sum\alpha_i y_i = 0 }
$$

Es posible reemplazar el valor de $\vec{w}$ en la ecuación de $L$:

$$
    L = \frac{1}{2} \left(\sum \alpha_i y_i \vec{x_i}\right) \cdot 
        \left(\sum \alpha_j y_j \vec{x_j}\right) -  \sum \alpha_i y_i 
        \vec{x_i} \cdot \left(\alpha_j y_j \vec{x_j} \right) - \sum \alpha_i y_i b + \sum \alpha_i
$$

$$
    L = \frac{1}{2} \left(\sum \alpha_i y_i \vec{x_i}\right) \cdot 
        \left(\sum \alpha_j y_j \vec{x_j}\right) -  \left(\sum \alpha_i y_i 
        \vec{x_i}\right) \cdot \left(\alpha_j y_j \vec{x_j} \right) - 0 + \sum \alpha_i
$$

<div  class="alert alert-block alert-success"> 
  <ol start="4">
    <li>El valor extremo que se desea encontrar DEPENDE del producto 
        punto entre pares de vectores de muestra:
       $$
            L = \sum \alpha_i - \frac{1}{2} \left(\sum \sum \alpha_i \alpha_j y_i y_j \vec{x_i} \cdot \vec{x_j}\right)  
       $$
    </li>
  </ol>
</div>


Al reemplazar el valor de $\vec{w}$ en la regla de decisión, es posible 
observar que la misma también depende del producto punto entre los vectores
muestra y el vector desconocido:

<div  class="alert alert-block alert-success"> 
  <ol start="5">
    <li>REGLA DE DECISIÓN:
       $$
         \sum \alpha_i y_i \vec{x_i} \cdot \vec{u} + b \geq 0 \quad \rightarrow \quad \text{es positivo}
       $$
    </li>
  </ol>
</div>