# El uso de multiplicadores de Lagrange para resolver el problema de SVD.

Recordemos la funcion objetivo para SVM:

$$\text{minimizar} \quad J(w) = \frac{\| w \|^2}{2} $$
$$ \text{ sujeto a } y_i ( w^T x_i - b) \ge 1 \quad , i=1,2, \cdots, m$$

O de otra forma

$$\text{minimizar} \quad J(w) = \frac{\| w \|^2}{2} $$
$$ \text{ sujeto a } [ y_i ( w^T x_i - b) -1] \ge 0 \quad , i=1,2, \cdots, m$$

Un problema general de Multiplicadores de Lagrange

$$\min f(\theta) \quad , \quad \text{sujeto a} $$
$$ g_i(\theta ) \ge 0 $$.

Es suficiente pensar en $g_i(\theta)=0$, que es la frontera de la region $g_i(\theta) \ge 0$.

El problema de multiplicadores de Lagrange es establecer la siguiente funcion de costo


$$L(\theta, \lambda) = f(\theta) - \sum_i \lambda_i g_i(\theta) \tag{1} $$

Para el problema que queremos resolver
Cambiano nombres $\theta \to w$.
$$ f(w) = \frac12 \| w \|^2 $$
$$ g(w) = y_i[ ( w \cdot x_i - b) - 1]$$
De forma que la Ecuacion (1) se convierte en

$$L(w, b, \lambda) = \frac12 \| w \|^2 - \sum_i \lambda_i
[ y_i( w \cdot x_i - b) - 1 ] \tag{2} $$

La funcion $L$ es la funcion objetivo, via multiplicadores de Lagrange que toca minimizar. Para esto toca hallar el gradiente de $L$. Es decir,  ( $\nabla L$)


$$\nabla_w L(w, b, \lambda) =\nabla_w \left [  \frac12 \| w \|^2 - \sum_i \lambda_i
[ y_i( w \cdot x_i - b) - 1 ] \right ] = 0 $$




Vamos por partes.

$$\frac{\partial}{\partial w_j} \left ( \frac12 \| w \|^2  \right ) = \frac{\partial}{\partial w_j} \left ( \frac12 \sum_i w_i^2 \right ) = \sum_i \frac{\partial w_i}{\partial w_j} w_i =\sum_i \delta_{ij} w_i =w_j. $$

\begin{eqnarray}
\frac{\partial }{\partial w_j} \left (
    \sum_i \lambda_i [ y_i( w \cdot x_i - b) -1]
    \right ) &=& \frac{\partial}{\partial w_j} \left (
        \sum_i \lambda_i \left [
            y_i \left (
                \sum_k w_k (x_i)_k - b
                \right ) - 1
            \right ]
        \right ) \\
        &=& \sum_i \lambda_i \left [
            y_i \left (
                \sum_k \delta_{kj}(x_i)_k
                \right )
            \right ] \\
    &=&  \sum_i \lambda_i y_i (x_i)_j.
\end{eqnarray}

Considerando ambos terminos tenemos:

$$\nabla_w L(w, b, \lambda) = w_j - \sum_i \lambda_i y_i(x_i)_j = 0$$

De forma vectorial podemos escribir

$$w = \sum_i \lambda_i y_i x_i . \tag{3} $$
donde $\lambda_i, y_i$ son escalares y $x_i, w$ son vectores.

Tomemos ahora la derivada con respecto a $b$
como $\frac12 \| w \|^2$ no depende de $b$, solo
nos quedamos con el segundo termino de (2).

$$\frac{\partial}{\partial b} \left (  
    \sum_i \lambda_i [ y_i(w \cdot x_i - b) - 1]
    \right ) = -\sum_i \lambda_i y_i = 0 $$

Es decir, encontramos que

$$\sum_i \lambda_i y_i = 0. $$

A lo ultimo vamos a poner todo en terminos de $\lambda$. Recordemos la Ecuacion (2)
\begin{eqnarray}
L(w, b, \lambda) &=& \frac12 \| w \|^2 - \sum_i \lambda_i
[ y_i( w \cdot x_i - b) - 1 ]  \\
&=& \frac12
\left ( \sum_{i} \lambda_i y_i x_i  \right ) \cdot
\left ( \sum_{i} \lambda_i y_i x_i  \right )
- \sum_i \lambda_i \left [
    y_i  \left (
        \sum_j \lambda_j y_j x_j \cdot x_i -b
        \right ) - 1
    \right ] \\
    &=& \frac12 \sum_i \sum_j \lambda_i \lambda_j y_i y_j x_i \cdot x_j - \sum_i \sum_j \lambda_i y_i \lambda_j y_j x_i \cdot x_j +  \sum_i \lambda_i y_i b + \sum_i \lambda_i
    \\
    &=& -\frac12 \sum_i \sum_j \lambda_i \lambda_j y_i y_j x_i \cdot x_j + b \sum_i \lambda_i y_i + \sum_i \lambda_i \\
    &=& -\frac12 \sum_i \sum_j \lambda_i \lambda_j y_i y_j x_i \cdot x_j + \sum_i \lambda_i
\end{eqnarray}
Queda lo siguiente

$$L(\lambda) = -\frac12 \sum_i \sum_j \lambda_i \lambda_j y_i y_j x_i \cdot x_j + \sum_i \lambda_i $$
sujeto a

$$\sum_i \lambda_i y_i = 0 $$

A este problema se conoce como el problema **dual**
Este problema es un problema de optimizacion cuadratica.
Se puede resolver por las tecnicas de

[quadratic programming](https://en.wikipedia.org/wiki/Quadratic_programming).

Para resolverlo tendriamos que hallar el gradiente de $L$ con respecto a $\lambda$. Tenemos las siguientes ecuaciones

$$ \frac{\partial L}{\partial \lambda_i} = 0 \quad, \quad i=1, \cdots, m $$

La pregunta es como hallamos $w$? De la ecuacion (3) ya conocemos
$\lambda_i, x_i, y_i$ entonces conocemos $w$.

Tarea, revisar como hallar $b$ con estos resultados.




## Kernel Trick:
Sabemos que para separar datos no linealmente separables debemos mover los puntos a una hier-superficie en un espacio de mayor dimension que donde estan los datos originalmente.
La condicion para separar los puntos es

$$y_i \left (  \sum_j \lambda_j y_j x_j \cdot x_i - b)  \right ) \ge 1$$

Vemos que toca hacer los productos $x_i \cdot x_j$ muchas veces. Estos puntos se van a mapear a un espacio de mayores dimensiones, por un "kernel"
$x_i \mapsto \Phi(x_i)$
Llamos kernel a la siguiente function

$$k(x_i, x_j) = \Phi(x_i) \cdot \Phi(x_j) $$

Esto se va a tener que calcular muchas veces. Isabelle Guyon en 1991 invento una forma de calcular estos **kernels** de una forma rapida. A esto se llamo el **kernel trick**.
[enlace aca](https://en.wikipedia.org/wiki/Kernel_method).
Este **truco** permitio un computo mucho mas veloz de las operaciones que envuelve el metodo de SVM.

La funcion $\Phi$ se le llama el **feature map** (mapeo)
Vamos a ver una serie de ejemplos donde probamos que
mediante el kernel trick es mas rapido hacer los calculos.

**Ejemplo 1**:
Tomemos $n=2$ (el espacio es de dos dimensiones)
Definamos el **feature map** como

\begin{eqnarray}
\Phi : \mathbb{R}^2 &\to& \mathbb{R}^3  \\
(x_1, x_2) &\mapsto& \Phi(x_1, x_2) = (x_1^2 , x_2^2, \sqrt{2} x_1 x_2)
\end{eqnarray}
De acuerdo a esto

El truco es este:
$$k(x,y) = ( x \cdot y)^2 $$

Vamos a probar que en verdad $k(x,y) = \Phi(x) \cdot \Phi(y)$
Veamos. Tomemos $x=(x_1, x_2)$, $y=(y_1, y_2)$, entonces

$$k(x,y) = (x \cdot y)^2 = \left ( \sum_{i=1}^2 x_i y_i   \right )^2 =
x_1^2 y_1^2 + 2 x_1 x_2 y_1 y_2 + x_2^2 y_2^2 $$

Comparamos esto con

$$\Phi(x) \cdot \phi(y) = (x_1^2, x_2^2, \sqrt{2} x_1 x_2) \cdot (y_1^2, y_2^2, \sqrt{2} y_1 y_2) = x_1^2 y_1^2 + 2 x_1 x_2 y_1 y_2 + x_2^2 y_2^2 $$







Contemos operaciones: (toy)
* $k(x,y)=(x \cdot y)^2$
para $x \cdot y$ se necesitan: 2 multiplicaciones y una suma.
Sumele un cuadrado y pare de contar.
* $\Phi(x) \cdot \Phi(y)$. Entonces para $\Phi(x)$, dos cuadrados y dos multiplicaciones y lo mismo para $\Phi(y)$ y luego el producto punto se necesitan 3 multiplicaciones y 2 sumas.
Es mas del doble de operaciones. En la vida real no es 2 o 3 dimensiones sino muchisimas mas.



    

**Ejemplo 2**:
Pensemos en $n=3$, y definamos

\begin{eqnarray}
\Phi : \mathbb{R}^3 &\to& \mathbb{R}^6 \\
(x_1, x_2, x_3) &\mapsto& = (x_1^2, x_2^2, x_3^2, \sqrt{2} x_1 x_2, \sqrt{2} x_1 x_3, \sqrt{2} x_2 x_3)
\end{eqnarray}

El **kernel trick** es:

$$ k(x,y)= (x \cdot y)^2 $$

Veamos como este computo es mucho mas rapido que el tradicional.
Si $x=(x_1, x_2, x_3)$, $y=(y_1, y_2, y_3)$.

$$k(x,y) = (x \cdot y)^2 = \left ( \sum_{i=1}^3 x_i y_i \right )^2  = \sum_{i=1}^3 \sum_{j=1}^3 x_i x_j y_i y_j $$

De otro lado

$$\Phi(x) \cdot \Phi(y) =
(x_1^2, x_2^2, x_3^2, \sqrt{2} x_1 x_2, \sqrt{2} x_1 x_3, \sqrt{2} x_2 x_3) \cdot
(y_1^2, y_2^2, y_3^2, \sqrt{2} y_1 y_2, \sqrt{2} y_1 y_3, \sqrt{2} y_2 y_3) =\sum_{i=1}^3 \sum_{j=1}^3 x_i x_j y_i y_j
 $$

Cuentas de calculo
* $k(x,y)$:
necesitamos 3 multiplicaciones y dos sumas para $x \cdot y$ y un cuadrado y pare de contar.

* $\Phi(x) \cdot \Phi(y)$: 12 multiplicaciones y 6 cuadrados para $\Phi(x)$ y $\Phi(y)$. El product interno da 6 multiplicaciones y 5 sumas.