# Multiplicadores de Lagrange en SVM.
Vamos a formular un nuevo problema que se llama el **dual** el cual va a tener ventajas que formulas más adelante.

Este problema se formuló inicialmente por Vladimir Vapnik y Alexey Chervonenkis en 1960s. Ma adelante en 1995 se hizo otra publicación de Cortes, y Vapnik.

Notación: En vez de $x^{(i)}$, $x_i$, en vez de $y^{(i)}$, $y_i$.

En la clase anterior vimos que el problema de SVM consistía en encontrar un hiperplano con "pendiente" (vector normal) $w$ e intercepto $b$  que
separa los dos conjuntos (pinos vs eucaliptos). Lo llevamos a una función de costo de la forma de multiplicadores de Lagrange

$$\text{minimizar  } J(w) = \frac{\| w \|²}{2} $$
$$\text{sujeto a } y_i(w^T x_i - b ) - 1 = 0 \quad , i=1,2, \cdots, m \tag{0} $$

Este es un problema de la forma

$$\min f(\theta) \quad , \quad \text{sujeta a } $$
$$g_i(\theta) \ge 0. $$
Este problema se conoce como el
[KKT](https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions)
por las siglas de sus inventores. Es una generalización de los multiplicadores de Lagrange. Pero la solución se hace en el mismo sentido.

La técnica es la misma. Se construye un Lagrangiano (no el de la mecánica analíitca)

$$L(\theta, \lambda) = f(\theta) - \sum_i \lambda_i g_i(\theta) $$

En nuestro caso tenemos

$$L(w, b, \lambda) = \frac12 \| w \|²  - \sum_i \lambda_i [ y_i(w \cdot x_i -b) -1 ]  \tag{1} $$


$$\nabla L(w, b, \lambda) = \nabla \left [ \frac12 \| w \|²  - \sum_i \lambda_i [ y_i(w \cdot x_i -b) -1 ] \right ]   = 0  $$

Lo haremos en dos pasos. Con respecto a $w$ y con respecto a $b$

1.
$$\nabla_w L(w, b, \lambda) = \nabla_w \left [ \frac12 \| w \|²  - \sum_i \lambda_i [ y_i(w \cdot x_i -b) -1 ] \right ]   = 0  $$

A su vez consideramos dos partes.

* Primero y segundo término.
El primer termino es $\| w \|²/2 = \sum_i w_i² /2$.
De forma que
$$\frac{\partial}{\partial w_j} \left ( \frac12 \sum_i w_i² \right ) = \sum_i w_i \delta_{ij} = w_j \tag{2} $$

* Para el segundo término.
\begin{eqnarray}
\frac{\partial }{\partial w_j}
\left (
    \sum_i \lambda_i [ y_i(w \cdot x_i -b) -1
    \right )  &=&
    \frac{\partial }{\partial w_j}
\left (
    \sum_i \lambda_i [ y_i \left ( \sum_k w_k (x_i)_k  -b \right ) -1
    \right )  \\
    &=& \sum_i \lambda_i \left [ y_i \sum_k \delta_{kj} (x_i)_k  \right ] \\
    &=& \sum_i \lambda_i y_i (x_i)_j \tag{3}
\end{eqnarray}
Sumando (2) y (3) encontramos


$$\nabla_w L(w, b, \lambda) = w_j - \sum_i \lambda_i y_i (x_i)_j = 0 $$
De acá que

$$w = \sum_i \lambda_i y_i x_i  \tag{4} $$

2. El gradiente con respecto a $b$ es igual a

$$\frac{\partial}{\partial b} \left (
    \sum_i \lambda_i [ y_i (w \cdot x_i - b) -1 ]
    \right )  = -\sum_i \lambda_i y_i = 0 $$

De forma que

$$\sum_i \lambda_i y_i = 0. \tag{5} $$

Vamos a reemplazar $w$ y esta ecuacion (me elimina $b$ como veremos) en el Lagrangiano  (1)

\begin{eqnarray}
L(w, b, \lambda) &=& \frac12  \left ( \sum_i \lambda_i y_i x_i  \right )
\cdot \left ( \sum_j \lambda_j y_j x_j  \right )  - \sum_i \lambda_i \left [ y_i
    \left ( \sum_j \lambda_j y_j x_j  \right ) \cdot x_i -b) -1 \right]   \\
    &=&
    \frac12 \sum_i \sum_j \lambda_i \lambda_j y_i y_j x_i \cdot x_j
    - \sum_i \sum_j \lambda_i y_i x_i \cdot x_j + \sum_i \lambda_i y_i b + \sum_i \lambda_i \\
    &=& -\frac12 \sum_i \sum_j \lambda_i \lambda_j x_i \cdot x_j + 0 + \sum_i \lambda_i  \\
    \end{eqnarray}

O sea que
Tenemos el problema **dual**

$$L(\lambda) = -\frac12 \sum_i \sum_j \lambda_i \lambda_j y_i y_j x_i \cdot x_j + \sum_i \lambda_i  $$
sujeto a

$$\sum_i \lambda_i y_i = 0. $$

Se puede resolver ya este problema que es convecto (cuadrática) con metodos conocidos. O se puede, también, formular la otra ecuación de multiplicadores de Lagrange

$$\frac{\partial L}{\partial \lambda_i} \quad   i = 1, \cdots, m $$
Este sistema de $m$ ecuacioes es lineal y se puede resolver con métodos conocidos.

Una vea conocidos los multiplicadores de Lagrange $\lambda_i$, podemos calcular la "pendiente" ($w$) de la Ecuación, (4). Se deja como taréa obtener $b$.



### Ventajas de la formulación dual.
* La importante es que permite usar el **kernel trick** (que se enseña en la segunda parte de esta clase). El cual acelera grandemente el proceso. Esto debido a la cantidad de productos internos de la forma $x_i \cdot x_j$ en las expresiones.

* La solucón en términos de $\lambda_i$ es rápida en el sentido de que la mayoría de los $\lambda_i$ son cero. Solo los relacionados a la margen son $\lambda_i>0$ los demás son 0. El número de $\lambda_i \ne 0$ es el número de vectores de soporte.





# Kernel Trick
Hasra 1991 SVM no era tan popular. En 1991 Isabelle Guyon introdujo el **kernel trick** que es supervalioso por que acelera el proceso de separar dos conjuntos de datos.

Reurden el criterio de separabilidad.

$$y_i \left (\sum_j \lambda_i y_j x_i \cdot x_j - b   \right ) \ge 1  \tag{6} $$
$y_i \pm $ donde insertamos $w$ en la Ecuación (0).

También recordemos el Lagrangiano del problema dual.

$$L(\lambda) = -\frac12 \sum_i \sum_j \lambda_i \lambda_j y_i y_j x_i \cdot x_j + \sum_i \lambda_i  \tag{7} $$

Reucuerden que cuando dos conjuntos no es linealmente separable (que no existe un hiperplano de forma que uno de los conjuntos (pinos) esté a un lado del plano y el otro (eucaliptos) al otro lado) entonces proyectamos hacia atrá (backproject) los datos con una función $\Phi$. A este $\Phi$ se le llama **feature mapping** (mapeo de atributo).

En este sentido nos vamos de una espacio $\mathbb{R}^k$ a $\mathbb{R}^p$ donde $p  > k$. Cuando hacemos este mapeo la Ecuacion (7) se convierte en

$$L_\Phi(\lambda) = -\frac12 \sum_i \sum_j \lambda_i \lambda_j y_i y_j \Phi(x_i) \cdot \Phi(x_j) + \sum_i \lambda_i  $$


Esta es la que se mete al problema del SVM.
Las condiciones de separabilidad de (6) son 2
$$\sum_j \lambda_j y_j \Phi(x_j) \cdot \Phi(x_i) - b \ge 1 \quad , \quad y_i = \oplus = +1 $$

$$\sum_j \lambda_j y_j \Phi(x_j) \cdot \Phi(x_i) - b < -1 \quad , \quad y_i = \oplus = +1 $$
En el intervalo $(-1,1)$ es el margen (gap) "la carretera". En $=1$ la berma. Y en los intervalos $(-\infty, -1)$ y $(1, \infty)$ está el bosque.


De todas estas últimas ecuaciones quiero que observen la cantidad de operaciones del tipo $\Phi(x_i) \cdot \Phi(x_j)$.
Muchas veces se tiene que calcular este producto. Isabelle Guyon invento el truco que explicamos a continuación.

Se redefine el $k(x,y)$ junto con el "feature mapping"

$$k(x,y) = \Phi(x_i) \cdot \Phi(x_j) \tag{8} $$

Mediante ejemplos vamos a ilustrar el truco.


**Ejemplo 3.3.8**
* Tomemos $n=2$ (dos dimensiones o número features)

\begin{eqnarray}
\Phi: \mathbb{R}^2 &\to& \mathbb{R}^3  \\
(x_1, x_2) &\mapsto& \Phi(x_1, x_2)=(x_1² , x_2² , \sqrt{2} x_1 x_2 )
\end{eqnarray}

Vamos a mostrar que
$$k(x,y) = (x \cdot y)² \tag{9} $$
Probamos que $k(x,y) = \Phi(x) \cdot \Phi(y)$, como indica la Ecuacion (8).

$$k(x,y) = ( x \cdot y)^2 = \left ( \sum_{i=1}^2 x_i y_i \right )^2 = x_1^2 y_1^2 + 2 x_1 x_2 y_1 y_2 + x_2^2 y_2^2. $$
De otro lado

$$\Phi(x) \cdot \Phi(y) = (x_1^2, x_2^2, \sqrt{2} x_1 x_2) \cdot (y_1^2, y_2^2 , \sqrt{2} y_1 y_2 ) = x_1^2 y_1^2 + x_2^2 y_2^2 + 2 x_1 x_2 y_1 y_2 . $$

Vemos que $k(x,y) = \Phi(x) \cdot \Phi(y)$.

Vamos a ver que es más rapido calcular $k(x,y)$ que $\Phi(x) \cdot \Phi(y)$.

Contamos número de operaciones.
* $k(x,y)$: De la Ecuación (9). 2 multiplicaciones y una suma.... y un cuadrado.

* $\Phi(x) \cdot \Phi(y)$: 4 cuadrados, 4 multiplicaciones, del producto interno 2 multiplicaciones y una suma.

Vemos que el no uso de "kernel trick" (9), nos arroja mas 3 veces el cómputo.

* Para $n=3$. Definimos

\begin{eqnarray}
\Phi: \mathbb{R}^3 &\to& \mathbb{R}^6 \\
(x_1, x_2, x_3) &\mapsto& \Phi(x_1, x_2, x_3) = (x_1^2, x_2^2, x_3^2, \sqrt{2} x_1 x_2, \sqrt{2} x_1 x_3, \sqrt{2} x_2 x_3 )
\end{eqnarray}

Igual que en la Ecuacion (9)
$$k(x,y) = (x \cdot y)²  $$
Veamos que $k(x,y)=\Phi(x) \cdot \Phi(y)$

* $k(x,y)$:
    * Del producto interno: 3 multiplicaciones y 2 sumas
    * Un cuadrado.

* $\Phi(x) \cdot \Phi(y)$:
    * Por la definición de $\Phi$: 6 cuadrados. 12 productos.
    * Por el producto interno 6 productos y 5 sumas.

Se observa una clara diferencia entre el uso de $k(x,y)$ vs, $\Phi(x) \cdot \Phi(y)$.

**Ejemplo 3.3.8**: Asuma $c \in \mathbb{R}$.
Piense en en lo siguiente

\begin{eqnarray}
k(x,y) &=& (x \cdot y + c )²  \\
&=& \left ( \sum_{i=1}^3 x_i y_i + c  \right ) \left (
   \sum_{i=1}³ x_i y_i + c \right ) \\
   &=& \sum_{i=1}^3 \sum_{j=1}^3 x_i x_j y_i y_j  + 2 c \sum_{i=1}^3 x_i y_i + c²
\end{eqnarray}

Definamos ahora el siguiente feature mapping.

\begin{eqnarray}
\Phi : \mathbb{R}^3 &\to& \mathbb{R}^{10} \\
(x_1, x_2, x_3) &\mapsto& \Phi(x_1, x_2, x_3) = (x_1^2 , x_2^2, x_3^2, \sqrt{2} x_1 x_2, \sqrt{2} x_1 x_3, \sqrt{2} x_2 x_3, \sqrt{2} c x_1, \sqrt{2} c x_2, \sqrt{2} c x_3, c)
\end{eqnarray}





Se puede probar que

$$k(x,y) = \Phi(x) \cdot \Phi(y) \tag{10} $$
Cálculos de número de opearaiones. En el aire.
El número de operaciones es significatiavente más grande para $\Phi(x) \cdot \Phi(y)$ que para $k(x,y)$.

En general, para cualquier $d \in \mathbb{N}$, $d \ge 2$ piense en este kernel

$$k(x,y) = (x \cdot y + c)^d \quad, \quad c \in \mathbb{R}  $$
El kernel satisface
$$k(x,y) = \Phi(x) \cdot \Phi(y) $$
para algún $\Phi$ (es tarea).

Pistas sobre el $\Phi$. $\Phi(x)$ es un feature mapping de $\mathbb{R}^n$ to
$\mathbb{R}^p$, con

$$p = \binom{n+d}{d} $$
Es decir

$$\Phi: \mathbb{R}^n \to \mathbb{R}^p. $$

Contar operaciones es interesante. Finjense que $p$ (por el teorema de Sterling) crece de forma exponencial. Entonces el costo de operarar $\Phi$ es muy alto comparado con el costo de $k(x,y)$ en la Ecuación

### Kernel Gaussiano:
Piense en el siguiente kernel

$$k(x_i, x_j) = \mathrm{e}^{- \frac{x_i - x_j}{2 \sigma^2} }. $$

Quien es $(x_i - x_j)$
donde $x_i, x_j \in \mathbb{R}^n$?

$$(x_i - x_j)^2 = \| x_i - x_j \|^2 = (x_i - x_j)^T (x_i - x_j) = \langle x_i - x_j, x_i - x_j\rangle  = (x_i - x_j ) \cdot (x_i - x_j)  $$

Vamos a ser más humildes y pensar en $\mathbb{R}$. Es decir $x_i, x_j \in \mathbb{R}$.

Recuerden  la expansion en series de Taylor de la exponencial

$$\mathrm{e}^{\theta} \approx 1 + \theta + \frac{\theta^2}{2} + \cdots + \frac{\theta^n}{n!}  \tag{11} $$

La **misión** es encontrar el **feature mapping** correspondiente a este kernel.


Usamos (11)
\begin{eqnarray}
\mathrm{e}^{- \frac{x_i - x_j}{2 \sigma²} }  &=& \mathrm{e}^{-\frac{x_i^2 + x_j^2}{2 \sigma^2}} \mathrm{e}^{ \frac{x_i x_j}{\sigma^2}} \\
&=& \mathrm{e}^{-\frac{x_i^2 + x_j^2}{2 \sigma^2}}
\left (
    1 +  \frac{x_i x_j}{\sigma^2 } +
    \frac{1}{2!}  \left ( \frac{x_i x_j}{\sigma^2} \right)^2  
   +  
    \frac{1}{3!}  \left ( \frac{x_i x_j}{\sigma^2} \right)^3  
    + \cdots +  \frac{1}{n!}
    \left ( \frac{x_i x_j}{\sigma^2}^n  \right )
    \right )  \\
    &=&  \mathrm{e}^{-\frac{x_i^2 + x_j^2}{2 \sigma^2}}
    \left (
        (1)(1) + \frac{x_i}{\sigma} \frac{x_j}{\sigma}  + \frac{x_i^2}{\sqrt{2!} \sigma^2} \frac{x_j^2}{\sqrt{2!} \sigma^2} +
        \frac{x_i^3}{\sqrt{3!} \sigma^3} \frac{x_j^3}{\sqrt{3!} \sigma^2} + \cdots +
        \frac{x_i^n}{\sqrt{n!} \sigma^n} \frac{x_j^n}{\sqrt{n!} \sigma^2} +
\right )
     \end{eqnarray}


Claramente si

$$
\Phi(x) =
\mathrm{e}^{-\frac{x^2}{2 \sigma^2} }
\left (
    1,  \frac{x}{\sigma}, \frac{x^2}{\sqrt{2!} \sigma^2}
    , \frac{x^3}{ \sqrt{3}! \sigma^3}, \cdots, \frac{x^n}{\sqrt{n!} \sigma^n }
    \right )
$$

Se observa que
$$k(x,y) = \Phi(x) \cdot \Phi(y) $$

Necesitaríamos un número infinito de operaciones para implementar $\Phi$. Sin embargo el kernel $k(x,y)$ se implementa con pocas operaciones.


## algunas propiedades de los Kernels
* El kernel es simetrico $k(x,y)=k(y,x)$. Si

$$(K)_{ij} = k(x_i, x_j) $$

* Recuerden que si una matriz es simétrica entonces se puede diagonalizar.

$$K = U \Lambda U^T \tag{12}$$
Existe un matriz diagonal $\Lambda$ con autovalores de $K$ y una matriz $U$ con columnas autovectores de $K$ tales que
que se cumple la Ecuación (12).

Si todos los autovalores son positivos o 0
La idea es encontrar el feature mapping $\Phi$ de este kernel.

\begin{eqnarray}
k_{ij} &=&  \sum_{l=1}^m u_{il} \lambda_l u_{jl}  \\
&=& \sum_{l=1}^m  \sqrt{\lambda_l} u_{il} \sqrt{\lambda_l} u_{jl} \\
&=& ( \sqrt{\lambda_1} u_{i1}, \sqrt{\lambda_2} u_{i2} , \cdots, \sqrt{\lambda_m} u_{im} ) \cdot
\sqrt{\lambda_1} u_{j1}, \sqrt{\lambda_2} u_{j2} , \cdots, \sqrt{\lambda_m} u_{jm} )
\end{eqnarray}



De forma que si definimos

\begin{eqnarray}
\Phi: \mathbb{R}^n &\to \mathbb{R}^m \\
x^{(i)} &\mapsto& (\sqrt{\lambda_1} u_{i1}, \sqrt{\lambda_2} u_{i2} , \cdots, \sqrt{\lambda_m} u_{im} )
\end{eqnarray}

Entonces

$$(K)_{ij} = k(x^{(i)}, x^{(j)}) = \Phi(x^{(i)}) \cdot \Phi(x^{(j)})  $$

Vimos que si la matriz no es negativa definida tenemos la represenaci'on del feaure mapping a partir de $k$.

Ahora bien, veamos que si $k(x,y)=\Phi(x) \cdot \Phi(y)$ entonces la matriz $k$ es no negativa definida.

Es decir $c \in \mathbb{R}^n$

\begin{eqnarray}
c^T K C &=& \sum_i \sum_j c_i c_j k(x_i, x_j) = \sum_i \sum_j c_i c_j \Phi(x_i) \cdot \Phi(x_j) = \sum_i c_i \Phi(x_i) \cdot \sum_j c_j \Phi(x_j)  \\
&=& \|\sum_i c_i \Phi(x_i) \|^2  \ge 0.
\end{eqnarray}

El analisis de kernels viene del an'alisis funcional en espacios de Hilbert.

# Proxima clase: Metodos no supervisados.