Nota generada a partir de [liga](https://www.dropbox.com/s/qb3swgkpaps7yba/4.1.Introduccion_optimizacion_convexa.pdf?dl=0), [liga2](https://www.dropbox.com/s/6isby5h1e5f2yzs/4.2.Problemas_de_optimizacion_convexa.pdf?dl=0).

# Optimización Numérica y machine learning

**Optimización de código ¿es optimización numérica?**

Hasta este módulo hemos invertido buena parte del tiempo del curso en la eficiente implementación en el hardware que poseemos. Revisamos lo que estudia el análisis numérico o cómputo científico, definiciones de funciones, derivadas, integrales y métodos o algoritmos numéricos para su aproximación. Consideramos *bottlenecks* que pueden surgir en la implementación de los métodos o algoritmos y revisamos posibles opciones para encontrarlos y minimizarlos (**optimización de código**). Lo anterior lo resumimos con el uso de herramientas como: perfilamiento, integración de R y Python con C++ o C, cómputo en paralelo y uso del caché de forma eficiente al usar niveles altos en operaciones de BLAS ([módulo I: cómputo científico y análisis numérico](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/blob/master/temas/I.computo_cientifico), [módulo II: cómputo en paralelo](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/tree/master/temas/II.computo_paralelo), [módulo III: cómputo matricial](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/tree/master/temas/III.computo_matricial)). 

Si bien la optimización de código no le compete a la **optimización numérica**, sí se apoya enormemente de ella para la implementación de sus métodos o algoritmos en la(s) máquina(s) para resolver problemas que surgen en tal rama de las **matemáticas aplicadas**. A la implementación y simulación en el desarrollo de los métodos o algoritmos del análisis numérico o cómputo científico típicamente se le acompaña de estudios que realizan [benchmarks](https://en.wikipedia.org/wiki/Benchmark_(computing)), mediciones de recursos (tiempo y memoria por ejemplo) y perfilamiento con el objetivo de tener **software confiable y eficiente** en la práctica. Esto lo encontramos también en la rama de optimización numérica con los métodos o algoritmos que son desarrollados e implementados.

**Métodos o algoritmos numéricos en *big data***

La implementación de los métodos o algoritmos en el contexto de **grandes cantidades de datos** o *big data* es **crítica** al ir a la práctica pues de esto depende que nuestra(s) máquina(s) tarde meses, semanas, días u horas para resolver problemas que se presentan en este contexto. La ciencia de datos apunta al desarrollo de técnicas y se apoya de aplicaciones de *machine learning* para la extracción de conocimiento útil y toma como fuente de información las grandes cantidades de datos. 

## ¿Problemas de optimización numérica?

Una gran cantidad de aplicaciones plantean problemas de optimización matemática o numérica. Tenemos problemas básicos que se presentan en cursos iniciales de cálculo:

*Una caja con base y tapa cuadradas debe tener un volumen de $100 cm^3$. Encuentre las dimensiones de la caja que minimicen la cantidad de material.*

Y tenemos más especializados que encontramos en áreas como estadística, ingeniería, finanzas o *machine learning*:

* Ajustar un modelo de regresión lineal a un conjunto de datos.

* Buscar la mejor forma de invertir un capital en un conjunto de activos.

* Elección del ancho y largo de un dispositivo en un circuito electrónico.

* Ajustar un modelo que clasifique un conjunto de datos.

En general un problema de optimización matemática o numérica tiene la forma:

$$\displaystyle \min_{x \in \mathbb{R}^n} f_o(x)$$

$$\text{sujeto a:} f_i(x) \leq b_i, i=1,\dots, m$$

donde: $x=(x_1,x_2,\dots, x_n)^T$ es la **variable de optimización del problema**, la función $f_o: \mathbb{R}^{n} \rightarrow \mathbb{R}$ es la **función objetivo**, las funciones $f_i: \mathbb{R}^n \rightarrow \mathbb{R}, i=1,\dots,m$ son las **funciones de restricción** (aquí se colocan únicamente desigualdades pero pueden ser sólo igualdades o bien una combinación de ellas) y las constantes $b_1,b_2,\dots, b_m$ son los **límites o cotas de las restricciones**. 

Un vector $x^* \in \mathbb{R}^n$ es nombrado **óptimo** o solución del problema anterior si tiene el valor más pequeño de entre todos los vectores $x \in \mathbb{R}^n$ que satisfacen las restricciones. Por ejemplo, si $z \in \mathbb{R}^n$ satisface $f_1(z) \leq b_1, f_2(z) \leq b_2, \dots, f_m(z) \leq b_m$ y $x^*$ es óptimo entonces $f_o(z) \geq f_o(x^*)$.

**Comentario:** en el curso revisamos métodos o algoritmos de optimización numérica que consideran funciones objetivo $f_o: \mathbb{R} \rightarrow \mathbb{R}^n$. Sin embargo, hay formulaciones que utilizan $f_o: \mathbb{R}^n \rightarrow \mathbb{R}^q$. Tales formulaciones pueden hallarlas en la optimización multicriterio, multiobjetivo, vectorial o Pareto. Ver [Multi objective optimization](https://en.wikipedia.org/wiki/Multi-objective_optimization).

**Ejemplo:**

$$\displaystyle \min_{x \in \mathbb{R}^n} ||x||_2$$

$$\text{sujeto a:} Ax \leq b$$


con $A \in \mathbb{R}^{m \times n}, b \in \mathbb{R}^m$. En este problema buscamos el vector $x$ que es solución del problema $Ax \leq b$ con mínima norma Euclidiana. La función objetivo es $f_o(x)=||x||_2$, las funciones de restricción son las desigualdades lineales $f_i(x) = a_i^Tx \leq b_i$ con $a_i$ $i$-ésimo renglón de $A$ y $b_i$ $i$-ésima componente de $b$, $\forall i=1,\dots,m$.

Un problema similar al anterior lo podemos encontrar en resolver el sistema de ecuaciones lineales $Ax=b$ *underdetermined* en el que $m < n$ y se busca el vector $x$ con mínima norma Euclidiana que satisfaga tal sistema. Tal sistema puede tener infinitas soluciones o ninguna solución, ver [3.3.Solucion_de_SEL_y_FM](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/blob/master/temas/III.computo_matricial/3.3.Solucion_de_SEL_y_FM.ipynb).

## ¿Machine learning, statistical machine learning y optimización numérica?

En esta sección relacionamos a *machine learning* con la optimización matemática o numérica y se describen diferentes enfoques que se han propuesto para aplicaciones de *machine learning* con métodos de optimización numérica. Lo siguiente **no** pretende ser una exposición extensa **ni** completa sobre *machine learning*, ustedes llevan materias que se enfocan esencialmente a definir esta área, sus objetivos y conceptos más importantes. 

En la ciencia de datos se utilizan las aplicaciones desarrolladas en *machine learning* por ejemplo:

* Clasificación de documentos o textos: detección de *spam*.

* Procesamiento de lenguaje natural:  [named-entity recognition](https://en.wikipedia.org/wiki/Named-entity_recognition).

* Reconocimiento de voz.

* [Visión por computadora](https://en.wikipedia.org/wiki/Computer_vision): reconocimiento de rostros o imágenes.

* Detección de fraude.

* Diagnóstico médico.

* Sistemas de recomendación.


Las aplicaciones anteriores involucran problemas como son:

* Clasificación.

* Regresión.

* *Ranking*.

* *Clustering*.

* Reducción de la dimensionalidad.

En cada una de las aplicaciones o problemas anteriores se utilizan **funciones de pérdida** que guían el proceso de aprendizaje. Tal proceso involucra **optimización numérica de parámetros** de la función de pérdida. Por ejemplo, si la función de pérdida en un problema de regresión es una pérdida cuadrática $\mathcal{L}(y,\hat{y}) = (\hat{y}-y)^2$ con $\hat{y} = \hat{\beta}_0 + \beta_1x$, entonces el vector de parámetros a optimizar (aprender) es $
\beta=
\left[ \begin{array}{c}
\beta_0\\
\beta_1
\end{array}
\right]
$.

*Machine learning* no sólo se apoya de la optimización matemática o numérica pues es un área de Inteligencia Artificial\* que utiliza técnicas estadísticas para el diseño de sistemas capaces de aplicaciones como las escritas anteriormente, de modo que hoy en día tenemos *statistical machine learning*. No obstante, uno de los **pilares** de *machine learning* o *statistical machine learning* es la optimización matemática o numérica.

\*La IA o inteligencia artificial es una rama de las ciencias de la computación que atrajo un gran interés en $1950$.

*Machine learning* o *statistical machine learning* se apoya de las formulaciones y algoritmos en optimización matemática o numérica. Sin embargo, también ha contribuido a ésta área desarrollando nuevos enfoques en los métodos o algoritmos numéricos de optimización para el tratamiento de las grandes cantidades de datos o *big data* y estableciendo retos significativos no presentes en problemas clásicos de optimización matemática o numérica. De hecho, al revisar literatura que intersecta estas dos disciplinas encontramos comunidades científicas que desarrollan o utilizan métodos o algoritmos exactos (ver [Exact algorithm](https://en.wikipedia.org/wiki/Exact_algorithm)) y otras que utilizan métodos de optimización estocástica (ver [Stochastic optimization](https://en.wikipedia.org/wiki/Stochastic_optimization)) basados en métodos o algoritmos aproximados (ver [Approximation algorithm](https://en.wikipedia.org/wiki/Approximation_algorithm)).

## ¿Large scale machine learning?

En *machine learning* uno de los objetivos bien definidos es encontrar soluciones que generalicen y provean una explicación no compleja del fenómeno en estudio\*. Esto sigue el principio de la navaja de Occam, ver [Occam's razor](https://en.wikipedia.org/wiki/Occam%27s_razor): para cualquier conjunto de observaciones en general se prefieren explicaciones simples a explicaciones más complicadas. 

\*La regularización es una técnica que sigue el principio de Occam.

El inicio del siglo XXI estuvo marcado, entre otros temas, por un incremento significativo en la generación de información. Esto puede contrastarse con el desarrollo de los procesadores de las máquinas como se revisó en el  módulo II del curso en el tema [2.1.Un_poco_de_historia_y_generalidades](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/blob/master/temas/II.computo_paralelo/2.1.Un_poco_de_historia_y_generalidades.ipynb). Asimismo, las mejoras en el performance y precio de dispositivos de almacenamiento o *storage* y sistemas de networking abarató costos de almacenamiento y permitió tal incremento de información.  En este contexto, los modelos y métodos de *statistical machine learning* se vieron limitados por el tiempo de cómputo y no por el tamaño de muestra. La conclusión de esto fue el diseño de métodos o modelos para procesar grandes cantidades de datos usando recursos computacionales comparativamente menores.

**Batch algoritmhs and online algorithms**

Tradicionalmente en la optimización matemática o numérica la búsqueda del (o los) **óptimo(s)** involucran el cálculo de información de primer o segundo orden (ver [1.4.Polinomios_de_Taylor_y_diferenciacion_numerica](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/blob/master/temas/I.computo_cientifico/1.4.Polinomios_de_Taylor_y_diferenciacion_numerica.ipynb)) de la función $f_o$. Este cálculo se realiza por lotes o *batch*. 

**Ejemplo:**

1) Calcular $\nabla f(x), \nabla^2f(x)$ con $f: \mathbb{R}^4 \rightarrow \mathbb{R}$, dada por $f(x) = (x_1-2)^2+(2-x_2)^2+x_3^2+x_4^4$ en el punto $x_0=(1.5,1.5,1.5,1.5)^T$. 

**Solución:**

$$\nabla f(x) = 
\left[ \begin{array}{c}
2(x_1-2)\\
-2(2-x_2)\\
2x_3\\
4x_4^3
\end{array}
\right] ,
$$

$$\nabla^2f(x)=
 \left[\begin{array}{cccc}
2 & 0 & 0 & 0\\
0 & 2 & 0 & 0\\
0 & 0 &2 & 0\\
0 & 0 &0 &12x_3^2
\end{array}
\right]
$$

$$\nabla f(x_0) = 
\left[ \begin{array}{c}
-1\\
-1\\
3\\
\frac{27}{2}
\end{array}
\right],
$$

$$\nabla^2f(x_0)=
 \left[\begin{array}{cccc}
2 &0&0&0\\
0&2&0&0\\
0 &0&2&0\\
0&0&0&27\\
\end{array}
\right]
$$

Información de primer y segundo orden lo constituyen el gradiente de $f$, $\nabla f$, y la matriz Hessiana de $f$, $\nabla^2f(x)$. Obsérvese que el almacenamiento de la Hessiana involucra $\mathcal{O}(n^2)$ entradas y en los métodos de optimización matemática o numérica se utiliza para encontrar el mínimo de una función resolviendo un sistema de ecuaciones lineales.

2) Encontrar el mínimo de $f$.

**Solución:**

In [1]:
import numpy as np

In [2]:
x0=np.array([1.5,1.5,1.5,1.5])

In [3]:
gf= lambda x: np.array([2*(x[0]-2),
                        -2*(2-x[1]),
                        2*x[2],
                        4*x[3]**3])

In [4]:
Hf = lambda x: np.array([[2, 0, 0 ,0],
                         [0, 2, 0, 0],
                         [0, 0, 2, 0],
                         [0, 0, 0, 27]])

In [5]:
gf(x0)

array([-1. , -1. ,  3. , 13.5])

In [6]:
Hf(x0)

array([[ 2,  0,  0,  0],
       [ 0,  2,  0,  0],
       [ 0,  0,  2,  0],
       [ 0,  0,  0, 27]])

Como $f$ es una función convexa (definida abajo) se tiene que su óptimo se obtiene igualando $\nabla f(x) = 0$ :

$$\nabla f(x) = 
\left[ \begin{array}{c}
2(x_1-2) \\
-2(2-x_2)\\
2x_3\\
4x_4^3
\end{array}
\right]
= 0
$$

dado por $x^* \in \mathbb{R}^4:$

$$x^*=
\left[ \begin{array}{c}
2\\
2\\
0\\
0
\end{array}
\right]
$$

Numéricamente se puede utilizar un método iterativo en el que iniciamos con un punto inicial $x^{(0)}$ y las actualizaciones se realizan con el gradiente:

$$x^{(k)} = x^{(k-1)} - \nabla f(x^{(k-1)})$$

para $k=1,2,\dots,$. En el ejemplo anterior tomando $x^{(0)} = (0,0,0,0)^T$ se tiene:

In [7]:
x_0 = np.array([0,0,0,0])

In [8]:
x_1 = x_0 - gf(x_0)

In [9]:
x_1

array([4, 4, 0, 0])

In [10]:
x_2 = x_1 - gf(x_1)

In [11]:
x_2

array([0, 0, 0, 0])

In [12]:
x_3 = x_2 - gf(x_2)

In [13]:
x_3

array([4, 4, 0, 0])

In [14]:
x_4 = x_3 - gf(x_3)

In [15]:
x_4

array([0, 0, 0, 0])

y aquí nos quedaremos ciclando hasta el infinito...

Otra opción es utilizar la información de segundo orden con la Hessiana y considerar una actualización:

$$x^{(k)} = x^{(k-1)} - \nabla^2 f \left (x^{(k-1)} \right )^{-1} \nabla f\left(x^{(k-1)} \right)$$

(recordamos que no calculmos inversas de matrices por mayor costo computacional que resolver un sistema de ecuaciones lineales)

In [16]:
x_1 = x_0 - np.linalg.solve(Hf(x_0),gf(x_0))

In [17]:
x_1

array([2., 2., 0., 0.])

**Comentarios:** de acuerdo al ejemplo anterior:

* Utilizar información de primer o segundo orden nos ayuda a encontrar óptimo(s) de funciones.

* Encontrar al óptimo involucró un método iterativo.

* Con la información de primer orden no alcanzamos al óptimo pero con la de segundo orden sí lo alcanzamos en una iteración y tuvimos que resolver un sistema de ecuaciones lineales.

* Si consideramos una actualización de la forma:

$$x^{(k)} = x^{(k-1)} - t_k\nabla f(x^{(k-1)})$$

con $t_1=0.5$ llegamos al óptimo en una iteración:

In [58]:
t_1=0.5

In [59]:
x_1 = x_0 - t_1*gf(x_0)

In [60]:
x_1

array([2., 2., 0., 0.])

* Calcular el gradiente involucra menos almacenamiento en memoria que el cálculo de la Hessiana: $\mathcal{O}(n)$ vs $\mathcal{O}(n^2)$. 


## ¿Optimización numérica convexa?