Nota generada a partir de [liga](https://www.dropbox.com/s/qb3swgkpaps7yba/4.1.Introduccion_optimizacion_convexa.pdf?dl=0), [liga2](https://www.dropbox.com/s/6isby5h1e5f2yzs/4.2.Problemas_de_optimizacion_convexa.pdf?dl=0).

# Optimización Numérica, optimización de código y machine learning

Hasta este módulo hemos invertido buena parte del tiempo del curso en la eficiente implementación en el hardware que poseemos. Revisamos lo que estudia el análisis numérico o cómputo científico, definiciones de funciones, derivadas, integrales y métodos o algoritmos numéricos para su aproximación. Consideramos *bottlenecks* que pueden surgir en la implementación de los métodos o algoritmos y revisamos posibles opciones para encontrarlos y minimizarlos (**optimización de código**). Lo anterior lo resumimos con el uso de herramientas como: perfilamiento, integración de R y Python con C++ o C, cómputo en paralelo y uso del caché de forma eficiente al usar niveles altos en operaciones de BLAS ([módulo I: cómputo científico y análisis numérico](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/blob/master/temas/I.computo_cientifico), [módulo II: cómputo en paralelo](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/tree/master/temas/II.computo_paralelo), [módulo III: cómputo matricial](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/tree/master/temas/III.computo_matricial)). 

Si bien la optimización de código no le compete a la **optimización numérica**, sí se apoya enormemente de ella para la implementación de sus métodos o algoritmos en la(s) máquina(s) para resolver problemas que surgen en tal rama de las **matemáticas aplicadas**. A la implementación y simulación en el desarrollo de los métodos o algoritmos del análisis numérico o cómputo científico típicamente se le acompaña de estudios que realizan [benchmarks](https://en.wikipedia.org/wiki/Benchmark_(computing)), mediciones de recursos (tiempo y memoria por ejemplo) y perfilamiento con el objetivo de tener **software confiable y eficiente** en la práctica. Esto lo encontramos también en la rama de optimización numérica con los métodos o algoritmos que son desarrollados e implementados.

La implementación de los métodos o algoritmos en el contexto de **grandes cantidades de datos** o *big data* es **crítica** al ir a la práctica pues de esto depende que nuestra(s) máquina(s) tarde meses, semanas, días u horas para resolver problemas que se presentan en este contexto. La ciencia de datos apunta al desarrollo de técnicas y se apoya de aplicaciones de *machine learning* para la extracción de conocimiento útil y toma como fuente de información las grandes cantidades de datos. 

## ¿Problemas de optimización numérica?

Una gran cantidad de aplicaciones plantean problemas de optimización matemática o numérica. Tenemos problemas básicos que se presentan en cursos iniciales de cálculo:

*Una caja con base y tapa cuadradas debe tener un volumen de $100 cm^3$. Encuentre las dimensiones de la caja que minimicen la cantidad de material.*

Y tenemos más especializados que encontramos en áreas como estadística, ingeniería, finanzas o *machine learning*:

* Ajustar un modelo de regresión lineal a un conjunto de datos.

* Buscar la mejor forma de invertir un capital en un conjunto de activos.

* Elección del ancho y largo de un dispositivo en un circuito electrónico.

* Ajustar un modelo que clasifique un conjunto de datos.

En general un problema de optimización matemática o numérica tiene la forma:

$$\displaystyle \min_{x \in \mathbb{R}^n} f_o(x)$$

$$\text{sujeto a:} f_i(x) \leq b_i, i=1,\dots, m$$

donde: $x=(x_1,x_2,\dots, x_n)^T$ es la **variable de optimización del problema**, la función $f_o: \mathbb{R}^{n} \rightarrow \mathbb{R}$ es la **función objetivo**, las funciones $f_i: \mathbb{R}^n \rightarrow \mathbb{R}, i=1,\dots,m$ son las **funciones de restricción** (aquí se colocan desigualdades pero pueden ser igualdades o una combinación de ellas) y las constantes $b_1,b_2,\dots, b_m$ son los **límites o cotas de las restricciones**. 

**Ejemplo:**

$$\displaystyle \min_{x \in \mathbb{R}^n} ||x||_2$$

$$\text{sujeto a:} Ax \leq b$$


con $A \in \mathbb{R}^{m \times n}, b \in \mathbb{R}^m$. En este problema buscamos el vector $x$ que es solución del problema $Ax \leq b$ con mínima norma Euclidiana. La función objetivo es $f_o(x)=||x||_2$, las funciones de restricción son las desigualdades lineales $f_i(x) = a_i^Tx \leq b_i$ con $a_i$ $i$-ésimo renglón de $A$ y $b_i$ $i$-ésima componente de $b$, $\forall i=1,\dots,m$.

Un problema similar al anterior lo podemos encontrar en un sistema de ecuaciones lineales $Ax=b$ *underdetermined* en el que $m < n$ y se busca el vector $x$ con mínima norma Euclidiana que satisfaga tal sistema. Tal sistema puede tener infinitas soluciones o ninguna solución, ver [3.3.Solucion_de_SEL_y_FM](https://github.com/ITAM-DS/analisis-numerico-computo-cientifico/blob/master/temas/III.computo_matricial/3.3.Solucion_de_SEL_y_FM.ipynb).

## ¿Machine learning y optimización numérica?

Lo siguiente **no** pretende ser una exposición extensa ni completa sobre *machine learning*, ustedes llevan materias que se enfocan esencialmente a definir esta área, sus objetivos y conceptos más importantes. En esta sección relacionamos a *machine learning* con la optimización matemática o numérica y se describen diferentes enfoques que se han propuesto para aplicaciones de *machine learning* con métodos de optimización numérica.

En la ciencia de datos se utiliza *machine learning* para aplicaciones como son:

* Clasificación de documentos o textos: detección de *spam*.

* Procesamiento de lenguaje natural:  [named-entity recognition](https://en.wikipedia.org/wiki/Named-entity_recognition).

* Reconocimiento de voz.

* [Visión por computadora](https://en.wikipedia.org/wiki/Computer_vision): reconocimiento de rostros o imágenes.

* Detección de fraude.

* Diagnóstico médico.

* Sistemas de recomendación.

...

Las aplicaciones anteriores involucran problemas como son:

* Clasificación.

* Regresión.

* *Ranking*.

* *Clustering*.

* Reducción de la dimensionalidad.

En cada una de las aplicaciones o problemas considerados se utilizan **funciones de pérdida** que guían el proceso de aprendizaje. Tal proceso involucra optimización de parámetros de la función de pérdida. Por ejemplo, si la función de pérdida en un problema de regresión es una pérdida cuadrática $\mathcal{L}(y,\hat{y}) = (\hat{y}-y)^2$ con $\hat{y} = \hat{\beta}_0 + \beta_1x$, el vector de parámetros a optimizar (aprender) es $
\beta=
\left[ \begin{array}{c}
\beta_0\\
\beta_1
\end{array}
\right]
$.