# Introducción

Un modelo matemático de optimización no lineal, al igual que los modelos lineales, estan compuestos de variables, objetivos y restricciones. Sin embargo, el modelo no lineal considera almenos una función no lineal de las variables, bien sea en la función objetivo o en algunas (o todas) las restricciones. 

Es de utilidad primero comprender porque los programas no lineales son usualmente más dificiles de resolver que su contraparte lienal. La siguiente 
<a href="https://drive.google.com/file/d/16QgnWiob56N4JJGFLAnb8Gg5VRqvHgNY/view?usp=sharing">animación </a> resume las principales razones, presentando un resumen del **Capitulo 16** del libro <a href="https://drive.google.com/file/d/16QgnWiob56N4JJGFLAnb8Gg5VRqvHgNY/view?usp=sharing">Practical optimization: a gentle introduction </a>



# Taxonomias de los programas no lineales

## Según el tipo de problema

Los programas no lineales puede clasificarse en primer lugar dependiendo del tipo de problemas

<img src="https://docs.google.com/uc?export=download&id=1byy5Enil7G4vsLiBLlt6a3gOu1DeWULG" alt="Drawing" style="width: 100px;"/>



## Según el método de solución

Los métodos de solución, dependerá del tipo de problema considerado, algunos de los más comunes son: 

<img src="https://docs.google.com/uc?export=download&id=11ayZvr5jmypWAAcTygxoWjDbMoJEajT0" alt="Drawing" style="width: 100px;"/>

<img src="https://docs.google.com/uc?export=download&id=1CXwoCrJ7qZDHV1mcz5VymtZb1oQpyAYd" alt="Drawing" style="width: 100px;"/>






# Conceptos básicos y programas no lineales sin restricciones

Iniciaremos el estudio abordando los programas no lineales sin restricciones. Los elementos básicos que aquí se describen serán la base para programas más complejos en los que se consideran  restricciones.

Para ello usted deberá leer las **secciones 16.1 a 16.6** del libro  <a href="https://drive.google.com/file/d/1kQl-Tw50usXGBuepoGw7Cc9G6AXId34W//view?usp=sharing">Optimization in Operations Research </a>





# Actividad de clase 1

Con base en las lecturas realizadas usted deberá formular tres preguntas respecto a los conceptos básicos. 

> **Tip metodológico**: La taxonomia de bloom para el ámbito cognitivo permite evidenciar el nivel de apropiación del conocmiento. Siendo frecuentemente utilizada como referente para la formulación de objetivos o el diseño de elementos de aprendizaje <img src="https://docs.google.com/uc?export=download&id=1l-8iqeFI_CkIlpAUWYPhncAEiV64rIfz" alt="Drawing" style="width: 200px;"/>

Las preguntas que usted formulará deben estar ubicadas en las tres primeras categorias de profundidad del conocimiento de acuerdo con la taxonomia de bloom (Recordar, comprender, aplicar). Agregue sus preguntas en el siguiente <a href="https://drive.google.com/file/d/10B6ASUVOkUZx83ufhEiXCJif78huirgk401Pu81nSG4//view?usp=sharing">archivo.</a>



# Algoritmos de solución

## Búsqueda de la sección dorada (Golden section search)
El algoritmo de la sección dorada es  algoritmo es aplicable para:
* Problemas no restringidos
* funciones objetivo univariadas
* funciones objetivo unimodaless 


El siguiente pseudocódigo tomado del libro de Rardin describe el algoritmo de búsqueda de sección dorada
<img src="https://docs.google.com/uc?export=download&id=194Mjepy4HhCfu4LXrpVrw6vp__h_46sc" alt="Drawing" style="width: 200px;"/>. 

Usaremos la implementación del algoritmo disponible en la libreria `scipy`




In [None]:
import matplotlib.pyplot as plt
import numpy as np

# define una función 
def function(x):
  return x**4 - 2*x**3 - x**2 + 5*x

x = np.linspace(-4.0, 4.0, 200)
y = function(x)
plt.plot(x, y)
plt.show()

Definamos el intervalo (bracket) en el que se encuentra el óptimo de la función y optimiza


In [None]:
lo = -4
mid = 0
up = 4
absolutePrecision = 1e-10

from scipy import optimize
minimum = optimize.golden(function, brack=(lo, mid, up))
minimum

### Actividad de clase 2. 

Experimente con el algoritmo usando distintas funciones que usted mismo defina. Analice los resultados

In [None]:
# Inserte su código aquí


## Búsqueda de gradiente multidimensional (bidimensional)

El algoritmo de búsqueda gradiente usa información de las primeras derivadas (gradiente) para orientar la dirección de búsqueda de mejores soluciones. 

El siguiente pseudocódigo tomado del libro de Rardin describe el algoritmo de búsqueda gradiente
<img src="https://docs.google.com/uc?export=download&id=1ERfKlE_5XZY_Xq0GTmfag0VqII2F6Pt1" alt="Drawing" style="width: 200px;"/>. 

Usaremos la implementación del algoritmo descrita en este <a href="https://xavierbourretsicotte.github.io/Intro_optimization.html">enlace</a>.



Definimos primero los métodos que nos permitirán graficar las funciones y el proceso de optimización

In [None]:
import numpy as np
import matplotlib.pyplot as plt 

# Método para graficar la función
def graph_function(f, x_domain, y_domain):
  x = np.linspace(x_domain[0],x_domain[1],250)
  y = np.linspace(y_domain[0],y_domain[1],250)
  X, Y = np.meshgrid(x, y)
  Z = f(X, Y)

  %matplotlib inline
  fig = plt.figure(figsize = (16,8))

  #Surface plot
  ax = fig.add_subplot(1, 2, 1, projection='3d')
  ax.plot_surface(X,Y,Z,rstride = 5, cstride = 5, cmap = 'jet', alpha = .4, edgecolor = 'none')
  plt.show()

# Método para graficar la trayectoria de optimización
def graph_opt(fun, x_domain, y_domain, iter_x, iter_y):
  x = np.linspace(x_domain[0],x_domain[1],250)
  y = np.linspace(y_domain[0],y_domain[1],250)
  X, Y = np.meshgrid(x, y)
  Z = fun(X, Y)

  #Angles needed for quiver plot
  anglesx = iter_x[1:] - iter_x[:-1]
  anglesy = iter_y[1:] - iter_y[:-1]

  %matplotlib inline
  fig = plt.figure(figsize = (16,8))

  #Surface plot
  ax = fig.add_subplot(1, 2, 1, projection='3d')
  ax.plot_surface(X,Y,Z,rstride = 5, cstride = 5, cmap = 'jet', alpha = .4, edgecolor = 'none' )
  ax.plot(iter_x,iter_y, fun(iter_x,iter_y),color = 'r', marker = '*', alpha = .4)

  #Rotate the initialization to help viewing the graph
  ax.view_init(45, 280)
  ax.set_xlabel('x')
  ax.set_ylabel('y')

  #Contour plot
  ax = fig.add_subplot(1, 2, 2)
  ax.contour(X,Y,Z, 60, cmap = 'jet')
  #Plotting the iterations and intermediate values
  ax.scatter(iter_x,iter_y,color = 'r', marker = '*')
  ax.quiver(iter_x[:-1], iter_y[:-1], anglesx, anglesy, scale_units = 'xy', angles = 'xy', scale = 1, color = 'r', alpha = .3)
 


Definimos el método que ejecuta el algoritmo de gradiente.

**Note** que este método considera una longitud de paso (parámetro *gamma*) fijo, lo cual debería modificarse en cada iteración

In [None]:
import numpy as np
def Gradient_Descent(Grad,x,y, gamma = 0.00125, epsilon=0.0001, nMax = 10000 ):
    #Initialization
    i = 0
    iter_x, iter_y, iter_count = np.empty(0),np.empty(0), np.empty(0)
    error = 10
    X = np.array([x,y])
    
    #Looping as long as error is greater than epsilon
    while np.linalg.norm(error) > epsilon and i < nMax:
        i +=1
        iter_x = np.append(iter_x,x)
        iter_y = np.append(iter_y,y)
        iter_count = np.append(iter_count ,i)         
        X_prev = X
        X = X - gamma * Grad(x,y)
        error = X - X_prev
        x,y = X[0], X[1]        
    
    return X, iter_x,iter_y, iter_count


### Ejemplo 1

La <a href="https://es.wikipedia.org/wiki/Funci%C3%B3n_de_Rosenbrock">función de Rosenbrock </a> es una función no convexa utilizada como problema de prueba del rendimiento para algoritmos de optimización que se introdujo por Howard H. Rosenbrock en 1960.1​ Es también conocida como Rosenbrock la función del valle o la función del plátano.

El mínimo global está dentro de un valle plano, largo, estrecho y de forma parabólica. Encontrar el valle es trivial. Sin embargo, converger al mínimo global es difícil.

La función está definida por:

$\displaystyle f(x,y)=(a-x)^{2}+b(y-x^{2})^{2}$






In [None]:
def Rosenbrock(x,y):
    return (1 + x)**2 + 100*(y - x**2)**2

def Grad_Rosenbrock(x,y):
    g1 = -400*x*y + 400*x**3 + 2*x -2
    g2 = 200*y -200*x**2
    return np.array([g1,g2])

def Hessian_Rosenbrock(x,y):
    h11 = -400*y + 1200*x**2 + 2
    h12 = -400 * x
    h21 = -400 * x
    h22 = 200
    return np.array([[h11,h12],[h21,h22]])

Graficamos la función

In [None]:
graph_function(Rosenbrock, (-3,3), (-10,8))

Desarrollar el proceso de optimización y graficar la trayectoria

In [None]:
root,iter_x,iter_y, iter_count = Gradient_Descent(Grad_Rosenbrock,-2,2)
graph_opt(Rosenbrock, (-3,3), (-10,8), iter_x, iter_y)

### Ejemplo 2

La función de Himmelblau es una función multi-modal, definida sobre \mathbb{R}^2 y usada para comprobar el rendimiento de los algoritmos de optimización.

La función se define de la siguiente manera:

e function is defined by:

$\displaystyle f(x,y)=(x^{2}+y-11)^{2}+(x+y^{2}-7)^{2}$



In [None]:
def Himmer(x,y):
    return (x**2 + y - 11)**2 + ( x + y**2 - 7 )**2

def Grad_Himmer(x,y):
    return np.array([2 * (-7 + x + y**2 + 2 * x * (-11 + x**2 + y)), 2 * (-11 + x**2 + y + 2 * y * (-7 + x + y**2))])

def Hessian_Himmer(x,y):
    h11 = 4 * (x**2 + y - 11) + 8 * x**2 + 2
    h12 = 4 * x + 4 * y
    h21 = 4 * x + 4 * y 
    h22 = 4 * (x + y**2 - 7) + 8 * y**2 + 2
    
    return np.array([[h11,h12],[h21,h22]]) 

Gráficamos la función

In [None]:
graph_function(Himmer, (-5,5), (-5,5))

Desarrollar el proceso de optimización y graficar la trayectoria

In [None]:
root,iter_x,iter_y, iter_count = Gradient_Descent(Grad_Himmer,-1,1)
graph_opt(Himmer, (-5,5), (-5,5), iter_x, iter_y)

### Actividad de clase 3
Experimente el algoritmo con sus propias funciones

In [None]:
# Ingrese aquí sus funciones

def function2(x,y):
    return (x + 3)**2 + y**2 +6

## Algoritmo Newton Raphson

El algoritmo de Newton Raphson complementa la información otorgada por el gradiente, mediante la segunda derivada (o matriz Hessiana) con el fin de orientar la búsqueda

El siguiente pseudocódigo tomado del libro de Rardin describe el algoritmo Newton Raphson
<img src="https://docs.google.com/uc?export=download&id=1z73fC7Tn4Id8URyRYZD7_KvB92l0GbNk" alt="Drawing" style="width: 200px;"/>. 

Usaremos la implementación del algoritmo descrita en este <a href="https://xavierbourretsicotte.github.io/Intro_optimization.html">enlace</a>.

In [None]:
import numpy as np

def Newton_Raphson_Optimize(Grad, Hess, x,y, epsilon=0.000001, nMax = 200):
    #Initialization
    i = 0
    iter_x, iter_y, iter_count = np.empty(0),np.empty(0), np.empty(0)
    error = 10
    X = np.array([x,y])
    
    #Looping as long as error is greater than epsilon
    while np.linalg.norm(error) > epsilon and i < nMax:
        i +=1
        iter_x = np.append(iter_x,x)
        iter_y = np.append(iter_y,y)
        iter_count = np.append(iter_count ,i)  
        
        X_prev = X
        X = X - np.linalg.inv(Hess(x,y)) @ Grad(x,y)
        error = X - X_prev
        x,y = X[0], X[1]
          
    return X, iter_x,iter_y, iter_count


### Ejemplo 1 

In [None]:
def Rosenbrock(x,y):
    return (1 + x)**2 + 100*(y - x**2)**2

def Grad_Rosenbrock(x,y):
    g1 = -400*x*y + 400*x**3 + 2*x -2
    g2 = 200*y -200*x**2
    return np.array([g1,g2])

def Hessian_Rosenbrock(x,y):
    h11 = -400*y + 1200*x**2 + 2
    h12 = -400 * x
    h21 = -400 * x
    h22 = 200
    return np.array([[h11,h12],[h21,h22]])

Desarrollar la optimización  y graficar la trayectoria

In [None]:
root,iter_x,iter_y, iter_count = Newton_Raphson_Optimize(Grad_Rosenbrock,Hessian_Rosenbrock,-2,2)
graph_opt(Rosenbrock, (-3,3), (-10,8), iter_x, iter_y)
print(root)

### Ejemplo 2


In [None]:
def Himmer(x,y):
    return (x**2 + y - 11)**2 + ( x + y**2 - 7 )**2

def Grad_Himmer(x,y):
    return np.array([2 * (-7 + x + y**2 + 2 * x * (-11 + x**2 + y)), 2 * (-11 + x**2 + y + 2 * y * (-7 + x + y**2))])

def Hessian_Himmer(x,y):
    h11 = 4 * (x**2 + y - 11) + 8 * x**2 + 2
    h12 = 4 * x + 4 * y
    h21 = 4 * x + 4 * y 
    h22 = 4 * (x + y**2 - 7) + 8 * y**2 + 2
    
    return np.array([[h11,h12],[h21,h22]]) 

Desarrollar la optimización y graficar la trayectoria

In [None]:
root,iter_x,iter_y, iter_count = Newton_Raphson_Optimize(Grad_Himmer,Hessian_Himmer,-1,1)
graph_opt(Himmer, (-5,5), (-5,5), iter_x, iter_y)

# Ejercicios

## Ejercicio 1

El servicio de emergencias 123 desea estimar el la función de distribución de probabilidad exponencial de los tiempos entre arribos de llamadas. Para ello se tiene la siguiente muestra de tiempos entre arribos (en segundos). 

`[80, 10, 14, 26, 40, 22]`

Tenga presente además que para la distribución exponencial $f(x) = \lambda e ^ {\lambda x} $.

* Escriba la función de máxima verosimilitud que permite obtener el valor de $\lambda$ que maximiza la probabilidad de la muestra de tiempos entre arribos suministrada.
* Grafique la función y obtenga el valor óptimo de $\lambda$ por inspección visual
* Determine si alguno de los algoritmos considerados puede emplearse para obtener el valor óptimo de $\lambda$.

In [None]:
# Inserte su código aquí



Usemos el algoritmo de la razón dorada para obtener el valor óptimo

## Ejercicio 2

Con el fin de mejorar el curso de optimización, el profesor esta interesado en estudiar la aprobación que sus videos  tienen por parte de sus estudiantes. De manera particular, esta interesado en conocer el impacto que tiene la duración de los videos en el número de "me gusta" que reciben. A continuación se presenta una muestra de datos de los videos publicados en ediciones pasadas del curso: 

|  |  | |  |  |  |  |  |  |  |  |  |  |  |  |  |
| -------- | --- | --- | --- | --- | --- | --- | --- | --- | ---- | --- | ---- | --- | ---- | ---- | ---- |
| Duración | 292 | 435 | 472 | 245 | 822 | 718 | 694 | 988 | 1325 | 819 | 1305 | 193 | 1020 | 1169 | 1048 |
| MeGusta  | 12  | 19  | 20  | 10  | 33  | 29  | 31  | 41  | 56   | 35  | 55   | 11  | 44   | 47   | 43   |



Los datos parecen tener una asociación lineal. Use el método de busqueda gradiente para estimar los coeficientes de la recta $y = \beta_o + \beta_1*x$ que permiten predecir el número de *me gusta* en función de la duración del video

### Forma 1: Implementemos el algorimo desde cero

Consideremos la definición del algoritmo y adaptamos la implementación descrita en este <a href="https://towardsdatascience.com/linear-regression-using-gradient-descent-97a6c8700931">enlace</a>.

In [None]:
# escriba su respuesta


### Forma 2: Modifiquemos el algoritmo que anteriormente desarrollamos

In [None]:
# Escriba su respuesta

# Referencias

Los algoritmos presentados en este notebook son una adaptación de los descritos en esta página: https://xavierbourretsicotte.github.io/Intro_optimization.html