### Introducción a la Investigación Operativa y la Optimización

### • Numpy - Derivadas parciales - Algoritmo de Newton Generalizado

**Nazareno Faillace Mullen - Departamento de Matemática, FCEN, UBA**

# Python: `Numpy`

Utilizaremos los objetos `array` de la librería `numpy` para trabajar con vectores y matrices en Python.

Importamos la librería `numpy` con el alias `np` (para que sea más rápido escribirlo luego):

In [None]:
import numpy as np

Una vez hecho eso, podemos empezar a trabajar con _arrays_. Veamos un par de ejemplos.

Definimos los vectores $v=(0, 1, -1)$ y $w=(2,1, 3)$.

In [None]:
v = np.array([0, 1, -1])
w = np.array([2, 1, 3])

Veamos cómo operar con vectores:

In [None]:
print('Resultado de v + w: ', v + w )
print('Resultado de v * w: ', v * w )
print('Resultado de v @ w: ', v @ w )
print('Resultado de v + 2: ', v + 2 )
print('Resultado de v * 2: ', v * 2 )

Resultado de v + w:  [2 2 2]
Resultado de v * w:  [ 0  1 -3]
Resultado de v @ w:  -2
Resultado de v + 2:  [2 3 1]
Resultado de v * 2:  [ 0  2 -2]


Las matrices se definen de manera similar a los vectores, sólo que en vez de estar definidas en base a listas, lo están en base a listas de listas. Definimos la siguiente matriz:
$$A =\left( \begin{array}{ccc}
1 & -3 & 2 \\
0 & 6 & -2 \\
4 & 8 & 0 \\
\end{array} \right)
$$

In [None]:
A = np.array([[1, -3, 2], [0, 6, -2], [4, 8 ,0]]) # Notar que cada una de las listas es una fila

También se pueden realizar operaciones entre matrices o entre matrices y vectores, siempre y cuando las dimensiones sean adecuadas. Lo bueno de definir vectores como _arrays_ es que no tenemos que preocuparnos por trasponerlos si deseamos multiplicarlos por una matriz:

In [None]:
b = A @ v
print(b)

[-5  8  8]


Recordar que $v=(0, 1, -1)$, sin embargo, para efectuar el cálculo $Av^t$, no necesitamos trasponer `v`.

También podemos acceder a elementos de un _array_. Si se trata de un vector, accedemos a un elemento como lo haríamos si se tratara de una lista, es decir, con `[ ]`. En el caso de las matrices, la sintaxis es `[fila, columna]`. Por ejemplo, `A[0,1]` es $A_{1 2}$.

Veamos algunos ejemplos:

In [None]:
print('Segunda coordenada de v : ', v[1])
print('Primera coordenada de w : ', w[0])
print('Elemento de la segunda fila y primera columna de A: ', A[1,0])
print('Segunda columna de A: ', A[:,1])
print('Tercera fila de A: ', A[2,:])

Segunda coordenada de v :  1
Primera coordenada de w :  2
Elemento de la segunda fila y primera columna de A:  0
Segunda columna de A:  [-3  6  8]
Tercera fila de A:  [4 8 0]


### Ejercicio

Determinar qué hacen los siguientes métodos o funciones de `numpy`

In [None]:
v.shape[0]

3

In [None]:
A.shape[1]

3

In [None]:
A.T

array([[ 1,  0,  4],
       [-3,  6,  8],
       [ 2, -2,  0]])

In [None]:
np.zeros(A.shape)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [None]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [None]:
z = np.array([3,4,0])
np.linalg.norm(z)

np.float64(5.0)

In [None]:
B = A.copy()
B

array([[ 1, -3,  2],
       [ 0,  6, -2],
       [ 4,  8,  0]])

In [None]:
A[0,0] = 9
A

array([[ 9, -3,  2],
       [ 0,  6, -2],
       [ 4,  8,  0]])

In [None]:
B

array([[ 1, -3,  2],
       [ 0,  6, -2],
       [ 4,  8,  0]])

# Python: funciones anónimas

En Python, el comando `lambda` nos permite definir funciones anónimas (es decir, funciones que no definimos utilizando `def`). Una de sus ventajas  es la posibilidad de definir nuevas funciones a partir de otras, pero manteniendo fijos ciertos argumentos. Por ejemplo, en nuestro código definimos la siguiente función:

In [None]:
def pot(base, potencia):
    return base**potencia

In [None]:
def potencia_2(x):
  return pot(2,x)

Supongamos ahora que en alguna parte del código necesitamos una nueva función que calcule sólo las potencias de $2$. Aquí puede resultar útil declarar una función anónima:

In [None]:
g = lambda x: pot(2,x)

Ahora `g` es una función. Notar que `2` está fijo, entonces `g` calcula $2^x$. Veámoslo:

In [None]:
print(g(2))
print(g(4))
print(g(-1))

4
16
0.5


### Ejercicio

Dados una lista y un número, la siguiente función cuenta las veces que aparece el número en la lista.

In [None]:
def contar(ls, n):
  c = 0
  for i in ls:
    if i == n:
      c += 1
  return c

Usando funciones anónimas y `contar`, definir:
1. una función que calcule cuántas veces aparece 0 en una lista
2. una función que calcule cuántas veces aparece un número en `[4, -1, 5, 2, -1]`

In [None]:
# 1
contar_0 = lambda ls: contar(ls, 0)

# 2
contar_num = lambda n: contar([4, -1, 5, 2, -1], n)

In [None]:
# Para corroborar
print("Cantidad de 0's en [0, 1, 0, 0, 5]: ", contar_0([0, 1, 0, 0, 5]))
print("Cuantas veces aparece -1: ", contar_num(-1))

Cantidad de 0's en [0, 1, 0, 0, 5]:  3
Cuantas veces aparece -1:  2


# Derivadas para una función en una variable

## Método forward

$f\in C^2$ y $h>0$, $f'(x)$ puede aproximarse como:
$$f'(x) \approx \dfrac{f(x+h)-f(x)}{h}$$


<details>
<summary>Deducción del método</summary>
Dados $f\in C^2$ y $h>0$, desarrollando Taylor centrado en $x$ tenemos que:
$$f(x+h)=f(x) + f'(x)h + \color{red}{\dfrac{f''(\xi)h^2}{2}} \qquad \xi\in(x,x+h)$$
$$\begin{array}{rll}\Rightarrow f'(x) & = & \dfrac{f(x+h)-f(x)}{h} - \color{red}{\dfrac{f''(\xi)h}{2}} \\ & = & \dfrac{f(x+h)-f(x)}{h} - \color{red}{O(h)} \end{array}$$
</details>

## Método Backward

$f\in C^2$ y $h>0$, $f'(x)$ puede aproximarse como:
$$f'(x) \approx \dfrac{f(x)-f(x-h)}{h}$$


<details>
<summary>Deducción del método</summary>
Análogo al método forward. Dados $f\in C^2$ y $h>0$, desarrollando Taylor centrado en $x$ tenemos que:
$$f(x-h)=f(x) - f'(x)h + \color{red}{\dfrac{f''(\xi)h^2}{2}} \qquad \xi\in(x-h,x)$$
$$\begin{array}{rll}\Rightarrow f'(x) & = & \dfrac{f(x)-f(x-h)}{h} + \color{red}{\dfrac{f''(\xi)h}{2}} \\ & = & \dfrac{f(x)-f(x-h)}{h} + \color{red}{O(h)} \end{array}$$
</details>

## Método de centradas

$f\in C^3$ y $h>0$, $f'(x)$ puede aproximarse como:
$$f'(x) \approx \dfrac{f(x+h)-f(x-h)}{2h}$$

<details>
<summary>Deducción del método</summary>
Dados $f\in C^3$ y $h>0$, desarrollando Taylor centrado en $x$ tenemos que:
$$f(x+h)=f(x) + f'(x)h + \dfrac{f''(x)h^2}{2} + \color{red}{\dfrac{f'''(\xi)h^3}{6}} \qquad \xi\in(x,x+h)$$
$$f(x-h)=f(x) - f'(x)h + \dfrac{f''(x)h^2}{2} - \color{red}{\dfrac{f'''(\eta)h^3}{6}} \qquad \eta\in(x-h,x)$$
Restando ambas expresiones, obtenemos que:
$$f(x+h)-f(x-h) = 2f'(x)h+\color{red}{\dfrac{(f'''(\xi)+f'''(\eta))h^3}{6}}$$
$$\begin{array}{rll}\Rightarrow f'(x) & = & \dfrac{f(x+h)-f(x-h)}{2h} + \color{red}{\dfrac{(f'''(\xi)+f'''(\eta))h^2}{12}} \\ & = & \dfrac{f(x+h)-f(x-h)}{2h} + \color{red}{O(h^2)} \end{array}$$
</details>

## Ejercicio

1. Completar la implementación del método forward. Luego, con el uso de `lambda`, definir la función `der_cubo` que calcule la derivada de $x^3$, usando $h=0.001$

In [None]:
def forward(func, x, h=0.1):
  """ Implementa el metodo forward para aproximar f'(x)
  func: una funcion con un argumento (function)
  x: el número donde se desea aproximar f' (int o float)
  h: longitud del paso para el método (h=0.1 por defecto)
  """
  return (func(x+h)-func(x))/h

# Definimos la función f(x) = x^3
cubo = lambda x: x**3

# Definimos la función f'(x), usando la funcion forward
der_cubo = lambda x: forward(cubo, x, h=0.001)

In [None]:
# Para corroborar: esto debería dar aproximadamente 27
der_cubo(3)

27.009000999996147

2. Utilizando el ítem anterior, definir una función `der_der_cubo` que aproxime la derivada segunda de $x^3$

In [None]:
der_der_cubo = lambda x: forward(der_cubo, x)

In [None]:
# Para corroborar: esto debería dar aproximadamente 18
der_der_cubo(3)

18.30299999998175

# Derivadas de funciones en varias variables

## Derivadas parciales

Sean $f\colon\mathbb{R}^n\rightarrow \mathbb{R}$, $f\in C^1$, $h>0$, podemos usar las ideas proporcionadas por los métodos antes vistos para calcular las derivadas parciales. Veamos, por ejemplo, cómo aplicar el método de centradas para aproximar la derivada parcial con respecto a $x_i$:
$$\dfrac{\partial f}{\partial x_i}(x) \approx \dfrac{f(x+he_i)-f(x-he_i)}{2h}$$



En el caso de la aproximación de las derivadas parciales, es interesante ir achicando el $h$ hasta que los resultados sean muy parecidos (o iguales) o hasta que la división no esté definida. Así aseguramos una buena aproximación.

### Ejercicio

1. Completar la implementación de la siguiente función, que calcula $\dfrac{\partial f}{\partial x_i}(x)$. Utilizar el método de centradas.

In [None]:
from numpy.linalg import norm

def derivada_parcial(func,x,i):
  """
  Aproxima la i-esima derivada parcial de la función en x, utilizando diferencias centradas.
  func: función a la que se le desea calcular la i-esima derivada parcial (function)
  x: punto en el cual se desea calcular la i-esima derivada parcial (array de numpy)
  i: indice de la coordenada parcial (int)
  """
  h = 0.1
  e_i = np.zeros(x.shape[0])  # np.zeros(len(x))
  e_i[i] = 1
  z = (func(x + h*e_i) - func(x - h*e_i))/(2*h)
  h = h/2
  y = (func(x + h*e_i) - func(x - h*e_i))/(2*h)
  error = norm(y-z)
  eps = 1e-8
  while error>eps and (y != np.nan) and (y != np.inf) and y!= 0:
      error = norm(y-z)
      z = y
      h = h/2
      y = (func(x + h*e_i) - func(x - h*e_i))/(2*h)
  return z

2. Calcular $\dfrac{\partial f}{\partial x_1}(2,1)$ y $\dfrac{\partial f}{\partial x_2}(2,1)$ para $f(x)=3x_1x_2+x_2^3$

In [None]:
f = lambda x: 3*x[0]*x[1] + x[1]**3

# Derivada parical respecto a x_1 evaluada en 2
print(derivada_parcial(f, np.array((2,1)), 0))

# Derivada parical respecto a x_2 evaluada en 2
print(derivada_parcial(f, np.array((2,1)), 1))

3.000000000000007
9.000000002370143


## Gradiente

Una vez que tenemos las aproximaciones de las derivadas parciales, calcular el gradiente de $f$ es trivial, teniendo en cuenta que:
$$\nabla f (x) = \left(\dfrac{\partial f}{\partial x_1}(x), \dots, \dfrac{\partial f}{\partial x_n}(x)\right) $$

### Ejercicio

1. Implementar la función que, dados $f$ y $x$, aproxime $\nabla f (x)$

In [None]:
def gradiente(func,x):
  """
  Aproxima el gradiente de la función en x.
  func: función a la que se le desea calcular el gradiente (function)
  x: punto en el cual se desea calcular el gradiente (array de numpy)
  """
  grad = np.empty(x.shape[0]) # np.zeros(x.shape[0])
  for i in range(x.shape[0]):
    grad[i] = derivada_parcial(func, x, i)
  return grad

2. Utilizar la función del ítem anterior para aproximar $\nabla f(2,1)$ para $f(x)=3x_1x_2+x_2^3$

In [None]:
f = lambda x: 3*x[0]*x[1] + x[1]**3
gradiente(f, np.array([2,1]))

array([3., 9.])

## Hessiano

El próximo paso, aproximar el valor del Hessiano en cierto $x$, también es relativamente sencillo, si tenemos en cuenta que:
$$Hf(x)={\begin{pmatrix}{\frac  {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac  {\partial ^{2}f}{\partial x_{1}\partial x_{2}}}&\cdots &{\frac  {\partial ^{2}f}{\partial x_{1}\partial x_{n}}}\\{\frac  {\partial ^{2}f}{\partial x_{2}\partial x_{1}}}&{\frac  {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac  {\partial ^{2}f}{\partial x_{2}\partial x_{n}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac  {\partial ^{2}f}{\partial x_{n}\partial x_{1}}}&{\frac  {\partial ^{2}f}{\partial x_{n}\partial x_{2}}}&\cdots &{\frac  {\partial ^{2}f}{\partial x_{n}^{2}}}\end{pmatrix}} = {\begin{pmatrix}{\nabla \frac{\partial f}{\partial x_1}}\\{\vdots}\\{{\nabla \frac{\partial f}{\partial x_n}}}\end{pmatrix}}$$

## Ejercicio

1. Implementar una función que aproxime el Hessiano.

In [None]:
def hessiano(func, x):
  """
  Aproxima el hessiano de la función en x.
  func: función a la que se le desea calcular el hessiano (function)
  x: punto en el cual se desea calcular el hessiano (array de numpy)
  """
  hess = np.zeros((x.shape[0], x.shape[0]))
  for i in range(x.shape[0]):
    derivada_iesima = lambda x: derivada_parcial(func, x, i)
    hess[i,:] = gradiente(derivada_iesima, x)
  return hess

2. Utilizar el ítem anterior para aproximar $Hf(2,1)$, con $f(x)=3x_1x_2+x_2^3$.

La respuesta debería dar:
$$\begin{pmatrix}
0 & 3 \\ 3 & 6 \end{pmatrix}$$

In [None]:
f = lambda x: 3*x[0]*x[1] + x[1]**3
hessiano(f, np.array([2,1]))

array([[0., 3.],
       [3., 6.]])

# Algoritmo de Newton generalizado

Sea $f:\mathbb{R}\rightarrow\mathbb{R}$ derivable, el algoritmo de Newton para hallar raíces de $f$ comienza en un $x_0$ inicial e itera:
$$x_{n+1} = x_n - \frac{f(x_n)}{f'(x_n)}$$

Si el método converge, lo hace a una raíz. En otras palabras, si $x_n\rightarrow r$, entonces $r$ es raíz de $f$.

**Obs:** para que el método funcione bien, hay que elegir un $x_0$ apropiado y $f'(r)\neq 0$.

**Aplicación a optimización**

Para encontrar puntos candidatos a mínimos/máximos de $f$, basta encontrar raíces de $f'$. Si $f\in C^2$, podemos usar Newton:

$$x_{n+1} = x_n - \frac{f'(x_n)}{f''(x_n)}$$


**Newton generalizado**

Sean $f:\mathbb{R}^n\rightarrow\mathbb{R}$, $f\in C^3$, $x_0\in\mathbb{R}^n$ por Polinomio de Taylor centrado en $x_0$ se obtiene la siguiente aproximación:

$$f(x) \approx f(x_0)+\nabla f(x_0)(x-x_0)+\frac{1}{2}(x-x_0)^tHf(x_0)(x-x_0) = P_{x_0}(x)$$

Nos gustaría encontrar $x$ tal que minimice a $P_{x_0}$, entonces buscamos un $x$ que cumpla con las condiciones necesarias de primer orden:

$$0 = \nabla P_{x_0}(x) = \nabla f(x_0) + Hf(x_0)(x-x_0) \Leftrightarrow \color{red}{Hf(x_0)(x-x_0) = -\nabla f(x_0)}$$

Basta resolver $Hf(x_0)d = -\nabla f(x_0)$ y resulta entonces que $x = x_0+d$.

El algoritmo de Newton generalizado consiste en iterar la idea anterior, de ser posible, hasta alcanzar un mínimo:
$$x_{n+1} = x_n + d_n$$
donde $d_n$ es la solución de:
$$Hf(x_n)d_n = -\nabla f(x_n)$$

**Criterios de parada**

Como todo algoritmo iterativo, debemos establecer uno o varios criterios de parada. Por ejemplo:
* $\lVert x_{n+1}-x_n \rVert < \epsilon $ (sucesión de Cauchy)

* $\lVert \nabla f(x_n) \rVert < \epsilon $ (el gradiente está convergiendo a $0$)

* $iter > M $ (Límite al número de iteraciones)

**Ventajas del método**
- funciona MUY bien para funciones (estrictamente) convexas

**Desventajas del método**
- puede converger a un punto silla
- en general, la convergencia depende de la elección de $x_0$ lo cual no es trivial
- $Hf(x_n)$ podría estar muy mal condicionada

### Ejercicio

1. Implementar el Método de Newton generalizado para hallar candidatos a óptimos de funciones en varias variables. Como criterio de parada, utilizaremos un límite de iteraciones y una tolerancia para $\lVert \nabla f(x) \rVert$.

**Sugerencia:** `np.linalg.solve(A,b)` devuelve la solución de $Ax=b$.

In [None]:
def newton_generalizado(func, x_0, max_iter=1000, tol=0.001):
  """
  Aplica el Método de Newton generalizado.
  func: función a la cual se le quieren buscar candidatos a máximos o mínimos (function)
  x_0: punto inicial (un array de numpy)
  max_iter: cantidad máxima de iteraciones (int)
  tol: tolerancia para la norma del gradiente (float)
  """
  grad = gradiente(func, x_0)
  it = 0
  x = x_0
  while np.linalg.norm(grad) >= tol and it < max_iter:
    # COMPLETAR
  return x

2. Se desea conocer las medidas de largo ($x$), profundidad ($y$) y altura ($z$) para fabricar una pecera con forma de prisma rectangular, un volumen de $100\; m^3$ y superficie mínima. Utilizar el Método de Newton generalizado para hallar las medidas óptimas de la pecera.

## Extra: graficando $f$

Grafiquemos la función del ejercicio

In [None]:
%matplotlib notebook
import plotly.graph_objects as go

In [None]:
# Definimos la funcion a graficar
def sup(x,y):
  return x*y+200/x+200/y

# Graficaremos en el intervalo [2,10]x[2,10]
x = np.linspace(2, 10, 30)
y = np.linspace(2, 10, 30)

# Creamos una grilla para graficar en 3D y evaluamos la función en cada punto de la grilla
X, Y = np.meshgrid(x, y)
Z = sup(X, Y)

# Generamos el gráfico 3D
fig = go.Figure(data=[go.Surface(z=Z, x=X, y=Y)])
fig.update_layout(title='Superficie de la pecera según largo y profundidad',
                  autosize=False, width=800, height=800,)
