### Introducción a la Investigación Operativa y la Optimización

### • Algoritmos de descenso

**Nazareno Faillace Mullen - Departamento de Matemática, FCEN, UBA**

In [1]:
import numpy as np

In [2]:
from numpy.linalg import norm

def derivada_parcial(func,x,i):
  """
  Aproxima la i-esima derivada parcial de la función en x, utilizando diferencias centradas.
  func: función a la que se le desea calcular la i-esima derivada parcial (function)
  x: punto en el cual se desea calcular la i-esima derivada parcial (array de numpy)
  i: indice de la coordenada parcial (int)
  """
  h = 0.1
  e_i = np.zeros(x.shape[0])  # np.zeros(len(x))
  e_i[i] = 1
  z = (func(x + h*e_i) - func(x - h*e_i))/(2*h)
  h = h/2
  y = (func(x + h*e_i) - func(x - h*e_i))/(2*h)
  error = norm(y-z)
  eps = 1e-8
  while error>eps and (y != np.nan) and (y != np.inf) and y!= 0:
      error = norm(y-z)
      z = y
      h = h/2
      y = (func(x + h*e_i) - func(x - h*e_i))/(2*h)
  return z

def gradiente(func,x):
  """
  Aproxima el gradiente de la función en x.
  func: función a la que se le desea calcular el gradiente (function)
  x: punto en el cual se desea calcular el gradiente (array de numpy)
  """
  grad = np.empty(x.shape[0]) # np.zeros(x.shape[0])
  for i in range(x.shape[0]):
    grad[i] = derivada_parcial(func, x, i)
  return grad

# Algoritmos de descenso

![](https://drive.google.com/uc?export=view&id=1pvqcG3ePvBJvfAn5cE14Fx7SNS2LeL-F)

_Idea_: a partir de un punto obtenido, escoger una dirección para dar el próximo paso

__Definición (dirección de descenso)__: sean $f:\mathbb{R}^n \rightarrow \mathbb{R}$, $\bar{x}\in\mathbb{R}^n$ y $d\in\mathbb{R}^n-\{0\}$, diremos que $d$ es una dirección de descenso para $f$ a partir de $\bar{x}$ si existe $\delta>0$ tal que $f(\bar{x}+td)<f(\bar{x}) \quad \forall t\in(0,\delta)$

__Teorema__: Si $\nabla f(\bar{x})d < 0$, entonces $d$ es dirección de descenso para $f$ a partir de $\bar{x}$

## __Algoritmo de descenso básico__

Dados: $f,\; x_0 \in \mathbb{R}^n,\; \varepsilon>0,\; k_{MAX}>0$ <br>
k = 0 <br>
REPETIR mientras $\nabla f(x_k) > \varepsilon$ y $k<k_{MAX}$ : <br>
&nbsp;&nbsp;&nbsp;&nbsp; Calcular $d_k$ tal que $\nabla f(x_k)^Td_k < 0$ <br>
&nbsp;&nbsp;&nbsp;&nbsp; Escoger $t_k>0$ tal que $f(x_k+t_kd_k)<f(x_k)$ <br>
&nbsp;&nbsp;&nbsp;&nbsp; Hacer $x_{k+1}=x_k + t_kd_k$ <br>
&nbsp;&nbsp;&nbsp;&nbsp; $k = k+1$


## Método del gradiente - Funciones cuadráticas

Este método toma como dirección de descenso:
$$d = -\nabla f(x)$$
Observar que, si $\nabla f(x) \neq 0$, efectivamente $d$ es dirección de descenso:
$$\nabla f(x)^T d = -\left\Vert \nabla f(x) \right\Vert ^2 < 0$$

Las funciones cuadráticas pueden escribirse en la forma:

$$f(x) = \frac{1}{2}x^T A x + bx + c$$

En este caso, el gradiente se calcula fácilmente: <br>
$$\nabla f(x) = Ax + b$$

En el método del gradiente, $d_k = -\nabla f(x_k)$

Si $A$ es definida positiva, se puede demostrar que $\varphi(t) = f(x_k + td_k)$ alcanza mínimo en:
$$ t^\ast = \dfrac{d_k^T d_k}{d_k^T A d_k}$$

Entonces, en cada iteración se puede calcular la longitud del paso óptimo.

__Pseudocódigo de Método de gradiente para funciones cuadráticas__

metodo_gradiente_cuad($A$,$b$,$x$, $max\_iter$):<br>
&nbsp; &nbsp; $k$ $\leftarrow$ $0$ <br>
&nbsp; &nbsp; $d$ $\leftarrow$ $-Ax-b$ &nbsp; &nbsp; `# Dirección del primer paso` <br>
&nbsp; &nbsp; while $k\leq max\_iter$ and $\lVert d\rVert$ $> 10^{-8}$: <br>
&nbsp; &nbsp; &nbsp; &nbsp; $t \leftarrow \dfrac{d^T d}{d^T A d}$ &nbsp; &nbsp; `# Determino la longitud del paso` <br>
&nbsp; &nbsp; &nbsp; &nbsp; $x$ $\leftarrow$ $x + td$ &nbsp; &nbsp; `# Calculo el siguiente punto de la iteración ("doy el paso")`<br>
&nbsp; &nbsp; &nbsp; &nbsp; $d$ $\leftarrow$ $- Ax-b$  &nbsp; &nbsp; `# Dirección del próximo paso` <br>
&nbsp; &nbsp; &nbsp; &nbsp; $k$ $\leftarrow$ $k+1$ <br>
&nbsp; &nbsp; DEVOLVER $x$

**Obs:** utilizar `np.linalg.norm(v)` para calcular la norma del vector `v`

### Ejercicios

1. Implementar el Método del gradiente para funciones cuadráticas en base al pseudocódigo anterior. Además de devolver la aproximación al mínimo, que imprima la cantidad de iteraciones.


In [60]:
def metodo_gradiente_cuad(A, b, x, eps=1e-5, k_max=10000):
  """
  Aplica el método del gradiente.
  func: funcion a optimizar (function)
  x: punto inicial (numpy.array)
  eps: valor de tolerancia para la norma del gradiente (float)
  k_max: limite de iteraciones (int)
  """
  k = 0
  d = -A@x - b
  while k <= k_max and np.linalg.norm(d) > eps:
    t = (d@d)/(d@A@d)
    x = x + t*d
    d = (-A)@x - b
    k += 1
  return x, k

print("defined")

defined


2. Para la función cuadrática $f(x)=\frac{1}{2}x^TAx$ con $A$ dada más abajo, correr el Método del Gradiente: <br>
a) como fue implementado en el punto 1 <br>
b) con $\frac{1}{2}$ de longitud del paso óptimo <br>
c) en cada iteración multiplicar $t$  longitud de paso por un número aleatorio en (0,1] (`np.random.rand()` devuelve un float aleatorio) <br>
Probar con $x_0$ el vector de 1's (`np.ones(10)`) y un máximo de 10000 iteraciones. ¿Cuál se desempeña mejor?


In [56]:
A = np.array([[8, 3, 3, 6, 5, 4, 4, 3, 6, 3],
             [3, 4, 2, 2, 2, 1, 3, 3, 3, 2],
             [3, 2, 5, 2, 1, 2, 4, 2, 4, 1],
             [6, 2, 2, 6, 3, 2, 4, 2, 4, 2],
             [5, 2, 1, 3, 5, 4, 1, 2, 4, 3],
             [4, 1, 2, 2, 4, 5, 1, 2, 5, 2],
             [4, 3, 4, 4, 1, 1, 6, 2, 4, 2],
             [3, 3, 2, 2, 2, 2, 2, 4, 4, 2],
             [6, 3, 4, 4, 4, 5, 4, 4, 8, 3],
             [3, 2, 1, 2, 3, 2, 2, 2, 3, 4]])

In [61]:
xx=np.ones(10)
minima, iteraciones = metodo_gradiente_cuad(A, b=np.zeros(10), x=xx)

In [62]:
print(f"Minimo: {minima}\nvalor de funcion: {(0.5*xx@A@xx)}\nIteraciones: {iteraciones}")

Minimo: [ 0.00055401  0.00357508  0.00086696  0.00227464 -0.00513704  0.00294843
 -0.00349607 -0.00247662 -0.00041048  0.00211462]
valor de funcion: 156.5
Iteraciones: 10001


# Si $f$ no es cuadrática, ¿cuánto avanzo? - Métodos de búsqueda unidireccional

Dados $x,d\in\mathbb{R}^n$, lo que nosotros querríamos hacer es resolver el siguiente problema:

minimizar $f(x+td)$


sujeto a: $t\geq0$

Naturalmente, es un objetivo ambicioso pues no resulta una tarea fácil salvo que $f$ cumpla con características muy específicas. Veremos algoritmos que permiten aproximar a la solución de ese problema.

## Búsqueda inexacta - Condición de Armijo

A diferencia de la sección áurea, este algoritmo no busca minimizar $\varphi(t)$ sino encontrar $t$ tal que haya una buena reducción en la función objetivo. Más específicamente, dados $\bar{x}\in\mathbb{R}^n$, $d$ dirección de descenso y $\eta\in(0,1)$ busca $\bar{t}$ tal que:
$$f(\bar{x}+\bar{t}d) \leq f(\bar{x})+\eta\bar{t}\nabla f(\bar{x})^Td$$
es decir, la reducción debe ser proporcional al tamaño del paso.

### Interpretación gráfica (Armijo)

![](https://drive.google.com/uc?export=view&id=1uIJWhVdc19sqet0zVkCrX_v_jU5cpVAw)

__Algoritmo de Búsqueda de Armijo__

Dados: $f\colon\mathbb{R}^n\rightarrow\mathbb{R},\;\bar{x}\in\mathbb{R}^n$, $d\in \mathbb{R^n}$ dirección de descenso, $\gamma,\;\eta\in(0,1)$<br>

$t\leftarrow 1$<br>
REPETIR mientras $f(\bar{x}+td) > f(\bar{x})+\eta t\nabla f(\bar{x})^Td$ <br>
&nbsp;&nbsp;&nbsp;&nbsp; $t\leftarrow \gamma t$<br>
DEVOLVER $t$

Valores de referencia para los parámetros: $\gamma = 0.7,\; \eta=0.45$

### Ejercicio

1. Implementar la funcion `armijo` que encuentre un punto en la dirección $d$ que cumpla con la condición de Armijo

In [40]:
def armijo(func, x, d, gamma=0.7, eta=0.45):
  """
  Aplica la búsqueda de Armijo para hallar un valor de t que cumpla la condición de Armijo para f(x+td)
  func: funcion a optimizar (function)
  x: punto a partir del cual buscar un minimizador (numpy.array)
  d: direccion en la que se busca un minimizador (numpy.array)
  gamma: parámetro que regula cuánto se achica t (float)
  eta: parámetro que regula la pendiente de la condición de Armijo (int o float)
  """
  t = 1
  ls = func(x + t*d)
  rs = func(x) + (eta*t)*(gradiente(func, x)@d)
  while ls > rs:
    t = gamma*t
  return t

2. Poner a prueba la función implementada en el ítem anterior para hallar un valor de $t$ que cumpla la condición de Armijo, para $f(x)=x_1^2+x_2$ desde el punto $(1, 0)$ en la dirección $d=(-2,-1)$.

In [49]:
def f(x1):
  return x1[0]**2 + x1[1]

x = np.array([1,0])
dire = np.array([-2,-1])



## Búsqueda inexacta - Condiciones de Wolfe

La condicion de Armijo impone cotas a cuan grande puede ser el paso en la direccion $d$. Sin embargo, puede ocurrir que el paso sea tan pequeño que $x^k$ no converja a un minimizador local.

Por ejemplo, si $f(x)=x^2$, si comenzamos en $x_0=2$, $d=-1$ es dirección de descenso en $x_k = 1+2^{-k}$ y $t_k = 2^{-k-1}$ cumple con la condición y efectivamente se logra un descenso en $f$. Sin embargo, $x_k\rightarrow 1$ que no es el minimizador de $f$. No se converge al mínimo pues los pasos son muy pequeños.

Entonces, necesitamos otra condición que acote inferiormente a $t$.

Wolfe agrega otra condición sobre $t$, la condición de curvatura:
$$\nabla f (\bar{x} + \bar{t}d)^Td \geq \zeta \nabla f(\bar{x})^T d$$
donde $\zeta\in(\eta,1)$ con $\eta$ siendo la constante de la condición de Armijo. El lado izquierdo es $\varphi'(\bar{t})$, por lo que la condición impone que la pendiente de $\varphi$ en $\bar{t}$ sea mayor que $\zeta$ veces la pendiente inicial.

Si $\varphi'$ es muy negativa $\Rightarrow$ se puede decrecer mucho en esta dirección <br>
Si $\varphi'$ no es muy negativa o es positiva $\Rightarrow$ terminar la búsqueda lineal, no se pueden lograr (muchas) mejoras

__Condiciones de Wolfe:__

$$\begin{array}{rcl} f(\bar{x}+\bar{t}d) &\leq& f(\bar{x})+c_1\bar{t}\nabla f(\bar{x})^Td \\
\nabla f (\bar{x} + \bar{t}d)^Td &\geq& c_2 \nabla f(\bar{x})^T d \end{array}$$
Con $0<c_1<c_2<1$.

__Algoritmo de Búsqueda de Wolfe__

Dados: $f,\; \bar{x}\in\mathbb{R}^n,\; d$ dirección de descenso,$\; 0<c_1<c_2<1$ <br>
$\alpha \leftarrow 0$ <br>
$t\leftarrow 1$ <br>
$\beta \leftarrow +\infty$ (`beta=np.inf`) <br>
REPETIR<br>
&nbsp;&nbsp;&nbsp;&nbsp; SI $f(\bar{x}+td) > f(\bar{x})+c_1t\nabla f(\bar{x})^Td$ :<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $\beta\leftarrow t$ <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $t\leftarrow \frac{1}{2}(\alpha+\beta)$<br>
&nbsp;&nbsp;&nbsp;&nbsp; De lo contrario, si $\nabla f (\bar{x} + td)^Td < c_2 \nabla f(\bar{x})^T d$:<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $\alpha\leftarrow t$ <br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $t\leftarrow\begin{cases} 2\alpha \quad \text{si } \beta=+\infty \\ \frac{1}{2}(\alpha+\beta) \quad \text{c.c.} \end{cases} $ <br>
&nbsp;&nbsp;&nbsp;&nbsp; Si no:<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; PARAR (`break`)<br>
DEVOLVER $\;t$


Valores usuales para parámetros: $c_1= 0.5,\; c_2=0.75$ <br>
El comando `break` de Python permite salir de un ciclo `while` o `for`

__Lema:__ sean $f:\mathbb{R}^n\rightarrow \mathbb{R}$, $f\in C^1$, $\bar{x}\in\mathbb{R}^n$ y $d$ una dirección de descenso, entonces una de las siguientes dos situaciones pueden ocurrir con el método antes expuesto para las condiciones de Wolfe: <br>
i) El procedimiento termina en una cantidad finita de pasos, devolviendo un valor $\bar{t}$ que satisface las condiciones de Wolfe <br>
ii) El procedimiento no termina: el parámetro $\beta$ nunca toma un valor finito, $\alpha$ se vuelve positivo en la primera iteración y se duplica con las iteraciones siguientes, y $f(x+td)\rightarrow -\infty$

### Interpretación gráfica (2da. Condición de Wolfe)

![](https://drive.google.com/uc?export=view&id=1Gqhma-ARLkuaYMWklImcQeB8etjfGlpb)

### Interpretación gráfica (Condiciones de Wolfe)

![](https://drive.google.com/uc?export=view&id=1Zpz1yQTgyl3OGayHcvESBdoWKqlbmHdm)

### Ejercicio

1. Implementar la funcion `wolfe` que encuentre un punto en la dirección $d$ que cumpla con las condiciones de Wolfe

In [50]:
def wolfe(func, x, d, c1=0.5, c2=0.75):
  """
  Aplica la búsqueda de Wolfe para hallar un valor de t que cumpla las condiciones de Wolfe para f(x+td)
  func: funcion a optimizar (function)
  x: punto a partir del cual buscar un minimizador (numpy.array)
  d: direccion en la que se busca un minimizador (numpy.array)
  c1: parámetro que regula la pendiente de la condición de Armijo (int o float)
  c2: parámetro que regula la segunda condición de Wolfe (int o float)
  """
  alfa = 0
  t = 1
  beta = np.inf

  while 1 == 1:
    if func(x + t*d) > func(x) + c1*t*(gradiente(func, x)@d):
      beta = t
      t = 0.5*(alfa + beta)
    elif gradiente(func, x + t*d)@d < c2*(gradiente(func, x)@d):
      alfa = t
      t = 2*alfa if beta == np.inf else 0.5*(alfa + beta)
    else:
      break

  return t

2. Poner a prueba la función implementada en el ítem anterior para hallar un valor de $t$ que cumpla las condiciones de Wolfe, para $f(x)=x_1^2+x_2$ desde el punto $(1, 0)$ en la dirección $d=(-2,-1)$.

In [51]:
result = wolfe(f, x, dire)

print(result)

0.5


# Método del Gradiente - Funciones $C^1$

__Algoritmo del Método del Gradiente__

Dados: $f, x \in \mathbb{R}^n,\; \varepsilon>0,\; k_{MAX}>0 $ <br>
$k \leftarrow 0$ <br>
$d \leftarrow -\nabla f(x)$ <br>
REPETIR mientras $\lVert d\rVert > \varepsilon$ y $k<k_{MAX}$ : <br>
&nbsp;&nbsp;&nbsp;&nbsp; Obtener $t>0$ tal que $f(x+td)<f(x)$ (con Armijo o Wolfe) <br>
&nbsp;&nbsp;&nbsp;&nbsp; $x \leftarrow x + td$ <br>
&nbsp;&nbsp;&nbsp;&nbsp; $d \leftarrow -\nabla f(x)$ <br>
&nbsp;&nbsp;&nbsp;&nbsp; $k \leftarrow k+1$<br>
DEVOLVER $x$


### Ejercicios

1. Implementar la funcion `metodo_gradiente` que aplique el método a una función a partir de un punto inicial dado. También debe tomar como argumento el método de búsqueda (Armijo o Wolfe).

In [None]:
def metodo_gradiente(func, x, eps=1e-5, k_max=1000, metodo=armijo):
  """
  Aplica el método del gradiente.
  func: funcion a optimizar (function)
  x: punto inicial (numpy.array)
  eps: valor de tolerancia para la norma del gradiente (float)
  k_max: limite de iteraciones (int)
  metodo: funcion a utilizar para la búsqueda en la diracción d (function)
  """
  # COMPLETAR
  return x

2. **Regresión lineal**. Dado un conjunto de datos $\{(x_i,y_i)\}_{i=1}^n$ queremos encontrar la ecuación de la recta $y=\beta_1x + \beta_0$ que mejor aproxime a los datos en sentido de cuadrados mínimos. Es decir, queremos hallar $(\beta_0,\beta_1)\in\mathbb{R}^2$ que minimice:
$$LSE(\beta_0,\beta_1)=\sum_{i=1}^n (y_i-(\beta_1x_i+\beta_0))^2$$
Buscaremos la recta que mejor aproxima en sentido de cuadrados mínimos a datos sobre el valor de inmuebles en función de su superficie.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; a. Utilizar `lambda` y `sum` para definir la función a optimizar.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; b. Buscar la recta que mejor aproxima en sentido de cuadrados mínimos a los datos. Graficar el resultado para corroborarlo. Probar inicializando el método desde distintos puntos. Pueden usar `np.random.rand(2)` para generar vectores aleatorios en $[0,1]\times[0,1]$

In [None]:
import pandas as pd
import seaborn.objects as so
from sklearn.preprocessing import MinMaxScaler

# A)

# Importamos los datos desde una dirección web
datos = pd.read_csv('https://raw.githubusercontent.com/fcen-amateur/ldd/refs/heads/main/Datos/inmuebles.csv', header=0)

# Reescalamos los datos para favorecer la estabilidad numerica
scaler = MinMaxScaler()
datos_escalados = scaler.fit_transform(datos[['superficie', 'precio']])

# Guardamos los valores de las variables en x e y
datos_x = datos_escalados[:,0]
datos_y = datos_escalados[:,1]

# Definir la funcion a optimizar
lse = lambda beta:

In [None]:
# B)

x = # COMPLETAR
beta = metodo_gradiente(lse, x)

# Para graficar el beta obtenido:
(so.Plot()
.add(so.Dot(), x=datos_x, y=datos_y)
.add(so.Line(color='red'), x=datos_x, y=beta[1]*datos_x+beta[0])
)

In [None]:
# Para graficar en los datos sin escalar

# Deshacemos la escala
datos_recta = scaler.inverse_transform(np.column_stack([datos_x, beta[1]*datos_x+beta[0]]))

# Graficamos
(so.Plot()
.add(so.Dot(), x=datos['superficie'], y=datos['precio'])
.add(so.Line(color='red'), x=datos_recta[:,0], y=datos_recta[:,1])
)