## Algoritmos de Descenso 

### <u>Optimización</u>

La **teoría de optimización** o **programación matemática** está constituida por un conjunto de resultados y métodos numéricos enfocados en **encontrar e identificar al mejor candidato** de entre una colección de alternativas, sin tener que enumerar y evaluar explícitamente todas ellas.  

En general, un **problema de optimización** consiste en:

- **Buscar valores** para determinadas variables,  
- De forma que cumplan un **conjunto de requisitos** (restricciones), representados mediante **ecuaciones y/o inecuaciones algebraicas**,  
- Y que proporcionen el **mejor valor posible** (máximo o mínimo) para una función,

### <u>Planteamiento General de un Problema de Optimización</u>

Un problema de **optimización** puede expresarse de forma general como:  

$$
\max \; \text{o} \; \min \; f(x)
$$

sujeto a:  

$$
g(x) \leq 0, \quad h(x) = 0
$$

#### Elementos de Optimización

- **Función objetivo**: Expresión matemática que se desea maximizar o minimizar.  
- **Variables independientes**: Parámetros o decisiones a determinar.  
- **Restricciones**: Condiciones (igualdades o desigualdades) que deben cumplir las variables.  

#### Tipos de Problemas de Optimización

1. **Problemas de Programación Lineal (PL):**  
   Aquellos en los que tanto la **función objetivo** como las **restricciones** son funciones lineales de las variables de decisión.  

2. **Problemas de Programación No Lineal (PNL):**  
   - **Con restricciones:** La función objetivo o alguna restricción es no lineal.  
   - **Sin restricciones:** Solo se optimiza la función objetivo sin imponer condiciones adicionales.  

### Clasificación según el tipo de problema

1. **Optimización Continua:**  
   Los valores de las variables de decisión pueden tomar **cualquier valor dentro de un intervalo** (conjunto continuo).  
   - Ejemplo: Minimizar $f(x) = x^2$ con $x \in \mathbb{R}$.  

2. **Optimización Discreta:**  
   Las variables de decisión solo pueden asumir **valores enteros o de un conjunto finito**.  
   - Ejemplo: Problema del **viajante** (TSP), donde se busca la ruta óptima visitando un conjunto de ciudades una sola vez.  

#### Solución Factible

Una **solución factible** $x$ es aquella que **cumple todas las restricciones** del problema.  

#### Conjunto Factible

El **conjunto factible** o **región factible** $\Omega$ es el conjunto de **todas las soluciones factibles**.  

#### Solución Óptima

- Una solución $x_0$ es **óptima** si es un **mínimo global** y el objetivo del problema es **minimizar**.  
- Una solución $x_0$ es **óptima** si es un **máximo global** y el objetivo del problema es **maximizar**.  

#### Valor Óptimo

Si $x_0$ es una solución óptima, entonces **$f(x_0)$ es el valor óptimo** del problema.  

### <u>Teorema de Weierstrass</u>

Sea $f(x)$ una **función continua** definida sobre un **conjunto compacto** $K$.  
Entonces, el problema de optimización tiene al menos **una solución óptima**.  

#### Propiedad

El conjunto de **soluciones óptimas** de un problema de optimización es un **conjunto convexo**.  

#### Problemas a Resolver

1. ¿Cómo podemos determinar si un punto $x_0$ es o no la **solución óptima** de un problema de optimización?  
2. Si $x$ no es el **punto óptimo**, entonces ¿cómo podemos encontrar una **solución óptima** $x_0$ utilizando la información de la función?  

### <u>Programación no Lineal sin Restricciones</u>

Sea $U \subset \mathbb{R}^n$ y una función $f : U \to \mathbb{R}$, el planteamiento general de un problema sin restricciones es:  

**Minimización**  
$$
\min f(x) \quad \text{sujeto a } x \in U
$$  

Lo cual consiste en determinar:  
$$
x_0 \in U \quad \text{tal que } f(x_0) \leq f(x), \quad \forall x \in U
$$  

**Maximización**  
$$
\max f(x) \quad \text{sujeto a } x \in U
$$  

Lo cual consiste en determinar:  
$$
x_0 \in U \quad \text{tal que } f(x_0) \geq f(x), \quad \forall x \in U
$$  

### <u>Algoritmos de Descenso</u>

- Son **algoritmos iterativos**: se inicia especificando un punto de partida y se genera una **serie de puntos**, cada uno calculado en función de los anteriores.  
- A medida que se genera un nuevo punto, el valor de la función decrece.  
- Idealmente, la sucesión de puntos generados por el algoritmo **converge** (en un número finito o infinito de pasos) hacia la **solución del problema original**.  

### <u>Convergencia Global de Algoritmos de Descenso</u>

Si se garantiza que para **puntos de partida arbitrarios** el algoritmo genera una sucesión de puntos que convergen a una solución, entonces se dice que el algoritmo es **globalmente convergente**.  

#### Definición:

Un **algoritmo** $A$ es una transformación definida en un espacio $X$ que asigna a todo punto $x \in X$ un subconjunto de $X$.  

El algoritmo $A$ iniciado en $x_1 \in X$ genera la sucesión $(x_k)$ definida por:  

$$
x_{k+1} = A(x_k).
$$

### <u>Algoritmo de Descenso</u>

#### Definición:

Sea $T \subset X$ un **conjunto solución** dado y sea $A$ un algoritmo en $X$.  

Una función continua $f: X \to \mathbb{R}$ es una **función descendente** para $T$ y $A$ si satisface:  

1. Si $x \notin T$ e $y \in A(x)$, entonces  
   $$
   f(y) < f(x).
   $$  

2. Si $x \in T$ e $y \in A(x)$, entonces  
   $$
   f(y) \leq f(x).
   $$  

### <u>Criterios de Parada</u>

Sea $\epsilon > 0$ y $N \in \mathbb{Z}^+$.  
Para detener el **algoritmo de descenso** podemos usar los siguientes criterios:  

1.  
   $$
   \|x_{k+N} - x_k\| < \epsilon
   $$

2.  
   $$
   \frac{\|x_{k+N} - x_k\|}{\|x_k\|} < \epsilon
   $$

3.  
   $$
   A(x_k) - A(x_{k+N}) < \epsilon
   $$

4.  
   $$
   \frac{A(x_k) - A(x_{k+N})}{|A(x_k)|} < \epsilon
   $$

5.  
   $$
   A(x_k) - A(x^*), \quad x^* \in T
   $$

### <u>Convergencia</u>

La **velocidad de convergencia** refleja la eficiencia del algoritmo.  

Sea la sucesión $(x_k)$ de números reales que converge a $x^*$, asumiendo que $x_k \neq x^*$ para todo $k$.  

El **orden de convergencia** de la sucesión es el supremo no negativo de números $p$ que satisfacen:  

$$
\lim_{k \to +\infty} \frac{|x_{k+1} - x^*|}{|x_k - x^*|^p} = c < +\infty
$$

### <u>Algoritmo de Descenso: Método de Newton</u>

Sea $f : \mathbb{R} \to \mathbb{R}$ una función de clase $C^2$.  
Se puede construir una función cuadrática $g$ que concuerde con $f$ en $x_k$ hasta la segunda derivada, es decir:

$$
g(x) = f(x_k) + f'(x_k)(x - x_k) + \tfrac{1}{2} f''(x_k)(x - x_k)^2
$$

Se puede estimar $x_{k+1}$ a partir del punto mínimo de $f$, hallando el punto en el que se anula la derivada de $g$:  

$$
0 = g'(x_{k+1}) = f'(x_k) + f''(x_k)(x_{k+1} - x_k)
$$

Por lo tanto:

$$
x_{k+1} = x_k - \frac{f'(x_k)}{f''(x_k)}.
$$


Ahora, sea $f : \mathbb{R}^n \to \mathbb{R}$.  
Para minimizar una función $f$, este método se basa en aproximarla mediante la **expansión de Taylor**:

$$
f(x) = f(x_k) + \nabla f(x_k)^T (x - x_k) + \tfrac{1}{2} (x - x_k)^T H(x_k) (x - x_k)
$$

Supongamos que $H(x_k)$ (la matriz Hessiana) es **definida positiva**, entonces se alcanza un **mínimo local no restringido** y se cumple:

$$
\nabla f(x) = \nabla f(x_k) + H(x_k)(x - x_k) = 0,
$$

siendo $H(x_k)$ **invertible**.  

El valor de minimización de $x$ está dado por:

$$
x_{k+1} = x_k - H(x_k)^{-1} \nabla f(x_k).
$$

### <u>Convergencia</u>

Sea $f'(x) = g(x)$, entonces:

$$
x_{k+1} - x^{*} = x_k - x^{*} - \frac{g(x_k) - g(x^{*})}{g'(x_k)}
$$

Reordenando:

$$
x_{k+1} - x^{*} = -\frac{g(x_k) - g(x^{*}) - g'(x_k)(x_k - x^{*})}{g'(x_k)}
$$

Aplicando el desarrollo de Taylor:

$$
x_{k+1} - x^{*} = -\frac{g''(x_k)}{2g'(x_k)} (x_k - x^{*})^2
$$

Dado que cerca de $x^{*}$ las funciones $g'(x)$ y $g''(x)$ están **acotadas**, se tiene:

$$
|x_{k+1} - x^{*}| \leq K |x_k - x^{*}|^2
$$

Por lo tanto, el **método de Newton** tiene **orden de convergencia cuadrática (orden 2)**.



In [None]:
import sympy as sp
import numpy as np

def newton_multivariable(func, vars, x0, tol=1e-6, max_iter=100):
    """
    Método de Newton en R^n
    """
    # Gradiente y Hessiano simbólicos
    grad_f = [sp.diff(func, v) for v in vars]
    H_f = sp.hessian(func, vars)

    # Convertimos a funciones numéricas
    grad_f_lambd = sp.lambdify(vars, grad_f, "numpy")
    H_f_lambd = sp.lambdify(vars, H_f, "numpy")
    f_lambd = sp.lambdify(vars, func, "numpy")

    xk = np.array(x0, dtype=float)

    print("Iteración | xk                | f(xk)       | ||grad||")
    print("-----------------------------------------------------------")
    
    for k in range(max_iter):
        grad_val = np.array(grad_f_lambd(*xk), dtype=float).flatten()
        H_val = np.array(H_f_lambd(*xk), dtype=float)
        f_val = f_lambd(*xk)
        norm_grad = np.linalg.norm(grad_val)

        print(f"{k:9d} | {xk} | {f_val:11.6f} | {norm_grad:8.2e}")

        if norm_grad < tol:
            print("Convergencia alcanzada :D")
            return xk, f_val, k

        # Paso de Newton: resolver H p = grad
        try:
            p = np.linalg.solve(H_val, grad_val)
        except np.linalg.LinAlgError:
            raise ValueError("La Hessiana no es invertible en xk")

        xk = xk - p

    print("Se alcanzó el máximo de iteraciones:(")
    return xk, f_lambd(*xk), max_iter


x, y = sp.symbols('x y')
f = (x-1)**3 + (y-2)**2
vars = [x, y]
x0 = [0, 0]

sol, fval, iters = newton_multivariable(f, vars, x0)
print("\nResultado final:")
print("x* =", sol)
print("f(x*) =", fval)
print("Iteraciones =", iters)