# Proyecto final. Optimización
### Globally linearly convergent nonlinear conjugate gradients withoutWolfe line search

+ Gonzales Valadez Ulises Aldair
+ Segura Gómez Guillermo

Seleccionar un artículo para el proyecto final.

- El proyecto final se puede presentar de manera individual o en equipo 
  formado por dos estudiantes.
- La entrega del proyecto consiste programar el algoritmo descrito 
  en el artículo seleccionado y realizar pruebas para reproducir algunos resultados
  presentados en el artículo o diseñar los experimentos de prueba. El objetivo es
  mostrar las ventajas o limitaciones que tiene el algoritmo propuesto.
- Es válido delimitar el alcance, de manera que si aparecen varios algoritmos
  en el artículo, se puede seleccionar alguno de ellos para su implementación y validación.
- Hay que elaborar un reporte en el que se dé una introducción, 
  algunos fundamentos teóricos, el planteamiento del problema, la descripción del algoritmo, 
  los resultados obtenidos y las conclusiones.
- Hay que hacer una presentación de unos 15 minutos en el día acordado y 
  entregar el reporte, el código y las pruebas realizadas.
- Se puede entregar un notebook como el reporte y usarlo en la presentación,
  para que no tener que elaborar un documento con el reporte, otro con el script 
  del código y pruebas y otro para la presentación.
- Habrá dos fechas de entrega. La primera fecha es para los estudiantes de posgrado 
  que será entre el 27 de mayo y el 4 de junio. La segunda fecha es para los estudiantes 
  de licenciatura que será entre el 3 de junio y el 10 de junio.
- Si el equipo está formado por un estudiante de licenciatura y otro de posgrado
  tendrá que presentar el proyecto en la primera fecha.
- Para la selección se puede tomar uno de los artículos de la lista 
  que se presenta a continuación. 
- Estos artículos son una referencia. También pueden proponer algún artículo adicional,
  pero recomienda que cuiden que para entenderlo no tengan que revisar otras fuentes
  o que tengan que implementar algoritmos que requieran de temas que no fueron cubiertos
  en el curso y que les consuma demasiado tiempo hacer esa revisión, por ejemplo, 
  en temas de optimización combinatoria, entera, mixta, multiobjetivo, etc.

1. Escriba el nombre de los miembros del equipo junto con el nombre del programa académico.
2. Escriba el título del artículo seleccionado
3. Si no es un artículo de la lista o que esté en el Classroom, agregue el PDF
   como parte de la entrega de la Tarea 7.


## Introduccion

**Título:** "Globally linearly convergent nonlinear conjugate gradients without Wolfe line search"

**Autores:** Arnold Neumaier, Morteza Kimiaei, Behzad Azmi

#### Resumen:
El artículo introduce un nuevo método de gradiente conjugado no lineal (CG) que no requiere la condición de Wolfe para la búsqueda de líneas. Este método es globalmente convergente a un punto estacionario para funciones objetivo diferenciables con gradiente Lipschitz continuo y es linealmente convergente si este punto estacionario es un minimizador local fuerte. También se presenta una medida para la fuerza de zigzag y una dirección mínima de zigzag. El método propuesto es competitivo con los mejores métodos CG no lineales del estado del arte según resultados numéricos en problemas de prueba CUTEst.


### Métodos de Gradiente Conjugado No Lineal

Los métodos de gradiente conjugado no lineal se utilizan principalmente para resolver problemas de optimización sin restricciones donde la función objetivo no es necesariamente convexa. Estos métodos son útiles para encontrar mínimos locales de funciones diferenciables y son especialmente eficaces en problemas grandes y dispersos, como aquellos que aparecen en el aprendizaje automático, la simulación numérica y la investigación operativa [2].

Los métodos de gradiente conjugado no lineal mejoran sobre el método de descenso más pronunciado al generar direcciones de búsqueda conjugadas, lo que puede llevar a una convergencia más rápida. En particular, se evitan los problemas de zigzagueo que son comunes en el método de descenso más pronunciado.

### Condiciones de Wolfe para la Búsqueda en Línea

Las condiciones de Wolfe son criterios usados en la búsqueda en línea para asegurar que la dirección de búsqueda y el tamaño de paso sean apropiados. Hay dos condiciones de Wolfe:

1. **Condición de Wolfe de Armijo (Condición de Suficiente Descenso):**

   $$
   f(x + \alpha p) \leq f(x) + c_1 \alpha \nabla f(x)^T p
   $$

   Donde $0 < c_1 < 1$. Esta condición garantiza que el paso \(\alpha\) proporciona una reducción suficiente en la función objetivo.

2. **Condición de Curvatura de Wolfe:**

   $$
   \nabla f(x + \alpha p)^T p \geq c_2 \nabla f(x)^T p
   $$

   Donde $0 < c_1 < c_2 < 1$. Esta condición asegura que el paso no sea demasiado largo.

### Gradiente de Lipschitz Continuo

Un gradiente $\nabla f(x)$ es Lipschitz continuo si existe una constante $L$ tal que para todos $x$ y $y$ en el dominio de $f$:

$$
\|\nabla f(x) - \nabla f(y)\| \leq L \|x - y\|
$$

Esto implica que el gradiente de $f$ no cambia demasiado rápido, lo que es crucial para la convergencia de muchos algoritmos de optimización.

### Fuerza de Zigzag

La fuerza de zigzag se refiere al fenómeno donde las direcciones de búsqueda en un método de optimización oscilan entre direcciones opuestas, lo que puede llevar a una convergencia lenta. El zigzagging es común en el método de descenso más pronunciado y algunos métodos de gradiente conjugado no lineal buscan minimizar este efecto eligiendo direcciones de búsqueda que reduzcan esta oscilación.

### Problemas de Prueba CUTEst

CUTEst (Constrained and Unconstrained Testing Environment) es una colección de problemas de prueba usados para evaluar el rendimiento de algoritmos de optimización. Proporciona una amplia gama de problemas de optimización, tanto con restricciones como sin restricciones, que permiten a los investigadores comparar la eficiencia y la robustez de sus algoritmos en un entorno estandarizado.


#### Algoritmo Propuesto:
El nuevo algoritmo CG propuesto se llama NCG (Nonlinear Conjugate Gradient) y se detalla en el Algoritmo 2 del artículo. Este algoritmo utiliza una búsqueda de líneas eficiente que satisface una condición de descenso suficiente (condición 4) y una condición de reinicio para garantizar la convergencia lineal global.

### Detalles del Algoritmo:

#### 1. Medida de Zigzagging:
El zigzagging se refiere al comportamiento ineficiente de las direcciones de búsqueda que puede ocurrir en métodos de descenso más pronunciado. Para evitar esto, el artículo define una medida de fuerza de zigzag y propone minimizar esta medida en cada iteración.

#### 2. Dirección de Búsqueda:
La dirección de búsqueda $p$ se elige minimizando la distancia preacondicionada al cuadrado desde la dirección de búsqueda anterior, lo que se llama medida de fuerza de zigzag. Esta dirección se obtiene mediante:

$$ p = p_{\text{old}} - \lambda B^{-1}g $$

donde $\lambda$ se calcula como:

$$ \lambda = \frac{\nu + g^T p_{\text{old}}}{g^T B^{-1}g} $$

#### 3. Algoritmo Básico (NCG-basic):

```plaintext
1. Inicialización: 
   Entrada: x0 (punto inicial), B (preacondicionador), ε (umbral mínimo para la norma del gradiente).
2. Para cada iteración:
   1. Calcular g = ∇f(x), h = B^{-1}g, ω = g^T h.
   2. Si ω ≤ ε^2, terminar (x es un punto estacionario).
   3. Calcular λ y p usando las fórmulas dadas.
   4. Determinar α mediante una búsqueda de líneas eficiente.
   5. Actualizar x y f.
3. Devolver x y f.
```

#### 4. Condición de Reinicio:
Para asegurar la convergencia lineal global cuando se converge a un minimizador local fuerte, se usa una condición de reinicio que reemplaza una dirección de búsqueda deficiente por una dirección de Newton simplificada, usando un preacondicionador simétrico y definido positivo $B$.

#### 5. Análisis de Complejidad:
El artículo demuestra que el método NCG tiene una complejidad de $O(\epsilon^{-2})$ para encontrar un punto estacionario y de $O(\log(\epsilon^{-1}))$ para funciones fuertemente convexas.

### Implementación del Algoritmo NCG

Para implementar el algoritmo NCG, se pueden seguir estos pasos en Python:


## Bibliografia

1. **Métodos de Gradiente Conjugado No Lineal:**
   - Nocedal, J., & Wright, S. J. (2006). *Numerical Optimization*. Springer.
   - Fletcher, R. (1987). *Practical Methods of Optimization*. John Wiley & Sons.

2. **Condiciones de Wolfe:**
   - Nocedal, J., & Wright, S. J. (2006). *Numerical Optimization*. Springer.
   - Wolfe, P. (1969). *Convergence conditions for ascent methods*. SIAM Review, 11(2), 226-235.

3. **Gradiente de Lipschitz Continuo:**
   - Boyd, S., & Vandenberghe, L. (2004). *Convex Optimization*. Cambridge University Press.
   - Ciarlet, P. G. (1988). *Introduction to Numerical Linear Algebra and Optimization*. Cambridge University Press.

4. **Fuerza de Zigzag:**
   - Hager, W. W., & Zhang, H. (2005). *A survey of nonlinear conjugate gradient methods*. Pacific Journal of Optimization, 2(1), 35-58.
   - Fletcher, R. (1987). *Practical Methods of Optimization*. John Wiley & Sons.

5. **Problemas de Prueba CUTEst:**
   - Gould, N. I., Orban, D., & Toint, P. L. (2003). *CUTEr and SifDec: A Constrained and Unconstrained Testing Environment, revisited*. ACM Transactions on Mathematical Software (TOMS), 29(4), 373-394.
   - CUTEst official website: [http://www.cuter.rl.ac.uk](http://www.cuter.rl.ac.uk)

In [None]:
import numpy as np

def ncg_method(f, grad_f, x0, B, epsilon, max_iter):
    def line_search(x, p, grad, f_value):
        alpha = 1.0
        beta = 0.02
        while True:
            new_x = x + alpha * p
            new_f_value = f(new_x)
            if new_f_value <= f_value + beta * alpha * np.dot(grad, p):
                return alpha
            alpha *= 0.5

    x = x0
    g = grad_f(x)
    h = np.linalg.solve(B, g)
    omega = np.dot(g, h)
    
    for _ in range(max_iter):
        if omega <= epsilon ** 2:
            break
        
        if _ == 0 or np.any(restart_conditions_met(g, p, omega, k1, k2)):
            p = -h
        else:
            lambda_ = (nu + np.dot(g, p)) / np.dot(g, h)
            p = p - lambda_ * h
        
        alpha = line_search(x, p, g, f(x))
        x = x + alpha * p
        f_value = f(x)
        
        g_old = g
        g = grad_f(x)
        h = np.linalg.solve(B, g)
        omega = np.dot(g, h)
        
        if restart_conditions_met(g, g_old, omega, k1, k2):
            nu = omega
            p = -h
    
    return x

# Función objetivo y su gradiente
def f(x):
    return (x[0] - 1) ** 2 + (x[1] - 2) ** 2

def grad_f(x):
    return np.array([2 * (x[0] - 1), 2 * (x[1] - 2)])

# Parámetros
x0 = np.array([0.0, 0.0])
B = np.eye(2)
epsilon = 1e-6
max_iter = 1000

# Ejecución del algoritmo
solution = ncg_method(f, grad_f, x0, B, epsilon, max_iter)
print("Solución:", solution)

### Notas:
1. **Búsqueda de Líneas Eficiente:** En la función `line_search`, se implementa una búsqueda de líneas simple que satisface la condición de descenso suficiente.
2. **Condiciones de Reinicio:** Las condiciones de reinicio se pueden personalizar según las necesidades específicas del problema.
3. **Preacondicionador $B$:** En este ejemplo, se usa la matriz identidad como preacondicionador.