# Tarea 6. Optimización
Guillermo Segura Gómez

## Ejercicio 1

**1. Programe el método de gradiente conjugado lineal, Algoritmo 1 de la Clase 18, para resolver el sistema de ecuaciones $\mathbf{A}\mathbf{x}=\mathbf{b}$, donde $\mathbf{A}$ es una matriz simétrica y definida positiva.**
   
**Haga que la función devuelva el último punto  $\mathbf{x}_k$, el último residual $\mathbf{r}_k$, el número de iteraciones $k$ y una variable binaria $bres$ que indique si se cumplió el criterio de paro ($bres=True$) o si el algoritmo terminó por iteraciones ($bres=False$).**

In [3]:
import numpy as np

def ConjugateGradient(xk, A, b, nMax, tau):
    rk = A @ xk - b
    pk = -rk
    for k in range(nMax):
        
        # Condición de parada
        if np.linalg.norm(rk) < tau:
            return xk, rk_next, True, k

        Apk = A @ pk # Cálculo de Apk para optimizar

        # Cálculo de alphak
        rkTrk = rk.T @ rk
        alphak = rkTrk / (pk.T @ Apk)
        
        # Siguiente valor de xk
        xk = xk + alphak * pk
        rk_next = rk + alphak * Apk
        
        betak = (rk_next.T @ rk_next) / rkTrk
        pk = -rk_next + betak * pk
        rk = rk_next

    return xk, rk, False, nMax 

2. Pruebe el algoritmo para resolver el sistema de ecuaciones 

$$ \mathbf{A}_1\mathbf{x}=\mathbf{b}_1$$

donde

$$ \mathbf{A}_1 = n\mathbf{I} + \mathbf{1} = 
\left[\begin{array}{llll} n      & 0      & \cdots & 0 \\
                       0      & n      & \cdots & 0 \\ 
                       \vdots & \vdots & \ddots & \vdots \\
                       0      & 0      & \cdots & n \end{array}\right]
+ \left[\begin{array}{llll} 1    & 1      & \cdots & 1 \\
                       1      & 1      & \cdots & 1 \\ 
                       \vdots & \vdots & \ddots & \vdots \\
                       1      & 1      & a\cdots & 1 \end{array}\right],  \qquad
\mathbf{b}_1 = \left[\begin{array}{l} 1 \\ 1 \\ \vdots \\ 1 \end{array}\right], $$

$n$ es la dimensión de la variable independiente
$\mathbf{x}=(x_1, x_2, ..., x_n)$, 
$\mathbf{I}$ es la matriz identidad y $\mathbf{1}$ es la matriz llena de 1's,
ambas de tamaño $n$.

También aplique el algoritmo para resolver el sistema 

$$ \mathbf{A}_2\mathbf{x}=\mathbf{b}_2$$

donde  $\mathbf{A}_2 = [a_{ij}]$ con

$$ a_{ij} = exp\left(-0.25(i-j)^2 \right),  \qquad
\mathbf{b}_2 = \left[\begin{array}{l} 1 \\ 1 \\ \vdots \\ 1 \end{array}\right] $$


- Use $\mathbf{x}_0$ como el vector cero, el máximo número de iteraciones 
  $N=n$ y una toleracia $\tau=\sqrt{n} \epsilon_m^{1/3}$,
  donde $\epsilon_m$ es el épsilon máquina.
- Pruebe el algoritmo resolviendo los dos sistemas de ecuaciones con $n=10, 100, 1000$ y 
  en cada caso imprima la siguiente información

- la dimensión $n$,
- el  número $k$ de iteraciones realizadas,
- las primeras y últimas 4 entradas del punto $\mathbf{x}_k$ que devuelve el algoritmo,
- la norma del residual $\mathbf{r}_k$, 
- la variable $bres$ para saber si el algoritmo puedo converger.

In [5]:
# Función para generar A1 y b1
def generate_A1_b1(n):
    A1 = n * np.eye(n) + np.ones((n, n))
    b1 = np.ones(n)
    return A1, b1

# Función para generar A2 y b2
def generate_A2_b2(n):
    A2 = np.array([[np.exp(-0.25 * (i - j) ** 2) for j in range(n)] for i in range(n)])
    b2 = np.ones(n)
    return A2, b2

# Función para probar el algoritmo con las matrices y vectores dados
def test_algorithm(n):
    epsilon_m = np.finfo(float).eps  # Epsilon máquina
    tau = np.sqrt(n) * (epsilon_m ** (1/3))  # Tolerancia
    x0 = np.zeros(n)  # Vector inicial
    nMax = n  # Número máximo de iteraciones

    # Generar A1, b1 y aplicar el Gradiente Conjugado
    A1, b1 = generate_A1_b1(n)
    xk1, rk1, bres1, k1 = ConjugateGradient(x0, A1, b1, nMax, tau)

    # Generar A2, b2 y aplicar el Gradiente Conjugado
    A2, b2 = generate_A2_b2(n)
    xk2, rk2, bres2, k2 = ConjugateGradient(x0, A2, b2, nMax, tau)

    # Imprimir resultados para A1
    print(f"n={n}, Sistema A1")
    print(f"  Iteraciones: {k1}")
    print(f"  xk (primeras 4 entradas): {xk1[:4]}")
    print(f"  xk (últimas 4 entradas): {xk1[-4:]}")
    print(f"  Norma del residual: {np.linalg.norm(rk1)}")
    print(f"  Convergencia: {bres1}")

    # Imprimir resultados para A2
    print(f"n={n}, Sistema A2")
    print(f"  Iteraciones: {k2}")
    print(f"  xk (primeras 4 entradas): {xk2[:4]}")
    print(f"  xk (últimas 4 entradas): {xk2[-4:]}")
    print(f"  Norma del residual: {np.linalg.norm(rk2)}")
    print(f"  Convergencia: {bres2}")

# Prueba del algoritmo para n=10, 100, 1000
for n in [10, 100, 1000]:
    test_algorithm(n)
    print("\n" + "-"*50 + "\n")

n=10, Sistema A1
  Iteraciones: 1
  xk (primeras 4 entradas): [0.05 0.05 0.05 0.05]
  xk (últimas 4 entradas): [0.05 0.05 0.05 0.05]
  Norma del residual: 0.0
  Convergencia: True
n=10, Sistema A2
  Iteraciones: 5
  xk (primeras 4 entradas): [ 1.36909916 -1.16637682  1.60908281 -0.61339053]
  xk (últimas 4 entradas): [-0.61339053  1.60908281 -1.16637682  1.36909916]
  Norma del residual: 4.381415087263756e-12
  Convergencia: True

--------------------------------------------------

n=100, Sistema A1
  Iteraciones: 1
  xk (primeras 4 entradas): [0.005 0.005 0.005 0.005]
  xk (últimas 4 entradas): [0.005 0.005 0.005 0.005]
  Norma del residual: 0.0
  Convergencia: True
n=100, Sistema A2
  Iteraciones: 100
  xk (primeras 4 entradas): [ 1.44625585 -1.41631711  2.11047274 -1.4249978 ]
  xk (últimas 4 entradas): [-1.42500419  2.11047638 -1.41630417  1.4462564 ]
  Norma del residual: 0.00016847652019634396
  Convergencia: False

--------------------------------------------------

n=1000, Sist

Podemos observar que para el sistema $\mathbf{A}_1\mathbf{x}=\mathbf{b}_1$, el algoritmo converge rápidamente (en 1 iteración) para todos los valores de $n$ probados. Esto se puede explicar con la simplicidad y estructura de la matriz $\mathbf{A}_1$.

Por otro lado, el sistema $\mathbf{A}_2\mathbf{x}=\mathbf{b}_2$ presenta un mayor desafío, especialmente para $n=100$ donde no se logró la convergencia dentro del número máximo de iteraciones. Sin embargo, para $n=1000$, el algoritmo pudo converger, pero necesitó un mayor número de iteraciones (262), lo que indica la complejidad creciente del sistema con el aumento de $n$.

## Ejercicio 2

**Programar el método de gradiente conjugado no lineal descrito en el Algoritmo 3  de Clase 19 usando la fórmula de Fletcher-Reeves:**

$$ \beta_{k+1} = \frac{\nabla f_{k+1}^\top \nabla f_{k+1}}{\nabla f_{k}^\top\nabla f_{k}}  $$ 

1. Escriba la función que implemente el algoritmo. 

- La función debe recibir como argumentos $\mathbf{x}_0$, la función $f$ y 
  su gradiente, el número máximo de iteraciones $N$, la tolerancia $\tau$, y los
  parámetros para el algoritmo de backtracking: factor $\rho$, la constante $c_1$
  para la condición de descenso suficiente, la constante $c_2$ para la condición
  de curvatura, y el máximo número de iteraciones $N_b$.
- Agregue al algoritmo un contador
  $nr$ que se incremente cada vez que se aplique el reinicio, es decir, cuando
  se hace $\beta_{k+1}=0$.
   
- Para calcular el tamaño de paso $\alpha_k$ use el algoritmo de backtracking
  usando las condiciones de Wolfe con el valor inicial $\alpha_{ini}=1$.

- Haga que la función devuelva el último punto  $\mathbf{x}_k$, 
  el último gradiente $\mathbf{g}_k$, el número de iteraciones $k$ 
  y una variable binaria $bres$ que indique si se cumpli\'o el criterio
  de paro ($bres=True$) o si el algoritmo terminó por
  iteraciones ($bres=False$), y el contador $bres$.

In [None]:
def ConjugateGrad_NLineal(nMax):

    rk = A @ xk - b
    pk = -rk
    for k in range(nMax):
        
        # Condición de parada
        if np.linalg.norm(rk) < tau:
            return xk, rk_next, True, k

        Apk = A @ pk # Cálculo de Apk para optimizar

        # Cálculo de alphak
        rkTrk = rk.T @ rk
        alphak = rkTrk / (pk.T @ Apk)
        
        # Siguiente valor de xk
        xk = xk + alphak * pk
        rk_next = rk + alphak * Apk
        
        betak = (rk_next.T @ rk_next) / rkTrk
        pk = -rk_next + betak * pk
        rk = rk_next

    return xk, rk, False, nMax 

2. Pruebe el algoritmo usando la siguientes funciones con los puntos iniciales dados:


**Función de cuadrática 1:** Para $\mathbf{x}=(x_1,x_2, ..., x_n)$

- $f(\mathbf{x}) = \frac{1}{2} \mathbf{x}^\top\mathbf{A}_1\mathbf{x} - \mathbf{b}_1^\top\mathbf{x}$,
  donde $\mathbf{A}_1$ y $\mathbf{b}_1$ están definidas como en el Ejercicio 1.
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{10}$ 
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{100}$ 
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{1000}$ 

**Función de cuadrática 2:** Para $\mathbf{x}=(x_1,x_2, ..., x_n)$

- $f(\mathbf{x}) = \frac{1}{2} \mathbf{x}^\top\mathbf{A}_2\mathbf{x} - \mathbf{b}_2^\top\mathbf{x}$,
  donde $\mathbf{A}_2$ y $\mathbf{b}_2$ están definidas como en el Ejercicio 1.
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{10}$ 
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{100}$ 
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{1000}$ 

**Función de Beale :** Para $\mathbf{x}=(x_1,x_2)$

$$f(\mathbf{x}) = (1.5-x_1 + x_1x_2)^2 + (2.25 - x_1 + x_1x_2^2)^2 + (2.625 - x_1 + x_1x_2^3)^2.$$
- $\mathbf{x}_0 = (2,3)$  
   

**Función de Himmelblau:** Para $\mathbf{x}=(x_1,x_2)$

$$f(\mathbf{x}) = (x_1^2 + x_2 - 11)^2 + (x_1 + x_2^2 - 7)^2. $$
- $\mathbf{x}_0 = (2,4)$



**Función de Rosenbrock:** Para $\mathbf{x}=(x_1,x_2, ..., x_n)$

$$ f(\mathbf{x}) = \sum_{i=1}^{n-1} \left[100(x_{i+1} - x_i^2)^2 + (1-x_i)^2 \right]
\quad n\geq 2.$$
- $\mathbf{x}_0 = (-1.2, 1.0)\in \mathbb{R}^{2}$  
- $\mathbf{x}_0 = (-1.2, 1.0, ..., -1.2, 1.0) \in \mathbb{R}^{20}$  
- $\mathbf{x}_0 = (-1.2, 1.0, ..., -1.2, 1.0) \in \mathbb{R}^{40}$ 


3. Fije $N=5000$, $\tau = \sqrt{n}\epsilon_m^{1/3}$, donde $n$ es la dimensión
   de la variable $\mathbf{x}$ y $\epsilon_m$ es el épsilon máquina. 
   Para backtracking use $\rho=0.5$, $c_1=0.001$, $c_2=0.01$, $N_b=500$.
   
4. Para cada función de prueba imprima
   
- la dimensión $n$,
- $f(\mathbf{x}_0)$,
- el  número $k$ de iteraciones realizadas,
- $f(\mathbf{x}_k)$,
- las primeras y últimas 4 entradas del punto $\mathbf{x}_k$ que devuelve el algoritmo,
- la norma del vector gradiente $\mathbf{g}_k$, 
- la variable $bres$ para saber si el algoritmo puedo converger.
- el número de reinicios $nr$.