<a href="https://colab.research.google.com/github/polxo00/Matematicas-para-la-IA/blob/main/EjerciciosEntregables_Pol_Jorba.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Ejercicios Evaluables
#### Pol Jorba Lloses

https://github.com/polxo00/Matematicas-para-la-IA/blob/main/EjerciciosEntregables_Pol_Jorba.ipynb

**1. Tal y como ya hemos visto en clase, la variedad de herramientas proporcionadas por el álgebra lineal son cruciales para desarrollar y fundamentar las bases de una variedad de técnicas relacionadas con el aprendizaje automático. Con ella, podemos describir el proceso de propagación hacia adelante en una red neuronal, identificar mínimos locales en funciones multivariables (crucial para el proceso de retropropagación) o la descripción y empleo de métodos de reducción de la dimensionalidad, como el análisis de componentes principales (PCA), entre muchas otras aplicaciones. Cuando trabajamos en la práctica dentro de este ámbito, la cantidad de datos que manejamos puede ser muy grande, por lo que es especialmente importante emplear algoritmos eficientes y optimizados para reducir el coste computacional en la medida de lo posible. Por todo ello, el objetivo de este ejercicio es el de ilustrar las diferentes alternativas que pueden existir para realizar un proceso relacionado con el álgebra lineal y el impacto que puede tener cada variante en t´erminos del coste computacional del mismo. En este caso en particular, y a modo de ilustración, nos centraremos en el cálculo del determinante de una matriz.**

In [None]:
import numpy as np
import time
import random
import pandas as pd

**a) [1 punto] Implementa una función, *determinante_recursivo*, que obtenga el determinante de una matriz cuadrada utilizando la definición recursiva de Laplace.**

In [None]:
def determinante_recursivo(matriz):

    n = len(matriz)
    # Comprovar si la matriz es quadrada
    for fila in matriz:
        if len(fila) != n:
            raise ValueError("La matriz deve ser quadrada.")

    # Matriz 1x1
    if n == 1:
        return matriz[0][0]

    # Matriz 2x2
    if n == 2:
        return matriz[0][0] * matriz[1][1] - matriz[0][1] * matriz[1][0]

    determinante = 0
    # Iteremos la primera fila para calcular el determinante
    for j in range(n):
        # Calculamos el menor M_0j
        submatriz = []
        for r in range(1, n):  # Iteremos la segunda fila
            nueva_fila = []
            for c in range(n):
                if c != j:
                    nueva_fila.append(matriz[r][c])
            submatriz.append(nueva_fila)

        # Calcular el cofactor C_0j = (-1)^(0+j) * M_0j
        # (-1)^(0+j) és 1 si j és par, i -1 si j és impar
        signo = (-1)**j

        # Sumamos el producto del elemento por su cofactor
        determinante += signo * matriz[0][j] * determinante_recursivo(submatriz)

    return determinante

In [None]:
matriz = [[6, 1, 1],[4, -2, 5],[2, 8, 7]]
determinante_recursivo(matriz)



-306

In [None]:
matriz = [[1, 0, 2, -1],[3, 0, 0, 5],[2, 1, 4, -3],[1, 0, 5, 0]]
determinante_recursivo(matriz)

30

**b) [0.5 puntos] Si A es una matriz cuadrada n×n y triangular (superior o inferior, es decir,
con entradas nulas por debajo o por encima de la diagonal, respectivamente), ¿existe
alguna forma de calcular de forma directa y sencilla su determinante? Justifíquese la
respuesta.**

Si, existe una forma directa y sencilla para calcular el determinante de una matriz cuadrada triangular. El determinante es el producto de los elementos de su diagonal principal.

Esto se cumple porque, en una matriz triangular, el desarrollo del determinante por cofactores en cualquier fila o columna que contenga ceros fuera de la diagonal elimina esos términos y el cálculo se reduce a multiplicar los elementos de la diagonal principal.

Vamos a verificar-lo con la funcion anterior.

In [None]:
matriz = [[6, 1, 1],
          [0, -2, 5],
          [0, 0, 7]]
det_recursivo = determinante_recursivo(matriz)
det_triang = matriz[0][0] * matriz[1][1] * matriz[2][2]

print(f"El determinante calculado con la función recursiva es {det_recursivo} y el calculado con el producto de su diagonal es {det_triang}")

El determinante calculado con la función recursiva es -84 y el calculado con el producto de su diagonal es -84


**c) [0.5 puntos] Determínese de forma justificada cómo alteran el determinante de una
matriz n × n las dos operaciones elementales siguientes**

- Intercambiar una fila (o columna) por otra fila (o columna).
  
- Sumar a una fila (o columna) otra fila (o columna) multiplicada por un escalar α.

Al intercambiar una fila o columna por otra fila o columna el determinante cambia de signo. Esto ocurre porque el determinante depende del orden de las filas, y por lo tanto si cambias el orden, también cambias el signo del determinante.

In [None]:
matriz1 = [[6, 1, 1],
          [3, -2, 5],
          [4, 5, 7]]
matriz2 = [[3, -2, 5],
          [6, 1, 1],
          [4, 5, 7]]
det_1 = determinante_recursivo(matriz1)
det_2 = determinante_recursivo(matriz2)
print(f"determinante de la matriz original {det_1} y determinante de la matriz con una fila intercambiada {det_2}")

determinante de la matriz original -212 y determinante de la matriz con una fila intercambiada 212


En el caso de sumar a una fila (o columna) otra fila (o columna) multiplicada por un escalar α el determinante no cambia.
Esto ocurre porque con esta operación no estamos cambiando la dirección de esta fila o columna, solo la estamos combinando con otra, y por lo tanto, esa operación no afecta al área o volumen que representa el determinante

In [None]:
matriz1 = [[6, 1, 1],
           [3, -2, 5],
           [4, 5, 7]]

matriz2 = [[6, 1, 1],
           [3, -2, 5],
           [4, 5, 7]]

# Operación: fila1 = fila1 + 2 * fila0
alpha = 2
for i in range(len(matriz1[0])):
    matriz2[1][i] += alpha * matriz1[0][i]

det_1 = determinante_recursivo(matriz1)
det_2 = determinante_recursivo(matriz2)

print("Matriz original:")
for fila in matriz1:
    print(fila)
print("\n")

print("Fila intercambiada multiplicada por alpha:")
for fila in matriz2:
    print(fila)
print("\n")

print(f"Determinante de la matriz original: {det_1} y determinante después de sumar {alpha}*fila0 a fila1: {det_2}")

Matriz original:
[6, 1, 1]
[3, -2, 5]
[4, 5, 7]


Fila intercambiada multiplicada por alpha:
[6, 1, 1]
[15, 0, 7]
[4, 5, 7]


Determinante de la matriz original: -212 y determinante después de sumar 2*fila0 a fila1: -212


**d) [1 punto] Investiga sobre el método de eliminación de Gauss con pivoteo parcial e
impleméntalo para escalonar una matriz (es decir, convertirla en una matriz triangular
inferior) a partir de las operaciones elementales descritas en el apartado anterior.**

El método de eliminación de Gauss con pivoteo parcial transforma cualquier matriz A a una matriz escalonada usando solo las operaciones del apartado anterior.

Esto funciona seleccionando los pivotes, es decir los elementos de la diagonal principal, para modificar todos los valores que estan debajo en la misma columna a cero utilizando solo las operaciones del apartado anterior que solo modifican el signo.

In [None]:
def gauss_pivoteo_parcial(matriz):
    n = len(matriz)
    # Comprovar si la matriz es quadrada
    for fila in matriz:
        if len(fila) != n:
            raise ValueError("La matriz deve ser quadrada.")

    A = [fila[:] for fila in matriz]
    intercambios = 0

    for k in range(n-1):
        # Pivoteo parcial
        max_index = max(range(k, n), key=lambda i: abs(A[i][k]))
        # Intercanviar filas
        if max_index != k:
            A[k], A[max_index] = A[max_index], A[k]
            intercambios += 1

        # Empezar eliminación
        for i in range(k+1, n):
            if A[k][k] == 0:
                continue  # Evitar división por cero

            factor = A[i][k] / A[k][k]
            A[i][k] = 0

            # Restar la fila k multiplicada p factor a la fila i
            for j in range(k+1, n):
                A[i][j] -= factor * A[k][j]


    return A, intercambios


In [None]:
matriz = [[6, 1, 1],
           [3, -2, 5],
           [4, 5, 7]]

matriz_escalonada,_ = gauss_pivoteo_parcial(matriz)

print("Matriz escalonada:")
for fila in matriz_escalonada:
    print(fila)

Matriz escalonada:
[6, 1, 1]
[0, 4.333333333333333, 6.333333333333333]
[0, 0, 8.153846153846153]


**e) [0.5 puntos] ¿Cómo se podría calcular el determinante de una matriz haciendo beneficio
de la estrategia anterior y del efecto de aplicar las operaciones elementales pertinentes?
Implementa una nueva función, determinante gauss, que calcule el determinante de
una matriz utilizando eliminación gaussiana.**

In [None]:
def determinante_gauss(matriz):
    n = len(matriz)
    A = [fila[:] for fila in matriz]
    det = 1
    matriz_escalonada, intercambios = gauss_pivoteo_parcial(A)
    # ya hemos escalonado la matriz, ahora multiplica la diagonal para saber el valor del determinante.
    for i in range(n):
        det *= matriz_escalonada[i][i]

    # ajustamos el simbolo del determinante segun el numero de intercambios
    det *= (-1) ** intercambios

    return det

In [None]:
matriz = [[6, 1, 1],
           [3, -2, 5],
           [4, 5, 7]]
det = determinante_gauss(matriz)
det_recursivo = determinante_recursivo(matriz)
print(f"Determinante utilizando eliminación gaussiana: {det} determinante utilizando metodo recursivo: {det_recursivo}")

Determinante utilizando eliminación gaussiana: -212.0 determinante utilizando metodo recursivo: -212


**f) [0.5 puntos] Obtén la complejidad computacional asociada al cálculo del determinante con la definición recursiva y con el método de eliminación de Gauss con pivoteo parcial.**

La compejidad computacional del cálculo del determinante con la definición recursiva es O(n!) porque cada vez que se aplica la recursividad se divide el problema en n subproblemas de tamaño (n-1)*(n-1) haciendo que la complejidad se vuelva factorial. Por lo tanto es un metodo que funcional pero muy ineficiente para matrices grandes.

En cambio, con el metodo de eliminación de Gauss con pivoteo parcial la complejidad se reduce a O(n<sup>3</sup>) porque primero busca el mayor pivote O(n) y después elimina los valores por debajo del pivote por cada fila hasta n columnas O(n<sup>2</sup>).

In [None]:
def comparar_tiempo_gauss_recursivo(orden_matriz):
    matriz = [[random.randint(-10, 10) for _ in range(orden_matriz)] for _ in range(orden_matriz)]

    start_gauss = time.time()
    det = determinante_gauss(matriz)
    end_gauss = time.time()
    tiempo_gauss = end_gauss - start_gauss

    start_recursiu = time.time()
    det_recursivo = determinante_recursivo(matriz)
    end_recursiu = time.time()
    tiempo_recursiu = end_recursiu - start_recursiu

    print(f"Determinante (Gauss): {det}  Tiempo: {tiempo_gauss:.6f} s")
    print(f"Determinante (Recursivo): {det_recursivo}  Tiempo: {tiempo_recursiu:.6f} s")


In [None]:
comparar_tiempo_gauss_recursivo(6)

Determinante (Gauss): -1236312.0000000002  Tiempo: 0.000000 s
Determinante (Recursivo): -1236312  Tiempo: 0.008242 s


In [None]:
comparar_tiempo_gauss_recursivo(10)

Determinante (Gauss): -78027892229.0  Tiempo: 0.000000 s
Determinante (Recursivo): -78027892229  Tiempo: 7.801835 s


**g) [1 punto] Utilizando numpy.random.rand, genera matrices cuadradas aleatorias de la
forma An ∈ R
n×n
, para 2 ≤ n ≤ 10, y confecciona una tabla comparativa del tiempo de
ejecución asociado a cada una de las variantes siguientes, interpretando los resultados:**

**- Utilizando determinante recursivo.**
**- Empleando determinante gauss.**
**- Haciendo uso de la función preprogramada numpy.linalg.det.**

In [None]:

resultados = []

def comparar_tiempos(orden_matriz):
    matriz_np = np.random.rand(orden_matriz, orden_matriz)
    matriz = matriz_np.tolist()

    # Gauss
    start_gauss = time.time()
    det_gauss = determinante_gauss(matriz)
    end_gauss = time.time()
    tiempo_gauss = end_gauss - start_gauss

    # Recursivo
    start_rec = time.time()
    det_rec = determinante_recursivo(matriz)
    end_rec = time.time()
    tiempo_rec = end_rec - start_rec

    # NumPy
    start_np = time.time()
    det_np = np.linalg.det(matriz_np)
    end_np = time.time()
    tiempo_np = end_np - start_np


    print(f"Calculando tiempo por n = {n}")
    resultados.append((orden_matriz,tiempo_rec, tiempo_gauss, tiempo_np))
    return resultados




In [None]:
for n in range(2, 11):
    comparar_tiempos(n)

df = pd.DataFrame(resultados, columns=["n", "Recursivo (s)", "Gauss (s)", "NumPy (s)"])
display(df)

Calculando tiempo por n = 2
Calculando tiempo por n = 3
Calculando tiempo por n = 4
Calculando tiempo por n = 5
Calculando tiempo por n = 6
Calculando tiempo por n = 7
Calculando tiempo por n = 8
Calculando tiempo por n = 9
Calculando tiempo por n = 10


Unnamed: 0,n,Recursivo (s),Gauss (s),NumPy (s)
0,2,0.0,0.0,0.0
1,3,0.0,0.0,0.0
2,4,0.0,0.0,0.0
3,5,0.0,0.0,0.0
4,6,0.007919,0.0,0.0
5,7,0.016541,0.0,0.0
6,8,0.099912,0.0,0.0
7,9,0.757241,0.0,0.0
8,10,7.814697,0.0,0.0


Veo una diferencia muy evidente entre el metodo recursivo y el metodo de Gauss o NumPy pero no veo ninguna entre Gauss y NumPy. Supongo que es devido a que son matrices relativamente pequeñas y las dos funciones son muy buenas, es por este motivo que voy a intentar compararlas con matrices mas grandes para ver alguna diferencia.

Para evitar tiempos de ejecucion demasiado grandes, voy a crear una funcion que solo compare estas dos, eliminando el metodo recursivo.

In [None]:

resultados = []
def comparar_tiempos_Gauss_NumPy(orden_matriz):
    #generar matriz
    matriz_np = np.random.rand(orden_matriz, orden_matriz)
    matriz = matriz_np.tolist()

    # Gauss
    start_gauss = time.time()
    det_gauss = determinante_gauss(matriz)
    end_gauss = time.time()
    tiempo_gauss = end_gauss - start_gauss


    # NumPy
    start_np = time.time()
    det_np = np.linalg.det(matriz_np)
    end_np = time.time()
    tiempo_np = end_np - start_np


    print(f"Calculando tiempo por n = {n}")
    resultados.append((orden_matriz, tiempo_gauss, tiempo_np))
    return resultados

In [None]:
for n in range(2, 303, 10):
    comparar_tiempos_Gauss_NumPy(n)

df = pd.DataFrame(resultados, columns=["n", "Gauss (s)", "NumPy (s)"])
display(df)

Calculando tiempo por n = 2
Calculando tiempo por n = 12
Calculando tiempo por n = 22
Calculando tiempo por n = 32
Calculando tiempo por n = 42
Calculando tiempo por n = 52
Calculando tiempo por n = 62
Calculando tiempo por n = 72
Calculando tiempo por n = 82
Calculando tiempo por n = 92
Calculando tiempo por n = 102
Calculando tiempo por n = 112
Calculando tiempo por n = 122
Calculando tiempo por n = 132
Calculando tiempo por n = 142
Calculando tiempo por n = 152
Calculando tiempo por n = 162
Calculando tiempo por n = 172
Calculando tiempo por n = 182
Calculando tiempo por n = 192
Calculando tiempo por n = 202
Calculando tiempo por n = 212
Calculando tiempo por n = 222
Calculando tiempo por n = 232
Calculando tiempo por n = 242
Calculando tiempo por n = 252
Calculando tiempo por n = 262
Calculando tiempo por n = 272
Calculando tiempo por n = 282
Calculando tiempo por n = 292
Calculando tiempo por n = 302


Unnamed: 0,n,Gauss (s),NumPy (s)
0,2,0.0,0.0
1,12,0.0,0.0
2,22,0.0,0.0
3,32,0.009994,0.0
4,42,0.008942,0.0
5,52,0.010366,0.0
6,62,0.0167,0.0
7,72,0.024068,0.0
8,82,0.039981,0.0
9,92,0.061157,0.0


De esta manera he podido constatar tambien la diferencia entre el metodo de Gauss con pivoteo parcial y la funcion de Numpy, que cuando n=302 gauss tarda 1.68s y en cambio NumPy sigue estando en practicamente 0.

Esto evidencia que sigue habiendo una gran diferencia pero hemos podido mejorar mucho el metodo recursivo, que para calcular una matriz n=302 tardaria un tiempo extremadamente grande.

**2. En este ejercicio trabajaremos con el método de descenso de gradiente, el cual constituye otra herramienta crucial, en esta ocasión de la rama del cálculo, para el proceso de retropropagación asociado al entrenamiento de una red neuronal.**


**a) [1 punto] Prográmese en Python el método de descenso de gradiente para funciones de n variables. La función deberá tener como parámetros de entradas:**

**- El gradiente de la función que se desea minimizar ∇f (puede venir dada como otra función previamente implementada, grad_f, con entrada un vector, representando el punto donde se quiere calcular el gradiente, y salida otro vector, representando el gradiente de f en dicho punto).**

**- Un valor inicial x0 ∈ Rn (almacenado en un vector de n componentes).**

**- El ratio de aprendizaje γ (que se asume constante para cada iteración).**

**- Un parámetro de tolerancia tol (con el que finalizar el proceso cuando ∥∇f(x)∥2 < tol).**

**- Un número máximo de iteraciones maxit (con el fin de evitar ejecuciones indefinidas en caso de divergencia o convergencia muy lenta).**

**La salida de la función deberá ser la aproximación del x que cumple f′(x) ≈ 0, correspondiente a la última iteración realizada en el método.**

In [None]:

def descenso_gradiente(grad_f, x0, gamma, tol, maxit):

    x = np.array(x0, dtype=float)

    for i in range(maxit):
        grad = grad_f(x)
        norma_grad = np.linalg.norm(grad)

        if norma_grad < tol:
            print(f"Convergencia alcanzada en {i} iteraciones.")
            return x

        x = x - gamma * grad

    return x


**b) Sea la función** $f : \mathbb{R} \rightarrow \mathbb{R}$ **dada por**

$$
f(x) = 3x^4 + 4x^3 - 12x^2 + 7
$$

**i. [0.5 puntos] Aplica el método sobre** $f(x)$ **con** $x_0 = 3$, $\gamma = 0.001$, **tolerancia** $= 10^{-12}$, **máximo de iteraciones** $= 10^5$.




La derivada de la función es $$f'(x) = 12x^3 + 12x^2 - 24x $$

In [None]:

def grad_f(x):
    return np.array([12*x[0]**3 + 12*x[0]**2 - 24*x[0]])

x0 = [3]
gamma = 0.001
tol = 1e-12
maxit = int(1e5)
resultado = descenso_gradiente(grad_f, x0, gamma,  tol, maxit)
print("Mínimo local:", resultado)

Convergencia alcanzada en 831 iteraciones.
Mínimo local: [1.]


**ii. [0.5 puntos] Aplica de nuevo el método sobre** $f(x)$ **con** $x_0 = 3$, $\gamma = 0.01$, **tolerancia** $= 10^{-12}$, **máximo de iteraciones** $= 10^5$.


In [None]:
x0 = [3]
gamma = 0.01
tol = 1e-12
maxit = int(1e5)
resultado = descenso_gradiente(grad_f, x0, gamma,  tol, maxit)
print("Mínimo local:", resultado)

Convergencia alcanzada en 31 iteraciones.
Mínimo local: [-2.]



**iii. [0.5 puntos] Contrasta e interpreta los dos resultados obtenidos en los apartados anteriores y compáralos con los mínimos locales obtenidos analíticamente. ¿Qué influencia puede llegar a tener la elección del ratio de aprendizaje** $\gamma$**?**


Derivando la función obtenemos $f'(x) = 12x^3 + 12x^2 - 24x $ y a partir de esta podemos encontrar los puntos criticos donde la función derivada es igual a cero. estos son:

$$ x = 0, x = -2, x = 1 $$

Calculamos la segunda derivada y obtenemos $ f''(x) = 36x^2 + 24x -24 $ y evaluamos en cada punto para saber si es un minimo o un maximo local.

- En x = -2:
  $f''(-2)=72 > 0 $ --> mínimo local
  
- En x = 0:
  $f''(0)=-24 < 0 $ --> máximo local

  - En x = 1:
  $f''(1)=36 > 0 $ --> mínimo local

Por lo tanto observamos que de las dos maneras encuentra un mínimo local (1 o -2) pero al cambiar el valor de gamma afecta en como de rapido avanza el algoritmo.

Observamos que con gamma = 0,001 el algoritmo hace 831 iteraciones y en cambio con gamma = 0,01 el algoritmo solo hace 31.

Vemos que con gamma = 0,01 el resultado ha sido mucho mas rapido pero puede afectar en el resultado ya que al hacer avances tan rapidos, es posible que se salte mínimos locales que la otra configuracion ha sido capaz de encontrar.

Podemos concluir que la eleccion de gamma es un parametro muy importante ya que si es demasiado grande hace que quizas perdemos algun mínimo local, pero si es muy pequeño, puede hacer el calculo muy lento.



**iv. [0.5 puntos] Aplica nuevamente el método sobre** $f(x)$ **con** $x_0 = 3$, $\gamma = 0.1$, **tolerancia** $= 10^{-12}$, **máximo de iteraciones** $= 10^5$. **Interpreta el resultado.**



In [None]:
x0 = [3]
gamma = 0.1
tol = 1e-12
maxit = int(1e5)
resultado = descenso_gradiente(grad_f, x0, gamma,  tol, maxit)
print("Mínimo local:", resultado)

  return np.array([12*x[0]**3 + 12*x[0]**2 - 24*x[0]])
  return np.array([12*x[0]**3 + 12*x[0]**2 - 24*x[0]])


Mínimo local: [nan]


El programa devuelve un error ya que no ha podido encontrar ningun mínimo local. Esto ocurre cuando gamma es aun mas alta. Cuando empieza a ser grande se puede saltar algunos mínimos locales pero cuando lo es demasiado, hace que pierda todos los possibles candidatos y no encuentre ninguna solución.


**v. [0.5 puntos] Finalmente, aplica el método sobre** $f(x)$ **con** $x_0 = 0$, $\gamma = 0.001$, **tolerancia** $= 10^{-12}$, **máximo de iteraciones** $= 10^5$. **Interpreta el resultado y compáralo con el estudio analítico de** $f$. **¿Se trata de un resultado deseable? ¿Por qué? ¿A qué se debe este fenómeno?**

In [None]:
x0 = [0]
gamma = 0.001
tol = 1e-12
maxit = int(1e5)
resultado = descenso_gradiente(grad_f, x0, gamma,  tol, maxit)
print("Mínimo local:", resultado)

Convergencia alcanzada en 0 iteraciones.
Mínimo local: [0.]


Después de haber realizado el análisis analítico, puede resultar sorprendente que el algoritmo de descenso de gradiente devuelva como “mínimo local” el valor x=0, dado que sabemos que, en realidad, es un máximo local de la función.

Sin embargo, esto tiene sentido y se explica por la definición y el funcionamiento del algoritmo de descenso de gradiente:

El método busca avanzar en cada iteración en la dirección opuesta al gradiente para reducir la pendiente y acercarse a un punto donde la derivada sea cero (un punto crítico).

En x=0, la pendiente o gradiente ya es exactamente cero, por lo que el algoritmo detecta que no hay “dirección para avanzar” y no realiza ninguna iteración.

Por tanto, el algoritmo se detiene en ese punto, aunque sea un máximo local y no un mínimo.

Esto significa que el descenso de gradiente no distingue entre mínimos, máximos o puntos de silla, solo identifica puntos donde la pendiente es cero. Por ello, el punto x=0 es un “falso mínimo” desde el punto de vista del algoritmo, aunque analíticamente sepamos que es un máximo local.



**c) Sea la función** $g : \mathbb{R}^2 \rightarrow \mathbb{R}$ **dada por**

$$
g(x, y) = x^2 + y^3 + 3xy + 1
$$

**i. [0.5 puntos] Aplíquese el método sobre** $g(x, y)$ **con** $x_0 = (-1, 1)$, $\gamma = 0{.}01$, **tolerancia** $= 10^{-12}$, **máximo de iteraciones** $= 10^5$.


Para calcular el gradiente necessitamos su función que viene dada por la derivada de g.

$$\nabla g(x, y) = \left( \frac{\partial g}{\partial x},\ \frac{\partial g}{\partial y} \right) = \left( 2x + 3y,\ 3y^2 + 3x \right)$$

In [None]:

def grad_g(v):
    x, y = v
    return np.array([2 * x + 3 * y, 3 * y**2 + 3 * x])

x0 = [-1, 1]
gamma = 0.01
tol = 1e-12
maxit = int(1e5)

resultado = descenso_gradiente(grad_g, x0, gamma, tol, maxit)
print("Mínimo local:", resultado)

Convergencia alcanzada en 3139 iteraciones.
Mínimo local: [-2.25  1.5 ]


**ii. [0.5 puntos] ¿Qué ocurre si ahora partimos de** $x_0 = (0, 0)$**? ¿Se obtiene un resultado deseable?**

In [None]:
x0 = [0, 0]
gamma = 0.01
tol = 1e-12
maxit = int(1e5)

resultado = descenso_gradiente(grad_g, x0, gamma, tol, maxit)
print("Mínimo local:", resultado)

Convergencia alcanzada en 0 iteraciones.
Mínimo local: [0. 0.]


Obtenemos un resultado similar que en el quinto apartado del ejercicio anterior. En este punto nos encontramos en un punto critico de la funcion donde el gradiente ya es cero. Es por este motivo que el algoritmo no hace ninguna iteración y se queda en el mismo punto de incio, ya que la función tiene pendiente cero en este punto.

Podemos decir entonces que no es un resultado deseable ya que no hemos encontrado ningún mínimo local.

**iii. [0.5 puntos] Realícese el estudio analítico de la función y utilícese para explicar y contrastar los resultados obtenidos en los dos apartados anteriores.**

La función inicial g es:

$$
g(x,y) = x^2 + y^3 + 3xy + 1
$$

Y como hemos calculado antes, derivando obtenemos el siguiente gradiente:

$$
\nabla g = (2x + 3y, \; 3y^2 + 3x)
$$

Resolvemos el siguiente sistema de equaciones para obtener los puntos críticos:

$$
\begin{cases}
2x + 3y = 0 \\
3y^2 + 3x = 0
\end{cases}
$$

Puntos criticos: $(0,0)$ y $\left(-\frac{9}{4}, \frac{3}{2}\right)$.

Analizando la matriz Hessiana en esos puntos:

- En $(0,0)$, hay un punto de silla (no mínimo).
- En $\left(-\frac{9}{4}, \frac{3}{2}\right)$, hay un mínimo local.

Por eso, si el descenso de gradiente parte de $(-1,1)$ converge al mínimo, mientras que si parte de $(0,0)$ se queda estancado en el punto de silla. Esto explica y concuerda con los resultados obtenidos en los dos anteriores apartados.