# Ejercicios evaluables

### *EJERCICIO 1*

Tal y como ya hemos visto en clase, la variedad de herramientas proporcionadas por el
√°lgebra lineal son cruciales para desarrollar y fundamentar las bases de una variedad de
t√©cnicas relacionadas con el aprendizaje autom√°tico. Con ella, podemos describir el proceso
de propagaci√≥n hacia adelante en una red neuronal, identificar m√≠nimos locales en funciones
multivariables (crucial para el proceso de retropropagaci√≥n) o la descripci√≥n y empleo de
m√©todos de reducci√≥n de la dimensionalidad, como el an√°lisis de componentes principales
(PCA), entre muchas otras aplicaciones.
Cuando trabajamos en la pr√°ctica dentro de este √°mbito, la cantidad de datos que manejamos
puede ser muy grande, por lo que es especialmente importante emplear algoritmos eficientes
y optimizados para reducir el coste computacional en la medida de lo posible. Por todo ello,
el objetivo de este ejercicio es el de ilustrar las diferentes alternativas que pueden existir
para realizar un proceso relacionado con el √°lgebra lineal y el impacto que puede tener cada
variante en t√©rminos del coste computacional del mismo. En este caso en particular, y a modo
de ilustraci√≥n, nos centraremos en el c√°lculo del determinante de una matriz.

In [6]:
#Importacion de librerias

import numpy as np

1. Implementa una funci√≥n, determinante recursivo, que obtenga el determinante de una matriz cuadrada utilizando la definici√≥n recursiva de Laplace.


In [7]:
def determinante_recursivo(A):
    A = np.array(A)
    n = A.shape[0]

    # Caso base: matriz 1x1
    if n == 1:
        return A[0, 0]

    # Caso base: matriz 2x2
    if n == 2:
        return A[0,0]*A[1,1] - A[0,1]*A[1,0]

    # Caso general
    det = 0
    for j in range(n):
        # Eliminar primera fila y j-√©sima columna
        submatriz = np.delete(np.delete(A, 0, axis=0), j, axis=1)
        cofactor = (-1) ** j * A[0, j] * determinante_recursivo(submatriz)
        det += cofactor

    return det

2. Si A es una matriz cuadrada n√ón y triangular (superior o inferior, es decir, con entradas nulas por debajo o por encima de la diagonal, respectivamente), ¬øexiste alguna forma de calcular de forma directa y sencilla su determinante? Justif√≠quese la respuesta.


    S√≠, la forma m√°s r√°pida consiste en calcular el producto de los elementos de la diagonal principal. Esto se debe a que, en una matriz triangular (superior o inferior), todos los determinantes menores involucrados en la expansi√≥n de Laplace que no pasan por la diagonal contienen ceros, lo que anula sus contribuciones. As√≠, el √∫nico camino no anulado por ceros es el producto de los elementos diagonales, que coincide con el determinante.

3. Determ√≠nese de forma justificada c√≥mo alteran el determinante de una
matriz n √ó n las dos operaciones elementales siguientes:

- Intercambiar una fila (o columna) por otra fila (o columna).

- Sumar a una fila (o columna) otra fila (o columna) multiplicada por un escalar Œ±.


    Al intercambiar dos filas o columnas de una matriz, el determinante de la misma cambia de signo. Esto concluye con que:
    - Si el n√∫mero de modificaciones que realizamos es par (n % 2 == 0): El signo original se mantiene
    - Si el n√∫mero de modificaciones que realizamos es impar (n % 2 == 1): El signo cambia.

    Al sumar a una fila o columna otra fila o columna multiplicada por un escalar Œ±, no alteraremos el determinante, pues este es lineal respecto a cada fila o columna por separado.

4.  Investiga sobre el m√©todo de eliminaci√≥n de Gauss con pivoteo parcial e
implem√©ntalo para escalonar una matriz (es decir, convertirla en una matriz triangular
inferior) a partir de las operaciones elementales descritas en el apartado anterior.


    La eliminaci√≥n de Gauss consiste en aplicar operaciones elementales para transformar una matriz en una forma triangular (superior o inferior), lo que facilita resolver sistemas lineales o calcular determinantes.
    El pivote es considerado el valor de la diagonal que se va a usar para anular los elementos superiores o inferiores. En la pr√°ctica, si el pivote es muy peque√±o o cero, pueden aparecer errores num√©ricos o divisiones por cero. El pivoteo parcial soluciona esto intercambiando la fila actual con la que tiene el valor absoluto mayor en la columna del pivote.

5.  ¬øC√≥mo se podr√≠a calcular el determinante de una matriz haciendo beneficio
de la estrategia anterior y del efecto de aplicar las operaciones elementales pertinentes?
Implementa una nueva funci√≥n, determinante gauss, que calcule el determinante de
una matriz utilizando eliminaci√≥n gaussiana.


In [43]:
def determinante_gauss(A):
    A = A.astype(float).copy() # Copiar para no modificar la original
    n = A.shape[0]
    intercambios_cont = 0

    for i in range(n):
        # Pivoteo parcial: buscar la fila con m√°ximo valor absoluto en columna i desde fila i
        max_fila = i + np.argmax(np.abs(A[i:,i]))

        #Caso para matriz singular (Det = 0)
        if A[max_fila, i] == 0:
            return 0
        
        # Intercambiar filas si es necesario
        if max_fila != i:
            A[[i, max_fila]] = A[[max_fila, i]]
            intercambios_cont += 1

        # Eliminar elementos debajo del pivote
        for j in range(i + 1, n):
            factor = A[j, i] / A[i, i]
            A[j, i:] -= factor * A[i, i:]
            A[j, i] = 0  # Para evitar errores num√©ricos
        
    # Producto de la diagonal principal
    det = np.prod(np.diag(A))
    
    # Ajustar signo seg√∫n n√∫mero de intercambios
    if intercambios_cont % 2 != 0:
        det = -det


    return det

In [42]:
A = np.array([
    [1, 8, 7],
    [4, 10, 9],
    [7, 4, 2]
])

print("Determinante calculado con eliminaci√≥n gaussiana:", determinante_gauss(A))
print("Determinante con numpy.linalg.det:", np.linalg.det(A))

Determinante calculado con eliminaci√≥n gaussiana: 46.00000000000006
Determinante con numpy.linalg.det: 46.00000000000004


    Como se puede comprobar, se han obtenido resultados similares aplicando la funci√≥n esencial de Numpy y nuestra funci√≥n eliminaci√≥n gaussiana

6.  Obt√©n la complejidad computacional asociada al c√°lculo del determinante
con la definici√≥n recursiva y con el m√©todo de eliminaci√≥n de Gauss con pivoteo parcial.


    Por un lado, la definici√≥n recursiva consiste en descomponer el determinante de una matriz n x n en la suma de determinantes de matrices (n-1) x (n-1). por ello, en cada nivel se realizan 'n' llamadas para calcular determinantes, lo que genera una complejidad exponencial O(n!), la cual no es viable para grandes cantidades de datos.

    En cambio, el m√©todo de la eliminaci√≥n gaussiana transforma la matriz en forma triangular mediante operaciones elementales. Por ello, el n√∫mero total de operaciones aritm√©ticas est√° en el orden de O(2/3*n^3). M√°s formalmente, se considera que tiene complejidad c√∫bica: O(n^3). Por lo tanto, el c√°lculo del determinante con este m√©todo es mucho m√°s eficiente y pr√°ctico para matrices grandes.


------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------


### *EJERCICIO 2*
En este ejercicio trabajaremos con el m¬¥etodo de descenso de gradiente, el cual constituye
otra herramienta crucial, en esta ocasi¬¥on de la rama del c¬¥alculo, para el proceso de retropropagaci¬¥on asociado al entrenamiento de una red neuronal.


1. Progr√°mese en Python el **m√©todo de descenso de gradiente** para funciones de \( n \) variables. La funci√≥n debe recibir como par√°metros de entrada:

-  El gradiente de la funci√≥n que se desea minimizar el  ‚àáf  (puede ser otra funci√≥n previamente implementada, llamada `grad_f`, que reciba un vector ‚Äî el punto donde se calcula el gradiente ‚Äî y devuelva otro vector ‚Äî el gradiente en dicho punto).
-  Un valor inicial  x0 ‚àà R n  (almacenado como un vector de \( n \) componentes).
-  El ratio de aprendizaje Œ≥ (constante para cada iteraci√≥n).
-  Un par√°metro de tolerancia `tol` para finalizar el proceso cuando ‚à•‚àáf(x)‚à•2 < `tol`).
-  Un n√∫mero m√°ximo de iteraciones `maxit` para evitar ejecuciones indefinidas en caso de divergencia o convergencia lenta.

La salida de la funci√≥n debe ser la aproximaci√≥n de x que cumple f(x) ‚âà 0, correspondiente a la √∫ltima iteraci√≥n realizada en el m√©todo.

In [66]:
def descenso_gradiente(grad_f, x0, gamma, tol, maxit):
    """
    M√©todo de descenso de gradiente para funciones de n variables.

    Par√°metros:
    grad_f : funci√≥n que calcula el gradiente en un punto (vector).
    x0 : numpy array, punto inicial (vector).
    gamma : float, ratio de aprendizaje.
    tol : float, tolerancia para la norma del gradiente.
    maxit : int, n√∫mero m√°ximo de iteraciones.

    Retorna:
    x : numpy array, aproximaci√≥n al m√≠nimo de la funci√≥n.
    """
    x = x0.copy()
    
    for _ in range(maxit):
        grad = grad_f(x)
        if np.linalg.norm(grad) < tol:
            break
        x = x - gamma * grad
    
    return x

2. Sea la funci√≥n f : R ‚Üí R dada por

##### f(x) = 3x^4 + 4x^3 - 12x^2 + 7

---

i) Aplica el m√©todo de descenso de gradiente con:

- x_0 = 3
- Œ≥ = 0.001
- `tol` = 1 x 10^{-12}
- `maxit` = 10^5

---

ii) Aplica el m√©todo con:

- x_0 = 3
- Œ≥ = 0.01
- `tol` = 1 x 10^{-12}
- `maxit` = 10^5

---

Compara e interpreta los resultados de i) y ii) en relaci√≥n con los m√≠nimos locales anal√≠ticos y la influencia del ratio de aprendizaje Œ≥.

---

iii) Aplica el m√©todo con:

- x_0 = 3
- Œ≥ = 0.1
- `tol` = 1 x 10^{-12}
- `maxit` = 10^5

Interpreta el resultado.

---

iv) Aplica el m√©todo con:

- x_0 = 0
- Œ≥ = 0.001
- `tol` = 1 \times 10^{-12}
- `maxit` = 10^5

Interpreta el resultado y comp√°ralo con el an√°lisis de f. ¬øEs un resultado deseable? ¬øPor qu√©? ¬øA qu√© se debe este fen√≥meno?


In [63]:
# Definimos la funci√≥n f(x)
def f(x):
    return 3*x**4 + 4*x**3 - 12*x**2 + 7

def grad_f(x):
    return 12*x**3 + 12*x**2 - 24*x

# Implementaci√≥n del descenso de gradiente para funciones R->R, de una sola variable
def descenso_gradiente_1d(grad_f, x0, gamma, tol, maxit):
    x = x0
    for i in range(int(maxit)):
        grad = grad_f(x)
        if abs(grad) < tol:
            break
        x = x - gamma * grad
    return x, i+1

# Par√°metros
tol = 1e-12
maxit = 1e5

# i) gamma = 0.001
x0 = 3
gamma = 0.001
x_min_a, iter_a = descenso_gradiente_1d(grad_f, x0, gamma, tol, maxit)
print(f"i) gamma={gamma} -> m√≠nimo en x = {x_min_a:.10f} tras {iter_a} iteraciones, f(x) = {f(x_min_a):.10f}\n")

# ii) gamma = 0.01
gamma = 0.01
x_min_b, iter_b = descenso_gradiente_1d(grad_f, x0, gamma, tol, maxit)
print(f"ii) gamma={gamma} -> m√≠nimo en x = {x_min_b:.10f} tras {iter_b} iteraciones, f(x) = {f(x_min_b):.10f}\n")

# iii) gamma = 0.1
gamma = 0.1
#x_min_d, iter_d = descenso_gradiente_1d(grad_f, x0, gamma, tol, maxit)
#print(f"d) gamma={gamma} -> m√≠nimo en x = {x_min_d:.10f} tras {iter_d} iteraciones, f(x) = {f(x_min_d):.10f}")
print(f"iii) El caso genera un error de Overflow al crecer demasiado el valor de x durante las iteraciones y Python no puede manejar el resultado pues se sale del rango\n")

# iv) x0=0, gamma=0.001
x0 = 0
gamma = 0.001
x_min_e, iter_e = descenso_gradiente_1d(grad_f, x0, gamma, tol, maxit)
print(f"iv) x0={x0}, gamma={gamma} -> m√≠nimo en x = {x_min_e:.10f} tras {iter_e} iteraciones, f(x) = {f(x_min_e):.10f}")

i) gamma=0.001 -> m√≠nimo en x = 1.0000000000 tras 832 iteraciones, f(x) = 2.0000000000

ii) gamma=0.01 -> m√≠nimo en x = -2.0000000000 tras 32 iteraciones, f(x) = -25.0000000000

iii) El caso genera un error de Overflow al crecer demasiado el valor de x durante las iteraciones y Python no puede manejar el resultado pues se sale del rango

iv) x0=0, gamma=0.001 -> m√≠nimo en x = 0.0000000000 tras 1 iteraciones, f(x) = 7.0000000000


### Interpretaci√≥n

- La elecci√≥n del par√°metro gamma es fundamental, como se observa en los tres primeros casos. En el primero, un valor peque√±o de gamma conduce a la convergencia hacia un m√≠nimo local, aunque con un n√∫mero elevado de iteraciones (832). En el segundo caso, un gamma mayor permite alcanzar un mejor m√≠nimo (con valor de funci√≥n m√°s bajo, -25 frente a 2) en menos iteraciones (32). Sin embargo, como muestra el tercer caso, un gamma demasiado grande puede provocar que el m√©todo diverja, generando errores debido a los saltos excesivamente grandes en el proceso de actualizaci√≥n.

- Por otro lado, en la cuarta opci√≥n se modifica el punto inicial ùë•0=0. En este caso, el m√©todo converge en una √∫nica iteraci√≥n a un punto donde la derivada es cero, pero que no corresponde a un m√≠nimo local. Esto evidencia la importancia de elegir un buen punto de partida para el m√©todo de descenso de gradiente.

3. Sea la funci√≥n f : R^2 ‚Üí R dada por

##### g(x,y) = x2 + y3 + 3xy + 1

---

i) Aplica el m√©todo de descenso de gradiente sobre la funci√≥n g(x, y) con los siguientes par√°metros:

Punto inicial: x0 = (-1, 1)

Ratio de aprendizaje: gamma = 0.01

Tolerancia: tol = 1e-12

N√∫mero m√°ximo de iteraciones: maxit = 1e5

---

ii) ¬øQu√© ocurre si ahora partimos de x0 = (0, 0)? ¬øSe obtiene un resultado deseable?

---

iii) Real√≠cese el estudio anal√≠tico de la funci√≥n y util√≠cese para explicar y contrastar los resultados obtenidos en los dos apartados anteriores.


In [70]:
#volvemos a realizar la funcion descenso de gradiente (se podr√≠a usar la anterior)
def descenso_gradiente_ej3(grad_f, x0, gamma, tol, maxit):
    x = np.array(x0, dtype=float)
    for i in range(maxit):
        grad = grad_f(x)
        if np.linalg.norm(grad) < tol:
            break
        x = x - gamma * grad
    return x, i+1

# Funci√≥n g(x,y)
def g(x):
    return x[0]**2 + x[1]**3 + 3*x[0]*x[1] + 1

# Gradiente de g
def grad_g(x):
    dx = 2*x[0] + 3*x[1]
    dy = 3*x[1]**2 + 3*x[0]
    return np.array([dx, dy])

# Par√°metros
gamma = 0.01
tol = 1e-12
maxit = 1e5

# i) Punto inicial (-1,1)
x0_i = [-1, 1]
x_min_i, iter_i = descenso_gradiente_ej3(grad_g, x0_i, gamma, tol, int(maxit))
print(f"i) m√≠nimo en x = {x_min_i} tras {iter_i} iteraciones, g(x) = {g(x_min_i):.10f}")

# ii) Punto inicial (0,0)
x0_ii = [0, 0]
x_min_ii, iter_ii = descenso_gradiente_ej3(grad_g, x0_ii, gamma, tol, int(maxit))
print(f"ii) m√≠nimo en x = {x_min_ii} tras {iter_ii} iteraciones, g(x) = {g(x_min_ii):.10f}")

# iii) Estudio anal√≠tico
print("""
Estudio anal√≠tico:
Puntos cr√≠ticos cumplen:
2x + 3y = 0
3y^2 + 3x = 0

De la primera: x = -3/2 y
Sustituyendo en la segunda:
3 y^2 + 3 (-3/2 y) = 3 y^2 - (9/2) y = 0
3 y (y - 3/2) = 0

Por tanto, y=0 o y=3/2
Si y=0 -> x=0
Si y=3/2 -> x = -9/4 = -2.25

Puntos cr√≠ticos: (0,0) y (-2.25, 1.5)
""")

i) m√≠nimo en x = [-2.25  1.5 ] tras 3140 iteraciones, g(x) = -0.6875000000
ii) m√≠nimo en x = [0. 0.] tras 1 iteraciones, g(x) = 1.0000000000

Estudio anal√≠tico:
Puntos cr√≠ticos cumplen:
2x + 3y = 0
3y^2 + 3x = 0

De la primera: x = -3/2 y
Sustituyendo en la segunda:
3 y^2 + 3 (-3/2 y) = 3 y^2 - (9/2) y = 0
3 y (y - 3/2) = 0

Por tanto, y=0 o y=3/2
Si y=0 -> x=0
Si y=3/2 -> x = -9/4 = -2.25

Puntos cr√≠ticos: (0,0) y (-2.25, 1.5)



### Interpretaci√≥n

- En el primer caso, partiendo de \((-1,1)\), el m√©todo converge a un m√≠nimo local, indicando que el punto inicial est√° dentro de la zona de atracci√≥n de dicho m√≠nimo.
- En el segundo caso, partiendo de \((0,0)\), el m√©todo puede converger a un punto estacionario que no es m√≠nimo (puede ser un punto de silla o m√°ximo) o no converger correctamente, ya que la derivada es cero pero no se trata de un m√≠nimo.
- Por ello, la elecci√≥n del punto inicial es fundamental para el √©xito del m√©todo de descenso de gradiente. Adem√°s, el ratio de aprendizaje influye en la velocidad y estabilidad de la convergencia, como se ha observado en ejercicios anteriores.
