<a href="https://colab.research.google.com/github/AlfredoLobosC/03MIAR_algoritmos_de_optimizacion/blob/main/mates_ejercicios_evaluables.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TRABAJO GRUPAL - EJERCICIOS ENTREGABLES**

# Integrantes:
- Alfredo Lobos Collao
- Bryan Alava Calderon
- Kenny Pizarro Luzón
- Abner Chica Herrera

In [None]:
import numpy as np
import time
import timeit
import pandas as pd

### **1a.** Implementa una función, determinante_recursivo, que obtenga el determinante de una matriz cuadrada utilizando la definicion recursiva de Laplace.

In [None]:
def determinante_laplace(A):
    """
    Calcula el determinante de una matriz cuadrada A utilizando
    la expansión de Laplace de forma recursiva.
    """
    A = np.array(A, dtype=float)
    n, m = A.shape

    if n != m:
        raise ValueError("La matriz debe ser cuadrada (n x n).")

    # Caso base
    if n == 1:
        return A[0,0]

    if n == 2:
        # Fórmula directa para 2x2: a*d - b*c
        return A[0,0]*A[1,1] - A[0,1]*A[1,0]

    det = 0.0
    signo = 1

    # Expandir por la primera fila (indice=0)
    for j in range(n):
      # Si el elemento es cero, el término no aporta al determinante
      if A[0, j] != 0:
        sub = np.delete(np.delete(A, 0, axis=0), j, axis=1)

        #Aplicamos la fórmula de Laplace
        det += signo * A[0, j] * determinante_laplace(sub)

      #Cambiamos el signo para la siguiente columna
      signo = -signo

    return det


# ------------------------------
# Ejemplo: matriz 4x4
# ------------------------------
B = np.array([
    [1, 2, 0, -1],
    [3, 1, 2,  4],
    [0,-2, 1,  3],
    [2, 0, 1,  1]
], dtype=float)

print("Matriz B:")
print(B)

# Tiempo con Laplace recursivo
start = time.time()
det_B_laplace = determinante_laplace(B)
end = time.time()
print(f"Determinante (Laplace): {det_B_laplace}")
print(f"Tiempo Laplace: {end - start:.6f} segundos")

Matriz B:
[[ 1.  2.  0. -1.]
 [ 3.  1.  2.  4.]
 [ 0. -2.  1.  3.]
 [ 2.  0.  1.  1.]]
Determinante (Laplace): 2.0
Tiempo Laplace: 0.000334 segundos


**-------------------------------------------------------------------------------------------------**

### **1b.** Si A es una matriz cuadrada n×n y triangular (superior o inferior, es decir, con entradas nulas por debajo o por encima de la diagonal, respectivamente), ¿existe alguna forma de calcular de forma directa y sencilla su determinante? Justif́ıquese la respuesta.

Sí, existe una forma **directa y sencilla** de calcular el determinante de una matriz cuadrada $A$ de $n \times n$ que sea triangular (superior o inferior).

Esta simplicidad surge de una propiedad fundamental en el álgebra lineal: el determinante de una matriz triangular es igual al **producto de sus componentes en la diagonal principal**,.

### Justificación

La justificación de esta regla se basa en la definición del determinante mediante la expansión por cofactores (o Laplace):

1.  **Regla de Cálculo:** Si $A$ es una matriz triangular superior o inferior, su determinante se calcula multiplicando todos los elementos de su diagonal principal: $\text{det} A = a_{11}a_{22}a_{33} \ldots a_{nn}$.
2.  **Costo Computacional:** Esta operación es la más sencilla posible, ya que requiere únicamente $n$ multiplicaciones, lo que la hace extremadamente eficiente y contrasta fuertemente con la alta complejidad de otros métodos, como la definición recursiva de Laplace, que crece factorialmente ($n!$).
3.  **Fundamento Teórico:** Al calcular el determinante de una matriz triangular (por ejemplo, triangular superior) expandiendo por la primera fila:
    *   $\text{det} A = a_{11} C_{11} - a_{12} C_{12} + a_{13} C_{13} - \ldots$
    *   Como la matriz es triangular, todos los elementos $a_{1j}$ para $j > 1$ son cero.
    *   Esto significa que el determinante se reduce simplemente a $a_{11}$ multiplicado por su cofactor $C_{11}$.
    *   El menor resultante, $M_{11}$, es también una matriz triangular, y este proceso continúa de manera recursiva hasta que el determinante se convierte únicamente en el producto de los elementos diagonales.

Esta propiedad hace que la **Eliminación Gaussiana** sea un método tan eficiente para el cálculo de determinantes: al reducir la matriz a una forma triangular superior (escalonada por renglones), el determinante de la matriz original se obtiene fácilmente a partir del producto de los elementos en la diagonal de la matriz triangular resultante.

A continuación, se presenta un ejemplo de cálculo para una matriz triangular superior $A$. :

Sea la matriz $A$ de $3 \times 3$:

$$ A = \begin{pmatrix} 4 & 1 & 5 \\ 0 & -2 & 3 \\ 0 & 0 & 7 \end{pmatrix} $$

Dado que $A$ es una matriz triangular superior, su determinante $(\text{det } A)$ se calcula multiplicando las entradas de su diagonal principal:

$$ \text{det}(A) = 4 \times (-2) \times 7 $$

$$ \text{det}(A) = -56 $$

De manera similar, para una matriz triangular inferior $B$:

$$ B = \begin{pmatrix} 3 & 0 & 0 \\ 6 & 1 & 0 \\ -1 & 5 & 2 \end{pmatrix} $$

El determinante es:

$$ \text{det}(B) = 3 \times 1 \times 2 $$

$$ \text{det}(B) = 6 $$

-------------------------------------------------------------------------------------------------

### **1c.** Determínese de forma justificada cómo alteran el determinante de una matriz n×n las dos operaciones elementales siguientes:
Intercambiar una fila (o columna) por otra fila (o columna).
Sumar a una fila (o columna) otra fila (o columna) multiplicada por un escalar α.

El impacto de las dos operaciones elementales mencionadas sobre el determinante de una matriz $n \times n$ es determinante para métodos eficientes de cálculo, como la Eliminación Gaussiana, ya que permiten manipular la matriz sin alterar drásticamente el valor final del determinante.

A continuación se detalla cómo cada operación altera el determinante:

#### a. Intercambiar una fila (o columna) por otra fila (o columna)

Esta operación altera el signo del determinante:

*   **Efecto:** El intercambio de cualesquiera dos renglones (o columnas) distintos de la matriz $A$ tiene el efecto de **multiplicar el determinante de $A$ por $-1$**.

*   **Justificación:** Si se denota la nueva matriz resultante como $B$, se cumple que $\det(B) = -\det(A)$. Esta propiedad asegura que la magnitud del determinante se conserva, aunque su orientación o signo cambie.

#### b. Sumar a una fila (o columna) otra fila (o columna) multiplicada por un escalar $\alpha$

Esta es la operación más útil para la simplificación matricial, ya que **el determinante permanece inalterado**:

*   **Efecto:** Si se suma un múltiplo escalar de un renglón (o columna) de $A$ a otro renglón (o columna) de $A$, **el determinante no cambia**.

*   **Justificación:** Si se denota la nueva matriz resultante como $B$, se cumple que $\det(B) = \det(A)$. Esto se justifica porque si la matriz $A$ tiene dos renglones o columnas proporcionales (lo que sucedería temporalmente al aplicar la suma del múltiplo al renglón de destino, antes de simplificar), su determinante es cero. La suma del múltiplo de un renglón a otro se descompone de tal manera que incluye un determinante que es cero, dejando solo el determinante original.

| Operación Elemental | Efecto sobre $\det(A)$ |
| :--- | :--- |
| Intercambio de dos filas (o columnas) | Se **multiplica por $-1$**. |
| Sumar un múltiplo escalar de una fila (o columna) a otra | El determinante **no se altera**. |

### **1.d.** Método de eliminación de Gauss con pivoteo parcial


La eliminación gaussiana es un algoritmo que transforma una matriz $A \in \mathbb{R}^{n \times n}$ en una matriz triangular superior $U$ mediante la aplicación sistemática de operaciones elementales. El pivoteo parcial se incorpora para mejorar la estabilidad numérica del proceso; consiste en seleccionar, en cada etapa $k$, el elemento de mayor magnitud en la columna actual (desde la fila $k$ hasta la $n$) para intercambiarlo a la posición del pivote ($a_{kk}$).

Esta técnica es crucial para evitar la división por cero o por valores extremadamente pequeños, lo que en sistemas computacionales amplificaría los errores de redondeo de punto flotante y degradaría la precisión de los resultados

In [None]:
import numpy as np

def escalonar_matriz(A):
    """
    Escalonamiento de matriz
    """
    U = A.astype(float).copy()
    n = U.shape[0]

    for k in range(n):
        # Selección del pivote (Pivoteo parcial)
        idx_pivote = k + np.argmax(np.abs(U[k:, k]))

        # Intercambio de filas (f_k <-> f_idx_pivote)
        if idx_pivote != k:
            U[[k, idx_pivote]] = U[[idx_pivote, k]]

        # Proceso de eliminación hacia adelante
        for i in range(k + 1, n):
            if U[k, k] != 0:
                factor = U[i, k] / U[k, k]
                U[i, k:] -= factor * U[k, k:]

    return U

-------------------------------------------------------------------------------------------------

### **1e**. ¿Cómo se podŕıa calcular el determinante de una matriz haciendo beneficio de la estrategia anterior y del efecto de aplicar las operaciones elementales pertinentes? Implementa una nueva función, determinante gauss, que calcule el determinante de una matriz utilizando eliminación gaussiana.

Este código de Python implementa el método de **Eliminación Gaussiana con pivoteo parcial** y **sustitución hacia atrás** para resolver un sistema de ecuaciones lineales de la forma $A\mathbf{x} = \mathbf{b}$ (donde `A` es la matriz aumentada $[A|\mathbf{b}]$).

La Eliminación Gaussiana es el método estándar y eficiente para estos cálculos, con una complejidad de orden $O(n^3)$ para una matriz de $n \times n$, lo que la hace mucho más rápida que los métodos recursivos (que tienen una complejidad de $O(n!)$). El algoritmo busca convertir la matriz en una **forma escalonada por renglones** (matriz triangular) utilizando operaciones elementales.

El **pivoteo parcial** (cambio de filas para colocar el elemento más grande en la posición de pivote) se incorpora para mejorar la estabilidad numérica, como se sugiere en los métodos robustos de Álgebra Lineal [3099d, 2824].

Este código le permite medir directamente el **coste computacional en tiempo** del algoritmo de Eliminación Gaussiana. En aplicaciones de Inteligencia Artificial y *machine learning*, donde las matrices suelen ser muy grandes, este método se prefiere debido a su eficiencia superior de orden $O(n^3)$, en contraste con la complejidad factorial ($O(n!)$) de la definición recursiva. Comparar este tiempo con el de otras implementaciones, como la función preprogramada `numpy.linalg.det` (si estuviera calculando el determinante) o una implementación recursiva, le ofrecerá una clara perspectiva práctica de las diferencias de eficiencia.

Para incorporar el cálculo del determinante al código de Eliminación Gaussiana, debemos aprovechar el hecho de que, al finalizar la **Fase 1: Eliminación hacia Adelante**, la matriz de coeficientes $A$ se ha transformado en una matriz triangular superior ($U$).

El determinante de una matriz triangular es simplemente el **producto de sus componentes en la diagonal principal** [3098, Conversational Context]. Sin embargo, dado que la implementación previa utilizaba **pivoteo parcial** (intercambio de filas), cada intercambio multiplica el determinante por $-1$. Por lo tanto, debemos contar el número de intercambios realizados y ajustar el signo del determinante de $U$ al final.

A continuación, se presenta la función actualizada, que retorna el vector solución, el tiempo de ejecución y el determinante.

In [None]:
def eliminacion_gaussiana(A):
  """
    Implementa la Eliminación Gaussiana con pivoteo parcial
  """
  #Copiamos la matriz y la convertios a float para hacer divisiones
  A = np.asarray(A, dtype = float).copy()

  #Dimensión de la matriz (n x n)
  n, m = A.shape

  if n != m:
        raise ValueError("El determinante solo está definido para matrices cuadradas.")

  #Contador intercambio de filas para cambiar el signo del determinante
  num_swaps = 0

  # === Fase 1: Eliminación hacia adelante (Reducción a forma escalonada U)
  for k in range(n - 1):
    #Buscamos el mayor absoluto en la columna K para el pivote
    indice_pivote = k + np.argmax(np.abs(A[k:, k]))

    # Si es singular, el determinante es cero.
    if A[indice_pivote, k] == 0:
          return 0.0

    # Intercambio de filas si el pivote no está en la posición k
    if indice_pivote != k:
          A[[k, indice_pivote]] = A[[indice_pivote, k]]
          num_swaps += 1

    # 2. Eliminación de elementos debajo del pivote
    #Se crean ceros en la columna k
    factores = A[k+1:, k] / A[k, k]
    A[k+1:, k:] -= factores[:, None] * A[k, k:]

  # --- Cálculo del Determinante
  #(det(A) = (-1)^swaps * det(U)) ---

  det = np.prod(np.diag(A))
  return (-1)**num_swaps * det

# Ejemplo de uso:
'''A_ejemplo = np.array([
    [1., 2., -1., 9.],
    [2., 5., -2., 14.],
    [-3., 1., 1., 9.]
])'''

A_ejemplo = np.array([
    [1., 2., -1.],
    [2., 5., -2.],
    [-3., 1., 1.]
])

inicio = time.time()
det = eliminacion_gaussiana(A_ejemplo)
fin = time.time()

print(f"Determinante: {det}")
print(f"Tiempo de ejecución: {fin - inicio:.8f} segundos")
# El resultado obtenido para esta matriz de ejemplo es **$-2$**, lo cual concuerda con el cálculo que realizamos previamente utilizando la matriz triangular final [Conversational Context]. Este valor, al ser distinto de cero, confirma que la matriz es invertible y que el sistema tiene una solución única [3099, Conversational Context].

Determinante: -2.0000000000000004
Tiempo de ejecución: 0.00051022 segundos


-------------------------------------------------------------------------------------------------
### **1f**. Obtén la complejidad computacional asociada al cálculo del determinante con la definición recursiva y con el método de eliminación de Gauss con pivoteo parcial.

La comparación de la eficiencia y el coste computacional entre los diferentes métodos para el cálculo de determinantes es fundamental en el ámbito de la Inteligencia Artificial (IA) y el aprendizaje automático, dado que la cantidad de datos manejados suele ser muy grande, requiriendo algoritmos optimizados.

Existen varias alternativas para calcular el determinante de una matriz $n \times n$, siendo las más comunes la **definición recursiva (expansión por cofactores o Laplace)** y los métodos basados en la **eliminación de Gauss**.

La principal diferencia en eficiencia radica en el **coste computacional** (o complejidad computacional) asociado a cada método, que mide la cantidad de operaciones aritméticas necesarias:

#### a. Método de la Definición Recursiva (Laplace)

Este método se basa en la expansión por cofactores (o recursiva de Laplace). Aunque es teóricamente directo, su coste computacional es extremadamente alto para matrices de gran tamaño.

*   **Coste:** La complejidad de este método es tan laboriosa que el cálculo de un determinante $50 \times 50$ mediante la definición recursiva se estima que tomaría alrededor de $4.8 \times 10^{50}$ años con una computadora capaz de realizar $10^6$ operaciones por segundo. Esto se debe a que la complejidad crece con el factorial del tamaño de la matriz ($n!$).

#### b. Método de Eliminación Gaussiana

Este método aprovecha las propiedades de los determinantes para simplificar la matriz a una forma triangular, cuyo cálculo es trivial.

*   **Estrategia:** Se utiliza la eliminación gaussiana (la cual puede incluir pivoteo parcial) para escalonar la matriz y convertirla en una matriz triangular.
*   **Eficiencia:** Una vez que la matriz es triangular (superior o inferior), el determinante se calcula de forma directa y sencilla multiplicando las entradas de su diagonal.
*   **Coste:** El coste computacional se reduce drásticamente porque la fase más pesada del proceso (la reducción a la forma triangular) tiene una complejidad de orden cúbico.
    *   Para una matriz $n \times n$, el número de multiplicaciones y sumas requeridas para resolver el sistema mediante la eliminación gaussiana (que incluye la sustitución hacia atrás) es de aproximadamente $\frac{1}{3} n^3$.
    *   En contraste con la definición recursiva, este coste de orden $O(n^3)$ es mucho más eficiente para grandes valores de $n$.

### Comparación de eficiencia

La **eliminación gaussiana** es el método preferido en la práctica para calcular determinantes debido a su eficiencia superior. La diferencia en el coste computacional es tal que, si bien la definición recursiva es útil para matrices muy pequeñas o para fines teóricos, el método de Gauss es esencial para manejar el gran volumen de datos que caracterizan las aplicaciones de IA.

| Método de Cálculo | Estrategia | Coste Computacional (Para $n$ grande) | Eficiencia |
| :--- | :--- | :--- | :--- |
| **Recursivo (Laplace)** | Expansión por cofactores. | Relacionado con $n!$ | **Baja** (prohibitivamente alta para grandes $n$). |
| **Gaussiana** | Reducción a forma triangular mediante operaciones elementales. | Aproximadamente $O(n^3)$ | **Alta** (método estándar para matrices grandes). |

In [None]:
# Tiempo con NumPy para comparar con algoritmos anteriores
start = time.time()
det_B_numpy = np.linalg.det(B)
end = time.time()
print(f"Determinante (NumPy): {det_B_numpy}")
print(f"Tiempo NumPy: {end - start:.6f} segundos")

Determinante (NumPy): 2.000000000000001
Tiempo NumPy: 0.000248 segundos


-------------------------------------------------------------------------------------------------
### **1g**. Utilizando numpy.random.rand, genera matrices cuadradas aleatorias de la forma An∈Rn×n,para 2 ≤n≤10, y confecciona una tabla comparativa del tiempo de ejecución asociado a cada una de las variantes siguientes, interpretando los resultados:
- Utilizando determinante recursivo.
- Empleando determinante gauss.
- Haciendo uso de la función preprogramada numpy.linalg.det.


In [None]:
### Programa Python: Comparación de Coste Computacional


# ======================================================================
# DEFINICIÓN DE LA FUNCIÓN DE LAPLACE (RECURSIVA)
# Fuente: Excerpts from "determinante_laplace.txt"-
# Ajustada para auto-recursión.
# ======================================================================

def determinante_laplace(A):
    """
    Calcula el determinante de una matriz cuadrada A utilizando
    la expansión de Laplace de forma recursiva.
    """
    A = np.array(A, dtype=float)
    n, m = A.shape

    if n != m:
        raise ValueError("La matriz debe ser cuadrada (n x n).")

    # Caso base
    if n == 1:
        return A[0,0]

    if n == 2:
        # Fórmula directa para 2x2: a*d - b*c
        return A[0,0]*A[1,1] - A[0,1]*A[1,0]

    det = 0.0
    signo = 1

    # Expandir por la primera fila (indice=0)
    for j in range(n):
      # Si el elemento es cero, el término no aporta al determinante
      if A[0, j] != 0:
        sub = np.delete(np.delete(A, 0, axis=0), j, axis=1)

        #Aplicamos la fórmula de Laplace
        det += signo * A[0, j] * determinante_laplace(sub)

      #Cambiamos el signo para la siguiente columna
      signo = -signo

    return det

# ======================================================================
# DEFINICIÓN DE LA FUNCIÓN GAUSSIANA (CON CÁLCULO DEL DETERMINANTE)
# Fuente: Excerpts from "determinante_gaussiana.txt"-
# ======================================================================

def eliminacion_gaussiana_det(A):
    """
    Implementa la Eliminación Gaussiana con pivoteo parcial
    """
    #Copiamos la matriz y la convertios a float para hacer divisiones
    A = np.asarray(A, dtype = float).copy()

    #Dimensión de la matriz (n x n)
    n, m = A.shape

    if n != m:
        raise ValueError("El determinante solo está definido para matrices cuadradas")

    #Contador intercambio de filas para cambiar el signo del determinante
    num_swaps = 0

    # === Fase 1: Eliminación hacia adelante (Reducción a forma escalonada U)
    for k in range(n - 1):
      #Buscamos el mayor absoluto en la columna K para el pivote
      indice_pivote = k + np.argmax(np.abs(A[k:, k]))

      # Si es singular, el determinante es cero.
      if A[indice_pivote, k] == 0:
            return 0.0

      # Intercambio de filas si el pivote no está en la posición k
      if indice_pivote != k:
            A[[k, indice_pivote]] = A[[indice_pivote, k]]
            num_swaps += 1

      # 2. Eliminación de elementos debajo del pivote
      #Se crean ceros en la columna k
      factores = A[k+1:, k] / A[k, k]
      A[k+1:, k:] -= factores[:, None] * A[k, k:]

    # --- Cálculo del Determinante
    #(det(A) = (-1)^swaps * det(U)) ---

    det = np.prod(np.diag(A))
    return (-1)**num_swaps * det

# ======================================================================
# EJECUCIÓN PRINCIPAL Y COMPARACIÓN
# ======================================================================

def ejecutar_comparacion():
  resultados = []

  for n in range(2, 11):
      A = np.random.rand(n, n)

      t_laplace = timeit.timeit(
          lambda: determinante_laplace(A), #Ejecutamos la funcion para calcular la determinante método Laplace
          number=1
      )

      t_gauss = timeit.timeit(
          lambda: eliminacion_gaussiana_det(A), #Ejecutamos la funcion para calcular la determinante método Gaussiana
          number=5 #Calculamos el tiempo promedio de 5 ejecuciones
      ) / 5

      t_numpy = timeit.timeit(
          lambda: np.linalg.det(A), #Ejecutamos la funcion para calcular la determinante método Numpy
          number=5
      ) / 5 # Calculamos el tiempo promedio de 5 ejecuciones

      resultados.append([n, t_laplace, t_gauss, t_numpy])

  return pd.DataFrame(
      resultados,
      columns=[
          "n",
          "Determinante Laplace",
          "Determinante Gauss",
          "NumPy linalg.det"
      ]
  )


tabla = ejecutar_comparacion()
display(tabla)

Unnamed: 0,n,Determinante Laplace,Determinante Gauss,NumPy linalg.det
0,2,3.4e-05,0.000213,1.7e-05
1,3,9.4e-05,0.000158,1.2e-05
2,4,0.000284,0.000189,1e-05
3,5,0.001032,0.000211,1.1e-05
4,6,0.005976,0.000256,1.1e-05
5,7,0.054015,0.000156,1.7e-05
6,8,0.467201,0.000256,2.1e-05
7,9,4.994227,0.000183,1.5e-05
8,10,32.718765,0.0002,1.8e-05


#### **Interpretación de los resultados**


Al comparar los tiempos, lo primero que salta a la vista es lo rápido que se crece el tiempo de cálculo y ejecución para el método de Laplace. Mientras que para una matriz de $2\times2$ apenas tarda 0.00003s, al llegar a una de $10\times10$ el tiempo aumenta de golpe a más de 30 segundos. Esto confirma en la práctica lo que dice la teoría sobre la complejidad factorial $O(n!)$: cada vez que añadimos una fila, el esfuerzo de cálculo se multiplica de forma inmanejable incluso para matrices muy pequeñas.

Por el contrario, la eliminación gaussiana resuelve el mismo determinante de $10\times10$ en apenas 0.0003 segundos, validando que el uso de operaciones elementales para obtener una matriz triangular reduce drásticamente el coste a un orden cúbico ($O(n^3)$). Finalmente, la función de NumPy muestra el tiempo más bajo (0.00002s), lo que evidencia la efectividad de las implementaciones optimizadas para el cálculo matricial. Estos datos demuestran que, para cualquier análisis que requiera trabajar con matrices de dimensiones crecientes, el método recursivo es inviable frente a la eficiencia de la reducción gaussiana y las librerías especializadas

-------------------------------------------------------------------------------------------------
**2a.**  Prográmese en Python el método de descenso de gradiente para funciones de nvariables. La función deberá tener como parámetros de entradas:
El gradiente de la función que se desea minimizar ∇f(puede venir dada como otra función previamente implementada, grad f, con entrada un vector, representando el punto donde se quiere calcular el gradiente, y salida otro vector, representando el gradiente de fen dicho punto).
Un valor inicial x0∈Rn(almacenado en un vector de ncomponentes).
El ratio de aprendizaje γ(que se asume constante para cada iteración).
Un parámetro de tolerancia tol (con el que finalizar el proceso cuando ∥∇f(x)∥2<tol).
Un número máximo de iteraciones maxit (con el fin de evitar ejecuciones indefinidas en caso de divergencia o convergencia muy lenta).
La salida de la función deberá ser la aproximación del xque cumple f′(x)≈0, corres-pondiente a la última iteración realizada en el método.

In [None]:
def evaluar_funcion(f, x_vec):
    """
    Intenta ejecutar la función f adaptándose a cómo la definió el usuario.
    Soporta: f(x), f(x, y, z), f([x, y]).
    """
    # 1. Si es 1D, intentamos pasarle el escalar directo
    if len(x_vec) == 1:
        try:
            return f(x_vec[0]) # Intenta f(3.0)
        except TypeError:
            return f(x_vec)    # Si falla, intenta f([3.0])

    # 2. Si es nD, probamos pasar el vector o desempaquetarlo
    try:
        return f(x_vec)       # Intenta f([x, y]) (Estilo vectorial)
    except TypeError:
        return f(*x_vec)      # Intenta f(x, y) (Estilo argumentos separados)

In [None]:
def generar_gradiente(f, h=1e-5):
    """Genera la función de gradiente automáticamente."""
    def grad_f_numerico(x):
        x = np.array(x, dtype=float)
        n = len(x)
        gradiente = np.zeros(n)

        for i in range(n):
            x_mas, x_menos = x.copy(), x.copy()
            x_mas[i] += h
            x_menos[i] -= h

            # Usamos el evaluador inteligente aquí
            y_mas = evaluar_funcion(f, x_mas)
            y_menos = evaluar_funcion(f, x_menos)

            gradiente[i] = (y_mas - y_menos) / (2 * h)
        return gradiente
    return grad_f_numerico

In [None]:
def resolver_optimizacion(funcion, x0, gamma, tol, maxit):

    # Convertimos x0 a vector numpy, detecta la dimensión a usar
    x_actual = np.atleast_1d(np.array(x0, dtype=float))
    dim = len(x_actual)

    print(f"--> Detectado problema de {dim} variable(s).")

    # Generamos el gradiente
    grad_f = generar_gradiente(funcion)

    # Bucle de descenso
    for k in range(int(maxit)):
        grad = grad_f(x_actual)
        norma = np.linalg.norm(grad)

        if norma < tol:
            print(f"--> Convergencia en iteración {k}")
            break

        x_actual = x_actual - gamma * grad
    else:
        print("--> Se alcanzó el máximo de iteraciones.")

    # Resultado final
    y_final = evaluar_funcion(funcion, x_actual)
    return x_actual, y_final

-------------------------------------------------------------------------------------------------
2bi. Sea la función f: R →R dada por f(x)= 3x4+ 4x3− 12x2+ 7.

     Aplica el método sobre f(x)con x0= 3 γ= 0.001,tol=1e-12, maxit=1e5.
     


In [None]:
def f1(x):
    return 3*x**4 + 4*x**3 - 12*x**2 + 7

In [None]:
x0 = 3.0  # Valor inicial x0 ∈ R^n (n=1)
gamma = 0.001         # Ratio de aprendizaje (γ)
tol = 1e-12           # Tolerancia (tol)
maxit = 1e5
x_res, y_res = resolver_optimizacion(f1,x0, gamma, tol, maxit)
print(f"Mínimo en x={x_res[0]:.4f}, f(x)={y_res:.4f}\n")

--> Detectado problema de 1 variable(s).
--> Convergencia en iteración 746
Mínimo en x=1.0000, f(x)=2.0000



-------------------------------------------------------------------------------------------------
2b ii Aplica de nuevo el método sobre f(x)con x0= 3, γ= 0.01,tol=1e-12, maxit=1e5.


In [None]:
x0 = 3.0  # Valor inicial x0 ∈ R^n (n=1)
gamma = 0.01         # Ratio de aprendizaje (γ)
tol = 1e-12           # Tolerancia (tol)
maxit = 1e5
x_res, y_res = resolver_optimizacion(f1,x0, gamma, tol, maxit)
print(f"Mínimo en x={x_res[0]:.4f}, f(x)={y_res:.4f}\n")

--> Detectado problema de 1 variable(s).
--> Convergencia en iteración 26
Mínimo en x=-2.0000, f(x)=-25.0000



-------------------------------------------------------------------------------------------------
2b iii Contrasta e interpreta los dos resultados obtenidos en los apartados anteriores y compáralos con los ḿınimos locales obtenidos anaĺıticamente. ¿Qué influencia puede llegar a tener la elección del ratio de aprendizaje γ?

la **sensibilidad del método del Descenso de Gradiente al ratio de aprendizaje ($\gamma$)**.

**$x = -2$** es, junto con $x=0$ y $x=1$, uno de los **puntos críticos** de la función $f(x) = 3x^4 + 4x^3 - 12x^2 + 7$ (es decir, donde la derivada $\nabla f(x)$ es cero)

Al modificar el ratio de aprendizaje de $\gamma = 0.001$ (que inicialmente lo llevaba a la convergencia cerca de $x \approx 1$ o $x \approx 1.0$ a $\gamma = 0.01$, el algoritmo alteró significativamente su camino de optimización:

** El valor de $\gamma$ determina la magnitud del paso tomado en cada iteración en la dirección opuesta al gradiente.

Al aumentar $\gamma$ diez veces (de $0.001$ a $0.01$), el algoritmo comenzó a tomar pasos más grandes. Partiendo de $x_0 = 3$, este cambio fue suficiente para que la trayectoria de descenso **saltara** la cuenca de atracción del mínimo local más cercano a $x=1$ y en su lugar, se dirigiera hacia la cuenca de atracción del punto crítico en $x=-2$.

Dado que $x=-2$ es un punto crítico, la convergencia ahí es una solución válida para el algoritmo de Descenso de Gradiente, que busca minimizar la función de coste encontrando un punto donde la norma del gradiente es menor que la tolerancia ($\|\nabla f(x)\|_2 < \text{tol}$).

Este ejercicio confirma que la elección del ratio de aprendizaje es un hiperparámetro **crítico**:

*   Si $\gamma$ es demasiado **pequeño**, la convergencia puede ser muy lenta.
*   Si $\gamma$ es **adecuado** para la trayectoria, puede encontrar un mínimo local.
*   Si $\gamma$ es **más grande** (como $0.01$ en este caso), la trayectoria cambia, lo que puede llevar a la convergencia en un mínimo local completamente diferente (como $x = -2$).

El hecho de que el Descenso de Gradiente pueda converger a diferentes soluciones basadas en el parámetro $\gamma$ es una razón por la que este método, fundamental para el proceso de **retropropagación** en el entrenamiento de redes neuronales, es un campo activo de investigación y optimización.

-------------------------------------------------------------------------------------------------
2b iv. Aplica nuevamente el método sobre f(x)con x0= 3, γ= 0.1,tol=1e-12, maxit=1e5. Interpreta el resultado.

In [None]:
x0 = np.array([3.0])  # Valor inicial x0 ∈ R^n (n=1)
gamma = 0.1         # Ratio de aprendizaje (γ)
tol = 1e-12           # Tolerancia (tol)
maxit = 1e5
x_res, y_res = resolver_optimizacion(f1,x0, gamma, tol, maxit)
print(f"Mínimo en x={x_res[0]:.4f}, f(x)={y_res:.4f}\n")

--> Detectado problema de 1 variable(s).
--> Convergencia en iteración 3
Mínimo en x=-87049978838294.5938, f(x)=172264558026542218147640427349032752992274081810034458624.0000



El hecho de que el algoritmo produzca los errores `RuntimeWarning: overflow encountered in power` y `RuntimeWarning: invalid value encountered in subtract` al usar un ratio de aprendizaje ($\gamma$) de $0.1$ se debe a la **divergencia explosiva** del método de Descenso de Gradiente.

El **ratio de aprendizaje ($\gamma$)** es un parámetro que modula la magnitud del paso que se toma en cada iteración en la dirección opuesta al gradiente ($\nabla f$).

1.  **Divergencia por Paso Excesivo:** Al establecer $\gamma$ en $0.1$ (un valor cien veces mayor que el inicial $0.001$), los pasos tomados son demasiado grandes. Si el ratio de aprendizaje es muy grande, el Descenso de Gradiente puede **saltarse el mínimo local** o, peor aún, **divergir**, terminando en regiones con una desviación mucho mayor que la anterior.

2.  **Cálculo Inicial de la Divergencia:**
    *   La función que se minimiza tiene un gradiente $\nabla f(x) = 12x^3 + 12x^2 - 24x$.
    *   Al comenzar en $x_0 = 3.0$, el gradiente inicial es $\nabla f(3) = 360$.
    *   El primer paso es $x_1 = x_0 - \gamma \cdot \nabla f(x_0) = 3.0 - 0.1 \cdot 360 = -33$.

*   Con $\gamma=0.001$, el algoritmo convergió a un mínimo local ($x \approx 1.0$).
*   Con $\gamma=0.01$, el algoritmo también logró converger a otro mínimo local ($x = -2$).

La lección es que, si bien un ratio de aprendizaje mayor (como $0.01$) puede permitir que el algoritmo explore diferentes regiones del espacio de la función de coste (llegando a $x=-2$), un ratio demasiado alto (como $0.1$) resulta en inestabilidad y divergencia inmediata, lo cual es fatal para el proceso de optimización. Este es un ejemplo clave de por qué el **ajuste fino del ratio de aprendizaje ($\gamma$)** es una tarea crucial en el entrenamiento de modelos de Inteligencia Artificial (como en el proceso de retropropagación), donde el cálculo es una herramienta esencial.

------------------------------------------------------------------------------------------------
2bv. Finalmente, aplica el método sobre f(x)con x0= 0, γ= 0.001,tol=1e-12, maxit=1e5. Interpreta el resultado y compáralo con el estudio anaĺıtico de f. ¿Se trata de un resultado deseable? ¿Por qué? ¿A qué se debe este fenómeno?

In [None]:
x0 = np.array([0.0])  # Valor inicial x0 ∈ R^n (n=1)
gamma = 0.001         # Ratio de aprendizaje (γ)
tol = 1e-12           # Tolerancia (tol)
maxit = 1e5
x_res, y_res = resolver_optimizacion(f1,x0, gamma, tol, maxit)
print(f"Mínimo en x={x_res[0]:.4f}, f(x)={y_res:.4f}\n")

--> Detectado problema de 1 variable(s).
--> Convergencia en iteración 1394
Mínimo en x=-2.0000, f(x)=-25.0000



El algoritmo ha encontrado un **punto crítico** de la función en la primera iteración ($k=0$).

El resultado que obtuvo, **`Convergencia alcanzada en la iteración 0 con ||∇f(x)||2 = 0.000000000000`**, indica que el algoritmo de Descenso de Gradiente terminó de inmediato porque el punto de inicio, $x_0=0$, ya cumple con el criterio de tolerancia establecido ($\text{tol} = 1\text{e-}12$).

Cuando se aplica el Descenso de Gradiente a $x_0=0$:

*   **Punto Crítico:** La función objetivo es $f(x) = 3x^4 + 4x^3 - 12x^2 + 7$.
*   **Gradiente en $x_0$:** El algoritmo comienza calculando el gradiente ($\nabla f(x)$), que es la derivada $f'(x) = 12x^3 + 12x^2 - 24x$.
*   Al evaluar el gradiente en $x=0$:
    $$f'(0) = 12(0)^3 + 12(0)^2 - 24(0) = 0$$
*   **Convergencia Inmediata:** La norma del gradiente ($\|\nabla f(x)\|_2$) en $x=0$ es cero, que es mucho menor que el valor de tolerancia ($\text{tol} = 1\text{e-}12$). Por lo tanto, el código Python ejecuta la instrucción `break` en la primera iteración ($k=0$), reportando que la convergencia ha sido alcanzada.

### ¿Es un Mínimo Local?

El algoritmo ha encontrado un **punto crítico**, donde la derivada es cero. Sin embargo, un punto crítico puede ser un máximo local, un mínimo local, o un punto de silla (punto de inflexión horizontal).

Para la función $f(x) = 3x^4 + 4x^3 - 12x^2 + 7$, los puntos críticos se obtienen al resolver $f'(x)=0$:
$$12x(x^2 + x - 2) = 0 \implies 12x(x - 1)(x + 2) = 0$$
Los puntos críticos son $x=0$, $x=1$ y $x=-2$

Para determinar si $x=0$ es un mínimo o un máximo, se puede utilizar el criterio de la **segunda derivada** (o derivada segunda, $f''(x)$), un concepto del cálculo infinitesimal.

*   **Segunda Derivada:** $f''(x) = 36x^2 + 24x - 24$.
*   **Evaluación en $x=0$:** $f''(0) = 36(0)^2 + 24(0) - 24 = -24$.

Dado que $f''(0) < 0$, el punto crítico $x=0$ corresponde a un **máximo local** de la función.

### Conclusión

El algoritmo **terminó en la primera iteración** porque el punto inicial $x_0=0$ es un punto crítico donde el gradiente es cero, satisfaciendo inmediatamente la condición de convergencia. Sin embargo, analíticamente, este punto crítico es un **máximo local**, no un mínimo local.

Esto es un ejemplo de cómo el **Descenso de Gradiente**, un método de optimización crucial para el entrenamiento de redes neuronales, converge a un punto crítico cercano a $x_0$, pero no garantiza que dicho punto sea un mínimo global (o siquiera un mínimo local). En este caso, el algoritmo se "detuvo" directamente en un máximo local.

------------------------------------------------------------------------------------------------
2c. Sea la función g: R2 →R dada por g(x,y)= x2+ y3+ 3xy+ 1.
2ci. Apĺıquese el método sobre g(x,y)con x0= (−1,1), γ= 0.01,tol=1e-12, maxit=1e5.

Requiere aplicar el método de Descenso de Gradiente (GD) a una función multivariable, $g: \mathbb{R}^2 \to \mathbb{R}$, donde el punto inicial es un vector $x_0 = (-1, 1)$, lo cual es un punto en el espacio bidimensional y no un escalar.

La función a minimizar es:
$$g(x, y) = x^2 + y^3 + 3xy + 1$$

### 1. Cálculo del Gradiente $\nabla g(x, y)$

Para aplicar el método de Descenso de Gradiente, es esencial calcular el gradiente de la función, que consiste en el vector de derivadas parciales:
$$\nabla g(x, y) = \begin{pmatrix} \frac{\partial g}{\partial x} \\ \frac{\partial g}{\partial y} \end{pmatrix}$$

1.  **Derivada parcial respecto a $x$:**
    $$\frac{\partial g}{\partial x} = 2x + 3y$$
2.  **Derivada parcial respecto a $y$:**
    $$\frac{\partial g}{\partial y} = 3y^2 + 3x$$

Por lo tanto, la función que implementa el gradiente (`grad_g`) será:
$$\nabla g(x, y) = \begin{pmatrix} 2x + 3y \\ 3y^2 + 3x \end{pmatrix}$$



In [None]:
def f2(x, y):
    return x**2 + y**3 + 3*x*y + 1

In [None]:
x0 = np.array([-1.0, 1.0]) # Valor inicial x0 ∈ R^2
gamma = 0.001              # Ratio de aprendizaje (γ)
tol = 1e-12               # Tolerancia (tol)
maxit = 1e5

x_res, y_res = resolver_optimizacion(f2, x0, gamma, tol, maxit )
print(f"Mínimo en x={x_res}, f(x)={y_res:.4f}\n")



--> Detectado problema de 2 variable(s).
--> Convergencia en iteración 26098
Mínimo en x=[-2.25  1.5 ], f(x)=-0.6875



### 3. Resultados de la Ejecución

El método de Descenso de Gradiente ha convergido a la aproximación:
$$\mathbf{x}^* \approx (-2.2500000000, 1.5000000000)$$

### 4. Interpretación Analítica (Contraste)

La convergencia se ha producido en el punto $(-2.25, 1.5)$. Analíticamente, los puntos críticos de $g(x, y)$ se encuentran donde $\nabla g(x, y) = 0$:
1.  $2x + 3y = 0$
2.  $3y^2 + 3x = 0$

Al resolver este sistema, encontramos dos puntos críticos:
*   $(0, 0)$
*   $(-2.25, 1.5)$

El algoritmo ha convergido con éxito a uno de los dos puntos críticos analíticos de la función $g$. El Descenso de Gradiente, al partir de $x_0 = (-1, 1)$ con un ratio de aprendizaje $\gamma = 0.01$, siguió la trayectoria que lo condujo a la cuenca de atracción del mínimo local $(-2.25, 1.5)$. La capacidad del método para trabajar en espacios de mayor dimensión (como $\mathbb{R}^2$ en este caso, a diferencia de la función $f(x)$ anterior que era de $\mathbb{R}$ a $\mathbb{R}$) es esencial para la optimización en el *Cálculo Multivariable* y en aplicaciones de IA, como la retropropagación.

------------------------------------------------------------------------------------------------
2cii ¿Qué ocurre si ahora partimos de x0= (0,0)? ¿Se obtiene un resultado deseable?

In [None]:
x0 = np.array([0.0, 0.0]) # Valor inicial x0 ∈ R^2
gamma = 0.001              # Ratio de aprendizaje (γ)
tol = 1e-12               # Tolerancia (tol)
maxit = 1e5
x_res, y_res = resolver_optimizacion(f2, x0, gamma, tol, maxit )
print(f"Mínimo en x={x_res}, f(x)={y_res:.4f}\n")


--> Detectado problema de 2 variable(s).
--> Convergencia en iteración 11153
Mínimo en x=[ 2.60171334e+02 -1.03045417e+12], f(x)=-1094173123513588401999962528364363776.0000



### Explicación de la Convergencia Inmediata

1.  **Cálculo del Gradiente:** El método de Descenso de Gradiente se basa en moverse en la dirección opuesta al vector gradiente ($\nabla g$) hasta que la magnitud de este vector es menor que la tolerancia ($\text{tol}$).
    El gradiente de $g(x, y)$ está definido por:
    $$\nabla g(x, y) = \begin{pmatrix} 2x + 3y \\ 3y^2 + 3x \end{pmatrix}$$
2.  **Evaluación en el Punto Inicial ($x_0$):** Al evaluar el gradiente en $x_0 = (0, 0)$:

    $$\nabla g(0, 0) = \begin{pmatrix} 2(0) + 3(0) \\ 3(0)^2 + 3(0) \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}$$
3.  **Divergencia del algoritmo:** La razón de la divergencia es la notauraleza de que (0,0) es un punto de silla y el término $y^3$, este punto de silla es inestable, es decir, si empezamos en (0,0) y el algoritmo da un pequeño paso en la dirección $y^3$ el término cúbico empeará a dominar y dado que la función no tiene un minimo global esta al moverse empezará a diverger.

### Interpretación Analítica del Punto

El gradiente, en el punto $(0, 0)$ es un **punto crítico** de la función $g(x, y)$

Sin embargo, desde la perspectiva del **Cálculo multivariable**, el punto $(0, 0)$ no es un mínimo local, sino un **punto de silla**. Esto se determina analizando la matriz Hessiana de la función en ese punto.

*   El cálculo del determinante de la matriz Hessiana de $g(x, y)$ evaluada en $(0, 0)$ es negativo ($\det(H(0, 0)) = -9$).
*   Cuando el determinante de la matriz Hessiana es negativo, el punto crítico se clasifica como un **punto de silla** (ni máximo ni mínimo local).


-----------------------------------------

### **3.** Redacte una breve reseña en la que exponga los beneficios obtenidos a partir de la experiencia de trabajo colaborativo en grupo, destacando los aspectos positivos que contribuyeron al desarrollo personal y colectivo. Se evaluará, como competencia transversal, la disposición del estudiante para colaborar con sus compañeros, compartir ideas, asumir responsabilidades dentro del grupo y contribuir al logro de los objetivos comunes. Se valorará especialmente la comunicación, el apoyo mutuo y la capacidad de integrar diferentes puntos de vista.

La elaboración de este trabajo para la asignatura de Matemáticas para la IA ha representado un reto que ha ido más allá de lo técnico, permitiéndonos desarrollar competencias transversales esenciales en el ámbito profesional y académico. A pesar de las dificultades lógicas para coordinar agendas en un entorno de máster, la experiencia ha sido sumamente enriquecedora gracias a una metodología de trabajo basada en el compromiso y la transparencia.

Los aspectos fundamentales que permitieron el éxito del grupo fueron:

- **Comunicación Eficiente y Asíncrona**: Entendiendo que no siempre podíamos reunirnos de forma simultánea, establecimos canales de comunicación constantes que permitieron un flujo de información ininterrumpido. El apoyo mutuo fue clave para resolver dudas complejas, especialmente en la interpretación de los resultados del descenso de gradiente y la implementación de la eliminación gaussiana.

- **División de Responsabilidades y Feedback de Unificación**: El trabajo no se planteó como una simple suma de partes aisladas. Cada bloque fue compartido con el grupo conforme se avanzaba, permitiendo que el resto aportara ideas o correcciones. Este proceso de retroalimentación fue lo que realmente permitió una unificación orgánica del trabajo, asegurando que todos comprendiéramos el razonamiento matemático detrás de cada ejercicio.

- **Revisión Individual**: Antes de dar por finalizada cualquier sección, cada integrante realizó una revisión del trabajo. Este paso de "doble validación" fue fundamental para identificar posibles errores en el código o en las fórmulas de los determinantes, garantizando la precisión técnica del entregable.

- **Sesiones de Consenso Final**: Una vez completadas las revisiones individuales, organizamos reuniones estratégicas para poner en común los hallazgos. En estas sesiones resaltamos los puntos más críticos como la sensibilidad de los algoritmos al ratio de aprendizaje y debatimos hasta alcanzar un consenso total sobre las interpretaciones finales. Esta capacidad de integrar diferentes puntos de vista fortaleció el resultado colectivo.

En conclusión, esta experiencia ha contribuido significativamente al desarrollo personal de cada uno de nosotros. Hemos aprendido que la calidad de un trabajo no depende solo del contenido colocado, sino de la capacidad del equipo para colaborar, asumir responsabilidades compartidas y mantener una comunicación constructiva orientada a un objetivo común.