# Matemática para Ciencia de los Datos
# Trabajo Práctico 6

Profesor: Luis Alexánder Calvo Valverde 

Instituto Tecnológico de Costa Rica, 

Programa Ciencia de Datos

---

Fecha de entrega: Lunes 5 de Junio del 2023, a más tardar a las 3:00 pm.

Medio de entrega: Por medio del TEC-Digital.

Entregables: Un archivo jupyter ( .IPYNB ). 

Estudiante:
1. **Marco Ferraro**



## Ejercicio 1 (50 puntos)



El algoritmo del descenso de gradiente sigue la idea de modificar el punto óptimo estimado de forma iterativa. Para una función en una
variable $f\left(x\right)$, la estimación del punto óptimo en una iteración $i+1$ está dada por: 

\begin{equation}
x\left(t+1\right)=x\left(t\right)+\alpha f'\left(x\left(t\right)\right)
\end{equation}

donde el coeficiente $\alpha$ determina el *grado de confianza o velocidad* con la que el proceso de optimización iterativa sigue
la dirección de la derivada. Para la optimización de una función multivariable $f\left(\overrightarrow{x}\left(t\right)\right)$ con $\overrightarrow{x}\in\mathbb{R}^{n}$, la posición óptima se estima usando el vector gradiente:

\begin{equation}
\overrightarrow{x}\left(t+1\right)=\overrightarrow{x}\left(t\right)+\alpha\nabla_{\overrightarrow{x}}f\left(\overrightarrow{x}\left(t\right)\right)
\end{equation}

Para la función: 

\begin{equation}
f\left(\overrightarrow{x}\right)=x^{2}-y^{2},
\end{equation}

Implemente la función en python denominada:

$$funcion\_SGD \left(tasa\_aprendizaje, iteraciones, xy, tolerancia\right)$$

donde los parámetros corresponden a:

* tasa_aprendizaje: es el $\alpha$
* iteraciones: es el máximo número de iteraciones a ejecutar
* xy: es el vector con los dos valores iniciales [x,y]
* tolerancia: es el valor mínimo para un cambio entre iteración. Si la función de costo no mejora en al menos "tolerancia", sale del ciclo de iteración.

**Nota:** 
1. Para iniciar la implementación puede utilizar el código en el cuaderno "070_1_LACV_Optimizacion".
1. Cada iteración le generará un vector con dos valores ($\overrightarrow{x}\left(t+1\right)$), por lo que para saber el valor de la función de pérdida en ese punto, evalúelo en la función inicial ($x^{2}-y^{2}$) para saber si aumentó o disminuyó.



---




In [71]:
import numpy as np

def f(x, y):
    return (x**2) - (y**2)

def dx_f(x, y):
    return 2*x


def dy_f(x, y):
    return -2*y

def funcion_SGD(lr, iter, xy, tolerance=1e-5):
    current_iter = 0
    change = 1
    cur_x = xy

    print("Original value in f:", f(xy[0], xy[1]), "\n")

    while current_iter < iter and change > tolerance:
        prev_x = cur_x
        gradient = np.array([dx_f(prev_x[0], prev_x[1]), dy_f(prev_x[0], prev_x[1])])
        cur_x = cur_x - (lr * gradient)
        change = sum(abs(cur_x - prev_x))

        if (current_iter % 50) == 0:
          print("Iteration:", current_iter, " f:", f(cur_x[0], cur_x[1]), "\nX value is", cur_x)

        current_iter += 1
    
    print("\nThe local minimum occurs at", cur_x)
    print("f:", f(cur_x[0], cur_x[1]))

In [72]:
funcion_SGD(lr=0.25, iter=500, xy=np.array([7, -5]), tolerance=1e-2)

Original value in f: 24 

Iteration: 0  f: -44.0 
X value is [ 3.5 -7.5]
Iteration: 50  f: -2.2869066236355854e+19 
X value is [ 3.10862447e-15 -4.78216125e+09]
Iteration: 100  f: -9.297674498183656e+36 
X value is [ 2.76101317e-30 -3.04920883e+18]
Iteration: 150  f: -3.7800734923206925e+54 
X value is [ 2.45227231e-45 -1.94424111e+27]
Iteration: 200  f: -1.5368311302075538e+72 
X value is [ 2.17805535e-60 -1.23968993e+36]
Iteration: 250  f: -6.248158739699581e+89 
X value is [ 1.93450176e-75 -7.90452955e+44]
Iteration: 300  f: -2.540258774639206e+107 
X value is [ 1.71818271e-90 -5.04009799e+53]
Iteration: 350  f: -1.032770598661478e+125 
X value is [ 1.52605281e-105 -3.21367484e+062]
Iteration: 400  f: -4.198844307155597e+142 
X value is [ 1.35540717e-120 -2.04910817e+071]
Iteration: 450  f: -1.707087085804216e+160 
X value is [ 1.20384340e-135 -1.30655543e+080]

The local minimum occurs at [ 2.13845545e-150 -5.55391888e+088]
f: -3.0846014922654313e+177


## Ejercicio 2

Para la función  $f_{1}\left(x_{1},x_{2}\right)=x_{1}^4 + x_{2}^4$

Realice lo siguiente:

1. En una celda de texto:

 - Calcule el vector gradiente. **(15 puntos)**

 - Calcule la matriz Hessiana. **(15 puntos)**

2. Para el resultado obtenido en el punto anterior: **(20 puntos)**
  - Evalúela en el punto $x_{1},x_{2}\in\left[4,4\right]$. 
  - Luego aplique el criterio de la segunda derivada parcial ¿qué conclusiones saca para ese punto? 

---

Calculo del vector gradiente

Aplicamos las derivadas parciales:

$
\begin{equation}
\nabla_{\overrightarrow{x}}f=\begin{bmatrix}4x_{1}^3 \\
 4x_{2}^3
\end{bmatrix}
\end{equation}
$

Ahora, calculamos las segundas derivadas parciales de segundo orden para la matriz hessiana:

$
  12x_{1}^2 
$


$
  12x_{2}^2 
$

Para la derivada $ f_{x_{1}x_{2}}$ podemos utilizar cualquiera de las derivadas de primer orden. Como no hay mulitplicacion entre los valores de $x_{1}$ y $x_{2}$ la derivada de segundo orden tiene un valor de 0.

Con estos valores, podemos montar la matriz Hessiana.

$
\begin{bmatrix}
12x_{1}^2 & 0 \\
0 & 12x_{2}^2  \\
\end{bmatrix}
$

Remplazamos los valores en la matriz Hessiana

$
\begin{bmatrix}
12(4)^2 & 0 \\
0 & 12(4)^2  \\
\end{bmatrix}
$


$
\begin{bmatrix}
192 & 0 \\
0 & 192  \\
\end{bmatrix}
$

$
= 36864
$

Adicionalmente, las derivadas de segundo orden son mayor que 0, por lo tanto el punto punto $(4, 4)$ es un minimo local