# Matemática para Ciencia de los Datos
# Trabajo Práctico 6

Profesor: Juan Luis Crespo Mariño (basado en trabajo previo de Luis Alexánder Calvo Valverde)

Instituto Tecnológico de Costa Rica,

Programa Ciencia de Datos

---

Fecha de entrega: 26 de Noviembre del 2023, a más tardar a las 6:00 pm.

Medio de entrega: Por medio del TEC-Digital.

Entregables: Un archivo jupyter ( .IPYNB ).

Estudiante:
1. **Jonathan Chavarria**



## Ejercicio 1 (50 puntos)



El algoritmo del descenso de gradiente sigue la idea de modificar el punto óptimo estimado de forma iterativa. Para una función en una
variable $f\left(x\right)$, la estimación del punto óptimo en una iteración $i+1$ está dada por:

\begin{equation}
x\left(t+1\right)=x\left(t\right)+\alpha f'\left(x\left(t\right)\right)
\end{equation}

donde el coeficiente $\alpha$ determina el *grado de confianza o velocidad* con la que el proceso de optimización iterativa sigue
la dirección de la derivada. Para la optimización de una función multivariable $f\left(\overrightarrow{x}\left(t\right)\right)$ con $\overrightarrow{x}\in\mathbb{R}^{n}$, la posición óptima se estima usando el vector gradiente:

\begin{equation}
\overrightarrow{x}\left(t+1\right)=\overrightarrow{x}\left(t\right)+\alpha\nabla_{\overrightarrow{x}}f\left(\overrightarrow{x}\left(t\right)\right)
\end{equation}

Para la función:

\begin{equation}
f\left(\overrightarrow{x}\right)=x^{2}-y^{2},
\end{equation}

Implemente la función en python denominada:

$$funcion\_SGD \left(tasa\_aprendizaje, iteraciones, xy, tolerancia\right)$$

donde los parámetros corresponden a:

* tasa_aprendizaje: es el $\alpha$
* iteraciones: es el máximo número de iteraciones a ejecutar
* xy: es el vector con los dos valores iniciales [x,y]
* tolerancia: es el valor mínimo para un cambio entre iteración. Si la función de costo no mejora en al menos "tolerancia", sale del ciclo de iteración.

**Nota:**
1. Para iniciar la implementación puede utilizar el código en el cuaderno "070_1_LACV_Optimizacion".
1. Cada iteración le generará un vector con dos valores ($\overrightarrow{x}\left(t+1\right)$), por lo que para saber el valor de la función de pérdida en ese punto, evalúelo en la función inicial ($x^{2}-y^{2}$) para saber si aumentó o disminuyó.



---




In [29]:
import numpy as np
 
def derivada_fx(x):
    return 2*(x)

def derivada_fy(y):
    return -2*(y)

def funcion_SGD(tasa_aprendizaje,iteraciones, cur_x , cur_y, tolerancia):
    previous_step_size_x = 1
    previous_step_size_y = 1
    iters = 0 #iteration counter

    while previous_step_size_x > tolerancia and previous_step_size_y > tolerancia and iters < iteraciones:

        prev_x = cur_x #Store current x value in prev_x
        cur_x = cur_x - tasa_aprendizaje * derivada_fx(prev_x) #Grad descent en x

        prev_y = cur_y #Store current y value in prev_y
        cur_y = cur_y - tasa_aprendizaje * derivada_fy(prev_x) #Grad descent en y

        previous_step_size_x = abs(cur_x - prev_x) #Change in x
        previous_step_Size_y = abs(cur_y - prev_y) #Change in y

        iters = iters+1 #iteration count

        if (iters % 10) == 0:
            print("Iteration",iters,"\nX value is",cur_x , "\nY value is" , cur_y) #Print iterations
            print("previous_step_size >>> x = ", previous_step_size_x , " or y = " , previous_step_Size_y)
            print("En este punto f(x,y) = f(" , cur_x , ",", cur_y ,") = " , pow(cur_x,2) - pow(cur_y , 2) , "\n")


    print("El minimo local ocurre en X = ", cur_x , " & Y = " , cur_y)

valores_iniciales = [ 30 , 30 ]
learning_rate = 0.001 # Learning rate
precision = 0.000001 #This tells us when to stop the algorithm
iterations = 10000 # maximum number of iterations

print(funcion_SGD(learning_rate,iterations , valores_iniciales[0] , valores_iniciales[1] , precision))

Iteration 10 
X value is 29.405371300558482 
Y value is 30.594628699441518
previous_step_size >>> x =  0.058928599800719184  or y =  0.058928599800719184
En este punto f(x,y) = f( 29.405371300558482 , 30.594628699441518 ) =  -71.35544393298221 

Iteration 20 
X value is 28.82252871079028 
Y value is 31.17747128920972
previous_step_size >>> x =  0.057760578578736954  or y =  0.057760578578736954
En este punto f(x,y) = f( 28.82252871079028 , 31.17747128920972 ) =  -141.2965547051664 

Iteration 30 
X value is 28.251238618726507 
Y value is 31.748761381273493
previous_step_size >>> x =  0.05661570865476406  or y =  0.05661570865476406
En este punto f(x,y) = f( 28.251238618726507 , 31.748761381273493 ) =  -209.85136575281922 

Iteration 40 
X value is 27.691272042811 
Y value is 32.308727957189
previous_step_size >>> x =  0.055493531147917  or y =  0.055493531147917
En este punto f(x,y) = f( 27.691272042811 , 32.308727957189 ) =  -277.04735486268 

Iteration 50 
X value is 27.1424045401210

## Ejercicio 2

Para la función  $f_{1}\left(x_{1},x_{2}\right)=x_{1}^4 + x_{2}^4$

Realice lo siguiente:

1. En una celda de texto:

 - Calcule el vector gradiente. **(15 puntos)**

 - Calcule la matriz Hessiana. **(15 puntos)**

2. Para el resultado obtenido en el punto anterior: **(20 puntos)**
  - Evalúela en el punto $x_{1},x_{2}\in\left[4,4\right]$.
  - Luego aplique el criterio de la segunda derivada parcial ¿qué conclusiones saca para ese punto?

---

$\text{1. Cálculo del vector gradiente y la matriz Hessiana: \\} $  

$ \textrm{Para la función } 𝑓_{1}(𝑥_{1},𝑥_{2}) = 𝑥^{4}_{1} + 𝑥^{4}_{2} \\$

$ \textrm{(a) Cálculo del gradiente: \\} $

$ \textrm{El gradiente } \nabla 𝑓_{1}(𝑥_{1},𝑥_{2}) \textrm{ se obtiene calculando las derivadas parciales de } 𝑓_{1} \textrm{ respecto a } 𝑥_{1}​  \textrm{ y } 𝑥_{2} : \\$

$\frac{∂𝑓_{1}}{∂𝑥_{1}} =  4𝑥^{3}_{1} \textrm{ , } \frac{∂𝑓_{1}}{∂𝑥_2} = 4𝑥^{3}_{2} $
 
$ \textrm{Por lo tanto, el vector gradiente es: }\\$

$ \nabla f_{1}(x_{1} , x_{2}) = \begin{bmatrix} 4x^{3}_{1} \\ 4x^{3}_{2} \end{bmatrix} \\$

$ \textrm{(b) Cálculo de la matriz Hessiana: } \\$

$ \textrm{La matriz Hessiana } 𝐻(𝑓_{1}) \textrm{ se calcula obteniendo las segundas derivadas parciales de la función.} \\$ 

$ \frac {∂^{2}f_{1}}{∂x^{2}_{1}} =  12x^{2}_{1} \\
\frac {∂^{2}f_{1}}{∂x^{2}_{2}} =  12x^{2}_{2} \\
\frac {∂^{2}f_{1}}{∂x_{1}∂x_{2}} =  0 \\$

$\textrm {Por lo tanto, la matriz Hessiana es:} \\$

$ 𝐻(𝑓_{1}) = \begin{bmatrix} 12𝑥^{2}_{1} & 0 \\ 0 & 12x^{2}_{2} \end{bmatrix} \\$


$ \textrm{2. Evaluación en el punto } ( 𝑥_{1} , x_{2}) = (4,4) : \\$

$\textrm{ (a) Gradiente en el punto (4,4): } \\$

$ \nabla f(4 , 4) =  \begin{bmatrix} 4(4)^{3} \\ 4(4)^{3} \end{bmatrix} = \begin{bmatrix} 256 \\ 256 \end{bmatrix} \\$

$\textrm{ (b) Hessiana en el punto (4,4): } \\$

$ \textrm{Sustituyendo: }x_{1} = 4 , x_{2} = 4 \textrm{ en la matriz Hessiana: } \\$
 
$ 𝐻(𝑓_{1}) = \begin{bmatrix} 12(4)^{2} & 0 \\ 0 & 12(4)^{2} \end{bmatrix} = \begin{bmatrix} 192 & 0 \\ 0 & 192 \end{bmatrix}\\$

$ \textrm{(c) Aplicación del criterio de la segunda derivada parcial: }\\$

$ \textrm{ det(H) = 192*192 - 0*0 =  36,864 } \\$

$ \textrm{Dado que  det(H) }> 0 \textrm{ y dado que } \frac {∂^{2}f_{1}}{∂x^{2}_{1}} = 192 \textrm{, es un minimo local} \\$



