# Matemática para Ciencia de los Datos
# Trabajo Práctico 6

Profesor: Juan Luis Crespo Mariño (basado en trabajo previo de Luis Alexánder Calvo Valverde)

Instituto Tecnológico de Costa Rica,

Programa Ciencia de Datos

---

Fecha de entrega: 2 de septiembre, hora límite las 6:00 pm.

Medio de entrega: Por medio del TEC-Digital.

Entregables: Un archivo jupyter ( .IPYNB ).

Estudiante:
1. **Sergio Blanco**



## Ejercicio 1 (50 puntos)



El algoritmo del descenso de gradiente sigue la idea de modificar el punto óptimo estimado de forma iterativa. Para una función en una
variable $f\left(x\right)$, la estimación del punto óptimo en una iteración $i+1$ está dada por:

\begin{equation}
x\left(t+1\right)=x\left(t\right)+\alpha f'\left(x\left(t\right)\right)
\end{equation}

donde el coeficiente $\alpha$ determina el *grado de confianza o velocidad* con la que el proceso de optimización iterativa sigue
la dirección de la derivada. Para la optimización de una función multivariable $f\left(\overrightarrow{x}\left(t\right)\right)$ con $\overrightarrow{x}\in\mathbb{R}^{n}$, la posición óptima se estima usando el vector gradiente:

\begin{equation}
\overrightarrow{x}\left(t+1\right)=\overrightarrow{x}\left(t\right)+\alpha\nabla_{\overrightarrow{x}}f\left(\overrightarrow{x}\left(t\right)\right)
\end{equation}

Para la función:

\begin{equation}
f\left(\overrightarrow{x}\right)=x^{2}-y^{2},
\end{equation}

Implemente la función en python denominada:

$$funcion\_SGD \left(tasa\_aprendizaje, iteraciones, xy, tolerancia\right)$$

donde los parámetros corresponden a:

* tasa_aprendizaje: es el $\alpha$
* iteraciones: es el máximo número de iteraciones a ejecutar
* xy: es el vector con los dos valores iniciales [x,y]
* tolerancia: es el valor mínimo para un cambio entre iteración. Si la función de costo no mejora en al menos "tolerancia", sale del ciclo de iteración.

**Nota:**
1. Para iniciar la implementación puede utilizar el código en el cuaderno "070_1_LACV_Optimizacion".
1. Cada iteración le generará un vector con dos valores ($\overrightarrow{x}\left(t+1\right)$), por lo que para saber el valor de la función de pérdida en ese punto, evalúelo en la función inicial ($x^{2}-y^{2}$) para saber si aumentó o disminuyó.



---




In [3]:
import numpy as np
# Descenso de gradiente
# Función:  f( x, y ) =  x^2 - y^2
# código base: https://towardsdatascience.com/implement-gradient-descent-in-python-9b93ed7108d1

def gradiente_fxy(x, y):
    # derivadas parciales
    # deriv f / x = 2x
    # deriv f / y = -2y
    return np.array([2*x, -2*y])

#def SGD(tasa_aprendizaje, iteraciones, xy, tolerancia) -> None:
tasa_aprendizaje=0.25
iteraciones=1000
cur_xy=np.array((100, 0), dtype=float) # son los valores iniciales de X , Y 
tolerancia=0.000000000000000000000000001
previous_step_size = 1
iters = 0 #iteration counter
print("Initial point : ", cur_xy)
while previous_step_size > tolerancia and iters < iteraciones:
   prev_xy = cur_xy # Store current point value in previous_point
   cur_xy = prev_xy - tasa_aprendizaje * gradiente_fxy(prev_xy[0], prev_xy[1]) #Grad descent
   previous_step_size = np.linalg.norm(cur_xy - prev_xy, ord=2) # Euclidean distance
   iters += 1 #iteration count
   if (iters % 1) == 0:
      print("Iteration",iters,"\nPoint value is", cur_xy) #Print iterations
      print("previous_step_size >>> ", previous_step_size)


print("The local minimum occurs at", cur_xy)

Initial point :  [100.   0.]
Iteration 1 
Point value is [50.  0.]
previous_step_size >>>  50.0
Iteration 2 
Point value is [25.  0.]
previous_step_size >>>  25.0
Iteration 3 
Point value is [12.5  0. ]
previous_step_size >>>  12.5
Iteration 4 
Point value is [6.25 0.  ]
previous_step_size >>>  6.25
Iteration 5 
Point value is [3.125 0.   ]
previous_step_size >>>  3.125
Iteration 6 
Point value is [1.5625 0.    ]
previous_step_size >>>  1.5625
Iteration 7 
Point value is [0.78125 0.     ]
previous_step_size >>>  0.78125
Iteration 8 
Point value is [0.390625 0.      ]
previous_step_size >>>  0.390625
Iteration 9 
Point value is [0.1953125 0.       ]
previous_step_size >>>  0.1953125
Iteration 10 
Point value is [0.09765625 0.        ]
previous_step_size >>>  0.09765625
Iteration 11 
Point value is [0.04882812 0.        ]
previous_step_size >>>  0.048828125
Iteration 12 
Point value is [0.02441406 0.        ]
previous_step_size >>>  0.0244140625
Iteration 13 
Point value is [0.01220703 0

## Ejercicio 2

Para la función  $f_{1}\left(x_{1},x_{2}\right)=x_{1}^3 + x_{2}^3 - 3x_{1}^2 - 3x_{2}^2 - 3x_{1}x_{2} +2 $

Realice lo siguiente:

1. En una celda de texto:

 - Calcule el vector gradiente. **(15 puntos)**

 - Calcule la matriz Hessiana. **(15 puntos)**

2. Para el resultado obtenido en el punto anterior: **(20 puntos)**
  - Evalúela en los puntos que tentativamente anulen el gradiente de la misma (pueden usar python o métodos similares para resolver sistemas de ecuaciones, si lo necesitan).
  - Luego aplique el criterio de la segunda derivada parcial ¿qué conclusiones saca para esos puntos?

---

$f(x,y) = x^{3} + y^{3} - 3x^{2} - 3y^{2} - 3xy + 2$

## Derivadas parciales de primer orden

$$\frac{\partial f(x,y)}{\partial x} = 3x^{2} - 6x - 3y$$

$$\frac{\partial f(x,y)}{\partial y} = 3y^{2} - 6y - 3x$$

## Vector gradiente

$$\nabla f(x,y) = \left( 3x^{2} - 6x - 3y,\; 3y^{2} - 6y - 3x \right)$$

## Derivadas parciales de segundo orden

$$\frac{\partial^{2} f}{\partial x^{2}} = 6x - 6$$

$$\frac{\partial^{2} f}{\partial y^{2}} = 6y - 6$$

$\frac{\partial^{2} f}{\partial x \partial y} = 
\frac{\partial^{2} f}{\partial y \partial x} = -3$

### Matriz Hessiana

$Hf(x,y) =
\begin{pmatrix}
6x - 6 & -3 \\
-3 & 6y - 6
\end{pmatrix}$

In [8]:
from sympy import symbols, solve

# Definir las variables simbólicas
x, y = symbols('x y')

# Definir las dos ecuaciones del sistema
ecuacion1 = 3*x**2 - 6*x - 3*y
ecuacion2 = 3*y**2 - 6*y - 3*x

# Resolver el sistema de ecuaciones
soluciones = solve((ecuacion1, ecuacion2), (x, y))

# Imprimir las soluciones
print("tenemos : ",len(soluciones), "puntos que igualan a 0 ")
print("Las soluciones (x, y) que hacen que las funciones sean 0 son:")
for sol in soluciones:
    # Usar .evalf() para obtener valores decimales, si los hay
    x_val = sol[0].evalf()
    y_val = sol[1].evalf()
    
    # Imprimir los valores
    print(f"x = {x_val}, y = {y_val}")

tenemos :  4 puntos que igualan a 0 
Las soluciones (x, y) que hacen que las funciones sean 0 son:
x = 0, y = 0
x = 3.00000000000000, y = 3.00000000000000
x = 1.61803398874989, y = -0.618033988749895
x = -0.618033988749895, y = 1.61803398874989


## Análisis con el Hessiano

### Punto crítico en \((0,0)\)
$$ Hf(0,0) =\begin{bmatrix} -6 & -3 \\
                            -3 & -6 \end{bmatrix}$$
$$det(Hf(0,0)) = 27 $$
Es un punto local máximo pues el determinante es positivo y la 2da. derivada de X es negativa.


### Punto crítico en \((3,3)\)
$$ Hf(3,3) = \begin{bmatrix} 12 & -3 \\
                             -3 & 12 \end{bmatrix}$$ 
$$det(Hf(3,3)) = 135 $$
Es un punto local mínimo pues el determinante es positivo y la 2da. derivada de X es positiva.


### Punto crítico en \((1.618, -0.618)\)

$$ Hf(1.618, -0.618) =\begin{bmatrix} 3.708 & -3 \\
                      -3 & -9.708 \end{bmatrix}$$
 $$det(Hf(1.618, -0.618)) = ~-44.9972 $$

Es un punto de silla pues el determinante es negativo.


### Punto crítico en \((-0.618, 1.618)\)

$$ Hf(-0.618, 1.618) = \begin{bmatrix} -9.708 & -3 \\
                       -3 & 3.708 \end{bmatrix}$$
$$det(Hf(-0.618, 1.618)) = ~-44.9972 $$

Es un punto de silla pues el determinante es negativo.