# Gradiente Desendente

El gradiente descendente es un algoritmo de optimización utilizado en el aprendizaje automático y la optimización matemática para encontrar el mínimo de una función.  
Funciona mediante la iteración en la dirección del gradiente negativo de una función para encontrar el mínimo local o global.  
Este método ajusta iterativamente los parámetros de un modelo matemático para minimizar una función de pérdida.
Hay diferentes variantes del gradiente descendente, como el gradiente descendente estocástico (SGD), el gradiente descendente por lotes, el mini-batch gradient descent, entre otros, que se adaptan a distintas situaciones y conjuntos de datos. Pero en este cso veremos el más basico que podemos encontrar en el libro de optimización.

## Algoritmo

Este es un metodo de primer orden, lo que significa que que se basa en la información del gradiente para poder encontrar un minimo, lo que significa que también nos ayudara a elegir la dirección hacia la cual movernos en una función.

Primeramente para este metodo ocuparemos una dirección $d$ la cual es la cual indica la dirección de máximo descenso, lo cual nos garantiza una mejora, esto si la función es derivable y es continua en en su dominio, el paso es suficientemente pequeño y el gradiente no es 0, ya que se estaria en un punto estacionario.

El gradiente es una generalización de las pendientes, y esta muestra la direcicón de máximo aumento, o crecimiento de una función, y el punto el gradiente descenciente es ir en dirección contraria al gradiente, por lo cual lo podemos definir como

$$ d = -  \nabla f(x^{k}) $$

Donde $x^k$ es x en la $k$ itreación.  

Pero también se normaliza dado nos esto nos permite tener un tamaño de paso consistente lo que hablando en terminos generales es un hecho benefactor para la convergencia, puesto que los pasos no se veran influenciados por la magnitud del gradiente.

$$ d^{(k)} = - \frac{g^{(k)}}{||g^{(k)}||} $$

Ahora en cuanto al camino trazado al realizar un descenso este es irrgular, a grado de que al momento de elegir direcciones la actual contra la anterior seran ortogonales, y esto lo podemos de de la siguiente forma, mediante la optimización

$$\alpha = \operatorname{argmin}_{\alpha} f(x^{(k)} + \alpha d^{(k)}) $$

Donde buscamos un paso $\alpha$ que minimice la función a cada paso, y dado que la dirección tambień se calcula a cada paso, es necesario buscar el tamaño de paso optimo a cada iteración.

Pero esta optimización tiene un criterio a se cumnplido, para el cual necesitamos las dervadas direccionales.

Estas nos ayuda a medir la taza de cambio de un desplazamiento en una función hacia una dirección, pero a diferencia de como se ha visto con limites, esta también puede ser calculada con el producto del gradiente por un vector unitario de  dirección.

$$ \nabla f(x^{(k)} + \alpha d^{(k)})^Td^{(k)} = 0$$

Ya ahora como sabemos que para sacar la siguiente dirección ocupariamos:

$$ d^{(k+1)} = - \frac{\nabla f(x^{(k)} + \alpha d^{(k)})}{||\nabla f(x^{(k)} + \alpha d^{(k)})||} $$

Practicamente podriamos afirmar que las direcicónes $d^{(k+1)}$ y $d ^{(k)}$ son ortogonales.

## Ejemplo

In [3]:
# COmentario para probar

using Plots

abstract type
    DescentMethod
end

struct GradientDescent <: DescentMethod
    α
end

init!(M::GradientDescent, f, ∇f, x) = M

# Modificar la función f para x^2
f(x) = x^2

# Modificar el gradiente de f para la función x^2 (2x)
∇f(x) = 2x

function step!(M::GradientDescent, f, ∇f, x)
    α, g = M.α, ∇f(x)
    return x - α*g
end

# Valor inicial de x y tasa de aprendizaje α
x = 5.0
α = 0.1

# Número de iteraciones
num_iteraciones = 2

# Crear instancia de GradientDescent con la tasa de aprendizaje α
gd = GradientDescent(α)

# Almacenar los valores de x en cada iteración
x_vals = [x]

# Ejecutar múltiples pasos del algoritmo de descenso de gradiente
for i in 1:num_iteraciones
    x = step!(gd, f, ∇f, x)
    push!(x_vals, x)
end

# Crear una gráfica de la función x^2
plot(-10:0.1:10, x -> f(x), label="x^2", xlabel="x", ylabel="f(x)", legend=:topleft)

# Imprimir el último valor de x
println("Último valor de x después del descenso de gradiente: ", x)

# Agregar los puntos x en cada iteración
scatter!(x_vals, map(f, x_vals), label="Descenso de gradiente")


SyntaxError: invalid decimal literal (<ipython-input-3-76e5e3a0b6c2>, line 17)