<a href="https://colab.research.google.com/github/DCI-alxogm/ml2023-Isaias-Hernandez/blob/main/Ago25/gradiente_descendiente.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Gradiente Descendiente

El enfoque más simple para utilizar información de gradiente es elegir la actualización de pesos en la ecuación $ w^{\tau +1} = w^{\tau} -  \Delta w^{\tau}$ de manera que comprenda un pequeño paso en la dirección del gradiente negativo, de modo que

$$
    \boldsymbol{w}^{\tau +1} = \boldsymbol{w}^{\tau} - \eta \nabla E(\boldsymbol{w}^{\tau})
$$

donde el parámetro $η > 0$ se conoce como tasa de aprendizaje (_learning rate_). Después de cada una de estas actualizaciones, el gradiente se reevalúa para el nuevo vector de pesos y el proceso se repite. Ten en cuenta que la función de error está definida con respecto a un conjunto de entrenamiento, por lo que cada paso requiere que todo el conjunto de entrenamiento se procese para evaluar $\nabla E$. Las técnicas que utilizan todo el conjunto de datos de una vez se llaman _batch methods_. En cada paso, el vector de pesos se mueve en la dirección de la tasa más grande de disminución de la función de error, y por lo tanto, este enfoque se conoce como _gradient descent_ (descenso de gradiente) o _steepest descent_ (descenso más empinado). Aunque este enfoque podría parecer razonable de manera intuitiva, de hecho, resulta ser un algoritmo deficiente, por razones que se discuten en Bishop y Nabney (2008).


Sin embargo, existe una versión on-line del descenso de gradiente que ha demostrado ser útil en la práctica para entrenar redes neuronales en conjuntos de datos grandes (Le Cun et al., 1989).
-Pattern Recognition and Machine Learning
-

In [4]:
import numpy as np
import matplotlib.pyplot as plt

In [21]:
def Polinomio(grado):
    def Modelo(x, w):
        y = 0
        for i in range(grado + 1):
            y += w[i] * (x ** i)
        return y
    return Modelo

In [31]:
def GradienteDescendiente(x, y, modelo, valores_iniciales, tasa_aprendizaje=1, iteraciones=1000, tolerancia=0.001):
    w = valores_iniciales
    t = y
    Costo = lambda x, w: 1/(2) * np.sum((modelo(x, w) - t)**2)
    costo = Costo(x, w)
    iteracion = 0
    while iteracion < iteraciones:
        #wn = np.empty_like(w)
        for i in range(np.shape(w)[0]):
            derivada_w = 1/1 * np.sum((modelo(x, w) - t)) * x**i
            w[i] = w[i] - tasa_aprendizaje * derivada_w

        costo = Costo(x, w)
        if costo < tolerancia:
          break
        iteracion += 1
    return w, costo

In [34]:
datos = np.loadtxt("/content/drive/MyDrive/ML2023/olympic100m_men.txt", delimiter=',')
datos_x = datos[0]
datos_y = datos[1]
grado = 3
w0 = np.random.uniform(-50, 50,grado+1)
f = Polinomio(grado)

In [35]:
w, costo = GradienteDescendiente(datos_x, datos_y, f, w0, grado)
x = np.linspace(np.max(datos_x), np.min(datos_x), 1000)
plt.plot(x, f(x,w))

ValueError: ignored

Notas
* Valor inciales de **w**
* Función costo
$$L = \frac{1}{2N} \sum_{i}\left(f(x,w)-t_{i}\right)²$$
* Derivada
$$ \frac{\partial L}{\partial w_{i}} = \frac{1}{N} \sum \left( f(x,w) - t_{i} \right) \cdot \frac{\partial f}{\partial w_i} $$
* Actualización de pesos:
$$ w_{i_nuevo} = w_{i} - \alpha \frac{\partial L}{\partial w_i}$$
* Iteraciones
* Determinar tolerancia