**GRADIENT DESCENT** via NumPy y PyTorch: entendiendo mejor el algoritmo

El descenso de gradiente (gradient descent) es la estrategia de optimización más popular utilizada en machine learning (deep learning). Se utiliza cuando se entrenan modelos con datos y es ampliamente usado ya que se puede combinar con otro tipo de algoritmos.

Los datos de entrenamiento ayudan a los modelos a aprender con el tiempo, y la función de costo (cost function) dentro del descenso de gradiente actúa específicamente como un barómetro, midiendo su precisión con cada iteración de actualizaciones de parámetros. Hasta que la función sea cercana o igual a cero, el modelo continuará ajustando sus parámetros para producir el menor error posible. Una vez que los modelos de machine learning se optimizan para la precisión, pueden ser herramientas poderosas para aplicaciones de inteligencia artificial (IA) y ciencias de la computación.


Por otro lado vale la pena destacar a los **gradientes** los cuales miden cuánto cambia la salida (el output) de una función si cambias un poco las entradas (inputs). En otras palabras, simplemente mide el cambio en todos los pesos (weights) con respecto al cambio en el error.

Hay tres tipos populares de descenso de gradiente que difieren principalmente en la cantidad de datos que utilizan:
- Batch Gradiente Descent (descenso de gradiente por lotes): calcula el error para cada ejemplo dentro del conjunto de datos de entrenamiento, pero solo después de que se hayan evaluado todos los ejemplos de entrenamiento, el modelo se actualiza. Todo este proceso es como un ciclo y se llama "training epoch".
- Stochastic Gradient Descent (SGD): hace el descenso de gradiente para cada ejemplo de entrenamiento dentro un conjunto de datos. Esto significa que actualiza los parámetros para cada ejemplo de entrenamiento uno por uno. Dependiendo del problema, esto puede hacer que SGD sea más rápido que el descenso de gradiente por lotes. Una ventaja es que las actualizaciones frecuentes nos permiten tener una tasa de mejora bastante detallada.
- Mini-Batch Gradiente Descent: es el método de acceso ya que es una combinación de los conceptos de SGD y descenso de gradiente por lotes. Simplemente divide el conjunto de datos de entrenamiento en lotes pequeños y realiza una actualización para cada uno de esos lotes. Esto crea un equilibrio entre la solidez del descenso de gradiente estocástico y la eficiencia del descenso de gradiente por lotes.

In [1]:
import numpy as np

In [7]:
# Implementacion de regresion lineal con numpy de forma MANUAL
# Funcion de Combinaciones lineares de nuestros weight con inputs ==> f = w * x
# no se tienen bias en cuenta
# ejemplo = f = 2 * x

# Regresion Lineal
# f = w * x 

# aca : f = 2 * x
X = np.array([1, 2, 3, 4], dtype=np.float32)
Y = np.array([2, 4, 6, 8], dtype=np.float32)

w = 0.0

# model output
def forward(x):
    return w * x

# loss = MSE (mean square error o error cuadratico medio) Funcion de Coste
# mide el error  en problemas de regresion
def loss(y, y_pred):
    return ((y_pred - y)**2).mean()

# J = MSE = 1/N * (w*x - y)**2
# dJ/dw = 1/N * 2x(w*x - y)
def gradient(x, y, y_pred):
    return np.dot(2*x, y_pred - y).mean()

print(f'Prediccion antes de entrenar: f(5) = {forward(5):.3f}')

# Learning rate o ratio de aprendizaje
learning_rate = 0.01
n_iters = 20

for epoch in range(n_iters):
    # prediccion = forward pass
    y_pred = forward(X)

    # loss
    l = loss(Y, y_pred)
    
    # calculando los gradientes
    dw = gradient(X, Y, y_pred)

    # actualizacion de weights
    w -= learning_rate * dw

    if epoch % 2 == 0:
        print(f'epoch {epoch+1}: w = {w:.3f}, loss = {l:.8f}')
     
print(f'Prediccion despues del entrenamiento: f(5) = {forward(5):.3f}')

Prediccion antes de entrenar: f(5) = 0.000
epoch 1: w = 1.200, loss = 30.00000000
epoch 3: w = 1.872, loss = 0.76800019
epoch 5: w = 1.980, loss = 0.01966083
epoch 7: w = 1.997, loss = 0.00050332
epoch 9: w = 1.999, loss = 0.00001288
epoch 11: w = 2.000, loss = 0.00000033
epoch 13: w = 2.000, loss = 0.00000001
epoch 15: w = 2.000, loss = 0.00000000
epoch 17: w = 2.000, loss = 0.00000000
epoch 19: w = 2.000, loss = 0.00000000
Prediccion despues del entrenamiento: f(5) = 10.000


In [3]:
import torch

In [8]:
# Implementacion de Regresion lineal con Pytorch de forma "AUTOMATICA"
# Se reemplazan los gradientes calculados manualmente con autograd

# Regresion Lineal
# f = w * x 

# aca : f = 2 * x
X = torch.tensor([1, 2, 3, 4], dtype=torch.float32)
Y = torch.tensor([2, 4, 6, 8], dtype=torch.float32)

w = torch.tensor(0.0, dtype=torch.float32, requires_grad=True)

# model output
def forward(x):
    return w * x

# loss = MSE (mean square erro o error cuadratico medio) Funcion de coste 
def loss(y, y_pred):
    return ((y_pred - y)**2).mean()

print(f'Prediccion antes de entrenar: f(5) = {forward(5).item():.3f}')

# Learning rate o ratio de aprendizaje
learning_rate = 0.01
n_iters = 100

for epoch in range(n_iters):
    # prediccion = forward pass
    y_pred = forward(X)

    # loss
    l = loss(Y, y_pred)

    # calculando gradientes = backward pass
    l.backward()

    # actualizacion de weights
    #w.data = w.data - learning_rate * w.grad
    with torch.no_grad():
        w -= learning_rate * w.grad
    
    # zero los gradientes despues de la actualizacion
    w.grad.zero_()

    if epoch % 10 == 0:
        print(f'epoch {epoch+1}: w = {w.item():.3f}, loss = {l.item():.8f}')

print(f'Prediccion despues del entrenamiento: f(5) = {forward(5).item():.3f}')

Prediccion antes de entrenar: f(5) = 0.000
epoch 1: w = 0.300, loss = 30.00000000
epoch 11: w = 1.665, loss = 1.16278565
epoch 21: w = 1.934, loss = 0.04506890
epoch 31: w = 1.987, loss = 0.00174685
epoch 41: w = 1.997, loss = 0.00006770
epoch 51: w = 1.999, loss = 0.00000262
epoch 61: w = 2.000, loss = 0.00000010
epoch 71: w = 2.000, loss = 0.00000000
epoch 81: w = 2.000, loss = 0.00000000
epoch 91: w = 2.000, loss = 0.00000000
Prediccion despues del entrenamiento: f(5) = 10.000


La **función de costo (o pérdida)** mide la diferencia o error entre el **y real** y **y prediccion** en su posición actual. Esto mejora la **eficacia del modelo de aprendizaje automático** al proporcionar retroalimentación al modelo para que pueda ajustar los parámetros para minimizar el error y encontrar el mínimo local o global. Itera continuamente, moviéndose a lo largo de la dirección del descenso más pronunciado (o el gradiente negativo) hasta que la función de costo esté cerca o en cero. En este punto, el modelo dejará de aprender.