El algoritmo del Gradiente Descendente convencional (también conocido como batch gradient descent o Gradiente Descendente por lotes) usa la totalidad de los ejemplos de entrenamiento en cada iteración del entrenamiento.

La principal desventaja de este enfoque es que si tenemos demasiados ejemplos de entrenamiento (como ocurre usualmente en el Deep Learning), cada iteración de entrenamiento requerirá demasiado tiempo y además se amplían los requisitos de memoria RAM del equipo usado en esta fase de desarrollo.

El algoritmo del Gradiente Descendente Estocástico es precisamente una alternativa a este inconveniente.

##El algoritmo del Gradiente Descendente Estocástico
Es el extremo opuesto al Gradiente Descendente convencional: en lugar de tomar todo el set de entrenamiento en cada iteración, el Gradiente Descendente Estocástico toma tan sólo un ejemplo de entrenamiento de forma totalmente aleatoria (de allí el término “estocástico”).

La ventaja de esto es que se requieren menos recursos de memoria y el entrenamiento es mucho más rápido. Sin embargo, la desventaja es que al usar tan sólo un ejemplo de entrenamiento en cada iteración el algoritmo se puede quedar estancado en un mínimo local.

El algoritmo del Gradiente Descendente Estocástico con mini-batch (o mini-lotes), es un punto intermedio entre estos dos extremos.

##Mini-batch gradient descent

En este caso en cada iteración no se toma ni todo el set de entrenamiento ni tan sólo un ejemplo, sino que se toman bloques de datos provenientes de dicho set. Cada uno de estos bloques se conoce como “lote” (o batch en Inglés) y usualmente puede tener entre unas cuantas decenas y unos cuantos miles de ejemplos (todo depende del tamaño del set de entrenamiento).

Así, en cada iteración de entrenamiento se presentan al modelo n lotes a partir de los cuales se actualizan sus parámetros.

La ventaja de esto es que se disminuye la probabilidad de estancamiento en un mínimo local (como ocurría con el Gradiente Descendente Estocástico) y además el entrenamiento se realiza más rápido y requiere menos recursos de memoria (en comparación con el Gradiente Descendente convencional).



In [4]:
import numpy as np
import time
from sklearn.metrics import mean_squared_error

# Generar datos de ejemplo
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)
X_b = np.c_[np.ones((100, 1)), X]  # Añadir el término bias (intercepto)
learning_rate = 0.1
n_iterations = 1000
theta = np.random.randn(2, 1)

# Batch Gradient Descent
def batch_gradient_descent(X, y, theta, learning_rate, n_iterations):
    m = len(y)
    for iteration in range(n_iterations):
        gradients = (2/m) * X.T.dot(X.dot(theta) - y)
        theta = theta - learning_rate * gradients
    return theta


# Función para medir el tiempo y entrenar el modelo
def medir_tiempo(entrenar_funcion, X, y, theta, learning_rate, n_iterations, batch_size=None):
    start_time = time.time()  # Inicia el cronómetro
    if batch_size:
        theta_final = entrenar_funcion(X, y, theta, learning_rate, n_iterations, batch_size)
    else:
        theta_final = entrenar_funcion(X, y, theta, learning_rate, n_iterations)
    end_time = time.time()  # Finaliza el cronómetro
    tiempo_total = end_time - start_time
    return theta_final, tiempo_total

Tiempo de entrenamiento (Batch): 0.0311 segundos
Tiempo de entrenamiento (SGD): 1.5444 segundos
Tiempo de entrenamiento (Mini-Batch): 0.0460 segundos
Error MSE (Batch): 0.9924
Error MSE (SGD): 1.1372
Error MSE (Mini-Batch): 1.0004


In [None]:

# Stochastic Gradient Descent
def stochastic_gradient_descent(X, y, theta, learning_rate, n_iterations):

In [None]:

# Mini-Batch Gradient Descent
def mini_batch_gradient_descent(X, y, theta, learning_rate, n_iterations, batch_size):

In [None]:
# Medir tiempo para Batch Gradient Descent
theta_batch, tiempo_batch = medir_tiempo(batch_gradient_descent, X_b, y, theta, learning_rate, n_iterations)
print(f"Tiempo de entrenamiento (Batch): {tiempo_batch:.4f} segundos")

# Medir tiempo para Stochastic Gradient Descent
theta_sgd, tiempo_sgd = medir_tiempo(stochastic_gradient_descent, X_b, y, theta, learning_rate, n_iterations)
print(f"Tiempo de entrenamiento (SGD): {tiempo_sgd:.4f} segundos")

# Medir tiempo para Mini-Batch Gradient Descent
theta_mini_batch, tiempo_mini_batch = medir_tiempo(mini_batch_gradient_descent, X_b, y, theta, learning_rate, n_iterations, batch_size=20)
print(f"Tiempo de entrenamiento (Mini-Batch): {tiempo_mini_batch:.4f} segundos")


In [None]:

# Calcular predicciones
y_pred_batch = X_b.dot(theta_batch)
y_pred_sgd = X_b.dot(theta_sgd)
y_pred_mini_batch = X_b.dot(theta_mini_batch)

# Calcular errores
mse_batch = mean_squared_error(y, y_pred_batch)
mse_sgd = mean_squared_error(y, y_pred_sgd)
mse_mini_batch = mean_squared_error(y, y_pred_mini_batch)

# Imprimir resultados
print(f"Error MSE (Batch): {mse_batch:.4f}")
print(f"Error MSE (SGD): {mse_sgd:.4f}")
print(f"Error MSE (Mini-Batch): {mse_mini_batch:.4f}")
