# Descenso de la Gradiente Estocástico (Stochastic Gradient Descent)

Es un algoritmo de optimización de primer orden y una variación del algoritmo de descenso de la gradiente (Gradient Descent).

Se utiliza para aprender un conjunto de coeficientes de clasificación para el aprendizaje parametrizado [1], implementado sobretodo en conjuntos grandes de datos, pues este es más rápido en comparación a otros métodos matemáticos como el método estándar de gradient descent, además de que a su misma vez se evita realizar desperdicios computacionales.

La diferencia que presenta con respecto al método de descenso de la gradiente es que se actualiza la matriz de pesos W en pequeños conjuntos de o arreglos de datos de entrenamiento.

Este algoritmo permite realizar más pasos sobre el gradiente lo cual implica un paso por lote en comparación a un paso por época, lo que permite una convergencia más rápida que no va a afectar la precisión ni la pérdida de la clasificación.

El objetivo de desarrollo de este método es evitar lo que ocurría en grandes conjuntos de datos con el algoritmo de descenso de gradiente, en el que para cada iteración de descenso de gradiente se requiere que se calcule una predicción para cada punto de entrenamiento del conjunto de datos de entrenamiento, esto se traduce a que por el cálculo de predicciones para cada punto se debe realizar la actualización de la matriz de pesos W, lo cual es un desperdicio computacional.


Ejecución del

Ref.
[1] https://www.pyimagesearch.com/2016/10/17/stochastic-gradient-descent-sgd-with-python/


# Ejemplo de Código en Python

El siguiente ejemplo muestra la ejecución del la búsqueda de un punto mínimo en un conjunto de  datos con el algoritmo de Descenso de la Gradiente Estocástico.

* Ratio de Aprendizaje Establecido: 0.01
    
* Cantidad de Desplazamiento (epochs) establecidos: 100
    


In [6]:
import random


def predict(row, coefficients):
	yhat = coefficients[0]
	for i in range(len(row)-1):
		yhat += coefficients[i + 1] * row[i]
	return yhat
 
# Estimate linear regression coefficients using stochastic gradient descent
def coefficients_sgd(train, l_rate, n_epoch):
	coef = [0.0 for i in range(len(train[0]))]
	for epoch in range(n_epoch):
		sum_error = 0
		for row in train:
			yhat = predict(row, coef)
			error = yhat - row[-1]
			sum_error += error**2
			coef[0] = coef[0] - l_rate * error
			for i in range(len(row)-1):
				coef[i + 1] = coef[i + 1] - l_rate * error * row[i]
		print('>epoch=%d, lrate=%.3f, error=%.3f' % (epoch, l_rate, sum_error))
	return coef
 
# Calculate coefficients
dataset = [[random.randint(1,10), random.randint(1,10)], [random.randint(1,10), random.randint(1,10)], [random.randint(1,10), random.randint(1,10)],
           [random.randint(1,10), random.randint(1,10)], [random.randint(1,10), random.randint(1,10)]]
l_rate = 0.05
n_epoch = 100
coef = coefficients_sgd(dataset, l_rate, n_epoch)
print(coef)

>epoch=0, lrate=0.050, error=956.079
>epoch=1, lrate=0.050, error=619.540
>epoch=2, lrate=0.050, error=242.444
>epoch=3, lrate=0.050, error=276.882
>epoch=4, lrate=0.050, error=246.313
>epoch=5, lrate=0.050, error=231.177
>epoch=6, lrate=0.050, error=214.019
>epoch=7, lrate=0.050, error=198.366
>epoch=8, lrate=0.050, error=183.468
>epoch=9, lrate=0.050, error=169.456
>epoch=10, lrate=0.050, error=156.280
>epoch=11, lrate=0.050, error=143.927
>epoch=12, lrate=0.050, error=132.380
>epoch=13, lrate=0.050, error=121.619
>epoch=14, lrate=0.050, error=111.627
>epoch=15, lrate=0.050, error=102.387
>epoch=16, lrate=0.050, error=93.882
>epoch=17, lrate=0.050, error=86.095
>epoch=18, lrate=0.050, error=79.010
>epoch=19, lrate=0.050, error=72.612
>epoch=20, lrate=0.050, error=66.883
>epoch=21, lrate=0.050, error=61.810
>epoch=22, lrate=0.050, error=57.376
>epoch=23, lrate=0.050, error=53.568
>epoch=24, lrate=0.050, error=50.370
>epoch=25, lrate=0.050, error=47.768
>epoch=26, lrate=0.050, error=45

*Código fuente y resultado de ejecución del algoritmo en Python*