In [1]:

import numpy as np
np.random.seed(48) 
X = 2 * np.random.rand(100, 1)          # 
y = 4 + 3 * X + np.random.randn(100, 1)


In [2]:
X_b = np.c_[np.ones((100, 1)), X] # add x0 = 1 to each instance
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)

Ver página 108 de clára elena mejía: Aproximación mediante mínimos cuadrados. 

In [3]:
theta_best

array([[4.0117793 ],
       [2.92444191]])

# Gradiente descendente 

Aurelien Geron, page 173 

*Gradient Descent* es un algoritmo de optimización genérico capaz de encontrar soluciones óptimas a una amplia gama de problemas.

La idea general de Gradient Descent es ajustar los parámetros de forma iterativa para minimizar una función de coste.

Suponga que está perdido en las montañas en una densa niebla y solo puede sentir la pendiente del suelo debajo de sus pies.

Una buena estrategia para llegar rápidamente al fondo del valle es descender en dirección a la pendiente más pronunciada.

Esto es exactamente lo que hace Gradient Descent: mide el gradiente local de la función de error con respecto al vector de parámetro $\theta$, y va en la dirección del gradiente descendente.

Una vez que el gradiente es cero, ¡ha alcanzado un mínimo! Concretamente, comienza llenando $\theta$ con valores aleatorios (esto se llama inicialización aleatoria).

Luego lo mejora gradualmente, dando un pequeño paso a la vez, cada paso intentando disminuir la función de costo (por ejemplo, el MSE), hasta que el algoritmo converja al mínimo (vea la Figura 4-3).

<img src='figure_4_3.jpg'> 

Un parámetro importante en Gradient Descent es el tamaño de los pasos, determinado por el hiperparámetro de tasa de aprendizaje.

Si la tasa de aprendizaje es demasiado pequeña, el algoritmo tendrá que pasar por muchas iteraciones para converger, lo que llevará mucho tiempo (consulte la Figura 4-4).

<img src='figure_4_4.jpg'>

Por otro lado, si la tasa de aprendizaje es demasiado alta, es posible que salte al otro lado del valle y termine en el otro lado, posiblemente incluso más alto que antes.

Esto podría hacer que el algoritmo divergiera, con valores cada vez mayores, sin encontrar una buena solución (consulte la Figura 4-5).

<img src='figure_4_5.jpg'> 

Por último, no todas las funciones de costos se ven como buenos cuencos normales.   

Puede haber huecos, crestas, mesetas y todo tipo de terrenos irregulares, lo que dificulta la convergencia al mínimo. La Figura 4-6 muestra los dos desafíos principales con Gradient Descent.

Si la inicialización aleatoria inicia el algoritmo de la izquierda, entonces convergerá a un mínimo local, que no es tan bueno como el mínimo global.

Si comienza por la derecha, llevará mucho tiempo cruzar la meseta.

Y si se detiene demasiado pronto, nunca alcanzará el mínimo global.

<img src='figure_4_6.jpg'> 

Afortunadamente, la función de costo MSE para un modelo de regresión lineal resulta ser una función convexa, lo que significa que si elige dos puntos cualesquiera en la curva, el segmento de línea que los une nunca cruza la curva.

Esto implica que no hay mínimos locales, solo un mínimo global.   

También es una función continua con una pendiente que nunca cambia abruptamente.   

Estos dos hechos tienen una gran consecuencia: se garantiza que Gradient Descent se acercará arbitrariamente a cerrar el mínimo global (si espera lo suficiente y si la tasa de aprendizaje no es demasiado alta).

De hecho, la función de costo tiene la forma de un cuenco, pero puede ser un cuenco alargado si las características tienen escalas muy diferentes.   

La Figura 4-7 muestra Gradient Descent en un conjunto de entrenamiento donde las características 1 y 2 tienen la misma escala (a la izquierda), y en un conjunto de entrenamiento donde la característica 1 tiene valores mucho más pequeños que la característica 2 (a la derecha).

<img src='figure_4_7.jpg'> 

Como puede ver, a la izquierda el algoritmo Gradient Descent va directo hacia el mínimo, alcanzándolo rápidamente, mientras que a la derecha primero va en una dirección casi ortogonal a la dirección del mínimo global, y termina con una larga marcha. por un valle casi plano.

Eventualmente alcanzará el mínimo, pero llevará mucho tiempo.

## ADVERTENCIA

Al usar Gradient Descent, debe asegurarse de que todas las características tengan una escala similar (por ejemplo, usando la clase StandardScaler de Scikit-Learn), o de lo contrario, la convergencia llevará mucho más tiempo.

Este diagrama también ilustra el hecho de que entrenar un modelo significa buscar una combinación de parámetros del modelo que minimice una función de costo (sobre el conjunto de entrenamiento).

Es una búsqueda en el espacio de parámetros del modelo: cuantos más parámetros tiene un modelo, más dimensiones tiene este espacio y más difícil es la búsqueda: buscar una aguja en un pajar de 300 dimensiones es mucho más complicado que en 3 dimensiones.

Afortunadamente, dado que la función de costo es convexa en el caso de la regresión lineal, la aguja está simplemente en la parte inferior del cuenco.

## Gradiente descendente por lotes

Para implementar Gradient Descent, debe calcular el gradiente de la función de costo con respecto a cada parámetro del modelo $\theta_{j}$.

En otras palabras, debe calcular cuánto cambiará la función de costo si cambia $\theta_{j}$ solo un poco.

A esto se le llama derivada parcial.   

Es como preguntar "¿Cuál es la pendiente de la montaña bajo mis pies si miro hacia el este?" y luego hacer la misma pregunta mirando hacia el norte (y así sucesivamente para todas las demás dimensiones, si puedes imaginar un universo con más de tres dimensiones).

La ecuación 4-5 calcula la derivada parcial de la función de costo con respecto al parámetro $\theta_{j}$, anotó $\frac{\partial}{\partial \theta_{j}}MSE(\mathbf{\theta})$.

Ecuación 4-5. Derivadas parciales de la función de costo

\begin{equation}\label{4-5}
\frac{\partial}{\partial \theta_{j}}MSE(\mathbf{\theta}) = \frac{2}{m} \sum_{i = 1}^{m} (\mathbf{\theta}^{T}x^{(i)} - y^{(i)} )x_{j}^{(i)}  
\end{equation}

En lugar de calcular estas derivadas parciales individualmente, puede usar la Ecuación 4-6 para calcularlas todas de una vez. El vector de gradiente, denominado $\nabla_{\mathbf{\theta}}MSE(\mathbf{\theta})$, contiene todas las derivadas parciales de la función de costo (una para cada parámetro del modelo).

Ecuación 4-6. Vector de gradiente de la función de costo

$$ \nabla_{\mathbf{\theta}} MSE(\mathbf{\theta}) = \begin{pmatrix} \frac{\partial}{\partial_{\theta_{0}}}MSE(\mathbf{\theta}) \\ \frac{\partial}{\partial \theta_{1}}MSE(\mathbf{\theta}) \\ \vdots \\ \frac{\partial}{\partial \theta_{n}}MSE(\mathbf{\theta}) \end{pmatrix} \frac{2}{m}\mathbf{X}^{T} (\mathbf{X}^{T}-y) $$

## ADVERTENCIA

Tenga en cuenta que esta fórmula implica cálculos sobre el conjunto de entrenamiento completo $\mathbf{X}$, en cada paso de Gradient Descent.   

Por eso el algoritmo se llama Descenso de gradiente por lotes: utiliza el lote de datos de entrenamiento en cada paso (en realidad, Full Gradient Descent probablemente sería una mejor
nombre).

Como resultado, es terriblemente lento en conjuntos de entrenamiento muy grandes (pero veremos algoritmos de Gradient Descent mucho más rápidos en breve).

Sin embargo, Gradient Descent se adapta bien al número de características; entrenar un modelo de regresión lineal cuando hay cientos de miles de entidades es mucho más rápido con el descenso de gradiente que con la ecuación normal o la descomposición de SVD.

Una vez que tenga el vector de gradiente, que apunta hacia arriba, simplemente vaya en la dirección opuesta para ir cuesta abajo.

Esto significa restar $\nabla_{\mathbf{\theta}}MSE(\mathbf{\theta})$ de $\mathbf{\theta}$.

Aquí es donde entra en juego la tasa de aprendizaje $\eta$: multiplique el vector de gradiente por $\eta$ para determinar el tamaño del paso cuesta abajo (Ecuación 4-7).

Equation 4-7. Gradient Descent step

$$ \theta^{(\text{next step})} =  \mathbf{\theta} - \eta\nabla_{\mathbf{\theta}} MSE(\mathbf{\theta}) $$

Veamos una implementación rápida de este algoritmo:

In [None]:
import numpy as np 

In [None]:
eta = 0.1     # learning rate
n_iterations = 1000
m = 100
theta = np.random.randn(2,1) # random initialization
for iteration in range(n_iterations):
    gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
    theta = theta - eta * gradients

¡Eso no fue tan difícil! Veamos la ``theta`` resultante:

In [None]:
theta 

In [None]:
theta_best 

¡Oye, eso es exactamente lo que encontró la ecuación normal! Gradient Descent funcionó a la perfección.

Pero, ¿y si hubiera utilizado una tasa eta de aprendizaje diferente?   

La Figura 4-8 muestra los primeros 10 pasos de Gradient Descent utilizando tres tasas de aprendizaje diferentes (la línea discontinua representa el punto de partida).

<img src='figure_4_8.jpg'> 

A la izquierda, la tasa de aprendizaje es demasiado baja: el algoritmo finalmente llegará a la solución, pero llevará mucho tiempo.   

En el medio, la tasa de aprendizaje parece bastante buena: en solo unas pocas iteraciones, ya ha convergido a la solución.

A la derecha, la tasa de aprendizaje es demasiado alta: el algoritmo diverge, salta por todos lados y, de hecho, se aleja cada vez más de la solución en cada paso.

Para encontrar una buena tasa de aprendizaje, puede utilizar la búsqueda en cuadrícula (consulte el Capítulo 2).

Sin embargo, es posible que desee limitar el número de iteraciones para que la búsqueda de cuadrícula pueda eliminar los modelos que tardan demasiado en converger.

Quizás se pregunte cómo establecer el número de iteraciones.

Si es demasiado bajo, aún estará lejos de la solución óptima cuando el algoritmo se detenga; pero si es demasiado alto, perderá tiempo mientras los parámetros del modelo ya no cambian.

Una solución simple es establecer una gran cantidad de iteraciones pero interrumpir el algoritmo cuando el vector de gradiente se vuelve pequeño, es decir, cuando su norma se vuelve más pequeña que un número diminuto $\epsilon$ (llamado tolerancia), porque esto sucede cuando Gradient Descent tiene (casi) alcanzó el mínimo.

## TASA DE CONVERGENCIA

Cuando la función de costo es convexa y su pendiente no cambia abruptamente (como es el caso de la función de costo MSE), Batch Gradient Descent con una tasa de aprendizaje fija eventualmente convergerá a la solución óptima, pero es posible que tenga que esperar un poco: puede tomar iteraciones $O(1/\epsilon)$ para alcanzar el óptimo dentro de un rango de $\epsilon$, dependiendo de la forma de la función de costo.

Si divide la tolerancia por 10 para tener una solución más precisa, es posible que el algoritmo deba ejecutarse unas 10 veces más.

## Gradiente descendente estocástico

El principal problema con Batch Gradient Descent es el hecho de que utiliza todo el conjunto de entrenamiento para calcular los gradientes en cada paso, lo que lo hace muy lento cuando el conjunto de entrenamiento es grande.

En el extremo opuesto, Stochastic Gradient Descent elige una instancia aleatoria en el conjunto de entrenamiento en cada paso y calcula los gradientes basándose solo en esa instancia única.

Obviamente, trabajar en una sola instancia a la vez hace que el algoritmo sea mucho más rápido porque tiene muy pocos datos para manipular en cada iteración.

También hace posible entrenar en grandes conjuntos de entrenamiento, ya que solo una instancia necesita estar en la memoria en cada iteración (Stochastic GD se puede implementar como un algoritmo fuera del núcleo; vea el Capítulo 1).

Por otro lado, debido a su naturaleza estocástica (es decir, aleatoria), este algoritmo es mucho menos regular que Batch Gradient Descent: en lugar de disminuir suavemente hasta alcanzar el mínimo, la función de costo rebotará hacia arriba y hacia abajo, disminuyendo solo en promedio.  

Con el tiempo terminará muy cerca del mínimo, pero una vez que llegue allí, seguirá rebotando y nunca se asentará (ver
Figura 4-9).

Entonces, una vez que el algoritmo se detiene, los valores finales de los parámetros son buenos,
pero no óptimo.

<img src='figure_4_9.jpg'>

Cuando la función de costo es muy irregular (como en la Figura 4-6), esto puede ayudar al algoritmo a saltar de los mínimos locales, por lo que el Descenso de gradiente estocástico tiene más posibilidades de encontrar el mínimo global que el Descenso de gradiente por lotes.

Por lo tanto, la aleatoriedad es buena para escapar de los óptimos locales, pero mala porque significa que el algoritmo nunca puede establecerse en el mínimo.

Una solución a este dilema es reducir gradualmente la tasa de aprendizaje.

Los pasos comienzan siendo grandes (lo que ayuda a avanzar rápidamente y escapar de los mínimos locales), luego se vuelven cada vez más pequeños, lo que permite que el algoritmo se establezca en el mínimo global.

Este proceso es similar al recocido simulado, un algoritmo inspirado en el proceso de la metalurgia del recocido, donde el metal fundido se enfría lentamente.

La función que determina la tasa de aprendizaje en cada iteración se llama programa de aprendizaje.

Si la tasa de aprendizaje se reduce demasiado rápido, puede quedarse atascado en un mínimo local o incluso terminar congelado a la mitad del mínimo.

Si la tasa de aprendizaje se reduce demasiado lentamente, puede saltar alrededor del mínimo durante un tiempo prolongado y terminar
con una solución subóptima si dejas de entrenar demasiado pronto.

Este código implementa el descenso de gradiente estocástico usando un aprendizaje simple
calendario:

In [None]:
n_epochs = 50
t0, t1 = 5, 50                      # learning schedule hyperparameters
def learning_schedule(t):
    return t0 / (t + t1)
theta = np.random.randn(2,1)         # random initialization
for epoch in range(n_epochs):
    for i in range(m):
        random_index = np.random.randint(m)
        xi = X_b[random_index:random_index+1]
        yi = y[random_index:random_index+1]
        gradients = 2 * xi.T.dot(xi.dot(theta) - yi)
        eta = learning_schedule(epoch * m + i)
        theta = theta - eta * gradients

Por convención iteramos por rondas de m iteraciones; cada ronda se llama época.

Si bien el código Batch Gradient Descent se repitió 1000 veces a través de todo el conjunto de entrenamiento, este código pasa por el conjunto de entrenamiento solo 50 veces y llega a una solución bastante buena:

In [None]:
theta 

La Figura 4-10 muestra los primeros 20 pasos del entrenamiento (observe cuán irregulares son los pasos).

<img src='figure_4_10.jpg'> 

Tenga en cuenta que, dado que las instancias se seleccionan al azar, algunas instancias pueden elegirse varias veces por época, mientras que otras pueden no seleccionarse en absoluto.

Si quieres estar seguro de que el algoritmo pasa por cada instancia en cada época, otro enfoque es mezclar el conjunto de entrenamiento (asegurándote de mezclar las características de entrada y las etiquetas de manera conjunta), luego revisarlo instancia por instancia, luego mezclarlo de nuevo, y así sucesivamente. Sin embargo, este enfoque generalmente converge más lentamente.

## ADVERTENCIA

Cuando se utiliza el descenso de gradiente estocástico, las instancias de entrenamiento deben ser independientes y distribuidas de manera idéntica (IID) para garantizar que los parámetros se acerquen al óptimo global, en promedio.

Una forma sencilla de garantizar esto es mezclar las instancias durante el entrenamiento (por ejemplo, elegir cada instancia al azar o mezclar el conjunto de entrenamiento al comienzo de cada época).

Si no mezcla las instancias, por ejemplo, si las instancias están ordenadas por etiqueta, entonces SGD comenzará optimizando para una etiqueta, luego la siguiente, y así sucesivamente, y no se acercará al mínimo global.

Para realizar una regresión lineal usando Stochastic GD con Scikit-Learn, puede usar la clase ``SGDRegressor``, que por defecto optimiza la función de costo de error al cuadrado.

El siguiente código se ejecuta durante un máximo de 1.000 épocas o hasta que la pérdida se reduce en menos de 0,001 durante una época (max_iter = 1000, tol = 1e-3).

Comienza con una tasa de aprendizaje de 0.1 (eta0 = 0.1), utilizando el programa de aprendizaje predeterminado (diferente al anterior).  

Por último, no utiliza ninguna regularización (penalización = Ninguna; más detalles sobre esto en breve):

In [None]:
from sklearn.linear_model import SGDRegressor
sgd_reg = SGDRegressor(max_iter=1000, tol=1e-3, penalty=None, eta0=0.1)
sgd_reg.fit(X, y.ravel())

Una vez más, encuentra una solución bastante cercana a la devuelta por la Ecuación Normal:

In [None]:
sgd_reg.intercept_, sgd_reg.coef_

## Gradiente descendente por mini lotes

El último algoritmo de Gradient Descent que veremos se llama Gradient Descent por mini lotes.

Es fácil de entender una vez que conoces el descenso de gradiente estocástico y por lotes: en cada paso, en lugar de calcular los gradientes en función del conjunto de entrenamiento completo (como en GD por lotes) o en una sola instancia (como en GD estocástico), Mini- El GD por lotes calcula los gradientes en pequeños conjuntos aleatorios de instancias llamados mini lotes.

La principal ventaja de Mini-batch GD sobre Stochastic GD es que puede obtener un aumento del rendimiento de la optimización del hardware de las operaciones matriciales, especialmente cuando se utilizan GPU.

El progreso del algoritmo en el espacio de parámetros es menos errático que con Stochastic GD, especialmente con mini-lotes bastante grandes.

Como resultado, el GD de mini lotes terminará caminando un poco más cerca del mínimo que el GD estocástico, pero puede ser más difícil para él escapar de los mínimos locales (en el caso de problemas que sufren de mínimos locales, a diferencia de la regresión lineal ).

La figura 4-11 muestra las rutas tomadas por los tres algoritmos de descenso de gradiente en el espacio de parámetros durante
formación.

Todos terminan cerca del mínimo, pero el camino de Batch GD en realidad se detiene en el mínimo, mientras que Stochastic GD y Mini-batch GD continúan caminando.

Sin embargo, no olvide que Batch GD requiere mucho tiempo para dar cada paso, y Stochastic GD y Mini-batch GD también alcanzarían el mínimo si utilizara un buen programa de aprendizaje.

<img src='figure_4_11.jpg'> 

Comparemos los algoritmos que hemos discutido hasta ahora para la regresión lineal (recuerde que m es el número de instancias de entrenamiento y n es el número de características); consulte la Tabla 4-1.

In [None]:
from IPython.display import Image
Image('table_4_1.JPG',width=600,height=300)

## NOTA

Casi no hay diferencia después del entrenamiento: todos estos algoritmos terminan con modelos muy similares y hacen predicciones exactamente de la misma manera.

Page 186