# Gradient descent por batch vs mini-batch vs estocástico
M5U5 - Ejercicio 2

## ¿Qué vamos a hacer?
- Modificar nuestra implementación de batch gradient descent a mini-batch y estocástico
- Comprobar las diferencias entre el entrenamiento según los 3 métodos

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones

Hasta ahora hemos hablado de entrenamiento de modelos u optimización de funciones por descenso de gradiente. Sin embargo, hemos omitido que nos referíamos al descenso de gradiente de tipo "batch", que podríamos distinguir del mini-batch y del estocástico.

Para una comparación en detalle de los 3 tipos puedes acudir al contenido del curso. Sirva recordar simplemente:
- "Batch" = conjunto de datos de entrenamiento para 1 iteración, época o "epoch".
- Iteración o "epoch": iteración sobre entrenamiento, bucle tras el cual se actualizan los pesos de $\Theta$.
- Batch: Una iteración o "epoch" sobre todos los datos de entrenamiento antes de actualizar $\Theta$.
    - Lento pero estable, converge finalmente.
- Estocástico: Una iteración por cada ejemplo de entrenamiento.
    - Rápido al inicio pero muy inestable, le cuesta mucho más converger. No se puede paralelizar.
    - "Estocástico" ya que es mucho más aleatorio en su recorrido.
- Mini-batch: Una iteración por partición de datos de entrenamiento, p. ej. 10% de datos o 10 particiones.
    - Lo mejor de ambos mundos, más rápido que el batch, más estable que el estocástico, converge y se puede paralelizar.

Vamos a implementar los 3 tipos, tanto de forma manual o personalizada con Numpy como con Scikit-learn, y comparar sus características, en este caso para **regresión lineal**:

In [None]:
# TODO: Importa todas las librerías necesarias en esta celda

## Generación de dataset sintético y procesado de datos

Rescata tus celdas para crear un dataset sintético para regresión lineal, con métodos de Numpy o Scikit-learn:
- Crea un dataset sin término de error
- Reordena los datos aleatoriamente
- Normaliza los datos si es necesario
- Divide el dataset en subsets de entrenamiento y test, no haremos validación o regularización en este ejercicio.

In [None]:
# TODO: Crea un dataset sintético para regresión lineal sin término de error

In [None]:
# TODO: Reordena los datos de forma aleatoria

In [None]:
# TODO: Normaliza los datos si es necesario

In [None]:
# TODO: Divide el dataset en subsets de entrenamiento y test

## Gradient descent personalizado

### Batch gradient descent

Recuerda las ecuaciones de la función de coste y del descenso de gradiente para el batch gradient descent regularizadas:

$$ h_\theta(x^i) = Y = X \times \Theta^T $$
$$ J_\theta = \frac{1}{2m} [\sum\limits_{i=0}^{m} (h_\theta(x^i)-y^i)^2 + \lambda \sum\limits_{j=1}^{n} \theta^2_j] $$
$$ \theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_0^i $$
$$ \theta_j := \theta_j (1 - \alpha \frac{\lambda}{m}) - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i; \space j \in [1, n] $$

Vamos a recuperar la implementación de batch gradient descent que has utilizado en ejercicios anteriores para tomarla como base del gradient descent por mini-batches o estocástico.

Comienza por recuperar las celdas de implementación de la función de coste, su comprobación de implementación, del gradient descent regularizado, del entrenamiento de un modelo y de la comprobación de su implementación.

Una vez recuperadas, ejecuta las celdas, añadiéndole el sufijo `_batch` a las variables de la evolución de la función de coste y $\Theta$ final:

In [None]:
# TODO: Recupera la celda que implementa la función de coste

In [None]:
# TODO: Recupera la celda que comprueba la implementación de la función de coste

In [None]:
# TODO: Recupera la celda que implementa la función de descenso de gradiente

In [None]:
# TODO: Recupera la celda que entrena un modelo con un dataset de entrenamiento y unos hiper-parámetros dados

In [None]:
# TODO: Recupera la celda que comprueba la implementación de la función de descenso de gradiente

In [None]:
# TODO: Recupera la celda que representa gráficamente la evolución del historial de la función de coste vs las iteraciones

### Gradient descent estocástico

En el gradient descent estocástico, actualizamos los valores de $\Theta$ tras cada ejemplo, acabando una época cuando completamos una pasada por todos los ejemplos.

Por tanto, el algoritmo de entrenamiento será:
1. Reordenar los ejemplos de forma aleatoria (ya los hemos reordenado).
1. Inicializar $\Theta$ a valores aleatorios.
1. Para cada época, hasta un nº máx. de iteraciones:
    1. Por cada ejemplo de entrenamiento:
        1. Computa la predicción o hipótesis $h_\Theta(x^i)$
        1. Computa el coste, pérdida o error de dicha predicción
        1. Computa los gradientes de los coeficientes $\Theta$
        1. Actualiza los coeficientes $\Theta$

Por tanto, las ecuaciones de la función de coste y descenso de gradiente estocástico regularizadas son:

$$ h_\theta(x^i) = y^i = x^i \times \Theta^T $$
$$ J_\theta(x^i) = \frac{1}{2m} [(h_\theta(x^i) - y^i)^2 + \lambda \sum\limits_{j=1}^{n} \theta^2_j] $$
$$ \theta_0 := \theta_0 - \alpha \frac{1}{m} (h_\theta (x^i) - y^i) x_0^i $$
$$ \theta_j := \theta_j (1 - \alpha \frac{\lambda}{m}) - \alpha \frac{1}{m} (h_\theta (x^i) - y^i) x_j^i; \space j \in [1, n] $$

Ahora adapta tu celda de entrenamiento de modelo para gradient descent estocástico y entrena un modelo sobre los datos de entrenamiento:

*NOTA:* Intenta utilizar los mismos hiper-parámetros y Theta inicial para todos los modelos, para poder compararlos a posteriori en las mismas circunstancias.

In [None]:
# TODO: Adapta la función de descenso de gradiente regularizado a estocástico
# NOTA: Comprueba primero la implementación antes de modificarla. Puede que no sean necesarios muchos cambios...

In [None]:
# TODO: Entrena un modelo por descenso de gradiente estocástico
# Añade el sufijo "_estocastico" a las variables resultado para distinguirlo de otros modelos

In [None]:
# TODO: Comprueba la implementación del descenso de gradiente estocástico en varias circunstancias

In [None]:
# TODO: Representa gráficamente la evolución de la función de coste

### Mini-batch gradient descent

En el gradient descent con mini-batches, actualizamos los valores de $\Theta$ tras cada subconjunto de ejemplos o "batch", una partición del subset de entrenamiento, acabando una época cuando completamos una pasada por todos los "batches" o ejemplos.

Por tanto, el algoritmo de entrenamiento será:
1. Reordenar los ejemplos de forma aleatoria (ya los hemos reordenado).
1. Para cada época, hasta un nº máx. de iteraciones:
    1. Inicializar $\Theta$ a valores aleatorios.
    1. Dividir los ejemplos de entrenamiento en *k* "batches".
    1. Por cada "batch":
        1. Computa la predicción o hipótesis $h_\Theta(x^i)$ sobre todo el "batch"
        1. Computa el coste, pérdida o error de dicha predicción sobre el mismo
        1. Computa los gradientes de los coeficientes $\Theta$
        1. Actualiza los coeficientes $\Theta$

Por tanto, las ecuaciones de la función de coste y descenso de gradiente con mini-batches regularizadas son:

$$ m_k = \text{nº de ejemplos en el "batch" actual} $$
$$ h_\theta(x^i) = Y = X \times \Theta^T $$
$$ J_\theta = \frac{1}{2 m_k} [\sum\limits_{i=0}^{m_k} (h_\theta(x^i)-y^i)^2 + \lambda \sum\limits_{j=1}^{n} \theta^2_j] $$
$$ \theta_0 := \theta_0 - \alpha \frac{1}{m_k} \sum_{i=0}^{m_k}(h_\theta (x^i) - y^i) x_0^i $$
$$ \theta_j := \theta_j (1 - \alpha \frac{\lambda}{m_k}) - \alpha \frac{1}{m_k} \sum_{i=0}^{m_k}(h_\theta (x^i) - y^i) x_j^i; \space j \in [1, n] $$

Ahora adapta tu celda de entrenamiento de modelo para gradient descent estocástico y entrena un modelo sobre los datos de entrenamiento:

*NOTA:* Intenta utilizar los mismos hiper-parámetros y Theta inicial para todos los modelos, para poder compararlos a posteriori en las mismas circunstancias.

In [None]:
# TODO: Adapta la función de descenso de gradiente regularizado a mini-batch
# NOTA: Comprueba primero la implementación antes de modificarla. Puede que no sean necesarios muchos cambios...

In [None]:
# TODO: Entrena un modelo por descenso de gradiente con mini-batches
# Añade el sufijo "_mini_batch" a las variables resultado para distinguirlo de otros modelos

In [None]:
# TODO: Comprueba la implementación del descenso de gradiente con mini-batches en varias circunstancias

In [None]:
# TODO: Representa gráficamente la evolución de la función de coste

## Comparación de métodos

Responde a las siguientes preguntas en la siguiente celda:
*PREGUNTAS:*
1. *¿Cuánto era necesario modificar las funciones de descenso de gradiente?*
1. *¿Qué modelo ha tenido menor coste final?*
1. *¿Qué modelo ha tardado menos tiempo en entrenarse/converger?*
1. *¿Cómo han sido las evoluciones de la función de coste? ¿Han sido comparables en cuanto a estabilidad, p. ej.?*

*RESPUESTAS:*
1. ...
1. ...
1. ...
1. ...

### Comparación de residuos y precisión

Calcula la precisión como RMSE y representa gráficamente los residuos de los 3 modelos:

In [None]:
# TODO: Calcula el RMSE de los 3 modelos

In [None]:
# TODO: Representa gráficamente los residuos de los 3 modelos
# Usa una gráfica de puntos con 3 series de colores diferentes y su leyenda
# Incluye una rejilla

*PREGUNTA:* ¿Aprecias diferencias entre ellos?

## Gradient descent con Scikit-learn

Ahora entrena 3 modelos y compara su rendimiento utilizando los métodos de Scikit-learn, en concreto regresión lineal por [linear_model.SGDRegressor](https://scikit-learn.org/0.15/modules/generated/sklearn.linear_model.SGDRegressor.html) con sus métodos `fit()` y [partial_fit()](https://scikit-learn.org/0.15/modules/generated/sklearn.linear_model.SGDRegressor.html#sklearn.linear_model.SGDRegressor.partial_fit):

In [None]:
# TODO: Entrena un modelo por descenso de gradiente en batch con Scikit-learn
# Añade el sufijo "_batch" a las variables resultado para distinguirlo de otros modelos
# Muestra su tiempo de entrenamiento
# Calcula su coste y RMSE final
# Representa gráficamente sus residuos

In [None]:
# TODO: Entrena un modelo por descenso de gradiente estocástico con Scikit-learn
# Añade el sufijo "_estocastico" a las variables resultado para distinguirlo de otros modelos
# Muestra su tiempo de entrenamiento
# Calcula su coste y RMSE final
# Representa gráficamente sus residuos

In [None]:
# TODO: Entrena un modelo por descenso de gradiente coni mini-batches con Scikit-learn
# Añade el sufijo "_mini_batch" a las variables resultado para distinguirlo de otros modelos
# Muestra su tiempo de entrenamiento
# Calcula su coste y RMSE final
# Representa gráficamente sus residuos

*PREGUNTA:* ¿Aprecias diferencias entre ellos?