# Regresión lineal: Comparación de valores de regularización

## ¿Qué vamos a hacer?
- Crear un dataset sintético para regresión lineal multivariable con término de error aleatorio
- Entrenar 3 modelos de regresión lineal diferentes sobre dicho dataset, con diferentes valores de *lambda*
- Comparar el efecto del valor de *lambda* sobre el modelo, su precisión y sus resíduos gráficamente

## Crear un dataset sintético con error para entrenamiento y test final

Vamos a comenzar, como siempre, creando un dataset sintético para regresión lineal, con término de bias y término de error.

En esta ocasión vamos a crear 2 datasets, uno para entrenamiento y otro para test final, siguiendo el mismo patrón, aunque con tamaños diferentes. Vamos a entrenar los modelos con el primer dataset y comprobar posteriormente con el segundo cómo se comportarían ante datos que no han "visto" previamente en el proceso de entrenamiento, que son completamente nuevos para ellos.

In [None]:
# TODO: Genera un dataset sintéitico manualmente, con término de bias y término de error

m = 100
n = 3

X_train = [...]
X_test = [...]    # El tamaño del dataset de test debe ser un 25% del original

Theta_verd = [...]

error = 0.25

Y_train = [...]
Y_test = [...]

# Comprueba los valores y dimensiones de los vectores
print('Theta a estimar y sus dimensiones:')
print()
print()

# Comprueba X_train, X_test, Y_train e Y_test
print('Primeras 10 filas y 5 columnas de X e Y:')
print()
print()
print()
print()

print('Dimensiones de X e Y:')
print()
print()

## Entrenar 3 modelos diferentes con diferentes valores de *lambda*

Ahora vamos a entrenar 3 modelos diferentes con diferentes valores de *lambda*.

Para ello, comienza por copiar tus celdas con el código que implementa la función de coste y el gradient descent regularizados:

In [None]:
# TODO: Copia aquí las celdas o el código para implementar 2 funciones con la función de coste y el gradient
# descent regularizados

Vamos a entrenar los modelos. Para ello, recuerda que con Jupyter puedes simplemente modificar las celdas de código y las variables quedarán en memoria.

Por tanto, puedes p. ej. modificar el nombre de las siguientes variables, cambiando "1" por "2" y "3", y simplemente reejecutar la celda para almacenar los resultados de los 3 modelos.

Si te encuentras con alguna dificultad, también puedes copiar 2 veces la celda de código y tener 3 celdas para entrenar a 3 modelos con nombres de variables diferentes.

In [None]:
# TODO: Comprueba tu implementación entrenando un modelo sobre el dataset sintético creado previamente

# Crea una theta inicial con un valor dado.
theta_ini = [...]

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
lambda_ = [0., 1e-2, 1e-1]    # Usaremos 3 valores diferentes
e = 1e-3
iter_ = 1e3    # Comprueba que tu función puede admitir valores float o modifícalo

print('Hiper-arámetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
# Usa lambda_[i], con i en el rango [0, 1, 2] para cada modelo
j_hist_1, theta_final_1 = gradient_descent([...])

print('Tiempo de entrenamiento (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores de la función de coste')
print(j_hist_1[...])
print('\Coste final:')
print(j_hist_1[...])
print('\nTheta final:')
print(theta_final_1)

print('Valores verdaderos de Theta y diferencia con valores entrenados:')
print(Theta_verd)
print(theta_final_1 - Theta_verd)

## Comprobar gráficamente el efecto de *lambda* sobre los modelos

Ahora vamos a comprobar los 3 modelos entre sí.

Vamos a comenzar por comprobar el coste final, una representación de la precisión de los mismos:

In [None]:
# TODO: Muestra el coste final de los 3 modelos:

print('Coste final de los 3 modelos:')
print(j_hist_1[...])
print(j_hist_2[...])
print(j_hist_3[...])

*¿Cómo afecta un mayor valor de *lambda* al coste final en este dataset?*

Vamos a representar los dataset de entrenamiento y test, para comprobar que siguen un patrón similar:

In [None]:
# TODO: Representa X_train vs Y_train y X_test vs Y_test gráficamente

plt.figure(1)

plt.title([...])
plt.xlabel([...])
plt.ylabel([...])

# Recuerda usar colores diferentes
plt.scatter([...])
plt.scatter([...])

# ¿Te atreves? Busca en la documentación cómo crear una leyenda de las diferentes series y sus colores

plt.show()

Ahora vamos a comprobar las predicciones de cada modelo sobre el dataset de entrenamiento, para comprobar cómo se ajusta la recta a los valores de entrenamiento en cada caso:

In [None]:
# TODO: Calcula las predicciones para cada modelo sobre X_train

Y_train_pred1 = [...]
Y_train_pred2 = [...]
Y_train_pred3 = [...]

In [None]:
# TODO: Representa gráficamente para cada modelo sus predicciones sobre X_train

# Si te da un error con otras gráficas del notebook, usa la línea inferior o déjala comentada
plt.figure(2)

fig, (ax1, ax2, ax3) = plt.subplots(3, sharex=True, sharey=True)
fig.suptitle([...])

ax1.plot()
ax1.scatter()

ax2.plot()
ax2.scatter()

ax3.plot()
ax3.scatter()

Al tener el dataset de entrenamiento un término de error del 25%, puede haber diferencias significativas entre los datos del dataset de entrenamiento y el dataset de test.

Vamos a comprobar qué ocurre con las predicciones cuando las representamos sobre el dataset de test, sobre datos que los modelos no han visto anteriormente:

In [None]:
# TODO: Calcula las predicciones para cada modelo sobre X_test

Y_test_pred1 = [...]
Y_test_pred2 = [...]
Y_test_pred3 = [...]

In [None]:
# TODO: Representa gráficamente para cada modelo sus predicciones sobre X_test

# Si te da un error con otras gráficas del notebook, usa la línea inferior o déjala comentada
plt.figure(2)

fig, (ax1, ax2, ax3) = plt.subplots(3, sharex=True, sharey=True)
fig.suptitle([...])

ax1.plot()
ax1.scatter()

ax2.plot()
ax2.scatter()

ax3.plot()
ax3.scatter()

¿Qué sucede? En algunos casos, en función de los parámetros utilizados puede que te sea más o menos fácil apreciarlo.

Cuando el modelo tiene un factor de regulación *lambda* bajo o nulo, se ajusta demasiado a los datos con los que se entrena, consiguiendo una curva muy pegada y una precisión máxima... sobre dicho dataset.

Sin embargo, en la vida real, posteriormente pueden llegar datos sobre los que no hemos entrenado el modelo que tengan alguna pequeña variación sobre los datos originales.

En dicha situación vamos a preferir un valor de *lambda* más alto, que nos permita tener una precisión mayor para los nuevos datos, aunque perdamos algo de precisión para los datos del dataset de entrenamiento.

Podemos por tanto pensar en la regularización como un alumno que tiene las preguntas del examen antes de presentarse:
- Si luego le caen dichas preguntas, va a tener una nota (o precisión) muy alta, puesto que ya "ha visto" las preguntas previamente.
- Si luego las preguntas son diferentes, puede tener una nota bastante alta, en función de lo similares que sean.
- Sin embargo, si las preguntas son totalmente diferentes, va a tener una nota muy baja, porque no es que hubiera estudiado mucho la asignatura, sino que sus notas eran altas sólo por saber el resultado de antemano.

## Comprobar los resíduos sobre el subset de test final

Para este último punto no te daremos más instrucciones, sino que será un reto para ti, aunque ya lo has resuelto previamente.

*¿Te atreves a calcular los residuos para los 3 modelos y representarlos gráficamente?*

De esta forma vas a poder comparar tus 3 modelos sobre los 2 datasets.

Calcúlalos tanto para el dataset de entrenamiento como para el de testing. Puedes hacerlo con celdas diferentes para poder apreciar sus diferencias a la vez.

*Consejos*:
- Cuidado con las escalas de los ejes X e Y a la hora de hacer las comparaciones.
- Para poder verlos a la vez, puedes crear 3 subgráficas horizontales, en lugar de verticales, con "plt.subplots(1, 3)".

Si no aprecias claramente dichos efectos sobre tus datasets, puedes probar a modificar los valores iniciales:
- Con un nº de ejemplos *m* mayor, para que los modelos puedan ser más precisos.
- Con un término de error mayor, para que haya más diferencia o variación entre ejemplos.
- Con un tamaño del dataset de test sobre el de entrenamiento menor, para que haya más diferencias entre ambos datasets (al tener más datos, los valores pueden suavizarse más).
- Etc.