# Regresión lineal: Ejemplo sintético con Scikit-learn

## ¿Qué vamos a hacer?

- Resolver un modelo de regresión lineal multivariable usando Scikit-learn.

Una vez desarrollada una implementación a mano del algoritmo de regresión lineal multivariable sobre Numpy exclusivamente, hemos podido ver en profundidad los pasos a seguir, cómo funciona el algoritmo matemático interno, y cómo le afectan todos los hiper-parámetros.

Habiendo entendido bien entonces cómo funcionan dichos modelos de ML, vamos a ver cómo utilizarlos con las funciones del framework de ML de Scikit-learn.

En este ejercicio tendrás una plantilla en blanco con los pasos que hemos seguido en ejercicios anteriores, que tendrás que completar con tu código siguiendo dichos pasos, pero esta vez usando algunas funciones de Scikit-learn.

En cada celda te sugeriremos una función de Scikit-learn que puedes usar. No te daremos más información aquí sobre ella, porque queremos que la busques por ti mismo en la documentación: su funcionamiento, algoritmos que implementa (algunos serán ligeramente diferentes a los que hemos visto en el curso, no te preocupes puesto que lo importante es la base), argumentos, ejemplos, etc.

Parece de perogrullo, pero seguro que estarás de acuerdo con nosotros que la habilidad de saber encontrar la información relevante en cada momento en la documentación es muy importante, y muchas veces nos puede costar algo más de lo debido :).

Aprovecha también para bucear más en la documentación y descubrir aspectos interesantes del framework. Seguiremos trabajando con él en ejercicios posteriores.

In [None]:
# TODO: Importa todos los módulos necesarios en esta celda

import numpy as np
from matplotlib import pyplot as plt

## Crear un dataset sintético para regresión lineal

- Añádele un término de bias y de error modificable.

In [None]:
# TODO: Crea un dataset sintético para regresión lineal con Scikit-learn
# Puedes usar la función sklearn.datasets.make_regression()
# Recuerda usar siempre un inicio de estado aleatorio determinado para mantener la reproducibilidad

## Preprocesar los datos

- Reordenarlos aleatoriamente.
- Normalizarlos.
- Dividirlos en subsets de entrenamiento y test.

*Nota*: ¿Por qué esta vez usamos 2 subsets de entrenamiento y test únicamente, sin CV? Porque usaremos *k-fold* para nuestra validación cruzada.

In [None]:
# TODO: Reordena los datos aleatoriamente
# Puedes usar la función sklearn.utils.shuffle()

In [None]:
# TODO: Normaliza los ejemplos
# Puedes usar la clase sklearn.preprocessing.StandardScaler()

*Nota*: Este escalado es equivalente al normalizado básico que hemos visto durante el curso. Otra normalización más conveniente en modelos más avanzados pero más compleja de entender sería la implementada en *sklearn.preprocessing.normalize*.

Puedes encontrar todos las clases y funciones de preprocesamiento disponibles aquí: [Sklearn docs: 6.3. Preprocessing data](https://scikit-learn.org/stable/modules/preprocessing.html)

Y una comparativa gráfica: [Compare the effect of different scalers on data with outliers](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html)

In [1]:
# TODO: Divide el dataset en los subsets de entrenamiento y test
# Puedes usar la función sklearn.model_selection.train_test_split()

## Entrenar un modelo inicial

- Entrenar un modelo inicial sobre el subset de entrenamiento sin regularización.
- Comprueba la idoneidad del modelo.
- Comprueba si existe desviación o sobreajuste.

Para entrenar un modelo simple de regresión lineal multivariable, puedes usar la clase [sklearn.linear_model.LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)

Puedes consultar un ejemplo completo de entrenamiento: [Linear Regression Example](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py)

In [None]:
# TODO: Entrena un modelo de regresión lineal más simple sobre el subset de entrenamiento sin regularización
# Ajusta el término de intercept/bias y no normalices las características, puesto que las hemos normalizado ya

Comprueba la idoneidad del modelo aplicado a este dataset. Para ello puedes usar:
- El coeficiente de determinación R^2 del método [LinearRegression.score()](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.score)
- La función [sklearn.metrics.mean_squared_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error)
- La función [sklearn.metrics.r2_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html#sklearn.metrics.r2_score)

Prueba los 3 métodos para conocerlos mejor y ver sus posibles diferencias:

In [None]:
# TODO: Comprueba la idoneidad del modelo evaluándolo sobre el set de test
# Comprueba las 3 métricas anteriores

Para comprobar si pudiera existir desviación o sobreajuste, podemos calcular p. ej. el error cuadrado medio sobre las predicciones del subset de entrenamiento y sobre las del de test:

In [2]:
# TODO: Comprueba si la evaluación sobre ambos subsets es similar con el mean_squared_error

## Hallar la regularización óptima por validación cruzada

- Entrena un modelo por cada valor de regularización a considerar.
- Entrénalos y evalúalos sobre una divisón del subset de entrenamiento por K-fold.
- Escoge el modelo y regularización óptimos.

Ahora vamos a usar un algoritmo de regresión lineal más complejo, la clase [sklearn.linear_model.Ridge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge) que nos permite establecer un parámetro de regularización L2.

En esta función, dicho parámetro se denomina *alpha*, aunque no debemos confundirlo con el ratio de aprendizaje.

La regularización L2 es ligeramente diferente al parámetro *lambda* que hemos visto durante el curso, aunque comparten una base común. Es la regularización que implementan la mayoría de algoritmos de Scikit-learn, aunque por si complejidad no la estudiaremos aquí. ¡Aunque, por supuesto, puedes investigar más sobre ella si quieres!

Considera unos parámetros de regularización L2 en el rango logarítmico [0, 0.1]: 0.1, 0.01, 0.001, 0.0001, etc.

Puedes guiarte por este enlace: [K-fold](https://scikit-learn.org/stable/modules/cross_validation.html#k-fold)

In [None]:
# TODO: Entrena un modelo diferente por cada alpha sobre un fold de K-fold diferente

# Usa una función de Numpy para crear un espacio logarítmico de 5 valores entre [0, 0.1]
alphas = [...]

# Crea 5 splits de K-fold
kf = [...]

# Itera sobre los 5 splits para tus modelos y evalúalos en el subset de CV generado
linear_models = []
best_model = None
for train, cv in kf.split(X):
    # Entrena un modelo sobre el subset train
    # Recuerda establecer el parámetro alpha correspondiente, ajustar el bias y no normalizar
    # Evalúalo sobre el subset cv usando su método score()
    # Guarda el modelo con el mejor score en la variable best_model y muestra el alpha del mejor modelo
    alpha = [...]
    print('Regularización L2 usada:', alpha)
    
    linear_models[...] = [...]
    
    # Si el modelo es mejor que el mejor modelo hasta ahora...
    best_model = [...]
    print('Regularización L2 del mejor modelo hasta ahora:', alpha)

## Evaluar el modelo finalmente sobre el subset de test

- Muestra los coeficientes e intercept del mejor modelo.
- Evalúa el mejor modelo sobre el subset de test inicial.
- Calcula los resíduos sobre el subset de test y represéntalos.

In [None]:
# TODO: Evalúa el mejor modelo sobre el subset de test inicial

# Muestra los coeficientes e intercept del mejor modelo entrenado
print('Coeficientes de intercept del modelo entrenado')
print()    # Muestra el intercept como el primer coeficiente

# Realiza las predicciones sobre el subset de test
y_test_pred = [...]

# Calcula las métricas de evaluación del modelo: error cuadrático medio y coeficiente de determinación
mse = [...]
r2_score = [...]

print('Error cuadrático medio: %.2f' % mse)
print('Coeficiente de determinación: %.2f' % r2_score)

# Calcula los resíduos sobre el subset de test
res = [...]

# Represéntalos gráficamente
plt.figure(1)

# Completa con tu código

plt.show()

## Realizar predicciones sobre nuevos ejemplos

- Genera un nuevo ejemplo siguiendo el mismo patrón del dataset original.
- Normaliza sus características.
- Genera una predicción para dicho ejemplo.

In [None]:
# TODO: Realiza predicciones sobre un nuevo ejemplo creado manualmente

# Crea el nuevo ejemplo
X_pred = [...]

# Normaliza sus características
X_pred = [...]

# Genera una predicción para dicho ejemplo
y_pred = [...]