# Linear Regression: Synthetic example with Scikit-learn
M2U3 - Exercise 6

## What are we going to do?
- We will solve a multivariate linear regression model using Scikit-learn

Remember to follow the instructions for the submission of assignments indicated in [Submission Instructions](https://github.com/Tokio-School/Machine-Learning-EN/blob/main/Submission_instructions.md).

## Instructions

Once we developed a hands-on implementation of the multivariate linear regression algorithm with Numpy exclusively, we have been able to see in depth the steps to follow, how the internal mathematical algorithm works, and how all the hyperparameters affect it.

Having a good understanding of how these ML models work, let's see how to use them with the functions of the Scikit-learn ML framework.

In this exercise you will have a blank template with the steps we have followed in previous exercises, which you will have to complete with your code following those steps, but this time using Scikit-learn methods.

In each cell we will suggest a Scikit-learn function that you can use. We won't give you more information about it here, because we want you to look it up for yourself in the documentation: how it works, the algorithms it implements (some of them will be slightly different from the ones we have seen in the course, don't worry as the important thing is the base), arguments, examples, etc.

It sounds like a truism, but I'm sure you will agree with us that the ability to find relevant information in the documentation at all times is extremely important, and it can often cost us a little more than it should :).

Also take the opportunity to dive deeper into the documentation and discover interesting aspects of the framework. We will continue to work with it in subsequent exercises.

In [None]:
# TODO: Import all the necessary modules into this cell

import numpy as np

from matplotlib import pyplot as plt

## Create a synthetic dataset for linear regression

- Add a modifiable bias and error term.

In [None]:
# TODO: Create a synthetic dataset for linear regression with Scikit-learn
# You can use the sklearn.datasets.make_regression() function
# Remember to always use a given random start state to maintain reproducibility

## Preprocess the data

- Randomly reorder the data..
- Normalise the data..
- Dvide the data into training and test subsets.

*Note*: Why did we use only 2 training and test subsets this time, with no validation subset? Because we will use *k-fold* for our cross validation.

In [None]:
# TODO: Randomly reorder the data
# You can use the sklearn.utils.shuffle() function

In [None]:
# TODO: Normalise the examples
# You can use the sklearn.preprocessing.StandardScaler() class

*Note*: This scaling is equivalent to the basic normalisation we have seen throughout the course. Another more convenient but more complex to comprehend normalisation for more advanced models would be the one implemented in *sklearn.preprocessing.normalize*.

You can find all the available preprocessing classes and functions here: [Sklearn docs: 6.3. Preprocessing data](https://scikit-learn.org/stable/modules/preprocessing.html)

And a graphical comparison: [Compare the effect of different scalers on data with outliers](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html)

In [None]:
# TODO: Divide the dataset into training and test subsets
# You can use the sklearn.model_selection.train_test_split() function

## Train an initial model

- Train an initial model on the training subset without regularisation.
- Test the suitability of the model.
- Check if it suffers from deviation or overfitting.

To train a simple multivariate linear regression model, you can use the [sklearn.linear_model.LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression) class

You can consult a complete training example: [Linear Regression Example](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py)

In [None]:
# TODO: Train a baseline linear regression model on the training subset without regularisation
# Adjust the intercept/bias term and do not normalise the features, as we have already normalised them

Comprueba la idoneidad del modelo aplicado a este dataset. Para ello puedes usar:
- El coeficiente de determinación R^2 del método [LinearRegression.score()](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.score)
- La función [sklearn.metrics.mean_squared_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error) (permite devolver el MSE o RMSE)
- Otras [métricas para regresión](https://scikit-learn.org/stable/modules/classes.html#regression-metrics)

Prueba varios de los métodos para conocerlos mejor y ver sus posibles diferencias:

In [None]:
# TODO: Comprueba la idoneidad del modelo evaluándolo sobre el set de test
# Comprueba 3 de las métricas anteriores

Para comprobar si pudiera existir desviación o sobreajuste, podemos calcular p. ej. el RMSE sobre las predicciones del subset de entrenamiento y sobre las del de test:

In [None]:
# TODO: Comprueba si la evaluación sobre ambos subsets es similar con el RMSE

## Hallar la regularización óptima por validación cruzada o *k-fold*

- Entrena un modelo por cada valor de regularización a considerar.
- Entrénalos y evalúalos sobre una divisón del subset de entrenamiento por K-fold.
- Escoge el modelo y su regularización óptimos.

Ahora vamos a usar un algoritmo de regresión lineal más complejo, la clase [sklearn.linear_model.Ridge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge) que nos permite establecer un parámetro de regularización L2.

En esta función, el argumento de regularización se denomina *alpha*, aunque no debemos confundirlo con el ratio de aprendizaje.

La regularización que hemos visto durante el curso es la que implementan la mayoría de algoritmos de Scikit-learn, siendo su denominación común "L2" o "L2-norm" en inglés.

Considera unos parámetros de regularización L2 en el rango logarítmico: 0.1, 0.01, 0.001, 0.0001, etc.

Puedes guiarte por este enlace: [K-fold](https://scikit-learn.org/stable/modules/cross_validation.html#k-fold)

In [None]:
# TODO: Entrena un modelo diferente por cada alpha sobre un fold de K-fold diferente

# Usa una función de Numpy para crear un espacio logarítmico de >5 valores entre [0, 1e-3]
alphas = [...]

# Crea k splits de K-fold
kfolds = [...]

# Itera sobre los splits para tus modelos y evalúalos en el subset de CV generado
linear_models = []
best_model = None
for train, cv in kfolds.split(X):
    # Entrena un modelo sobre el subset train
    # Recuerda establecer el parámetro alpha/regularización correspondiente, ajustar el bias y no normalizar
    # Evalúalo sobre el subset de CV usando su método model.score()
    # Guarda el modelo con el mejor score en la variable best_model y muestra el alpha del mejor modelo
    alpha = [...]
    print('Regularización L2:', alpha)
    
    model = [...]
    
    linear_models.append(model)
    
    # Si el modelo es mejor que el mejor modelo hasta ahora...
    best_model = [...]
    
    print('Regularización L2 del mejor modelo hasta ahora:', alpha)

## Evaluar el modelo finalmente sobre el subset de test

- Muestra los coeficientes e intercept del mejor modelo.
- Evalúa el mejor modelo sobre el subset de test inicial.
- Calcula los resíduos sobre el subset de test y represéntalos.

In [None]:
# TODO: Evalúa el mejor modelo sobre el subset de test inicial

# Muestra los coeficientes e intercept del mejor modelo entrenado
print('Coeficientes de intercept del modelo entrenado:')
print([...])    # Muestra el intercept como el primer coeficiente

# Realiza las predicciones sobre el subset de test
y_test_pred = [...]

# Calcula las métricas de evaluación del modelo: RMSE y coeficiente de determinación R^2
rmse = [...]
r2_score = [...]

print('Raíz del error cuadrático medio (RMSE): %.2f' % rmse)
print('Coeficiente de determinación: %.2f' % r2_score)

# Calcula los resíduos sobre el subset de test
residuals = [...]

# Represéntalos gráficamente
plt.figure(1)

# Completa con tu código
plt.show()

## Realizar predicciones sobre nuevos ejemplos

- Genera un nuevo ejemplo siguiendo el mismo patrón del dataset original.
- Normaliza sus características.
- Genera una predicción para dicho ejemplo.

In [None]:
# TODO: Realiza predicciones sobre un nuevo ejemplo creado manualmente

# Crea el nuevo ejemplo
X_pred = [...]

# Normaliza sus características
X_pred = [...]

# Genera una predicción para dicho ejemplo
y_pred = [...]