# Evaluación y mejora de modelos: Elección de grados del polinomio
M5U5 - Ejercicio 1

## ¿Qué vamos a hacer?
- Transformar las características para aplicar polinomios de varios grados
- Identificar el grado de polinomio idóneo para cada característica
- Identificar cuando sufrimos desviación o sobre-ajuste debido a utilizar un grado de polinomio incorrecto

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Instrucciones
En muchas ocasiones, varios efectos de variables predictoras en la naturaleza tienen una influencia sobre la variable objetivo que no es lineal, pero se puede modelar dicha linealidad transformando los datos originales. Algunos de estos efectos, y por tanto transformaciones, son de tipo polinómico, raíz cuadradas, logarítmicos, etc.

P. ej., la iluminación solar, la temperatura, efectos temporales con ciclos diarios, etc., tienen un efecto polinómico sobre animales, plantas, etc.

En este ejercicio vamos a ver cómo podemos transformar nuestros datos para modelar un sistema, entrenar un modelo, de tipo lineal sobre unos datos no lineales, pero que podemos convertir para que lo sean, y por tanto podamos resolver por modelos lineales como el de regresión lineal o regresión logística lineal.

In [None]:
# TODO: Importa todas las librerías necesarias en esta celda

## Características polinomiales

Uno de los efectos más habituales son los polinómicos. Descubre más sobre los polinomios y sus grados: [Polinomio](https://es.wikipedia.org/wiki/Polinomio).

P. ej., modelo lineal con un único predictor *X* modelizado por un polinomio de grado 3: $Y = \theta_0 + \theta_1 \times X + \theta_2 \times X^2 + \theta_3 \times X^3 $

En este caso, con un único predictor *X*, en lugar de tomar sólo ese predictor tomamos otras características a partir del mismo, transformándolo al elevarlo al cuadrado y al cubo. Tomamos una característica, y obtenemos 2 más a partir de la misma.

Para identificar estos efectos en nuestros datasets, es importante familiarizarse con la forma gráfica característica de los más habituales.

Representa gráficamente polinomios de múltiples grados, juega con sus parámetros y estudia sus formas características resultantes:

In [None]:
# TODO: Representa gráficamente multiples polinomios

# Crea un ndarray con un espacio lineal de 100 puntos entre [0, 100] que utilizaremos como X, variable predictora, y eje horizontal de la gráfica
x = [...]

# Crea ndarrays con las transformaciones elevando dicha X a grados 2 a 6
for grado in [...]:
    termino = [...]    # Calcula el término correspondiente elevando x a dicho grado
    # Concatena dicho término a x como una nueva columna, horizontalmente, utilizando np.concatenate()
    [...]

# Representa dichos polinomios como gráficas de puntos y líneas como series de diferentes colores
# Añade una rejilla, título y leyendo para las series

[...]

## Creación del dataset

Una vez explorados gráficamente los efectos polinomiales, vamos a construir un dataset sintético con efectos polinomiales de grado alto, que tendremos que resolver transformando nuestros datos y probando varios grados polinomiales.

El proceso que vamos a seguir para generar el dataset, por tanto, es el siguiente:
1. Generar un dataset con 7 características, compuesto por una *X* pseudo-aleatoria, $X^2, X^3, ..., X^6$
1. Generar unos coeficientes/pesos $\Theta$ pseudo-aleatorios
1. Completar el dataset generando una *Y* a partir de algunas de las características de *X* y $\Theta$, hasta un grado dado
1. Añadir un parámetro de error o ruido blanco/gaussiano a *Y*

Para obtener la *Y* no vamos a utilizar todas las $n + 1$ características de *X*, sino sólo hasta un grado dado, para así poder entrenar varios modelos utilizando más o menos características de *X* hasta que demos con el grado de polinomio óptimo, ni pasándonos ni quedándonos cortos.

Una vez generado, como habitualmente, nuestro objetivo para la práctica será explorar cómo podemos transformar nuestros datos para modelizar un dataset originalmente no lineal, por modelos lineales, para obtener $\Theta$ y poder generar nuevas predicciones con nuestro modelo.

Generamos un dataset con más características de las utilizadas para calcular *Y* para así tener la flexibilidad de utilizar más o menos en el futuro.

Básate en tu código de generación manual de datasets (no por métodos de Scikit-learn) de ejercicios anteriores:

In [None]:
# TODO: Crea un dataset con efectos polinomiales de hasta grado 6
m = 100

# Genera una X de m valores pseudo-aleatorios en el rango [0, 1)
X_verd = [...]

# Concatena 5 nuevas columnas/características a X con los términos de grado correspondiente ([2, 6])
for grado in [...]:
    termino = [...]    # Calcula el término correspondiente elevando X a dicho grado
    # Concatena dicho término a X como una nueva columna, horizontalmente, utilizando np.concatenate()
    [...]

# Inserta una columna de 1. a la izquierda de X como término bias
X_verd = [...]

# ¿Cuál sería la n o nº de características/dimensiones de este dataset?
n = [...]

# Genera un ndarray de Theta verdadera pseudo-aleatoria [0, 1) 1D de tamaño (n + 1,)
Theta_verd = [...]

# Calcula la Y correspondiente a X y Theta verdadera con las primeras 4 características de X, osea, con un polinomio hasta grado 3 (b + X + X^2 + X^3)
# Utiliza las 4 primeras columnas de X y Theta verdadera
Y = [...]

# Añade un término de error blanco/gaussiano como un porcentaje +/-e añadido a Y
# Asegúrate de generar nºs pseudo-aleatorios de una distribución normal o gaussiana
e = 0.15

Y = Y + [...]

# Comprueba los valores y dimensiones de X e Y
[...]

## Extracción de características

Una vez generado el dataset base, vamos a generar un dataset de entrenamiento diferente. La razón para generar otro diferente es simular todos los pasos de la misma forma que haríamos en realidad, partiendo del mismo punto, de sólo disponer de un predictor o característica para *X* y de una *Y*, debiendo generar nuevas características transformadas ya que no sabríamos qué grado del polinomio sería el correcto para cada característica (aquí sólo consideramos un predictor base), ni siquiera si hay un efecto polinomial o no.

Vamos a generar una *X* de forma iterativa, probando un grado de polinomio, comprobando y volviendo a probar un grado diferente, hasta que consigamos una transformación que al modelizarla el modelo obtengamos unos resultados satisfactorios.

Para ello, parte de $X_{verd1}$ ($X_{verd0} = 1$) y genera un dataset *X* con un nº de características dado por el grado del polinomio a comprobar.

A lo largo del ejercicio, volverás a la siguiente celda de código y podras reejecutarla para comprobar un grade de polinomio diferente.

Para ello, utiliza los métodos de preprocesamiento de Scikit-learn:
- [preprocessing.PolynomialFeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html).
- [Polynomial features](https://scikit-learn.org/stable/modules/preprocessing.html#polynomial-features).

Genera una *X* a partir de $X_{verd1}$ jugando con transformaciones polinomiales de grado desde 2 hasta, en subsecuentes iteraciones, 5 o incluso 6.

*NOTA:* Los efectos polinomiales pueden ser de grado arbitrariamente alto. Sin embargo, lo más habitual en la naturaleza es encontrar efectos hasta grado 4, más allá son excepcionalmente raros y, por ello, también considerados habitualmente demasiado extremos en modelos estadísticos o científicos.

In [None]:
# TODO: Genera un dataset X a partir de X_verd[:, 1] por transformación polinomial con Scikit-learn
# NOTA: Cuidado con el comportamiento de PolynomialFeatures(), que añade término bias y términos polinomiales para múltiples características
grado = 2    # En subsecuentes iteraciones, modifica el nº de grado del polinomio

X = [...]

# Comprueba los valores y dimensiones de X e Y
[...]

### Preprocesamiento de datos

Como habitualmente, preprocesa tu dataset antes de continuar reordenando aleatoriamente los datos, normalizándolos si es necesario y dividiéndolos en subsets de entrenamiento y test:

In [None]:
# TODO: Preprocesa datos reordenándolos, normalizándolos y dividiéndolos en subsets de entrenamiento y test

## Entrenamiento del modelo

Hemos comenzado con la hipótesis de que podemos transformar nuestros datos con un polinomio de grado 2 para que un modelo lineal obtenga resultados satisfactorios.

Vamos a entrenar dicho modelo y evaluar sus resultados.

Entrena un modelo de regresión lineal por validación cruzada con [linear_model.RidgeCV](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeCV.html) y evalúalo con su coeficiente de determinación $R^2$ del método `model.score()` sobre el subset de test:

In [None]:
# TODO: Entrena la hipótesis del modelo por CV y evalúalo sobre el subset de test

### Evaluación de los residuos

Habitualmente, la mejor forma para evaluar si estamos planteando la hipótesis de patrón de los datos correcta, en este caso un efecto polinómico de grado 2, es explorar los residuos del modelo.

Calcula sus residuos sobre el subset de test y represéntalos gráficamente:

*NOTA:* Recuerda la definición de residuos, $\text{residuos} = (Y_{pred} - Y)$

In [None]:
# TODO: Calcula y representa gráficamente los residuos del modelo frente al dataset original

*¿Parecen aceptables? ¿Siguen algún patrón?*

## Iterar hasta encontrar la solución

Hemos planteado la hipótesis de que el grado óptimo de transformación polinomial sería 2, pero no hemos obtenido resultados satisfactorios. Por lo tanto, debemos iterar, volver atrás, plantear una nueva hipótesis de un grado superior, reejecutar las celdas y comprobar los resultados.

En la ciencia en general, ciencia de datos y ML, debemos siempre plantear múltiples hipótesis, comprobarlas y aceptarlas o descartarlas iterativamente. Para ello es fundamental documentar los experimentos que hemos ido realizando y sus resultados.

Anota los resultados de tus experimentos en la siguiente celda:

**Resultados:**
1. Polinomio de grado 2: $R^2$ = ...
1. Polinomio de grado 3: $R^2$ = ...
1. Polinomio de grado 4: $R^2$ = ...
1. Polinomio de grado 5: $R^2$ = ...
1. Polinomio de grado 6: $R^2$ = ...