
# Evaluación y Refinamiento del Modelo

## Objetivos

Después de completar este laboratorio será capas de:

*   Evaluar y perfeccionar modelos de predicción.


## Tabla de Contenidos

1.  [Importar y Preparar los Datos de Análisis](#0)
2.  [Evaluación del Modelo](#2)
3.  [Sobreajuste, Subajuste y Selección de Modelo](#4)
4.  [Regresión de Cresta](#6)
5.  [Búsqueda de Grillas](#8)

# 1. Importar y Preparar los Datos de Análisis <a id="0"></a>

## Carga y Preparación de Datos

Instalar e importar Bibliotecas:

In [None]:
# Instalar bibliotecas específicas para trabajar en el laboratorio

#!pip install numpy
#!pip install pandas
#!pip install matplotlib
#!pip install seaborn
#!pip install sklearn
#!pip install ipywidgets

Importar los paquetes de procesamiento y visualización de datos **pandas**, **numpy**, **matplotlib**,  **seaborn** y **ipywidgets**. No olvidar de poner `% matplotlib inline` para que las gráficas puedan aparecer en *Jupyter Notebook*.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from ipywidgets import interact
%matplotlib inline 

Cargar los datos y guardarlos en el dataframe `df`:

In [None]:
# ruta de datos

path='datos/module_5_auto.csv'
df = pd.read_csv(path)

Inicialmente, se usarán solo los datos numéricos:

In [None]:
df=df._get_numeric_data()
df.head()

## Funciones para Graficar


In [None]:
def GraficoDistribucion(FuncionRoja, FuncionAzul, NombreRojo, NombreAzul, Titulo):
    ancho = 12
    alto = 10
    plt.figure(figsize=(ancho, alto))

    ax1 = sns.kdeplot(FuncionRoja, color="r", label=NombreRojo)
    ax2 = sns.kdeplot(FuncionAzul, color="b", label=NombreAzul, ax=ax1)

    plt.title(Titulo)
    plt.xlabel('Precio (en dolares)')
    plt.ylabel('Proporción de Vehículos')
    plt.legend(loc='upper right')

    plt.show()
    plt.close()

In [None]:
def GraficoPoli(x_entrena, x_prueba, y_entrena, y_prueba, rl,transform_poli):
    ancho = 12
    alto = 10
    plt.figure(figsize=(ancho, alto))
    
    
    # datos de entrenamiento 
    # datos de pruebas
    # rl: objeto de regresión lineal 
    # transform_poli: objeto de transformación polinomial
 
    x_maximo=max([x_entrena.values.max(), x_prueba.values.max()])

    x_minimo=min([x_entrena.values.min(), x_prueba.values.min()])

    x=np.arange(x_minimo, x_maximo, 0.1)


    plt.plot(x_entrena, y_entrena, 'ro', label='Datos de Entrenamiento')
    plt.plot(x_prueba, y_prueba, 'go', label='Datos de Prueba')
    plt.plot(x, rl.predict(transform_poli.fit_transform(x.reshape(-1, 1))), label='Función Pronosticada')
    plt.ylim([-10000, 60000])
    plt.ylabel('Precio')
    plt.legend()

# 2. Evaluación del Modelo <a id="2"></a>


Un aspecto importante para probar un modelo es dividir los datos en **datos de entrenamiento** y **datos de prueba**. Se pondrán los datos de la variable de destino precio `price` en un dataframe separado con el nombre de `y_datos`.

In [None]:
y_datos = df[['price']]
y_datos

Después, se procede a quitar la columna del precio del dataframe original y este se almacena en un nuevo dataframe con el nombre de `x_datos`:

In [None]:
x_datos=df.drop('price',axis=1)
x_datos

Ahora, se procede a dividir aleatoriamente los datos en **datos de entrenamiento** y **datos de prueba** usando la función `train_test_split`.

In [None]:
from sklearn.model_selection import train_test_split

x_entrena, x_prueba, y_entrena, y_prueba = train_test_split(x_datos, y_datos, test_size=0.10, random_state=1)

print("número de muestras de prueba:", x_prueba.shape[0])
print("número de muestras de entrenamiento:",x_entrena.shape[0])


El parámetro de tamaño de prueba `test_size` establece la proporción de datos que se dividen en el conjunto de prueba. En el ejemplo anterior, el conjunto de prueba es el 10% del conjunto total de datos.

---

**$\bigstar$ Pregunta:** 

Utilizar la función `train_test_split` para dividir el conjunto de datos de modo que el 40% de las muestras de datos se utilicen para la prueba. Establecer el parámetro `random_state` igual a cero. La salida de la función debe ser la siguiente: `x_entrena1`, `x_prueba`1, `y_entrena1` e `y_prueba1`.


In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

x_entrena1, x_prueba1, y_entrena1, y_prueba1 = train_test_split(x_datos, y_datos, test_size=0.40, random_state=0)

print("número de muestras de prueba:", x_prueba1.shape[0])
print("número de muestras de entrenamiento:",x_entrena1.shape[0])

-->

---

El siguiente paso es importar el método `LinearRegression` desde el módulo `linear_model`.

In [None]:
from sklearn.linear_model import LinearRegression

Una vez realizado la importación del método de regresión lineal se procede a crear objeto del tipo `LinearRegression`.

In [None]:
lre=LinearRegression()
lre

Luego, se ajusta/entrena el modelo usando el atributo/variables caballos de fuerza (`horsepower`):

In [None]:
lre.fit(x_entrena[['horsepower']], y_entrena)

Una vez terminado el entrenamiento se procede a calcular el valor de $R^2$ en los datos de prueba.

In [None]:
lre.score(x_prueba[['horsepower']], y_prueba)

Aquí, se puede observar que el valor de $R^2$ es mucho más pequeño usando los datos de prueba en comparación con los datos de entrenamiento.

In [None]:
lre.score(x_entrena[['horsepower']], y_entrena)

---

**$\bigstar$ Pregunta:** 

Encontrar el valor de $R^2$ en los datos de prueba usando el 40% del conjunto de datos para la prueba.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

x_entrena1, x_prueba1, y_entrena1, y_prueba1 = train_test_split(x_datos, y_datos, test_size=0.40, random_state=0)
lre1=LinearRegression()
lre1.fit(x_entrena1[['horsepower']],y_entrena1)
lre1.score(x_prueba1[['horsepower']],y_prueba1)

-->

---

A veces no se tiene suficientes datos de prueba; debido a esto, es posible que se desee realizar una validación cruzada. Se verán algunos métodos que se pueden usar para la validación cruzada.

## Calificación de la Validación Cruzada


La **validación cruzada** es un método de re-muestreo que se utiliza para evaluar modelos de aprendizaje automático cuando la muestra de datos es limitada y se usa principalmente para estimar la capacidad de un modelo de aprendizaje automático con datos no conocidos. Es decir, usar un conjunto limitado de datos para estimar cómo se espera que funcione el modelo en general cuando se use para hacer predicciones sobre datos que no se usaron durante el entrenamiento del modelo.

El método tiene un parámetro llamado `cv` que se refiere a la cantidad de grupos en los que se dividirá la conjunto de datos original. 

Es un método popular porque es simple de entender y porque generalmente da como resultado una estimación menos sesgada o menos optimista de la capacidad del modelo comparado con otros métodos, como la división simple de entrenamiento/prueba.

El procedimiento general de este método es el siguiente:
- Mezclar aleatoriamente el conjunto de datos.
- Dividir el conjunto de datos en `cv` grupos.
- Para cada grupo único:
  - Tomar uno de los grupos como el conjunto de datos de prueba.
  - Tomar los grupos restantes como el conjunto de datos de entrenamiento.
  - Entrenar/Ajustar el modelo con el conjunto de entrenamiento y evaluarlo en el conjunto de prueba.
  - Guardar la calificación de evaluación de $R^2$ del modelo actual y después descartar el modelo actual.
- Entregar el resumen de la capacidad de modelo usando la calificación de evaluación de las muestras del modelo.

![cross_val](imagenes/cross_val.png)

Lo primero que se debe hacer para realizar una validación cruzada es importar desde el módulo `model_selection` la función `cross_val_score`.

In [None]:
from sklearn.model_selection import cross_val_score

A continuación, se procede a crear la variable `R_cruce` que almacena el resultado del método `cross_val_score` con los parámetros del modelo de regresión linear ya creado `lre`, los datos del atributo/variable de los caballos de fuerza (`horsepower`) y los datos de la variable objetivo (`y_datos`). El parámetro `cv` determina el número de divisiones o subgrupos. En este caso son 4.

In [None]:
R_cruce = cross_val_score(lre, x_datos[['horsepower']], y_datos, cv=4)

La calificación por defecto de este método es el valor de $R^2$. Cada elemento del arreglo tiene el valor promedio de $R^2$ para cada iteración.

In [None]:
R_cruce

Adicionalmente, se puede calcular el promedio y la desviación estándar de la estimación completa.

In [None]:
print("El promedio de cada iteración es ", R_cruce.mean(), "y la desviación estándar es " , R_cruce.std())

También, se puede usar como calificación el valor del error cuadrático medio negativo **MSE-negativo** configurando el parámetro de la métrica (`score`) con el valor `neg_mean_squared_error`.

In [None]:
-1 * cross_val_score(lre,x_datos[['horsepower']], y_datos,cv=4,scoring='neg_mean_squared_error')

---

**$\bigstar$ Pregunta:** 

Calcular el promedio del valor de $R^2$ usando dos divisiones o grupos, luego encontrar el promedio del valor de $R^2$ para la estimación completa, todo esto utilizando el atributo/variable predictora de los caballos de fuerza (`horsepower`).

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

Rc=cross_val_score(lre,x_datos[['horsepower']], y_datos,cv=2)
print(Rc)
print(Rc.mean())

-->

---

También se puede usar la función `cross_val_predict` para predecir la salida. Esta función divide los datos en el número especificado de divisiones o grupos, con una división o grupo para prueba y las otras divisiones o grupos se usan para entrenamiento. Para hacer esto, lo primero que hay que hacer es importa dicha función.

In [None]:
from sklearn.model_selection import cross_val_predict

A continuación, se procede a crear la variable `yhat` que almacena el resultado del método `cross_val_predict` con los parámetros del modelo de regresión linear ya creado `lre`, los datos del atributo/variable de los caballos de fuerza (`horsepower`) y los datos de la variable objetivo (`y_datos`). El parámetro `cv` determina el número de divisiones, pliegues o cruces. En este caso son 4. Así, se produce la siguiente salida.

In [None]:
yhat = cross_val_predict(lre,x_datos[['horsepower']], y_datos,cv=4)
yhat[0:5]

# 3. Sobreajuste, Subajuste y Selección de Modelo <a id="4"></a>

**Subajuste**: se refiere a un modelo que no puede modelar los datos de entrenamiento, es decir, no es capaz de generalizar para nuevos datos de entrada. Esto ocurre cuando el modelo es muy simple y el ajuste o entrenamiento es insuficiente, lo cual, destruye la precisión del modelo. Suele suceder cuando se tiene pocos datos para construir un modelo preciso y también cuando se intenta construir un modelo lineal con datos no lineales.

**Sobreajuste**: se refiere a un modelo que modela los datos de entrenamiento demasiado bien. Esto ocurre cuando un modelo aprende el detalle, incluyendo el ruido y valores atípicos en los datos de entrenamiento, lo cual, puede derivar en un impacto negativo en el rendimiento del modelo cuando se aplican datos nuevos. Esto afecta negativamente a la capacidad de los modelos sobreajustados para generalizar y es más probable que ocurra con modelos no paramétricos y no lineales porque tienen más libertad para construir el modelo, por lo tanto, pueden construir modelos poco realistas.

**Buen Ajuste**: lo ideal es seleccionar un modelo en el punto óptimo entre el ajuste insuficiente y el ajuste excesivo, pero es muy difícil de hacer en la práctica.

Debido a lo anteriormente dicho es que se recomienda utilizar **datos de prueba fuera de muestra**, ya que pueden medir mucho mejor de qué tan bien funciona su modelo en el mundo real. Una de las razones para hacer esto, es no caer en un sobreajuste.

Para entender mejor esto se van a revisar algunos ejemplos. En particular, se da el caso que estas diferencias son más evidentes en la regresión lineal múltiple y la regresión polinomial, por lo que se explorará el subajuste y sobreajuste en este contexto.

<center>

![sobre-sub-ajuste](imagenes/sobre-sub-ajuste2.png)

</center>

## Subajuste

El subajuste ocurre cuando el modelo es muy simple o utiliza muy pocos datos para realizar el ajuste. Por lo tanto, al probar el modelo con el conjunto de prueba, el modelo no funciona tan bien, ya que no tiene la suficiente información para generalizar el modelo.

Se va a crear un objeto de regresión lineal múltiple `reg_lin` y entrenar el modelo usando los siguientes atributos/variables: caballos de fuerza (`horsepower`), peso en vacío (`curb-weight`), tamaño del motor (`engine-size`) y consumo de millas por galón en carretera (`highway-mpg`).

In [None]:
reg_lin = LinearRegression()
reg_lin.fit(x_entrena[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']], y_entrena)

Primero se va a generar una predicción usando los datos de entrenamiento.

In [None]:
y_hat_entrena = reg_lin.predict(x_entrena[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']])
y_hat_entrena[0:5]

A continuación se va a generar una predicción usando los datos de prueba.

In [None]:
y_hat_prueba = reg_lin.predict(x_prueba[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']])
y_hat_prueba[0:5]

Ahora, se procederá a realizar una evaluación del modelo usando los datos generados a partir de los datos de entrenamiento y los datos de prueba por separado. Para hacer esto, se van a utilizar las bibliotecas **seaborn** y **matplotlib** para generar los gráficos.

Se iniciará la evaluación examinando la distribución de los valores pronosticados que fueron generados a partir de los datos de entrenamiento.

In [None]:
Titulo = '\"y_entrena\" versus \"y_hat_entrena\"'
GraficoDistribucion(y_entrena['price'], y_hat_entrena[:,0], "Valores Actuales (Entrenamiento)", "Valores Pronosticados (Entrenamiento)", Titulo)

Figura 1: Gráfico de valores pronosticados utilizando los datos de entrenamiento en comparación con los valores reales de los datos de entrenamiento.

Hasta ahora, el modelo parece estar aprendiendo bien, cuando se utiliza como datos de predicción los mismos datos utilizados para el entrenamiento. Pero, ¿qué sucede cuando el modelo genera una predicción con datos nuevos que provienen del conjunto de datos de prueba? Cuando el modelo genera nuevos valores de pronóstico a partir de los datos de prueba, se observa que la distribución de los valores pronosticados son muy diferente de los valores de prueba reales.

In [None]:
Titulo = '\"y_prueba\" versus \"y_hat_prueba\"'
GraficoDistribucion(y_prueba['price'], y_hat_prueba[:,0], "Valores Actuales (Prueba)", "Valores Pronosticados (Prueba)", Titulo)

Figura 2: Gráfico del valor predicho utilizando los datos de prueba en comparación con los valores reales de los datos de prueba.

Comparando la *Figura 1* y la *Figura 2*, es evidente que la distribución de los datos de prueba en la *Figura 1* es mucho mejor para ajustar los datos. Esta diferencia en la *Figura 2* es evidente en el rango de 5000 a 15,000. Aquí es donde la forma de la distribución es extremadamente diferente. El siguiente paso es observar si la regresión polinomial también muestra una caída en la precisión de la predicción al analizar el conjunto de datos de prueba. Para ello, hay que importar el módulo respectivo.

In [None]:
from sklearn.preprocessing import PolynomialFeatures

## Sobreajuste

El sobreajuste ocurre cuando el modelo se ajusta al ruido, pero no al proceso subyacente. Por lo tanto, al probar el modelo con el conjunto de prueba, el modelo no funciona tan bien, ya que está modelando ruido, no el proceso subyacente que generó la relación. Para entender esta idea se va a crear un modelo polinomial de grado 5.

Se usará el 55% de los datos para entrenamiento y el 45% de los datos para pruebas.

In [None]:
x_entrena2, x_prueba2, y_entrena2, y_prueba2 = train_test_split(x_datos, y_datos, test_size=0.45, random_state=0)

Se realizará una transformación polinomial de grado 5 tomando como variable predictora el atributo de los caballos de fuerza (`horsepower`).

In [None]:
poli = PolynomialFeatures(degree=5)
x_entrena2_poli = poli.fit_transform(x_entrena2[['horsepower']])
x_prueba2_poli = poli.transform(x_prueba2[['horsepower']])
poli

Ahora, se creará un modelo de regresión lineal llamado `reg_pol` y se va a entrenar.

In [None]:
reg_pol = LinearRegression()
reg_pol.fit(x_entrena2_poli, y_entrena2)

Se puede ver un resultado del modelo usando el método `predict`. Para ello, se va a asignar los valores a la variable `y_hat_poli`.

In [None]:
y_hat_poli = reg_pol.predict(x_prueba2_poli)
y_hat_poli[0:5]

Mostrar los primeros cinco valores pronosticados y compararlos con los valores reales.

In [None]:
print("Valores pronosticados:", y_hat_poli[0:5])
print("Valores reales:", y_prueba2[0:5].values)

Se usará la función `GraficoPoli` que se definió al comienzo de este laboratorio para mostrar los datos de entrenamiento, los datos de prueba y la función pronosticada.

In [None]:
GraficoPoli(x_entrena2[['horsepower']], x_prueba2[['horsepower']], y_entrena2, y_prueba2, reg_pol,poli)

Figura 3: Un modelo de regresión polinomial donde los puntos rojos representan datos de entrenamiento, los puntos verdes representan datos de prueba y la línea azul representa la predicción del modelo.

Se puede observar que la función estimada parece rastrear los datos, pero a partir de los 200 caballos de fuerza, la función comienza a divergir de los puntos de datos.

El siguiente paso es evaluar el modelo con algunas métricas. Por ejemplo, calcular el valor de $R^2$ para los datos de entrenamiento.

In [None]:
reg_pol.score(x_entrena2_poli, y_entrena2)

Calcular el valor de $R^2$ para los datos de prueba.

In [None]:
reg_pol.score(x_prueba2_poli, y_prueba2)

Se puede observar que el valor de $R^2$ para los datos de entrenamiento es $0.5567$ mientras que el valor de $R^2$ en los datos de prueba fue $-29.87$. Cuanto menor sea el valor de $R^2$, peor será el modelo. Un valor de $R^2$ negativo es un signo de sobreajuste.

El siguiente gráfico permite observar cómo cambia el valor de $R^2$ en los datos de prueba para polinomios de diferente orden.

In [None]:
Rcuad_prueba = []

orden = [1, 2, 3, 4]
for n in orden:
    poliN = PolynomialFeatures(degree=n)
    
    x_entrena_poliN = poliN.fit_transform(x_entrena2[['horsepower']])
    
    x_prueba_poliN = poliN.transform(x_prueba2[['horsepower']])    
    
    reg_pol.fit(x_entrena_poliN, y_entrena2)
    
    Rcuad_prueba.append(reg_pol.score(x_prueba_poliN, y_prueba2))

plt.plot(orden, Rcuad_prueba)
plt.xlabel('orden')
plt.ylabel('R²')
plt.title('R² Usando Datos de Prueba')
plt.text(3, 0.74, 'R² Máximo ')    

Se puede observar que el valor de $R^2$ aumenta gradualmente hasta que se usa un polinomio de orden tres. Luego, el valor de $R^2$ disminuye drásticamente en un polinomio de orden cuatro.

La siguiente función `f` se utilizará con la función de interacción (`ipywidgets.interact`), la cual, crea automáticamente controles de interfaz de usuario (UI) para explorar código y datos de forma interactiva. Esta función `interact` es una forma más fácil de usar los widgets de IPython.

In [None]:
def f(orden, datos_prueba):
    x_entrena, x_prueba, y_entrena, y_prueba = train_test_split(x_datos, y_datos, test_size=datos_prueba, random_state=0)
    poli = PolynomialFeatures(degree=orden)
    x_entrena_poli = poli.fit_transform(x_entrena[['horsepower']])
    x_prueba_poli = poli.transform(x_prueba[['horsepower']])
    reg_pol = LinearRegression()
    reg_pol.fit(x_entrena_poli,y_entrena)
    GraficoPoli(x_entrena[['horsepower']], x_prueba[['horsepower']], y_entrena,y_prueba, reg_pol, poli)

La siguiente interfaz permite experimentar con diferentes órdenes de polinomios y diferentes cantidades de datos.

In [None]:
interact(f, orden=(0, 6, 1), datos_prueba=(0.05, 0.95, 0.05))

---

**$\bigstar$ Pregunta:**

Se puede realizar transformaciones polinómicas con más de una característica o atributo. Crear un objeto `PolynomialFeatures` con el nombre `poli1` de grado dos.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

poli1=PolynomialFeatures(degree=2)

-->

---

**$\bigstar$ Pregunta:**

Transformar las muestras de entrenamiento y prueba para las características o atributos caballos de fuerza (`horsepower`), peso en vacío (`curb-weight`), tamaño del motor (`engine-size`) y millas por galón en carretera (`mpg-highway`).

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

x_entrena_poli1=poli1.fit_transform(x_entrena[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']])

x_prueba_poli1=poli1.transform(x_prueba[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']])

-->

---

**$\bigstar$ Pregunta:**

¿Cuántas dimensiones tiene la nueva función? Sugerencia, usar el atributo `shape`.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

x_entrena_poli1.shape #ahora hay 15 atributos

-->

---

**$\bigstar$ Pregunta:**

Crear un modelo de regresión lineal `reg_pol1`. Entrenar el modelo usando el método `fit` con los atributos polinómicos de entrenamiento.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

reg_pol1=LinearRegression().fit(x_entrena_poli1,y_entrena)

-->

---

**$\bigstar$ Pregunta:**

Usar el método `predict` para pronosticar un resultado con las características polinómicas definidas, luego usar la función `GraficoDistribucion` para mostrar la distribución de la salida de prueba pronosticada frente a los datos de prueba reales.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

y_hat_prueba_poli1=reg_pol1.predict(x_prueba_poli1)

Titulo='\"y_prueba\" versus \"y_hat_prueba_poli1\"'

GraficoDistribucion(y_prueba['price'], y_hat_prueba_poli1[:,0], "Valores Actuales (Prueba)", "Valores Pronosticados (prueba)", Titulo)

-->

---

**$\bigstar$ Pregunta:**

Usando el gráfico de distribución anterior, describa (en palabras) las dos regiones donde los precios pronosticados son menos precisos que los precios reales.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

#El valor pronosticado es más alto que el valor real para los autos donde el precio oscila entre $10.000 y $20.000; por el contrario, el precio pronosticado es más bajo que el costo del precio en el rango de $20.000 a $25.000. Como tal, el modelo no es tan preciso en estos rangos.

-->

---

# 4. Regresión de Cresta <a id="6"></a>

La **Regresión de Cresta** es un método para estimar los coeficientes de modelos de regresión múltiple en escenarios donde las variables linealmente independientes están altamente correlacionadas. La **Regresión de Cresta** se desarrolló como una posible solución a la imprecisión de los modelos de regresión lineal que tienen algunas variables independientes altamente correlacionadas, mediante la creación de un estimador de Regresión de Cresta ($\alpha$), lo que proporciona una estimación de los coeficientes más precisa.

En esta sección, se revisará la **Regresión de Cresta** y se verá cómo el parámetro **alfa** cambia el modelo. Es importante hacer notar que aquí los datos de prueba se utilizarán como datos de validación.

Se iniciará realizando una transformación polinomial de grado dos en los datos considerando seis atributos/variables de predicción. Se utilizarán las variables que tienen la división del 55% de los datos para entrenamiento y del 45% de los datos para pruebas.

In [None]:
reg_pol4=PolynomialFeatures(degree=2)
x_entrena_poli=reg_pol4.fit_transform(x_entrena2[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg','normalized-losses','symboling']])
x_prueba_poli=reg_pol4.transform(x_prueba2[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg','normalized-losses','symboling']])

El siguiente paso es importar la función `Ridge` desde el módulo `linear_models` de la biblioteca **Scikit-learn**.

In [None]:
from sklearn.linear_model import Ridge

Después se debe crear un objeto de **regresión de cresta**, configurando el parámetro de regularización (alfa) en 1.0.

In [None]:
reg_cre=Ridge(alpha=1)

Al igual que la regresión normal, se puede entrenar el modelo utilizando el método `fit`.

In [None]:
reg_cre.fit(x_entrena_poli, y_entrena2)

Del mismo modo, se puede obtener una predicción.

In [None]:
y_hat_poli = reg_cre.predict(x_prueba_poli)

Ahora, se compararán las primeras cinco muestras pronosticadas con el conjunto de prueba.

In [None]:
print('pronosticado:', y_hat_poli[0:5])
print('conjunto de prueba :', y_prueba2[0:5].values)

Para probar este modelo se procederá a seleccionar el valor de alfa que minimiza el error de prueba. Para hacerlo, se utilizará un ciclo `for`. También se creará una barra de progreso para ver cuántas iteraciones se han completado por el momento, para esto se importará el módulo `tqdm`.

In [None]:
from tqdm import tqdm

R2_prueba = []
R2_entrena = []
Alfa = 10 * np.array(range(0,1000))
pbar = tqdm(Alfa)

for alfa in pbar:
    reg_cre = Ridge(alpha=alfa) 
    reg_cre.fit(x_entrena_poli, y_entrena2)
    calificacion_prueba, calificacion_entrena = reg_cre.score(x_prueba_poli, y_prueba2), reg_cre.score(x_entrena_poli, y_entrena2)
    
    pbar.set_postfix({"Calificación Prueba": calificacion_prueba, "Calificación Entrena": calificacion_entrena})

    R2_prueba.append(calificacion_prueba)
    R2_entrena.append(calificacion_entrena)

Con todo esto ya se puede graficar el valor de $R^2$ para diferentes alfas.

In [None]:
ancho = 12
alto = 10
plt.figure(figsize=(ancho, alto))

plt.plot(Alfa,R2_prueba, label='Datos de validación')
plt.plot(Alfa,R2_entrena, 'r', label='Datos de entrenamiento')
plt.xlabel('Alfa')
plt.ylabel('R²')
plt.legend()

**Figura 4**: La línea azul representa el $R^2$ de los datos de validación y la línea roja representa el $R^2$ de los datos de entrenamiento. El eje $x$ representa los diferentes valores de Alfa.

Aquí, el modelo se construye y prueba con los mismos datos, por lo que los datos de entrenamiento y prueba son los mismos.

La línea roja en la Figura 4 representa el $R^2$ de los datos de entrenamiento. A medida que alfa aumenta, $R^2$ disminuye. Por lo tanto, a medida que aumenta alfa, el modelo funciona peor en los datos de entrenamiento.

La línea azul representa el $R^2$ en los datos de validación. A medida que aumenta el valor de alfa, $R^2$ aumenta y converge en un punto.

---

**$\bigstar$ Pregunta:**

Realizar la Regresión de Cresta. Calcular el valor de $R^2$ usando los atributos/variables polinómicas definidas anteriormente, use los datos de entrenamiento para entrenar el modelo y use los datos de prueba para probar el modelo. El parámetro alfa debe establecerse en 10.


In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

reg_cre2 = Ridge(alpha=10) 
reg_cre2.fit(x_entrena_poli, y_entrena2)
reg_cre2.score(x_prueba_poli, y_prueba2)

-->

# 5. Búsqueda de Grilla <a id="8"></a>

El término *alfa* es un *hiperparámetro*. **scikit-learn** tiene la clase `GridSearchCV` para simplificar el proceso de evaluar y seleccionar de forma sistemática los *hiperparámetros* de un modelo. Indicándole un modelo y los *hiperparámetros* a probar, puede evaluar el rendimiento del primero en función de los segundos mediante validación cruzada.

Primero hay que importar el método `GridSearchCV` desde el módulo `model_selection`.

In [None]:
from sklearn.model_selection import GridSearchCV

Después, se debe crear un diccionario de valores de parámetros.

In [None]:
parametros5= [{'alpha': [0.001,0.1,1, 10, 100, 1000, 10000, 100000, 100000]}]
parametros5

A continuación, se procede a crear un objeto para una **regresión de cresta**.

In [None]:
reg_cre5=Ridge()
reg_cre5

Una vez creado el modelo, se debe crear un objeto de búsqueda de grilla para la regresión de cresta. El parámetro `cv` se define con el valor 4 indicando que se va a generar una validación cruzada con una división en 4 grupos.

In [None]:
Grilla5 = GridSearchCV(reg_cre5, parametros5,cv=4)

Ya está todo listo para realizar el entrenamiento del modelo.

In [None]:
Grilla5.fit(x_datos[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']], y_datos)

Con esto el objeto `Grilla5` encuentra los mejores valores de parámetros en los datos de validación. Se puede obtener el estimador con mejores parámetros y asignarlo a la variable `reg_cre5_mejor` como se muestra a continuación.

In [None]:
reg_cre5_mejor=Grilla5.best_estimator_
reg_cre5_mejor

Ahora se puede probar el modelo con los datos de prueba.

In [None]:
reg_cre5_mejor.score(x_prueba2[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']], y_prueba2)

---

**$\bigstar$ Pregunta:**

Realizar una búsqueda de grilla del parámetro *alfa* y el parámetro de *normalización*, luego encontrar los mejores valores de los parámetros.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

parametros52= [{'alpha': [0.001,0.1,1, 10, 100, 1000,10000,100000,100000],'normalize':[True,False]} ]
Grilla52 = GridSearchCV(Ridge(), parametros52, cv=4)
Grilla52.fit(x_datos[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']],y_datos)
Grilla52.best_estimator_

-->