
# 6. Más herramientas y técnicas para evaluar modelos de regresión

## Introducción

Estás trabajando en una empresa de marketing que acepta proyectos de varios clientes. A tu equipo se le ha asignado un proyecto en el que debe predecir el **porcentaje de conversiones** para una venta de Black Friday que el equipo va a planificar. 

El porcentaje de conversión según el cliente se refiere a la cantidad de personas que realmente compran productos frente a la cantidad de personas que inicialmente se registraron para recibir actualizaciones sobre la venta visitando el sitio web. 

El primer instinto es optar por un modelo de regresión para predecir el porcentaje de conversión. Sin embargo, tiene millones de filas de datos con cientos de columnas. En escenarios como estos, es muy común encontrar problemas de: 
- multicolinealidad 

donde dos o más características transmiten efectivamente la misma información. Esto puede afectar la robustez del modelo. Aquí es donde las soluciones como
- la selección recursiva de características (RFE) 
pueden ser de ayuda.

En el capítulo anterior, vimos cómo preparar datos para el modelado de regresión. También aprendimos cómo aplicar la regresión lineal e interpretar los resultados.

En este capítulo, revisará un modelo de regresión para evaluar su desempeño. Específicamente, sobre métricas como:
- el error absoluto medio (MAE) y 
- el error cuadrático medio (RMSE).

Esto ayudará a elegir las funciones adecuadas para usar en un modelo, así como a comparar diferentes modelos en función de sus valores MAE y RMSE. 


También revisaremos RFE, que es una técnica  y de uso común para seleccionar solo las características más relevantes para construir un modelo de regresión, eliminando así las redundantes.

Finalmente, revisaremos sore los métodos de regresión basados ​​en árboles y por qué a veces superan a las técnicas de regresión lineal.




## Evaluación de la precisión de un modelo de regresión
Para evaluar modelos de regresión, se debe definir algunas métricas. Las métricas comunes utilizadas para evaluar los modelos de regresión se basan en:
- los conceptos de residuos
- y errores, 

que son cuantificaciones de cuánto un modelo predice incorrectamente un punto de datos en particular. 




### Residuos y errores
Un concepto importante para comprender cómo evaluar los modelos de regresión es el residual. 

El residual se refiere a la diferencia entre el valor predicho por el modelo y el valor real de un punto de datos. 

Se puede pensar en cuánto perdió su modelo un valor en particular. En el siguiente diagrama, podemos ver una línea de mejor ajuste (o regresión) con puntos de datos dispersos por encima y por debajo. La distancia entre un punto de datos y la línea indica qué tan lejos está la predicción $(x_i, y_i)$ del valor real $(x_j, y_j)$. Esta diferencia se conoce como residuo. Los puntos de datos debajo de la línea tomarán valores negativos, mientras que los de arriba tomarán valores positivos:

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1_r31odVs9IdKplaYnSH-VROJpRm2u0t_' width="600" />
<figcaption>
Figura 6.1: Estimación del residual</figcaption></center>
</figure>


El residual se toma como una estimación del error de un modelo, donde el error es la diferencia entre el verdadero proceso subyacente a la generación de datos y el modelo o, en otras palabras, la diferencia entre el valor real y el valor predicho. No podemos observar directamente el error porque no conocemos el verdadero proceso,
y por lo tanto, usamos los valores residuales como nuestra mejor estimación del error. Por esta razón, el error y el residual están estrechamente relacionados y, a menudo, se usan indistintamente.
Por ejemplo, si se le pide que cree un modelo de aprendizaje automático para predecir
la edad promedio de todas las personas en un país, el error significaría la diferencia entre la edad promedio real y la edad promedio predicha. Sin embargo, encontrar
el promedio real sería una tarea difícil ya que necesitaría recopilar datos para todo el país. Aún así, podrías hacer la mejor estimación del promedio tomando la media de las edades de algunas personas en el país. Esta suposición se puede usar para encontrar el residuo y, por lo tanto, servir como error.

En este punto, podría estar pensando, ¿por qué necesitamos otra métrica de evaluación? ¿Por qué no simplemente tomar el promedio de los residuos? Tratemos de entender esto con la ayuda de un ejemplo. La siguiente tabla presenta el precio de venta real de algunos artículos y los precios de venta de los mismos artículos pronosticados por un modelo de aprendizaje automático (todos los precios están en rupias nacionales indias):

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1F0V6VZNXfImITy7ibgRTNBT8YzkRXtAV' width="600" />
<figcaption>
Figura 6.2: Cálculo del residuo medio</figcaption></center>
</figure>



Como puede observar en la Figura 6.2, el residuo promedio es cero; sin embargo, observe que el modelo no está funcionando bien. Falta cada punto de datos. Por lo tanto, sabemos con certeza que el error es distinto de cero. La razón por la que obtenemos el residual promedio como cero es que los valores negativos y positivos de los residuales se cancelan y, por lo tanto, debemos buscar valores de residuales absolutos o cuadrados. Esto ayuda a centrarse sólo en la magnitud de los residuos.

Analicemos dos de las métricas de evaluación más utilizadas: MAE y RMSE, las cuales siguen el razonamiento que discutimos en el párrafo anterior. En lugar de centrarse en los signos positivos o negativos de los residuos, tanto el MAE como el RMSE convierten los residuos en magnitudes, lo que da la estimación correcta del rendimiento del modelo.

### Error absoluto medio
Hay varias formas de utilizar los residuos para evaluar un modelo. Una forma es simplemente tomar el valor absoluto de todos los residuos y calcular el promedio. Se llama
el error absoluto medio (MAE), y puede pensarse intuitivamente como la diferencia promedio que debe esperar entre las predicciones de su modelo y el valor real:
Figura 6.3: Ecuación para calcular el MAE de un modelo

<h1><center>
$MAE=\frac{1}{n} \sum^{n}_{j=1} \big| y_j- \hat{y_j} \big|$

Figura 6.3: Ecuación para calcular el MAE de un modelo
</center></h1>


En la ecuación anterior, $y_j$ es el valor verdadero de la variable de resultado para el punto de datos $j$, y $\hat{y_j}$ es la predicción del modelo para ese punto de datos. Restando estos términos y tomando el valor absoluto, obtenemos el residual. $n$ es el número de puntos de datos $y$, por lo tanto, al sumar todos los puntos de datos y dividir por $n$, obtenemos la media del error absoluto.

Por lo tanto, un valor de cero significaría que su modelo predice todo a la perfección, y valores más grandes significan un modelo menos preciso. 


Si tenemos varios modelos, podemos mirar el MAE y preferir el modelo con el valor más bajo. Podemos implementar MAE usando la biblioteca scikit-learn.

Podemos implementar MAE usando la biblioteca scikit-learn

1. Importaremos la métrica mean_absolute_error de la
módulo sklearn.metrics:
    
```
      from sklearn.metrics import mean_absolute_error
```

2. A continuación, solo necesitamos llamar a la función mean_absolute_error con dos argumentos: predicciones y los valores de ground_truth:

```
      MAE = mean_absolute_error(predicciones, ground_truth)
```

Un problema con el MAE es que da cuenta de todos los errores por igual. Para muchas aplicaciones del mundo real, los errores pequeños son aceptables y esperados, mientras que los errores grandes pueden generar problemas mayores. Sin embargo, con MAE, dos errores medianos podrían sumarse y superar un error grande. Esto significa que el MAE puede preferir un modelo que sea bastante preciso para la mayoría de las predicciones, pero que ocasionalmente sea extremadamente inexacto sobre un modelo con errores más consistentes en todas las predicciones. Por esta razón, en lugar de usar el error absoluto, una técnica común es usar el error cuadrático.

### Error cuadrático medio de la raíz
Como discutimos anteriormente, otra forma de enfocarse solo en las magnitudes de los residuos es elevando al cuadrado sus valores, lo que ayuda a deshacerse de los signos positivos o negativos. Este concepto sirve como el núcleo de la métrica **RMSE**. 

Al elevar al cuadrado el término de error, los errores grandes se ponderan más que los pequeños que suman la misma cantidad total de error. Si luego tratamos de optimizar el error cuadrático medio (MSE) en lugar del MAE, terminaremos con una preferencia por modelos con predicciones más consistentes, ya que esos grandes errores se penalizarán en gran medida. La siguiente figura ilustra cómo, a medida que aumenta el tamaño del residuo, el error cuadrático crece más rápidamente que el error absoluto:

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1GnARgTXLORqqBIXc1JhZKx3Tg1WGaz3t' width="500" />
<figcaption>
Figura 6.2: Cálculo del residuo medio</figcaption></center>
</figure>


Figura 6.4: Error cuadrático versus error absoluto
Sin embargo, una desventaja de esto es que el término de error se vuelve más difícil de interpretar. El MAE nos da una idea de cuánto debemos esperar que la predicción difiera del valor real en promedio, mientras que el MSE es más difícil de interpretar. Por ejemplo, en el caso del problema de predicción de la edad anterior, el MSE estaría en las unidades de "año al cuadrado", asumiendo que la edad está en años. Se puede ver lo difícil que es comprender decir que un modelo tiene un error de 5 años al cuadrado. Por lo tanto, es común tomar la raíz del MSE, lo que da como resultado el RMSE, como lo muestra la siguiente ecuación:



<h1><center>

$RMSE = \sqrt{\frac{1}{2} \sum^{n}_{j=1} ( y_j- \hat{y_j} )^2 }$

Figura 6.5: Ecuación para calcular el RMSE de un modelo
</center></h1>

Al igual que MAE, podemos implementar RMSE usando la biblioteca scikit-learn, como se muestra aquí:

1. Importaremos la métrica `mean_squared_error` desde el módulo `sklearn.metrics`:

```
    From sklearn.metrics import mean_squared_error
```

2. A continuación, solo necesitamos llamar a la función mean_squared_error con dos argumentos: predictions y los valores  ground_truth:

```
    RMSE = mean_squared_error(predictions, ground_truth)
```





Ahora que hemos discutido tanto el RMSE como el MAE en detalle, es hora de implementarlos utilizando la biblioteca scikit-learn y comprender cómo ayudan las métricas de evaluación.

### Ejercicio 6.01: Evaluación de modelos de regresión de ingresos por ubicación utilizando el MAE y RMSE

Una cadena de tiendas ha reducido cinco predictores que cree que tendrán un impacto en los ingresos de una de sus tiendas. 
- número de competidores, 
- el ingreso medio en la región, 
- el número de miembros del programa de lealtad, 
- la densidad de población en el área y 
- la antiguedad de la tienda. 

El equipo de marketing ha tenido la intuición que el número de competidores puede no ser un factor significativo que contribuya a los ingresos. Su tarea es averiguar si esta intuición es correcta.


En este ejercicio, calculará tanto el MAE como el RMSE para modelos creados con los datos de ingresos de la ubicación de la tienda utilizados en el Capítulo 5. 


**Comparar los modelos creados utilizando todos los predictores con un modelo creado excluyendo uno de los predictores.** Esto ayudará a comprender la importancia del predictor para explicar los datos. Si la eliminación de un predictor específico da como resultado una gran caída en el rendimiento, significa que el predictor era importante para el modelo y no se debe descartar.

1. Importe pandas y utilícelo para crear un DataFrame a partir de los datos en `location_rev.csv`. Nombrar a este DataFrame df y revisar las primeras cinco filas

In [1]:
import pandas as pd
df = pd.read_csv('location_rev.csv') df.head()

SyntaxError: ignored