# Entendiendo las Métricas de Error de Regresión en Python

Los cerebros humanos están construidos para reconocer patrones en el mundo que nos rodea. Por ejemplo, observamos que si practicamos nuestra programación todos los días, nuestras habilidades relacionadas crecen. Pero, ¿cómo describimos precisamente esta relación a otras personas? ¿Cómo podemos describir cuán fuerte es esta relación? Afortunadamente, podemos describir relaciones entre fenómenos, como la práctica y la habilidad, en términos de estimaciones matemáticas formales llamadas regresiones.

Las regresiones son una de las herramientas más comúnmente utilizadas en el kit de un científico de datos. Cuando aprendes Python o R, adquieres la capacidad de crear regresiones en una sola línea de código sin tener que lidiar con la teoría matemática subyacente. Pero esta facilidad puede hacer que olvidemos evaluar nuestras regresiones para asegurarnos de que son una representación suficientemente buena de nuestros datos. Podemos introducir nuestros datos de nuevo en nuestra ecuación de regresión para ver si la salida predicha coincide con el valor observado correspondiente visto en los datos.

La calidad de un modelo de regresión se mide por cuán bien sus predicciones coinciden con los valores reales, pero ¿cómo evaluamos realmente la calidad? Afortunadamente, estadísticos inteligentes han desarrollado métricas de error para juzgar la calidad de un modelo y permitirnos comparar regresiones contra otras regresiones con diferentes parámetros. Estas métricas son resúmenes cortos y útiles de la calidad de nuestros datos. Este artículo profundizará en cuatro métricas de regresión comunes y discutirá sus casos de uso. Hay muchos tipos de regresión, pero este artículo se centrará exclusivamente en métricas relacionadas con la regresión lineal.

La regresión lineal es el modelo más comúnmente utilizado en investigación y negocios y es el más sencillo de entender, así que tiene sentido empezar a desarrollar tu intuición sobre cómo se evalúan. La intuición detrás de muchas de las métricas que cubriremos aquí se extiende a otros tipos de modelos y sus respectivas métricas. Si deseas un repaso rápido sobre la regresión lineal, puedes consultar este fantástico artículo de blog o la página de Wikipedia de Regresión Lineal.

## Repaso de regresión lineal

En el contexto de la regresión, los modelos se refieren a ecuaciones matemáticas utilizadas para describir la relación entre dos variables. En general, estos modelos tratan sobre la predicción y estimación de valores de interés en nuestros datos llamados salidas. Los modelos observarán otros aspectos de los datos llamados entradas que creemos que afectan a las salidas, y los usarán para generar salidas estimadas.

Estas entradas y salidas tienen muchos nombres que podrías haber escuchado antes. Las entradas también pueden llamarse variables independientes o predictores, mientras que las salidas también son conocidas como respuestas o variables dependientes. Hablando simplemente, los modelos son solo funciones donde las salidas son alguna función de las entradas. La parte lineal de la regresión lineal se refiere al hecho de que un modelo de regresión lineal se describe matemáticamente en la forma:

![imagen](https://i.imgur.com/DT4H1Yk.jpg)

## Comparación de las predicciones del modelo contra la realidad

Dado que nuestro modelo producirá una salida para cualquier entrada o conjunto de entradas, podemos verificar estas salidas estimadas contra los valores reales que intentamos predecir. Llamamos a la diferencia entre el valor real y la estimación del modelo un residual. Podemos calcular el residual para cada punto en nuestro conjunto de datos, y cada uno de estos residuales será útil para la evaluación. Estos residuales jugarán un papel significativo en la evaluación de la utilidad de un modelo.

Si nuestra colección de residuales es pequeña, implica que el modelo que los produjo hace un buen trabajo al predecir nuestra salida de interés. Por el contrario, si estos residuales son generalmente grandes, implica que el modelo es un mal estimador. Técnicamente podemos inspeccionar todos los residuales para juzgar la precisión del modelo, pero como es de esperar, esto no es práctico si tenemos miles o millones de puntos de datos. Por lo tanto, los estadísticos han desarrollado medidas resumidas que toman nuestra colección de residuales y la condensan en un solo valor que representa la capacidad predictiva de nuestro modelo. Hay muchas de estas estadísticas resumidas, cada una con sus propias ventajas y desventajas. Para cada una, discutiremos qué representa cada estadística, su intuición y caso de uso típico. Cubriremos:

* Error Absoluto Medio (Mean Absolute Error)

* Error Cuadrático Medio (Mean Square Error)

* Error Porcentual Absoluto Medio (Mean Absolute Percentage Error)

* Error Porcentual Medio (Mean Percentage Error)

Nota: Aunque ves la palabra error aquí, ¡no se refiere al término épsilon mencionado anteriormente! ¡El error descrito en estas métricas se refiere a los residuales!

## Manteniéndose arraigado en datos reales

Al discutir estas métricas de error, es fácil perderse en los diversos acrónimos y ecuaciones utilizados para describirlas. Para mantenernos centrados, utilizaremos un modelo que se ha creado usando el Conjunto de Datos de Ventas de Videojuegos de Kaggle.

## Error absoluto medio

El error absoluto medio (MAE, por sus siglas en inglés) es la métrica de error de regresión más sencilla de entender. Calcularemos el residual para cada punto de datos, tomando solo el valor absoluto de cada uno para que los residuales negativos y positivos no se cancelen entre sí. Luego, tomamos el promedio de todos estos residuales. Efectivamente, MAE describe la magnitud típica de los residuales. La ecuación formal se muestra a continuación:

![imagen](https://i.imgur.com/BmBC8VW.jpg)

La imagen a continuación es una descripción gráfica del MAE. La línea verde representa las predicciones de nuestro modelo, y los puntos azules representan nuestros datos.

![imagen](https://i.imgur.com/tqnei6J.jpg)

El MAE también es la métrica más intuitiva ya que simplemente estamos mirando la diferencia absoluta entre los datos y las predicciones del modelo. Debido a que usamos el valor absoluto del residual, el MAE no indica si el modelo tiene un rendimiento inferior o superior (si el modelo está por debajo o por encima de los datos reales). Cada residual contribuye proporcionalmente a la cantidad total de error, lo que significa que los errores mayores contribuirán linealmente al error total. Como hemos dicho anteriormente, un MAE pequeño sugiere que el modelo es excelente para predecir, mientras que un MAE grande sugiere que tu modelo puede tener problemas en ciertas áreas. Un MAE de 0 significa que tu modelo es un predictor perfecto de las salidas (pero esto casi nunca sucederá).

Aunque el MAE es fácilmente interpretable, usar el valor absoluto del residual a menudo no es tan deseable como elevar al cuadrado esta diferencia. Dependiendo de cómo quieras que tu modelo trate los valores atípicos o extremos en tus datos, es posible que quieras prestar más atención a estos valores atípicos o minimizarlos. El problema de los valores atípicos puede jugar un papel importante en la elección de la métrica de error que utilices.


## Calcular el MAE contra nuestro modelo

Calcular el MAE es relativamente sencillo en Python. En el código a continuación, "sales" contiene una lista de todos los números de ventas, y "X" contiene una lista de tuplas de tamaño 2. Cada tupla contiene la puntuación del crítico y la puntuación del usuario correspondientes a la venta en el mismo índice. "lm" contiene un objeto "LinearRegression" de scikit-learn, que utilicé para crear el modelo en sí. Este objeto también contiene los coeficientes. El método "predict" toma las entradas y proporciona la predicción real basada en esas entradas.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error as sk_mean_absolute_error
from sklearn.metrics import mean_squared_error as mse_sklearn
from sklearn.metrics import mean_absolute_percentage_error as sk_mape

In [2]:
data = pd.read_csv("Video_Games_Sales_as_at_22_Dec_2016.csv")
data.head()

Unnamed: 0,Name,Platform,Year_of_Release,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating
0,Wii Sports,Wii,2006.0,Sports,Nintendo,41.36,28.96,3.77,8.45,82.53,76.0,51.0,8.0,322.0,Nintendo,E
1,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24,,,,,,
2,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.68,12.76,3.79,3.29,35.52,82.0,73.0,8.3,709.0,Nintendo,E
3,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.61,10.93,3.28,2.95,32.77,80.0,73.0,8.0,192.0,Nintendo,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37,,,,,,


In [3]:
data = data.dropna(subset=['Critic_Score', 'User_Score', 'Global_Sales'])
data['User_Score'] = pd.to_numeric(data['User_Score'], errors='coerce')
data = data.dropna(subset=['User_Score'])
data['User_Score'] = data['User_Score'] * 10

X = data[['Critic_Score', 'User_Score']]
y = data['Global_Sales']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['User_Score'] = pd.to_numeric(data['User_Score'], errors='coerce')


In [4]:
def mean_absolute_error(y_true, y_pred):
  n = len(y_true)
  error_sum = 0
  for actual, predicted in zip(y_true, y_pred):
      error_sum += abs(actual - predicted)
  mae = error_sum / n
  return mae

In [5]:
lm = LinearRegression()
lm.fit(X_train, y_train)

predictions = lm.predict(X_test)


mae_custom = mean_absolute_error(y_test, predictions)
print('Mean Absolute Error (Custom Function):', mae_custom)

mae_sklearn = sk_mean_absolute_error(y_test, predictions)
print('Mean Absolute Error (scikit-learn):', mae_sklearn)

if mae_custom == mae_sklearn:
    print('Los resultados son iguales!')
else:
    print('Hay una diferencia en los resultados.')
    print('Diferencia:', abs(mae_custom - mae_sklearn))

Mean Absolute Error (Custom Function): 0.747654776881671
Mean Absolute Error (scikit-learn): 0.7476547768816716
Hay una diferencia en los resultados.
Diferencia: 5.551115123125783e-16


## Error Cuadrático Medio

El error cuadrático medio (MSE, por sus siglas en inglés) es muy similar al MAE, pero en lugar de utilizar el valor absoluto de la diferencia, eleva al cuadrado la diferencia antes de sumarlas todas. Podemos ver esta diferencia en la ecuación a continuación.

![imagen](https://i.imgur.com/vB3UAiH.jpg)

### Consecuencias del Término Cuadrático

Debido a que estamos elevando al cuadrado la diferencia, el MSE casi siempre será mayor que el MAE. Por esta razón, no podemos comparar directamente el MAE con el MSE. Sólo podemos comparar las métricas de error de nuestro modelo con las de un modelo competidor. El efecto del término cuadrático en la ecuación del MSE es más evidente con la presencia de valores atípicos en nuestros datos. Mientras que cada residual en el MAE contribuye proporcionalmente al error total, el error crece cuadráticamente en el MSE. Esto significa finalmente que los valores atípicos en nuestros datos contribuirán a un error total mucho mayor en el MSE de lo que lo harían en el MAE. De manera similar, nuestro modelo será penalizado más por hacer predicciones que difieran en gran medida del valor real correspondiente. Esto quiere decir que las grandes diferencias entre los valores reales y los predichos son más castigadas en el MSE que en el MAE. La siguiente imagen muestra gráficamente cómo podría ser un residual individual en el MSE.

![imagen](https://i.imgur.com/mLn8AeW.jpg)

Los valores atípicos producirán estas diferencias exponencialmente mayores, y es nuestro trabajo juzgar cómo deberíamos abordarlos.

### El problema de los valores atípicos

Los valores atípicos en nuestros datos son una fuente constante de discusión para los científicos de datos que intentan crear modelos. ¿Incluimos los valores atípicos en la creación de nuestro modelo o los ignoramos? La respuesta a esta pregunta depende del campo de estudio, del conjunto de datos en cuestión y de las consecuencias de tener errores en primer lugar. Por ejemplo, sé que algunos videojuegos alcanzan el estatus de superestrellas y, por lo tanto, tienen ingresos desproporcionadamente más altos. Por lo tanto, sería un error de mi parte ignorar estos juegos atípicos porque representan un fenómeno real dentro del conjunto de datos. Querría usar el MSE para asegurarme de que mi modelo tenga más en cuenta estos valores atípicos.

Si quisiera minimizar su importancia, usaría el MAE ya que los residuos atípicos no contribuirán tanto al error total como lo haría el MSE. En última instancia, la elección entre MSE y MAE es específica de la aplicación y depende de cómo quiera tratar los errores grandes. Ambos siguen siendo métricas de error viables, pero describirán diferentes matices sobre los errores de predicción de su modelo.

### Nota sobre MSE y un pariente cercano

Otra métrica de error con la que te puedes encontrar es la raíz del error cuadrático medio (RMSE, por sus siglas en inglés). Como su nombre indica, es la raíz cuadrada del MSE. Debido a que el MSE está al cuadrado, sus unidades no coinciden con las de la salida original. Los investigadores a menudo usarán el RMSE para convertir la métrica de error de nuevo a unidades similares, facilitando así la interpretación. Dado que tanto el MSE como el RMSE elevan al cuadrado el residual, ambos se ven afectados de manera similar por los valores atípicos. El RMSE es análogo a la desviación estándar (MSE para varianza) y es una medida de cuán grandes son los residuales y cuánto se dispersan. Tanto el MAE como el MSE pueden variar de 0 a infinito positivo, así que a medida que ambas medidas aumentan, se hace más difícil interpretar cuán bien está funcionando tu modelo. Otra forma de resumir nuestra colección de residuales es usando porcentajes, de modo que cada predicción se escale en función del valor que se supone debe estimar.



In [6]:
def mean_squared_error(y_true, y_pred):
  return np.mean((y_true - y_pred) ** 2)

In [7]:
y_true = data['Global_Sales'].values
X = data[['Critic_Score', 'User_Score']].values

y_pred = lm.predict(X)

mse_custom = mean_squared_error(y_true, y_pred)

mse_lib = mse_sklearn(y_true, y_pred)

print("MSE (Custom Function):", mse_custom)
print("MSE (Scikit-Learn):", mse_lib)

MSE (Custom Function): 3.539423977753484
MSE (Scikit-Learn): 3.539423977753484




Con el MSE, esperaríamos que fuera mucho mayor que el MAE debido a la influencia de los valores atípicos. Descubrimos que este es el caso: el MSE es un orden de magnitud más alto que el MAE. El MSE correspondiente sería aproximadamente 1.88, indicando que nuestro modelo se desvía de los valores reales de ventas por alrededor de $1.8M.


## Error porcentual absoluto medio

El error porcentual absoluto medio (MAPE, por sus siglas en inglés) es el equivalente porcentual del MAE. La ecuación se parece mucho a la del MAE, pero con ajustes para convertir todo en porcentajes.


![imagen](https://i.imgur.com/YYMpqUY.jpg)

Al igual que el MAE es la magnitud promedio del error producido por tu modelo, el MAPE indica cuánto se desvían en promedio las predicciones del modelo de sus correspondientes salidas. Al igual que el MAE, el MAPE también tiene una interpretación clara ya que los porcentajes son más fáciles de conceptualizar para las personas. Tanto el MAPE como el MAE son robustos a los efectos de los valores atípicos gracias al uso del valor absoluto.

![imagen](https://i.imgur.com/HPlrPmu.jpg)

Sin embargo, a pesar de todas sus ventajas, estamos más limitados al usar MAPE que MAE. Muchas de las debilidades de MAPE en realidad provienen del uso de la operación de división. Ahora que tenemos que escalar todo por el valor real, el MAPE queda indefinido para los puntos de datos donde el valor es 0. Del mismo modo, el MAPE puede crecer de manera inesperada si los valores reales son excepcionalmente pequeños por sí mismos. Finalmente, el MAPE está sesgado hacia predicciones que son sistemáticamente menores que los valores reales en sí mismos. Es decir, el MAPE será menor cuando la predicción sea menor que el actual en comparación con una predicción que sea mayor por la misma cantidad. El rápido cálculo a continuación demuestra este punto.

![imagen](https://i.imgur.com/OBBvmIH.jpg)

Tenemos una medida similar al MAPE en forma de error porcentual medio. Mientras que el valor absoluto en el MAPE elimina cualquier valor negativo, el error porcentual medio incorpora tanto errores positivos como negativos en su cálculo.

In [10]:
def mean_absolute_percentage_error(y_true, y_pred):
  y_true, y_pred = np.array(y_true), np.array(y_pred)
  non_zero_elements = y_true != 0
  return np.mean(np.abs((y_true[non_zero_elements] - y_pred[non_zero_elements]) / y_true[non_zero_elements]))

In [11]:
model = LinearRegression()
model.fit(X_train, y_train)

predictions = model.predict(X_test)

mape = mean_absolute_percentage_error(y_test, predictions)
print("MAPE (función propia):", mape)

mape_sklearn = sk_mape(y_test, predictions)
print("MAPE (scikit-learn):", mape_sklearn)

MAPE (función propia): 5.308439267099798
MAPE (scikit-learn): 5.308439267099798


Sabemos con certeza que no hay puntos de datos para los cuales las ventas sean cero, así que estamos seguros de usar el MAPE. Recuerda que debemos interpretarlo en términos de puntos porcentuales. El MAPE indica que las predicciones de nuestro modelo están, en promedio, un 5.6% desviadas del valor real.

## Error porcentual medio

El error porcentual medio (MPE) tiene una ecuación exactamente igual a la del MAPE. La única diferencia es que no incluye la operación de valor absoluto.

![imagen](https://i.imgur.com/ndIXERr.jpg)

Aunque al MPE le falta la operación de valor absoluto, es en realidad su ausencia lo que hace útil al MPE. Dado que los errores positivos y negativos se cancelarán entre sí, no podemos hacer declaraciones sobre qué tan bien se desempeñan las predicciones del modelo en general. Sin embargo, si hay más errores negativos o positivos, este sesgo aparecerá en el MPE. A diferencia del MAE y el MAPE, el MPE es útil para nosotros porque nos permite ver si nuestro modelo subestima sistemáticamente (más error negativo) o sobreestima (error positivo).

![imagen](https://i.imgur.com/kTIYRBX.jpg)

Si vas a usar una medida relativa de error como el MAPE o el MPE en lugar de una medida absoluta de error como el MAE o el MSE, lo más probable es que uses el MAPE. MAPE tiene la ventaja de ser fácilmente interpretable, pero debes tener cuidado con los datos que trabajarán en contra del cálculo (es decir, los ceros). No puedes usar el MPE de la misma manera que el MAPE, pero puede decirte sobre los errores sistemáticos que comete tu modelo.

In [12]:
def mean_percentage_error(y_true, y_pred):
  return np.mean((y_true - y_pred) / y_true)

In [13]:
model = LinearRegression()
model.fit(X, y)

predictions = model.predict(X)

mpe = mean_percentage_error(y, predictions)
print('MPE:', mpe)

MPE: -4.770814967177036


Todas las otras métricas de error nos han sugerido que, en general, el modelo hizo un trabajo justo al predecir las ventas basándose en la puntuación de los críticos y los usuarios. Sin embargo, el MPE nos indica que en realidad subestima sistemáticamente las ventas. Conocer este aspecto sobre nuestro modelo nos es útil ya que nos permite revisar los datos y reiterar sobre qué inputs incluir que puedan mejorar nuestras métricas. En general, diría que mis suposiciones para predecir las ventas fueron un buen comienzo. Las métricas de error revelaron tendencias que habrían sido poco claras o invisibles de otra manera.

## Conclusion

| Acronym | Full Name                   | Residual Operation? | Robust To Outliers? |
|---------|-----------------------------|---------------------|---------------------|
| MAE     | Mean Absolute Error         | Absolute Value      | Yes                 |
| MSE     | Mean Squared Error          | Square              | No                  |
| RMSE    | Root Mean Squared Error     | Square              | No                  |
| MAPE    | Mean Absolute Percentage Error | Absolute Value      | Yes                 |
| MPE     | Mean Percentage Error       | N/A                 | Yes                 |
