by [Leonardo Manríquez M](https://github.com/leomanriquezm)

E-mail: leonardomanriquezmendez@gmail.com

# Criterios de selección de modelos

Para los siguientes ejemplos utilizaremos el siguiente conjunto de datos.

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.metrics import mean_squared_error
from math import sqrt
from sklearn.metrics import mean_absolute_error

file="https://raw.githubusercontent.com/leomanriquezm/introduction-to-econometrics/main/df_example.csv"
df=pd.read_table(file,delimiter = ',')

En un caso sencillo, supongamos que estamos interesados en estimar las siguientes dos regresiones y "seleccionar" la mejor.
\begin{equation}
\tag{1}
ventas_{i}=\beta_{0}+\beta_{1}\cdot EdadClientes_{i}+ \mu_{i}.
\end{equation}
\begin{equation}
\tag{2}
ventas_{i}=\beta_{0}+\beta_{1}\cdot EdadClientes_{i}+ \beta_{2}\cdot PrecioProducto_{i}+\mu_{i}.
\end{equation}

In [None]:
# Ajustar el modelo de regresión lineal para (1)
X1 = sm.add_constant(df[["EdadClientes"]])
y = df['Ventas']
model1 = sm.OLS(y, X1).fit()
# Imprimir los resultados del modelo
print(model1.summary())

                            OLS Regression Results                            
Dep. Variable:                 Ventas   R-squared:                       0.773
Model:                            OLS   Adj. R-squared:                  0.770
Method:                 Least Squares   F-statistic:                     332.9
Date:                Tue, 08 Aug 2023   Prob (F-statistic):           2.80e-33
Time:                        02:36:54   Log-Likelihood:                -649.57
No. Observations:                 100   AIC:                             1303.
Df Residuals:                      98   BIC:                             1308.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const         1377.6260     50.220     27.432   

In [None]:
# Ajustar el modelo de regresión lineal para (1)
X2 = sm.add_constant(df[["EdadClientes","PrecioProducto"]])
model2 = sm.OLS(y, X2).fit()
# Imprimir los resultados del modelo
print(model2.summary())

                            OLS Regression Results                            
Dep. Variable:                 Ventas   R-squared:                       0.865
Model:                            OLS   Adj. R-squared:                  0.862
Method:                 Least Squares   F-statistic:                     311.1
Date:                Tue, 08 Aug 2023   Prob (F-statistic):           6.35e-43
Time:                        02:36:56   Log-Likelihood:                -623.44
No. Observations:                 100   AIC:                             1253.
Df Residuals:                      97   BIC:                             1261.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                     coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------
const           1204.5106     44.286     27.

In [None]:
model_results = {
    'Modelo 1': {
        'R2 ajustado': model1.rsquared_adj,
        'AIC': model1.aic,
        'BIC': model1.bic,
        'MSE': mean_squared_error(df["Ventas"], model1.fittedvalues),
        'RMSE': sqrt(mean_squared_error(df["Ventas"], model1.fittedvalues)),
        'MAE': mean_absolute_error(df["Ventas"], model1.fittedvalues),
        'MAPE':np.mean(np.abs((df["Ventas"] - model1.fittedvalues) / df["Ventas"])) * 100
    },
    'Modelo 2': {
        'R2 ajustado': model2.rsquared_adj,
        'AIC': model2.aic,
        'BIC': model2.bic,
        'MSE': mean_squared_error(df["Ventas"], model2.fittedvalues),
        'RMSE': sqrt(mean_squared_error(df["Ventas"], model2.fittedvalues)),
        'MAE': mean_absolute_error(df["Ventas"], model2.fittedvalues),
        'MAPE':np.mean(np.abs((df["Ventas"] - model2.fittedvalues) / df["Ventas"])) * 100
    }
}

# Convertir el diccionario en un DataFrame de pandas
df = pd.DataFrame(model_results)

# Mostrar el DataFrame
print(df)

                 Modelo 1      Modelo 2
R2 ajustado      0.770226      0.862337
AIC           1303.144378   1252.889791
BIC           1308.354719   1260.705302
MSE          25682.541379  15229.975603
RMSE           160.257734    123.409787
MAE            128.597147    100.600295
MAPE             5.910123      4.599068


Recordemos que oportunidades anteriores sólo hemos seleccionado un modelo según el criterio $\bar{R}^{2}$. Sin embargo, como hemos revisado existen otros criterios que nos permiten tomar una decisión de selección de modelo más informada.

Recordemos que $AIC$ y $BIC$ son criterios que se basan en el ajuste y complejidad del modelo, y estamos interesados en valores más pequeños. Por lo tanto, para este caso, tanto por $AIC$ como $BIC$ seleccionaremos el modelo 2.

Los criterios $MSE$ es el promedio de los errores al cuadrado entres las observaciones reales y las pronósticas por el modelo, y $RMSE$ corresponde a la $\sqrt{}$ del $MSE$. En ambos casos, buscamos valores más pequeños. Por lo tanto, para este caso, por $MSE$ y $RMSE$ seleccionaremos el modelo 2.

El $MAE$ es el promedio de las diferencias absolutas entre los pronósticos del modelo y las observaciones reales, y $MAPE$ es el promedio de los valores absolutos de los errores relativos (porcentuales) entre los pronósticos y las observaciones reales. En ambos casos, buscamos valores más pequeños. Por lo tanto, para este caso, por $MAE$ y $MAPE$ seleccionaremos el modelo 2.

Notar que este ejemplo es relativamente sencillo seleccionar el modelo 2 porque en todos los criterios es mejor en comparación al modelo 1. Sin embargo, en escenarios más realistas esto no siempre es así, es decir, las decisiones de cada criterios pueden llegar a ser diferentes. Estos casos los revisaremos en clases.