# T05 - Motor Trend car Road Tests
Pablo Josué Panécatl García

## 1.1
Realiza una regresión tomando 'mpg' como salida y eliminando la columna 'model'. Considera todos los demás factores como numéricos/ordinales.

#### Environment setup

In [20]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score
from sklearn.linear_model import Ridge

#### Análisis exploratorio de datos

In [21]:
datos_crudos = pd.read_excel("C:\\Users\\pablo\\OneDrive - ITESO\\Semestre 5\\Laboratorio de aprendizaje estadístico\\Motor Trend Car Road Tests.xlsx")
datos_crudos['carb'].unique()

array([4, 1, 2, 3, 6, 8], dtype=int64)

#### limpieza y selección de variables

In [22]:
df_full = datos_crudos.drop(columns=['model'])
X_mpg = df_full.drop(columns=['mpg']).values.reshape(-1, 10)
y_mpg = df_full['mpg'].values

#### Hacemos la estandarización y regresión

In [23]:
# Separamos los datos en conjuntos de entrenamiento y prueba
X_mpg_train, X_mpg_test, y_mpg_train, y_mpg_test = train_test_split(X_mpg, y_mpg, test_size=0.6, random_state=137)
# Estandarizamos las características
scaler = StandardScaler().fit(X_mpg_train)
X_mpg_train_scaled = scaler.transform(X_mpg_train)
X_mpg_test_scaled = scaler.transform(X_mpg_test)

In [24]:
#Hacemos la regresión con el training estandarizado
X_mpg_train_sm = sm.add_constant(X_mpg_train_scaled)
modelo_mpg = sm.OLS(y_mpg_train, X_mpg_train_sm).fit()

### 1.1.1
Calcula el R2 e interpreta los signos de los betas.

In [46]:
df_full

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [25]:
print(modelo_mpg.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.990
Model:                            OLS   Adj. R-squared:                  0.891
Method:                 Least Squares   F-statistic:                     9.981
Date:                Wed, 17 Sep 2025   Prob (F-statistic):              0.242
Time:                        18:02:20   Log-Likelihood:                -9.9811
No. Observations:                  12   AIC:                             41.96
Df Residuals:                       1   BIC:                             47.30
Df Model:                          10                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         17.4333      0.556     31.361      0.0

  res = hypotest_fun_out(*samples, **kwds)


Dado que las X ya están estandarizadas, podemos concluir directamente de las betas que:
Mientras más cilindros, menos mpg. Mientras más wt, menos mpg

### 1.1.2 
Realiza un train-test-split donde se use el 40% de los datos para entrenar. Calcula el R2 de entrenamiento y de prueba.

In [26]:
#Probamos el modelo con el test
X_mpg_test_sm = sm.add_constant(X_mpg_test_scaled)
y_mpg_pred = modelo_mpg.predict(X_mpg_test_sm)
# Calculamos el R2 de entrenamiento y de prueba
r2_mpg_train = modelo_mpg.rsquared
r2_mpg_test = r2_score(y_mpg_test, y_mpg_pred)
print(f'R2 entrenamiento: {r2_mpg_train}')
print(f'R2 prueba: {r2_mpg_test}')


R2 entrenamiento: 0.9900805114414537
R2 prueba: -54.07178520418662


### 1.1.3
Añade regularización L2 con un hiperparámetro lambda decidido por ti. Cambia este valor y compara con varios distindos los R2 de entrenamiento y de prueba.

In [27]:
#Añadimos regularización L2 (Ridge). Primero con lambda=1. Para entrenamiento y prueba
modelo_mpg_ridge_1 = Ridge(alpha=1).fit(X_mpg_train_scaled, y_mpg_train)
y_mpg_train_ridge_pred = modelo_mpg_ridge_1.predict(X_mpg_train_scaled)
y_mpg_test_ridge_pred = modelo_mpg_ridge_1.predict(X_mpg_test_scaled)
# Calculamos el R2 de entrenamiento y de prueba
r2_mpg_train = r2_score(y_mpg_train, y_mpg_train_ridge_pred)
r2_mpg_test = r2_score(y_mpg_test, y_mpg_test_ridge_pred)
print(f'R2 entrenamiento: {r2_mpg_train}')
print(f'R2 prueba: {r2_mpg_test}')


R2 entrenamiento: 0.9386746881405903
R2 prueba: 0.5910911509384547


In [28]:
#Ahora probamos con lambda=10
modelo_mpg_ridge_10 = Ridge(alpha=10).fit(X_mpg_train_scaled, y_mpg_train)
y_mpg_train_ridge_pred = modelo_mpg_ridge_10.predict(X_mpg_train_scaled)
y_mpg_test_ridge_pred = modelo_mpg_ridge_10.predict(X_mpg_test_scaled)
# Calculamos el R2 de entrenamiento y de prueba
r2_mpg_train = r2_score(y_mpg_train, y_mpg_train_ridge_pred)
r2_mpg_test = r2_score(y_mpg_test, y_mpg_test_ridge_pred)
print(f'R2 entrenamiento: {r2_mpg_train}')
print(f'R2 prueba: {r2_mpg_test}')


R2 entrenamiento: 0.8637598356203311
R2 prueba: 0.7632502786243675


In [29]:
#Ahora con lambda = 100
modelo_mpg_ridge_100 = Ridge(alpha=100).fit(X_mpg_train_scaled, y_mpg_train)
y_mpg_train_ridge_pred = modelo_mpg_ridge_100.predict(X_mpg_train_scaled)
y_mpg_test_ridge_pred = modelo_mpg_ridge_100.predict(X_mpg_test_scaled)
# Calculamos el R2 de entrenamiento y de prueba
r2_mpg_train = r2_score(y_mpg_train, y_mpg_train_ridge_pred)
r2_mpg_test = r2_score(y_mpg_test, y_mpg_test_ridge_pred)
print(f'R2 entrenamiento: {r2_mpg_train}')
print(f'R2 prueba: {r2_mpg_test}')


R2 entrenamiento: 0.5184051943511396
R2 prueba: 0.34984175782473315


Me parece que la penalización con lambda = 1 fue una buena mejora en el modelo. El R2 de entrenamiento es 0.88 y en el test fue 0.73; una mejora

## 1.2
Repite el ejercicio anterior usando 'qsec' como salida

#### Limpieza y selección de variables

In [30]:
df_full = datos_crudos.drop(columns=['model'])
X_qsec = df_full.drop(columns=['qsec']).values.reshape(-1, 10)
y_qsec = df_full['qsec'].values

#### Hacemos la estandarización y regresión

In [31]:
# Separamos los datos en conjuntos de entrenamiento y prueba
X_qsec_train, X_qsec_test, y_qsec_train, y_qsec_test = train_test_split(X_qsec, y_qsec, test_size=0.6, random_state=137)
# Estandarizamos las características
scaler = StandardScaler().fit(X_qsec_train)
X_qsec_train_scaled = scaler.transform(X_qsec_train)
X_qsec_test_scaled = scaler.transform(X_qsec_test)

In [32]:
#Hacemos la regresión con el training estandarizado
X_qsec_train_sm = sm.add_constant(X_qsec_train_scaled)
modelo_qsec = sm.OLS(y_qsec_train, X_qsec_train_sm).fit()

### 1.2.1

In [33]:
print(modelo_qsec.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.979
Model:                            OLS   Adj. R-squared:                  0.766
Method:                 Least Squares   F-statistic:                     4.609
Date:                Wed, 17 Sep 2025   Prob (F-statistic):              0.349
Time:                        18:02:20   Log-Likelihood:               -0.25847
No. Observations:                  12   AIC:                             22.52
Df Residuals:                       1   BIC:                             27.85
Df Model:                          10                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         17.3733      0.247     70.269      0.0

  res = hypotest_fun_out(*samples, **kwds)


Los betas son fáciles de interpretar e incluso un poco obvios: Entre más cilindros, mejor aceleración (menor qsec). Entre más grande sean los cilindros mejor aceleración.

### 1.2.2

In [34]:
#Probamos el modelo con el test
X_qsec_test_sm = sm.add_constant(X_qsec_test_scaled)
y_qsec_pred = modelo_qsec.predict(X_qsec_test_sm)
# Calculamos el R2 de entrenamiento y de prueba
r2_qsec_train = modelo_qsec.rsquared
r2_qsec_test = r2_score(y_qsec_test, y_qsec_pred)
print(f'R2 entrenamiento: {r2_qsec_train}')
print(f'R2 prueba: {r2_qsec_test}')

R2 entrenamiento: 0.978762192523052
R2 prueba: 0.3761038962000679


### 1.2.3

In [35]:
#Añadimos regularización L2 (Ridge). Primero con lambda=1. Para entrenamiento y prueba
modelo_qsec_ridge_1 = Ridge(alpha=1).fit(X_qsec_train_scaled, y_qsec_train)
y_qsec_train_ridge_pred = modelo_qsec_ridge_1.predict(X_qsec_train_scaled)
y_qsec_test_ridge_pred = modelo_qsec_ridge_1.predict(X_qsec_test_scaled)
# Calculamos el R2 de entrenamiento y de prueba
r2_qsec_train = r2_score(y_qsec_train, y_qsec_train_ridge_pred)
r2_qsec_test = r2_score(y_qsec_test, y_qsec_test_ridge_pred)
print(f'R2 entrenamiento: {r2_qsec_train}')
print(f'R2 prueba: {r2_qsec_test}')

R2 entrenamiento: 0.9671802657602481
R2 prueba: 0.6535717344645446


In [36]:
#Ahora probamos con lambda=10
modelo_qsec_ridge_10 = Ridge(alpha=10).fit(X_qsec_train_scaled, y_qsec_train)
y_qsec_train_ridge_pred = modelo_qsec_ridge_10.predict(X_qsec_train_scaled)
y_qsec_test_ridge_pred = modelo_qsec_ridge_10.predict(X_qsec_test_scaled)
# Calculamos el R2 de entrenamiento y de prueba
r2_qsec_train = r2_score(y_qsec_train, y_qsec_train_ridge_pred)
r2_qsec_test = r2_score(y_qsec_test, y_qsec_test_ridge_pred)
print(f'R2 entrenamiento: {r2_qsec_train}')
print(f'R2 prueba: {r2_qsec_test}')

R2 entrenamiento: 0.8843606593441767
R2 prueba: 0.6093368477249674


In [37]:
#Ahora con lambda = 100
modelo_qsec_ridge_100 = Ridge(alpha=100).fit(X_qsec_train_scaled, y_qsec_train)
y_qsec_train_ridge_pred = modelo_qsec_ridge_100.predict(X_qsec_train_scaled)
y_qsec_test_ridge_pred = modelo_qsec_ridge_100.predict(X_qsec_test_scaled)
# Calculamos el R2 de entrenamiento y de prueba
r2_qsec_train = r2_score(y_qsec_train, y_qsec_train_ridge_pred)
r2_qsec_test = r2_score(y_qsec_test, y_qsec_test_ridge_pred)
print(f'R2 entrenamiento: {r2_qsec_train}')
print(f'R2 prueba: {r2_qsec_test}')

R2 entrenamiento: 0.44539047741697946
R2 prueba: 0.24011778536032247


Claramente la penalización con lambra = 1 es mucho mejor. La verdad hubo una mejora súper notable a diferencia de la regresión sin penalización.

## 2.1
Realiza una regresión tomando 'mpg' como salida y eliminando la columna 'model'. Crea columnas dummies para los factores 'cyl', 'gear', y 'carb'.

In [38]:
#Hacemos la regresión para mpg con dummies para cyl, gear y carb
df_mpg_dummies = pd.get_dummies(df_full, columns = ['cyl', 'gear', 'carb'])
X_mpg_dummies = df_mpg_dummies.drop(columns=['mpg']).values.reshape(-1, 19)
y_mpg_dummies = df_mpg_dummies['mpg'].values

#Hacemos la separación de entrenamiento y prueba
X_mpg_dummies_train, X_mpg_dummies_test, y_mpg_dummies_train, y_mpg_dummies_test = train_test_split(X_mpg_dummies, y_mpg_dummies, test_size=0.6, random_state=137)
#Estadarizamos
scaler = StandardScaler().fit(X_mpg_dummies_train)
X_mpg_dummies_train_scaled = scaler.transform(X_mpg_dummies_train)
X_mpg_dummies_test_scaled = scaler.transform(X_mpg_dummies_test)
#Hacemos la regresión con el training estandarizado
X_mpg_dummies_train_sm = sm.add_constant(X_mpg_dummies_train_scaled)
modelo_mpg_dummies = sm.OLS(y_mpg_dummies_train, X_mpg_dummies_train_sm).fit()
df_mpg_dummies

Unnamed: 0,mpg,disp,hp,drat,wt,qsec,vs,am,cyl_4,cyl_6,cyl_8,gear_3,gear_4,gear_5,carb_1,carb_2,carb_3,carb_4,carb_6,carb_8
0,21.0,160.0,110,3.9,2.62,16.46,0,1,False,True,False,False,True,False,False,False,False,True,False,False
1,21.0,160.0,110,3.9,2.875,17.02,0,1,False,True,False,False,True,False,False,False,False,True,False,False
2,22.8,108.0,93,3.85,2.32,18.61,1,1,True,False,False,False,True,False,True,False,False,False,False,False
3,21.4,258.0,110,3.08,3.215,19.44,1,0,False,True,False,True,False,False,True,False,False,False,False,False
4,18.7,360.0,175,3.15,3.44,17.02,0,0,False,False,True,True,False,False,False,True,False,False,False,False
5,18.1,225.0,105,2.76,3.46,20.22,1,0,False,True,False,True,False,False,True,False,False,False,False,False
6,14.3,360.0,245,3.21,3.57,15.84,0,0,False,False,True,True,False,False,False,False,False,True,False,False
7,24.4,146.7,62,3.69,3.19,20.0,1,0,True,False,False,False,True,False,False,True,False,False,False,False
8,22.8,140.8,95,3.92,3.15,22.9,1,0,True,False,False,False,True,False,False,True,False,False,False,False
9,19.2,167.6,123,3.92,3.44,18.3,1,0,False,True,False,False,True,False,False,False,False,True,False,False


### 2.1.1
Calcula el R2 e interpreta los signos de los betas.

In [39]:
modelo_mpg_dummies.summary()

  res = hypotest_fun_out(*samples, **kwds)
  return 1 - (np.divide(self.nobs - self.k_constant, self.df_resid)
  return 1 - (np.divide(self.nobs - self.k_constant, self.df_resid)
  return np.dot(wresid, wresid) / self.df_resid
  cov_p = self.normalized_cov_params * scale


0,1,2,3
Dep. Variable:,y,R-squared:,1.0
Model:,OLS,Adj. R-squared:,
Method:,Least Squares,F-statistic:,
Date:,"Wed, 17 Sep 2025",Prob (F-statistic):,
Time:,18:02:20,Log-Likelihood:,366.11
No. Observations:,12,AIC:,-708.2
Df Residuals:,0,BIC:,-702.4
Df Model:,11,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,17.4333,inf,0,,,
x1,-2.8807,inf,-0,,,
x2,1.1616,inf,0,,,
x3,3.8237,inf,0,,,
x4,2.0417,inf,0,,,
x5,-1.5490,inf,-0,,,
x6,-0.3475,inf,-0,,,
x7,0.5954,inf,0,,,
x8,1.6043,inf,0,,,

0,1,2,3
Omnibus:,9.436,Durbin-Watson:,1.844
Prob(Omnibus):,0.009,Jarque-Bera (JB):,4.717
Skew:,1.245,Prob(JB):,0.0945
Kurtosis:,4.799,Cond. No.,36.7


Ahora podemos ver que afecta muchísimo más de lo antes contemplado el tamaño de los cilindros (también afecta la cantidad pero no tento como creiamos). Ahora también vemos que afecta positivamente cuando aumenta el wt

### 2.1.2
Realiza un train-test-split donde se use el 40% de los datos para entrenar. Calcula el R2 de entrenamiento y de prueba.

In [40]:
# Probamos el modelo con el test
X_mpg_dummies_test_sm = sm.add_constant(X_mpg_dummies_test_scaled, has_constant='add')
y_mpg_dummies_pred = modelo_mpg_dummies.predict(X_mpg_dummies_test_sm)
# Calculamos el R2 de entrenamiento y de prueba
r2_mpg_dummies_train = modelo_mpg_dummies.rsquared
r2_mpg_dummies_test = r2_score(y_mpg_dummies_test, y_mpg_dummies_pred)
print(f'R2 entrenamiento: {r2_mpg_dummies_train}')
print(f'R2 prueba: {r2_mpg_dummies_test}')

R2 entrenamiento: 1.0
R2 prueba: 0.12691935910998065


No inventes, está malísimo el modelo cuando yo creía que era mejor.

## 2.2
Repite el ejercicio anterior usando 'qseq' como salida.

In [41]:
#Hacemos la regresión para mpg con dummies para cyl, gear y carb
df_qsec_dummies = pd.get_dummies(df_full, columns = ['cyl', 'gear', 'carb'])
X_qsec_dummies = df_qsec_dummies.drop(columns=['qsec']).values.reshape(-1, 19)
y_qsec_dummies = df_qsec_dummies['qsec'].values

#Hacemos la separación de entrenamiento y prueba
X_qsec_dummies_train, X_qsec_dummies_test, y_qsec_dummies_train, y_qsec_dummies_test = train_test_split(X_qsec_dummies, y_qsec_dummies, test_size=0.6, random_state=137)
#Estadarizamos
scaler = StandardScaler().fit(X_qsec_dummies_train)
X_qsec_dummies_train_scaled = scaler.transform(X_qsec_dummies_train)
X_qsec_dummies_test_scaled = scaler.transform(X_qsec_dummies_test)
#Hacemos la regresión con el training estandarizado
X_qsec_dummies_train_sm = sm.add_constant(X_qsec_dummies_train_scaled)
modelo_qsec_dummies = sm.OLS(y_qsec_dummies_train, X_qsec_dummies_train_sm).fit()
df_qsec_dummies

Unnamed: 0,mpg,disp,hp,drat,wt,qsec,vs,am,cyl_4,cyl_6,cyl_8,gear_3,gear_4,gear_5,carb_1,carb_2,carb_3,carb_4,carb_6,carb_8
0,21.0,160.0,110,3.9,2.62,16.46,0,1,False,True,False,False,True,False,False,False,False,True,False,False
1,21.0,160.0,110,3.9,2.875,17.02,0,1,False,True,False,False,True,False,False,False,False,True,False,False
2,22.8,108.0,93,3.85,2.32,18.61,1,1,True,False,False,False,True,False,True,False,False,False,False,False
3,21.4,258.0,110,3.08,3.215,19.44,1,0,False,True,False,True,False,False,True,False,False,False,False,False
4,18.7,360.0,175,3.15,3.44,17.02,0,0,False,False,True,True,False,False,False,True,False,False,False,False
5,18.1,225.0,105,2.76,3.46,20.22,1,0,False,True,False,True,False,False,True,False,False,False,False,False
6,14.3,360.0,245,3.21,3.57,15.84,0,0,False,False,True,True,False,False,False,False,False,True,False,False
7,24.4,146.7,62,3.69,3.19,20.0,1,0,True,False,False,False,True,False,False,True,False,False,False,False
8,22.8,140.8,95,3.92,3.15,22.9,1,0,True,False,False,False,True,False,False,True,False,False,False,False
9,19.2,167.6,123,3.92,3.44,18.3,1,0,False,True,False,False,True,False,False,False,False,True,False,False


### 2.2.1

In [42]:
modelo_qsec_dummies.summary()

  res = hypotest_fun_out(*samples, **kwds)
  return 1 - (np.divide(self.nobs - self.k_constant, self.df_resid)
  return 1 - (np.divide(self.nobs - self.k_constant, self.df_resid)
  return np.dot(wresid, wresid) / self.df_resid
  cov_p = self.normalized_cov_params * scale


0,1,2,3
Dep. Variable:,y,R-squared:,1.0
Model:,OLS,Adj. R-squared:,
Method:,Least Squares,F-statistic:,
Date:,"Wed, 17 Sep 2025",Prob (F-statistic):,
Time:,18:02:21,Log-Likelihood:,358.01
No. Observations:,12,AIC:,-692.0
Df Residuals:,0,BIC:,-686.2
Df Model:,11,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,17.3733,inf,0,,,
x1,-2.8275,inf,-0,,,
x2,2.1520,inf,0,,,
x3,-0.1677,inf,-0,,,
x4,3.7193,inf,0,,,
x5,0.0248,inf,0,,,
x6,0.0007,inf,0,,,
x7,-0.0380,inf,-0,,,
x8,0.7525,inf,0,,,

0,1,2,3
Omnibus:,0.103,Durbin-Watson:,1.471
Prob(Omnibus):,0.95,Jarque-Bera (JB):,0.226
Skew:,0.169,Prob(JB):,0.893
Kurtosis:,2.419,Cond. No.,113.0


Podemos interpretar cosas nuevas de estos betas: la transmisión automática y 8 cilindros mejora la aceleración, pero tener 4 vaya que la empeora.

### 2.2.2

In [43]:
# Probamos el modelo con el test
X_qsec_dummies_test_sm = sm.add_constant(X_qsec_dummies_test_scaled, has_constant='add')
y_qsec_dummies_pred = modelo_qsec_dummies.predict(X_qsec_dummies_test_sm)
# Calculamos el R2 de entrenamiento y de prueba
r2_qsec_dummies_train = modelo_qsec_dummies.rsquared
r2_qsec_dummies_test = r2_score(y_qsec_dummies_test, y_qsec_dummies_pred)
print(f'R2 entrenamiento: {r2_qsec_dummies_train}')
print(f'R2 prueba: {r2_qsec_dummies_test}')

R2 entrenamiento: 1.0
R2 prueba: -2.8604968441086145


Nuevamente sucedió el problema de overfitting :(

## 3.1
Compara los R2 de los ejercicios 1.1 & 2.1.

In [44]:
print("R2 del modelo mpg sin dummies: ", modelo_mpg.rsquared)
print("R2 del modelo mpg con dummies: ", modelo_mpg_dummies.rsquared)

R2 del modelo mpg sin dummies:  0.9900805114414537
R2 del modelo mpg con dummies:  1.0


Puede parecer obvio que las dummies son mejor pero, como ya comentamos; overfitting.

## 3.2
Compara los R2 de los ejercicios 1.2 & 2.2.

In [45]:
print("R2 del modelo qsec sin dummies: ", modelo_qsec.rsquared)
print("R2 del modelo qsec con dummies: ", modelo_qsec_dummies.rsquared)

R2 del modelo qsec sin dummies:  0.978762192523052
R2 del modelo qsec con dummies:  1.0


Literalmente mismo comentario que el de mpg.