# T05 - Motor Trend Car Road Tests

#### Miguel Aaron Castillon Ochoa
#### 17 / 09 / 2025
#### 751858

## Librerias

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import r2_score

## Carga del Dataset

In [2]:
df = pd.read_excel("Motor Trend Car Road Tests.xlsx")
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


## 1.1 Regresión con mpg como salida

#### Eliminar la columna 'model'

In [3]:
df = df.drop(columns=['model'])

#### Variables predictoras y salida

In [4]:
X = df.drop(columns=['mpg'])
y = df['mpg']

#### Train test split

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.6, random_state=42)


#### Modelo Regresion Lineal

In [6]:
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

#### R2 de entrenamiento y prueba

In [7]:
r2_train = r2_score(y_train, lin_reg.predict(X_train))
r2_test = r2_score(y_test, lin_reg.predict(X_test))

print("R2 Entrenamiento:", r2_train)
print("R2 Prueba:", r2_test)
print("Coeficientes:", lin_reg.coef_)
print("Intercepto:", lin_reg.intercept_)

R2 Entrenamiento: 0.9982122857062323
R2 Prueba: -7.107140653510939
Coeficientes: [-3.05895146e+00 -1.26681539e-02 -3.22875384e-02 -6.03103520e+00
 -1.01921868e+01  5.53595262e+00 -2.63463205e+01  4.48795644e+00
  3.43726247e+00  5.94915368e+00]
Intercepto: -14.877809515619898


#### Con regularizacion L2 (Ridge)

In [8]:
for alpha in [0.1, 1, 10, 100]:
    ridge = Ridge(alpha=alpha)
    ridge.fit(X_train, y_train)
    print(f"Lambda = {alpha}")
    print("R2 Entrenamiento:", r2_score(y_train, ridge.predict(X_train)))
    print("R2 Prueba:", r2_score(y_test, ridge.predict(X_test)))
    print("-"*40)

Lambda = 0.1
R2 Entrenamiento: 0.9794200798509614
R2 Prueba: 0.26067024754956314
----------------------------------------
Lambda = 1
R2 Entrenamiento: 0.9278776695116554
R2 Prueba: 0.6310793203589047
----------------------------------------
Lambda = 10
R2 Entrenamiento: 0.8633880241271138
R2 Prueba: 0.6567019278519772
----------------------------------------
Lambda = 100
R2 Entrenamiento: 0.8073152721086998
R2 Prueba: 0.5990179613832922
----------------------------------------


## 1.2 Repetir con qsec como salida

In [9]:
X = df.drop(columns=['qsec'])
y = df['qsec']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.6, random_state=42)

lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

print("R2 Entrenamiento:", r2_score(y_train, lin_reg.predict(X_train)))
print("R2 Prueba:", r2_score(y_test, lin_reg.predict(X_test)))
print("Coeficientes:", lin_reg.coef_)


R2 Entrenamiento: 0.9989478049029176
R2 Prueba: -1.0013422169955772
Coeficientes: [ 1.74988113e-01  5.46330290e-01  2.55181851e-03  5.41861683e-03
  1.08091983e+00  1.80380573e+00  4.77343409e+00 -7.95789255e-01
 -6.17466722e-01 -1.06855761e+00]


## 2.1 Regresión con dummies (mpg como salida)

#### Crear dummies para cyl, gear, carb

In [10]:
df_dummies = pd.get_dummies(df, columns=['cyl','gear','carb'], drop_first=True)

X = df_dummies.drop(columns=['mpg'])
y = df_dummies['mpg']

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.6, random_state=42)

lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

print("R2 Entrenamiento:", r2_score(y_train, lin_reg.predict(X_train)))
print("R2 Prueba:", r2_score(y_test, lin_reg.predict(X_test)))
print("Coeficientes:", lin_reg.coef_)

R2 Entrenamiento: 1.0
R2 Prueba: -1.3252877613458698
Coeficientes: [  0.0485829   -0.03630067  -5.86758454 -12.2284757    3.78860017
  -1.5412495    2.70946269  -4.1890952    1.5412495    6.67342796
   6.02909046   2.50859854   0.           9.87077578   0.
   0.        ]


## 2.2 Repetir con qsec como salida

In [12]:
X = df_dummies.drop(columns=['qsec'])
y = df_dummies['qsec']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.6, random_state=42)

lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

print("R2 Entrenamiento:", r2_score(y_train, lin_reg.predict(X_train)))
print("R2 Prueba:", r2_score(y_test, lin_reg.predict(X_test)))


R2 Entrenamiento: 1.0
R2 Prueba: -0.059992288593364806


## 3. Comparaciones

**3.1 (mpg como salida):**

1.1 con Ridge dio un R² de prueba positivo (~0.63).

2.1 con dummies dio un R² de prueba negativo (-1.32).

Conclusión: la versión numérica con Ridge es mucho mejor que la versión con dummies.

**3.2 (qsec como salida):**

1.2 dio un R² prueba ≈ -1.00.

2.2 dio un R² prueba ≈ -0.06.

Conclusión: usar dummies ayudó un poco, pero sigue sin ser un modelo bueno (R² ≈ 0 sería equivalente a solo usar la media).