## Carga de los datos

In [235]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import r2_score

df = pd.read_excel("Motor Trend Car Road Tests.xlsx")


df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [236]:
df = df.drop(columns=["model"], errors="ignore")

print("Columnas:", list(df.columns))

df.describe()

Columnas: ['mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'gear', 'carb']


Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
count,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
mean,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
std,6.026948,1.785922,123.938694,68.562868,0.534679,0.978457,1.786943,0.504016,0.498991,0.737804,1.6152
min,10.4,4.0,71.1,52.0,2.76,1.513,14.5,0.0,0.0,3.0,1.0
25%,15.425,4.0,120.825,96.5,3.08,2.58125,16.8925,0.0,0.0,3.0,2.0
50%,19.2,6.0,196.3,123.0,3.695,3.325,17.71,0.0,0.0,4.0,2.0
75%,22.8,8.0,326.0,180.0,3.92,3.61,18.9,1.0,1.0,4.0,4.0
max,33.9,8.0,472.0,335.0,4.93,5.424,22.9,1.0,1.0,5.0,8.0


### Regresión tomando mpg como variable dependiente

In [237]:
X = df.drop(columns=["mpg"])
y = df["mpg"]

modelo = LinearRegression()
modelo.fit(X, y)

R2_total = modelo.score(X, y)

print("R2 con todos los datos:", R2_total)


R2 con todos los datos: 0.8690157644777647


### Train-Test Split (40% entrenamiento)


### Si el R2 de entrenamiento es mucho mayor que el de prueba, el modelo presenta sobreajuste.

In [238]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.40, random_state=42)

modelo = LinearRegression()
modelo.fit(X_train, y_train)

print("R2 entrenamiento:", modelo.score(X_train, y_train))
print("R2 prueba:", modelo.score(X_test, y_test))


R2 entrenamiento: 0.9982122857062323
R2 prueba: -7.107140653510731


### Regularización L2 (Ridge)

In [239]:
alphas = [0.1, 1, 10, 100]

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

for a in alphas:
    ridge = Ridge(alpha=a)
    ridge.fit(X_train_scaled, y_train)
    
    print("Lambda:", a)
    print("R2 train:", ridge.score(X_train_scaled, y_train))
    print("R2 test :", ridge.score(X_test_scaled, y_test))
    print("______________")


Lambda: 0.1
R2 train: 0.9831377730956321
R2 test : -0.5064817705944389
______________
Lambda: 1
R2 train: 0.9274813499199266
R2 test : 0.6518375462086013
______________
Lambda: 10
R2 train: 0.8789227588427151
R2 test : 0.8008801810766419
______________
Lambda: 100
R2 train: 0.5852320460866287
R2 test : 0.6710883856502703
______________


###  Regresión tomando qsec como variable dependiente

In [240]:
X = df.drop(columns=["qsec"])
y = df["qsec"]

modelo = LinearRegression()
modelo.fit(X, y)

print("R2 total:", modelo.score(X, y))


R2 total: 0.8746925777093999


### Train-Test Split


In [241]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.40, random_state=42)

modelo.fit(X_train, y_train)

print("R2 train:", modelo.score(X_train, y_train))
print("R2 test :", modelo.score(X_test, y_test))


R2 train: 0.9989478049029176
R2 test : -1.0013422169955382


### Se crean variables dummy para:

- cyl
- gear
- carb


In [242]:
df_dummies = pd.get_dummies( df,columns=["cyl", "gear", "carb"], drop_first=True)

df_dummies.head()


Unnamed: 0,mpg,disp,hp,drat,wt,qsec,vs,am,cyl_6,cyl_8,gear_4,gear_5,carb_2,carb_3,carb_4,carb_6,carb_8
0,21.0,160.0,110,3.9,2.62,16.46,0,1,True,False,True,False,False,False,True,False,False
1,21.0,160.0,110,3.9,2.875,17.02,0,1,True,False,True,False,False,False,True,False,False
2,22.8,108.0,93,3.85,2.32,18.61,1,1,False,False,True,False,False,False,False,False,False
3,21.4,258.0,110,3.08,3.215,19.44,1,0,True,False,False,False,False,False,False,False,False
4,18.7,360.0,175,3.15,3.44,17.02,0,0,False,True,False,False,True,False,False,False,False


### Modelo con mpg como variable dependiente


In [243]:
X = df_dummies.drop(columns=["mpg"])
y = df_dummies["mpg"]

modelo = LinearRegression()
modelo.fit(X, y)

print("R2 total:", modelo.score(X, y))


R2 total: 0.8930749320864843


### Train-Test Split


In [244]:
X_train, X_test, y_train, y_test = train_test_split( X, y, train_size=0.40, random_state=42)

modelo.fit(X_train, y_train)

print("R2 train:", modelo.score(X_train, y_train))
print("R2 test :", modelo.score(X_test, y_test))


R2 train: 1.0
R2 test : -1.3252877613458471


### Se repite  utilizando qsec como variable dependiente.


In [245]:
X = df_dummies.drop(columns=["qsec"])
y = df_dummies["qsec"]

modelo = LinearRegression()
modelo.fit(X, y)

print("R2 total:", modelo.score(X, y))


R2 total: 0.9082689440167556


### Train-Test Split


In [246]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.40, random_state=42)

modelo.fit(X_train, y_train)

print("R2 train:", modelo.score(X_train, y_train))
print("R2 test :", modelo.score(X_test, y_test))


R2 train: 1.0
R2 test : -0.05999228859334904


3.1 Comparación 1.1 vs 2.1 (mpg)

El modelo 1.1 (sin dummies) tiene:

R2 train alto

R2 test moderado

El modelo 2.1 (con dummies) tiene:

R2 train más alto

R2 test ligeramente menor o muy similar


Al comparar los modelos 1.1 y 2.1, el modelo con variables dummy presenta un R2 de entrenamiento mayor debido al incremento en el número de parámetros. El R2 de prueba no mejora , lo que indica que las variables dummy no aportan una mejora  en la prediccion y pueden generar sobreajuste debido al tamaño reducido del dataset.

3.2 Comparación 1.2 vs 2.2 (qsec)
El modelo 1.2 (sin dummies) tiene:

R2 train alto

R2 test moderado

El modelo 2.2 (con dummies) tiene:

R2 train más alto

R2 test ligeramente menor o muy similar

Al comparar los modelos 1.2 y 2.2, el modelo con variables dummy presenta un R2 de entrenamiento mayor debido al incremento en el número de parámetros. El R2 de prueba no mejora , lo que indica que las variables dummy no aportan una mejora  en la prediccion y pueden generar sobreajuste debido al tamaño reducido del dataset.