Regina Tamayo León

Jueves 19 feb 2026

*EDA*

In [30]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import r2_score

df=pd.read_excel("Motor Trend Car Road Tests.xlsx")


**SECCIÓN 1: FACTORES COMO NUMÉRICOS**

In [26]:
# 1.1 Regresión para 'mpg' 
print("EJERCICIO 1.1: mpg (Numérico)")
X1 = df.drop(columns=['mpg', 'model'])
y1 = df['mpg']


m1_full = LinearRegression().fit(X1, y1)
print(f"R2 Modelo Completo: {r2_score(y1, m1_full.predict(X1)):.4f}")
print("Interpretación de Betas:", m1_full.coef_)


EJERCICIO 1.1: mpg (Numérico)
R2 Modelo Completo: 0.8690
Interpretación de Betas: [-0.11144048  0.01333524 -0.02148212  0.78711097 -3.71530393  0.82104075
  0.31776281  2.52022689  0.65541302 -0.19941925]


La beta dice cuánto cambia la salida (mpg) por cada unidad que aumenta una variable, dejando las demás constantes.

Signo Negativo (-): Existe una relación inversa. Por ejemplo, si la Beta del peso (wt) es -3.71, significa que por cada 1,000 libras adicionales de peso, el rendimiento baja 3.71 millas por galón.

Signo Positivo (+): Existe una relación directa. Por ejemplo, si la Beta de transmisión manual (am) es 2.52, significa que un auto manual tiende a subir su rendimiento en 2.52 millas por galón frente a uno automático.

In [17]:
# Split 40% entrenamiento 
X_train1, X_test1, y_train1, y_test1 = train_test_split(X1, y1, train_size=0.4, random_state=42)
m1_split = LinearRegression().fit(X_train1, y_train1)
print(f"R2 Train: {r2_score(y_train1, m1_split.predict(X_train1)):.4f}")
print(f"R2 Test (Sin regularización): {r2_score(y_test1, m1_split.predict(X_test1)):.4f}")


R2 Train: 0.9982
R2 Test (Sin regularización): -7.1071


In [27]:
# Regularización L2 (Ridge) 
print("Comparativa Ridge (Lambda):")
for L in [0.1, 1.0, 10.0, 100.0]:
    ridge = Ridge(alpha=L).fit(X_train1, y_train1)
    print(f"Lambda {L} -> R2 Test: {r2_score(y_test1, ridge.predict(X_test1)):.4f}")



Comparativa Ridge (Lambda):
Lambda 0.1 -> R2 Test: 0.2607
Lambda 1.0 -> R2 Test: 0.6311
Lambda 10.0 -> R2 Test: 0.6567
Lambda 100.0 -> R2 Test: 0.5990


Con la regresión lineal simple y su  $R^2$ (-7.10), al usar Lambda 10.0 o 100.0, el $R^2$ de prueba se vuelve positivo (0.65).Porque al restringir los coeficientes, el modelo deja de memorizar los 12 autos de entrenamiento y su capacidad para generalizar con los datos de prueba mejora drásticamente.

In [28]:
# 1.2 Regresión para 'qsec' 
print("EJERCICIO 1.2: qsec (Numérico)")
X2 = df.drop(columns=['qsec', 'model'])
y2 = df['qsec']

m2_full = LinearRegression().fit(X2, y2)
print(f"R2 Modelo Completo: {r2_score(y2, m2_full.predict(X2)):.4f}")

X_train2, X_test2, y_train2, y_test2 = train_test_split(X2, y2, train_size=0.4, random_state=42)
m2_split = LinearRegression().fit(X_train2, y_train2)
print(f"R2 Test (Sin regularización): {r2_score(y_test2, m2_split.predict(X_test2)):.4f}")


print("Comparativa Ridge (Lambda):")
for L in [0.1, 1.0, 10.0]:
    ridge = Ridge(alpha=L).fit(X_train2, y_train2)
    print(f"Lambda {L} -> R2 Test: {r2_score(y_test2, ridge.predict(X_test2)):.4f}")

EJERCICIO 1.2: qsec (Numérico)
R2 Modelo Completo: 0.8747
R2 Test (Sin regularización): -1.0013
Comparativa Ridge (Lambda):
Lambda 0.1 -> R2 Test: 0.6878
Lambda 1.0 -> R2 Test: 0.7141
Lambda 10.0 -> R2 Test: 0.5044


El resultado negativo (-1) me indica que el modelo está sobreajustado y no sirve para predecir autos que no conoce.

Para qsec, el punto ideal podría ser cerca de Lambda 1.0.Si el Lambda es muy bajo, el modelo es inestable.Si el Lambda es muy alto (ej. 10.0), el $R^2$ de prueba puede empezar a bajar (0.50), porque la aceleración es un fenómeno físico muy sensible.

**SECCIÓN 2: FACTORES COMO DUMMIES (cyl, gear, carb)**

In [29]:
df_dummies = pd.get_dummies(df, columns=['cyl', 'gear', 'carb'], drop_first=True)

# 2.1 Regresión para 'mpg' con Dummies
print("EJERCICIO 2.1: mpg (Dummies)")
X3 = df_dummies.drop(columns=['mpg', 'model'])
y3 = df_dummies['mpg']

m3_full = LinearRegression().fit(X3, y3)
r2_21_full = r2_score(y3, m3_full.predict(X3))
print(f"R2 Modelo Completo con Dummies: {r2_21_full:.4f}")

X_train3, X_test3, y_train3, y_test3 = train_test_split(X3, y3, train_size=0.4, random_state=42)
m3_split = LinearRegression().fit(X_train3, y_train3)
print(f"R2 Test (Dummies): {r2_score(y_test3, m3_split.predict(X_test3)):.4f}")


EJERCICIO 2.1: mpg (Dummies)
R2 Modelo Completo con Dummies: 0.8931
R2 Test (Dummies): -1.3253


Este número es muy bueno: al convertir los cilindros, las marchas y los carburadores en Dummies (categorías independientes), el modelo ahora entiende el 89.31% de la realidad de los autos.

Un $R^2$ negativo significa que mi modelo es malo prediciendo datos nuevos, que sería más exacto simplemente adivinar el promedio que usarlo. Pero al crear las Dummies, le di muchísimas variables (columnas).El modelo tiene demasiadas herramientas para tan pocos ejemplos.

In [23]:
# 2.2 Regresión para 'qsec' con Dummies
print("EJERCICIO 2.2: qsec (Dummies)")
X4 = df_dummies.drop(columns=['qsec', 'model'])
y4 = df_dummies['qsec']

m4_full = LinearRegression().fit(X4, y4)
r2_22_full = r2_score(y4, m4_full.predict(X4))
print(f"R2 Modelo Completo con Dummies: {r2_22_full:.4f}")

X_train4, X_test4, y_train4, y_test4 = train_test_split(X4, y4, train_size=0.4, random_state=42)
m4_split = LinearRegression().fit(X_train4, y_train4)
print(f"R2 Test (Dummies): {r2_score(y_test4, m4_split.predict(X_test4)):.4f}")


EJERCICIO 2.2: qsec (Dummies)
R2 Modelo Completo con Dummies: 0.9083
R2 Test (Dummies): -0.0600


qsec depende totalmente de la configuración específica del motor (cilindros y carburadores). Tratar estos factores como categorías independientes es mucho más exacto que tratarlos como números.

**SECCIÓN 3: COMPARACIONES FINALES**

In [10]:
print("RESUMEN DE COMPARACIONES")
print(f"3.1 MPG: Simple R2 ({r2_score(y1, m1_full.predict(X1)):.4f}) vs Dummies R2 ({r2_21_full:.4f})")
print(f"3.2 QSEC: Simple R2 ({r2_score(y2, m2_full.predict(X2)):.4f}) vs Dummies R2 ({r2_22_full:.4f})")

RESUMEN DE COMPARACIONES
3.1 MPG: Simple R2 (0.8690) vs Dummies R2 (0.8931)
3.2 QSEC: Simple R2 (0.8747) vs Dummies R2 (0.9083)


En ambas variables de salida (mpg y qsec), el uso de variables Dummy demostró ser la mejor estrategia para modelar el comportamiento de los automóviles, obteniendo los coeficientes de determinación ($R^2$) más altos. 
Este aumento en la precisión requiere un manejo cuidadoso de la complejidad (mediante Ridge) para evitar que el modelo se vuelva inestable al predecir datos fuera de la muestra de entrenamiento.