# Laboratorio de Regresión - Motor Trend Car Road Tests
- Francisco Tinoco 
- 19 febrero 2026

## Importar librerías y cargar datos

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.model_selection import train_test_split

datos = pd.read_excel("C:\\Users\\Francisco\\Downloads\\8vo Semestre\\Lab estadistico\\Lab-Aprendizaje-Estadistico\\Data\\Motor Trend Car Road Tests.xlsx")
datos.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [2]:
print("Columnas:", datos.columns.tolist())
print("Tamaño:", datos.shape)

Columnas: ['model', 'mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'gear', 'carb']
Tamaño: (32, 12)


---
# Ejercicio 1.1: Regresión con 'mpg' como salida
Todos los factores se consideran numéricos/ordinales.

In [4]:
#Preparar datos: eliminar 'model', mpg es la salida
datos_1 = datos.drop('model', axis=1)

X = datos_1.drop('mpg', axis=1)
y = datos_1['mpg']

print("Variables de entrada:", X.columns.tolist())

Variables de entrada: ['cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'gear', 'carb']


### Regresión con todos los datos

In [5]:
#Entrenar modelo con todos los datos
modelo = LinearRegression()
modelo.fit(X, y)

#R2
r2 = modelo.score(X, y)
print("R2:", round(r2, 4))

R2: 0.869


In [6]:
#Coeficientes (betas)
print("Intercepto (beta0):", round(modelo.intercept_, 4))
print("\nCoeficientes:")
for nombre, beta in zip(X.columns, modelo.coef_):
    signo = "+" if beta > 0 else "-"
    print(f"  {nombre}: {round(beta, 4)} ({signo})")

Intercepto (beta0): 12.3034

Coeficientes:
  cyl: -0.1114 (-)
  disp: 0.0133 (+)
  hp: -0.0215 (-)
  drat: 0.7871 (+)
  wt: -3.7153 (-)
  qsec: 0.821 (+)
  vs: 0.3178 (+)
  am: 2.5202 (+)
  gear: 0.6554 (+)
  carb: -0.1994 (-)


### Interpretación de los signos de los betas:
- **Signo positivo (+):** Cuando esa variable aumenta, mpg también aumenta
- **Signo negativo (-):** Cuando esa variable aumenta, mpg disminuye

Por ejemplo:
- Si 'wt' (peso) tiene signo negativo, significa que carros más pesados tienen menor rendimiento (mpg)
- Si 'drat' tiene signo positivo, significa que mayor ratio del eje trasero da mejor rendimiento

### Train-Test Split (40% entrenamiento)

In [7]:
#Separar datos: 40% train, 60% test
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.4, random_state=42)

print("Datos de entrenamiento:", X_train.shape[0])
print("Datos de prueba:", X_test.shape[0])

Datos de entrenamiento: 12
Datos de prueba: 20


In [8]:
#Entrenar modelo
modelo_split = LinearRegression()
modelo_split.fit(X_train, y_train)

#R2 de entrenamiento y prueba
r2_train = modelo_split.score(X_train, y_train)
r2_test = modelo_split.score(X_test, y_test)

print("R2 entrenamiento:", round(r2_train, 4))
print("R2 prueba:", round(r2_test, 4))

R2 entrenamiento: 0.9982
R2 prueba: -7.1071


### Regularización L2 (Ridge) con diferentes valores de lambda (alpha)

In [9]:
#Probar diferentes valores de alpha (lambda)
alphas = [0.01, 0.1, 1, 10, 100]

print("Alpha\t\tR2 Train\tR2 Test")
print("-" * 45)

for alpha in alphas:
    modelo_ridge = Ridge(alpha=alpha)
    modelo_ridge.fit(X_train, y_train)
    
    r2_train = modelo_ridge.score(X_train, y_train)
    r2_test = modelo_ridge.score(X_test, y_test)
    
    print(f"{alpha}\t\t{round(r2_train, 4)}\t\t{round(r2_test, 4)}")

Alpha		R2 Train	R2 Test
---------------------------------------------
0.01		0.9951		-2.3331
0.1		0.9794		0.2607
1		0.9279		0.6311
10		0.8634		0.6567
100		0.8073		0.599


**Observación:** Al aumentar alpha, el R2 de entrenamiento tiende a bajar (porque penalizamos los coeficientes), pero el R2 de prueba puede mejorar si había overfitting. El mejor alpha es el que da un buen balance entre ambos.

---
# Ejercicio 1.2: Regresión con 'qsec' como salida
Repetimos el proceso pero ahora prediciendo 'qsec' (tiempo en 1/4 de milla).

In [11]:
#Preparar datos: eliminar 'model', qsec es la salida
datos_12 = datos.drop('model', axis=1)

X_12 = datos_12.drop('qsec', axis=1)
y_12 = datos_12['qsec']

print("Variables de entrada:", X_12.columns.tolist())

Variables de entrada: ['mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'vs', 'am', 'gear', 'carb']


### Regresión con todos los datos

In [12]:
#Entrenar modelo
modelo_12 = LinearRegression()
modelo_12.fit(X_12, y_12)

#R2
r2_12 = modelo_12.score(X_12, y_12)
print("R2:", round(r2_12, 4))

R2: 0.8747


In [13]:
#Coeficientes
print("Intercepto (beta0):", round(modelo_12.intercept_, 4))
print("\nCoeficientes:")
for nombre, beta in zip(X_12.columns, modelo_12.coef_):
    signo = "+" if beta > 0 else "-"
    print(f"  {nombre}: {round(beta, 4)} ({signo})")

Intercepto (beta0): 17.7762

Coeficientes:
  mpg: 0.069 (+)
  cyl: -0.3627 (-)
  disp: -0.0075 (-)
  hp: -0.0016 (-)
  drat: -0.1311 (-)
  wt: 1.4963 (+)
  vs: 0.97 (+)
  am: -0.9012 (-)
  gear: -0.2013 (-)
  carb: -0.2736 (-)


### Interpretación de los signos:
- **Signo positivo (+):** Cuando esa variable aumenta, qsec también aumenta (carro más lento)
- **Signo negativo (-):** Cuando esa variable aumenta, qsec disminuye (carro más rápido)

Por ejemplo:
- Si 'hp' (caballos de fuerza) tiene signo negativo, más potencia = menor tiempo = más rápido

### Train-Test Split (40% entrenamiento)

In [14]:
#Separar datos
X_train_12, X_test_12, y_train_12, y_test_12 = train_test_split(X_12, y_12, train_size=0.4, random_state=42)

#Entrenar modelo
modelo_split_12 = LinearRegression()
modelo_split_12.fit(X_train_12, y_train_12)

#R2
r2_train_12 = modelo_split_12.score(X_train_12, y_train_12)
r2_test_12 = modelo_split_12.score(X_test_12, y_test_12)

print("R2 entrenamiento:", round(r2_train_12, 4))
print("R2 prueba:", round(r2_test_12, 4))

R2 entrenamiento: 0.9989
R2 prueba: -1.0013


### Regularización L2 (Ridge)

In [15]:
#Probar diferentes valores de alpha
alphas = [0.01, 0.1, 1, 10, 100]

print("Alpha\t\tR2 Train\tR2 Test")
print("-" * 45)

for alpha in alphas:
    modelo_ridge_12 = Ridge(alpha=alpha)
    modelo_ridge_12.fit(X_train_12, y_train_12)
    
    r2_train = modelo_ridge_12.score(X_train_12, y_train_12)
    r2_test = modelo_ridge_12.score(X_test_12, y_test_12)
    
    print(f"{alpha}\t\t{round(r2_train, 4)}\t\t{round(r2_test, 4)}")

Alpha		R2 Train	R2 Test
---------------------------------------------
0.01		0.9975		-0.1168
0.1		0.9856		0.6878
1		0.9347		0.7141
10		0.8454		0.5044
100		0.7837		0.4232


---
# Ejercicio 2.1: Regresión con dummies para 'mpg'
Ahora creamos columnas dummies para 'cyl', 'gear' y 'carb' (variables categóricas).

In [16]:
#Ver valores únicos de las columnas categóricas
print("Valores de cyl:", sorted(datos['cyl'].unique()))
print("Valores de gear:", sorted(datos['gear'].unique()))
print("Valores de carb:", sorted(datos['carb'].unique()))

Valores de cyl: [np.int64(4), np.int64(6), np.int64(8)]
Valores de gear: [np.int64(3), np.int64(4), np.int64(5)]
Valores de carb: [np.int64(1), np.int64(2), np.int64(3), np.int64(4), np.int64(6), np.int64(8)]


In [18]:
#Crear dummies
datos_2 = datos.drop('model', axis=1).copy()

#Convertir a dummies (drop_first=True para evitar multicolinealidad)
datos_2 = pd.get_dummies(datos_2, columns=['cyl', 'gear', 'carb'], drop_first=True)
print(datos_2.columns.tolist())
datos_2.head()

['mpg', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'cyl_6', 'cyl_8', 'gear_4', 'gear_5', 'carb_2', 'carb_3', 'carb_4', 'carb_6', 'carb_8']


Unnamed: 0,mpg,disp,hp,drat,wt,qsec,vs,am,cyl_6,cyl_8,gear_4,gear_5,carb_2,carb_3,carb_4,carb_6,carb_8
0,21.0,160.0,110,3.9,2.62,16.46,0,1,True,False,True,False,False,False,True,False,False
1,21.0,160.0,110,3.9,2.875,17.02,0,1,True,False,True,False,False,False,True,False,False
2,22.8,108.0,93,3.85,2.32,18.61,1,1,False,False,True,False,False,False,False,False,False
3,21.4,258.0,110,3.08,3.215,19.44,1,0,True,False,False,False,False,False,False,False,False
4,18.7,360.0,175,3.15,3.44,17.02,0,0,False,True,False,False,True,False,False,False,False


In [19]:
#Variables
X_2 = datos_2.drop('mpg', axis=1)
y_2 = datos_2['mpg']

print("Variables de entrada:", X_2.columns.tolist())

Variables de entrada: ['disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'cyl_6', 'cyl_8', 'gear_4', 'gear_5', 'carb_2', 'carb_3', 'carb_4', 'carb_6', 'carb_8']


### Regresión con todos los datos

In [20]:
#Entrenar modelo
modelo_2 = LinearRegression()
modelo_2.fit(X_2, y_2)

#R2
r2_2 = modelo_2.score(X_2, y_2)
print("R2:", round(r2_2, 4))

R2: 0.8931


In [21]:
#Coeficientes
print("Intercepto (beta0):", round(modelo_2.intercept_, 4))
print("\nCoeficientes:")
for nombre, beta in zip(X_2.columns, modelo_2.coef_):
    signo = "+" if beta > 0 else "-"
    print(f"  {nombre}: {round(beta, 4)} ({signo})")

Intercepto (beta0): 23.8791

Coeficientes:
  disp: 0.0355 (+)
  hp: -0.0705 (-)
  drat: 1.1828 (+)
  wt: -4.5298 (-)
  qsec: 0.3678 (+)
  vs: 1.9309 (+)
  am: 1.2121 (+)
  cyl_6: -2.6487 (-)
  cyl_8: -0.3362 (-)
  gear_4: 1.1144 (+)
  gear_5: 2.5284 (+)
  carb_2: -0.9794 (-)
  carb_3: 2.9996 (+)
  carb_4: 1.0914 (+)
  carb_6: 4.4776 (+)
  carb_8: 7.2504 (+)


### Interpretación de los betas con dummies:
- Las variables dummy representan el **cambio respecto a la categoría base**
- Por ejemplo, 'cyl_6' indica el cambio en mpg al tener 6 cilindros vs la categoría base (4 cilindros)
- Un beta negativo en 'cyl_8' significa que carros de 8 cilindros tienen menor mpg que los de 4 cilindros

### Train-Test Split (40% entrenamiento)

In [22]:
#Separar datos
X_train_2, X_test_2, y_train_2, y_test_2 = train_test_split(X_2, y_2, train_size=0.4, random_state=42)

#Entrenar modelo
modelo_split_2 = LinearRegression()
modelo_split_2.fit(X_train_2, y_train_2)

#R2
r2_train_2 = modelo_split_2.score(X_train_2, y_train_2)
r2_test_2 = modelo_split_2.score(X_test_2, y_test_2)

print("R2 entrenamiento:", round(r2_train_2, 4))
print("R2 prueba:", round(r2_test_2, 4))

R2 entrenamiento: 1.0
R2 prueba: -1.3253


---
# Ejercicio 2.2: Regresión con dummies para 'qsec'

In [23]:
# Usar los mismos datos con dummies pero qsec como salida
X_22 = datos_2.drop('qsec', axis=1)
y_22 = datos_2['qsec']

print("Variables de entrada:", X_22.columns.tolist())

Variables de entrada: ['mpg', 'disp', 'hp', 'drat', 'wt', 'vs', 'am', 'cyl_6', 'cyl_8', 'gear_4', 'gear_5', 'carb_2', 'carb_3', 'carb_4', 'carb_6', 'carb_8']


### Regresión con todos los datos

In [24]:
#Entrenar modelo
modelo_22 = LinearRegression()
modelo_22.fit(X_22, y_22)

#R2
r2_22 = modelo_22.score(X_22, y_22)
print("R2:", round(r2_22, 4))

R2: 0.9083


In [25]:
#Coeficientes
print("Intercepto (beta0):", round(modelo_22.intercept_, 4))
print("\nCoeficientes:")
for nombre, beta in zip(X_22.columns, modelo_22.coef_):
    signo = "+" if beta > 0 else "-"
    print(f"  {nombre}: {round(beta, 4)} ({signo})")

Intercepto (beta0): 16.3491

Coeficientes:
  mpg: 0.0277 (+)
  disp: 0.0035 (+)
  hp: -0.0021 (-)
  drat: 0.1079 (+)
  wt: 0.8105 (+)
  vs: 0.2657 (+)
  am: -1.6943 (-)
  cyl_6: -1.1043 (-)
  cyl_8: -2.9669 (-)
  gear_4: 1.3323 (+)
  gear_5: 0.1823 (+)
  carb_2: -0.8344 (-)
  carb_3: -0.2293 (-)
  carb_4: -1.947 (-)
  carb_6: -1.5652 (-)
  carb_8: -1.3323 (-)


### Train-Test Split (40% entrenamiento)

In [26]:
#Separar datos
X_train_22, X_test_22, y_train_22, y_test_22 = train_test_split(X_22, y_22, train_size=0.4, random_state=42)

#Entrenar modelo
modelo_split_22 = LinearRegression()
modelo_split_22.fit(X_train_22, y_train_22)

#R2
r2_train_22 = modelo_split_22.score(X_train_22, y_train_22)
r2_test_22 = modelo_split_22.score(X_test_22, y_test_22)

print("R2 entrenamiento:", round(r2_train_22, 4))
print("R2 prueba:", round(r2_test_22, 4))

R2 entrenamiento: 1.0
R2 prueba: -0.06


---
# Ejercicio 3: Comparación de resultados

## 3.1 Comparación: Ejercicio 1.1 vs 2.1 (mpg como salida)

In [27]:
print("=" * 50)
print("COMPARACIÓN MPG COMO SALIDA")
print("=" * 50)
print()
print("Ejercicio 1.1 (sin dummies):")
print(f"  R2 todos los datos: {round(r2, 4)}")
print(f"  R2 entrenamiento:   {round(modelo_split.score(X_train, y_train), 4)}")
print(f"  R2 prueba:          {round(modelo_split.score(X_test, y_test), 4)}")
print()
print("Ejercicio 2.1 (con dummies):")
print(f"  R2 todos los datos: {round(r2_2, 4)}")
print(f"  R2 entrenamiento:   {round(r2_train_2, 4)}")
print(f"  R2 prueba:          {round(r2_test_2, 4)}")

COMPARACIÓN MPG COMO SALIDA

Ejercicio 1.1 (sin dummies):
  R2 todos los datos: 0.869
  R2 entrenamiento:   0.9982
  R2 prueba:          -7.1071

Ejercicio 2.1 (con dummies):
  R2 todos los datos: 0.8931
  R2 entrenamiento:   1.0
  R2 prueba:          -1.3253


### Interpretación 3.1:
- Si el R2 con dummies es mayor, significa que tratar cyl, gear y carb como categorías (en lugar de números continuos) captura mejor la relación con mpg.
- Si el R2 de prueba es mucho menor que el de entrenamiento, puede indicar overfitting (el modelo con dummies tiene más variables).

## 3.2 Comparación: Ejercicio 1.2 vs 2.2 (qsec como salida)

In [28]:
print("=" * 50)
print("COMPARACIÓN QSEC COMO SALIDA")
print("=" * 50)
print()
print("Ejercicio 1.2 (sin dummies):")
print(f"  R2 todos los datos: {round(r2_12, 4)}")
print(f"  R2 entrenamiento:   {round(r2_train_12, 4)}")
print(f"  R2 prueba:          {round(r2_test_12, 4)}")
print()
print("Ejercicio 2.2 (con dummies):")
print(f"  R2 todos los datos: {round(r2_22, 4)}")
print(f"  R2 entrenamiento:   {round(r2_train_22, 4)}")
print(f"  R2 prueba:          {round(r2_test_22, 4)}")

COMPARACIÓN QSEC COMO SALIDA

Ejercicio 1.2 (sin dummies):
  R2 todos los datos: 0.8747
  R2 entrenamiento:   0.9989
  R2 prueba:          -1.0013

Ejercicio 2.2 (con dummies):
  R2 todos los datos: 0.9083
  R2 entrenamiento:   1.0
  R2 prueba:          -0.06


### Interpretación 3.2:
- La comparación nos dice si usar dummies mejora o no la predicción de qsec.
- Un modelo más simple (sin dummies) puede generalizar mejor si hay pocos datos.
- Con solo 32 observaciones y muchas variables dummy, el riesgo de overfitting es alto.

---
# Conclusiones Generales

1. **Variables dummy vs numéricas:** Usar dummies puede mejorar el R2 en entrenamiento, pero no siempre mejora la generalización.

2. **Overfitting:** Con datasets pequeños (32 muestras) y muchas variables, el riesgo de overfitting es alto. La regularización (Ridge) ayuda a controlar esto.

3. **R2 de prueba:** Es el indicador más importante de qué tan bien generalizará el modelo a datos nuevos.