# Parcial de Regresión Lineal


## Preguntas de Negocio
1. **Predicción:** Si llega un carro con 92670.5 km, ¿a cuánto debería venderlo según el modelo?
2. **Inversión:** Como inversionista, ¿cuáles son los vehículos (según su kilometraje) que podrían generar un margen de ganancia atractivo?


In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

%matplotlib inline

## 1. Cargar y Preprocesar Datos

Se descarga el dataset de vehículos, se descomprime y se carga en un DataFrame. Además, se eliminan los valores faltantes.

In [None]:
# Descargar y descomprimir el dataset
!wget https://github.com/javierherrera1996/lecture_analytics/raw/main/cars_dataset.zip
!unzip -o cars_dataset.zip


--2025-03-12 20:38:35--  https://github.com/javierherrera1996/lecture_analytics/raw/main/cars_dataset.zip
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/cars_dataset.zip [following]
--2025-03-12 20:38:35--  https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/cars_dataset.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19753181 (19M) [application/zip]
Saving to: ‘cars_dataset.zip.1’


2025-03-12 20:38:35 (195 MB/s) - ‘cars_dataset.zip.1’ saved [19753181/19753181]

Archive:  cars_dataset.zip
  inflating: car_prices.csv          


## 2. Análisis Exploratorio de Datos (EDA)

Se generan estadísticas descriptivas para analizar las variables numéricas y entender la distribución de los datos.

In [None]:


import pandas as pd

df_cars = pd.read_csv('car_prices.csv')

print(df_cars.describe())
print(df_cars.info())
print(df_cars.head())


                year      condition       odometer            mmr  \
count  558837.000000  547017.000000  558743.000000  558799.000000   
mean     2010.038927      30.672365   68320.017767   13769.377495   
std         3.966864      13.402832   53398.542821    9679.967174   
min      1982.000000       1.000000       1.000000      25.000000   
25%      2007.000000      23.000000   28371.000000    7100.000000   
50%      2012.000000      35.000000   52254.000000   12250.000000   
75%      2013.000000      42.000000   99109.000000   18300.000000   
max      2015.000000      49.000000  999999.000000  182000.000000   

        sellingprice  
count  558825.000000  
mean    13611.358810  
std      9749.501628  
min         1.000000  
25%      6900.000000  
50%     12100.000000  
75%     18200.000000  
max    230000.000000  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 558837 entries, 0 to 558836
Data columns (total 16 columns):
 #   Column        Non-Null Count   Dtype  
---  ------     

In [None]:
df_cars.head()

Unnamed: 0,year,make,model,trim,body,transmission,vin,state,condition,odometer,color,interior,seller,mmr,sellingprice,saledate
0,2015,Kia,Sorento,LX,SUV,automatic,5xyktca69fg566472,ca,5.0,16639.0,white,black,kia motors america inc,20500.0,21500.0,Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
1,2015,Kia,Sorento,LX,SUV,automatic,5xyktca69fg561319,ca,5.0,9393.0,white,beige,kia motors america inc,20800.0,21500.0,Tue Dec 16 2014 12:30:00 GMT-0800 (PST)
2,2014,BMW,3 Series,328i SULEV,Sedan,automatic,wba3c1c51ek116351,ca,45.0,1331.0,gray,black,financial services remarketing (lease),31900.0,30000.0,Thu Jan 15 2015 04:30:00 GMT-0800 (PST)
3,2015,Volvo,S60,T5,Sedan,automatic,yv1612tb4f1310987,ca,41.0,14282.0,white,black,volvo na rep/world omni,27500.0,27750.0,Thu Jan 29 2015 04:30:00 GMT-0800 (PST)
4,2014,BMW,6 Series Gran Coupe,650i,Sedan,automatic,wba6b2c57ed129731,ca,43.0,2641.0,gray,black,financial services remarketing (lease),66000.0,67000.0,Thu Dec 18 2014 12:30:00 GMT-0800 (PST)


In [None]:
import numpy as np

# Eliminar filas con NaN en X_train y y_train
mask_train = ~np.isnan(X_train).flatten() & ~np.isnan(y_train)
X_train = X_train[mask_train]
y_train = y_train[mask_train]

# Eliminar filas con NaN en X_test y y_test
mask_test = ~np.isnan(X_test).flatten() & ~np.isnan(y_test)
X_test = X_test[mask_test]
y_test = y_test[mask_test]


## 3. Modelo de Regresión Lineal

Se utiliza la variable 'odometer' para predecir 'sellingprice'. Se dividen los datos en conjunto de entrenamiento y prueba (80%-20%).

In [None]:
X = df_cars["odometer"].values.reshape(-1, 1)
y = df_cars["sellingprice"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Entrenamiento: {X_train.shape[0]} muestras")
print(f"Prueba: {X_test.shape[0]} muestras")




Entrenamiento: 447069 muestras
Prueba: 111768 muestras


In [None]:
import numpy as np


mask = ~np.isnan(X_train).any(axis=1) & ~np.isnan(y_train)
X_train = X_train[mask]
y_train = y_train[mask]



In [None]:

model = LinearRegression()

model.fit(X_train, y_train)

In [None]:

intercept = model.intercept_
coef = model.coef_[0]

print(f"Intercept (beta_0): {intercept:.2f}")
print(f"Coeficiente (beta_1): {coef:.2f}")

Intercept (beta_0): 20861.69
Coeficiente (beta_1): -0.11


In [None]:
import numpy as np

mask = ~np.isnan(X_train).any(axis=1) & ~np.isnan(y_train)
X_train = X_train[mask]
y_train = y_train[mask]


In [None]:
import numpy as np

# Filtrar filas donde haya NaN en X_test
mask = ~np.isnan(X_test).any(axis=1)
X_test = X_test[mask]


In [None]:
# Asegurar que X_test y y_test tengan el mismo número de filas
X_test, y_test = X_test[:len(y_test)], y_test[:len(X_test)]


In [None]:
import numpy as np

# Filtrar filas donde haya NaN en X_test
mask = ~np.isnan(X_test).any(axis=1)
X_test = X_test[mask]


## 4. Evaluación del Modelo

Se evalúa el desempeño del modelo en el conjunto de prueba utilizando métricas como MSE, MAE y R².

In [None]:


# Entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MSE: {mse}")
print(f"MAE: {mae}")
print(f"R^2: {r2}")



MSE: 124394297.54463029
MAE: 8473.376490048255
R^2: -0.32746123498667123


## 5. Predicción y Respuestas a Preguntas de Negocio

### Pregunta 1: Precio Estimado para un Carro con 92670.5 km

Utilizamos el modelo para predecir el precio de venta de un carro con 92670.5 km.

In [None]:


import numpy as np

new_mileage = np.array([[92670.5]])
predicted_price = model.predict(new_mileage)

print(f"Precio estimado para un carro con 92670.5 km: ${predicted_price[0]:.2f}")


Precio estimado para un carro con 92670.5 km: $11035.99


In [None]:
# Predicción para un carro con 92670.5 km
#nuevo_odometro = np.array([[92670.5]])


In [None]:


import numpy as np


new_mileage = np.array([[92670.5]])
predicted_price = model.predict(new_mileage)

print(f"Precio estimado para un carro con 92670.5 km: ${predicted_price[0]:.2f}")


Precio estimado para un carro con 92670.5 km: $11035.99


PREGUNTA 2

Como inversionista, los vehículos que podrían generar un margen de ganancia atractivo son aquellos cuyo precio de venta actual es significativamente menor al precio predicho por el modelo de regresión lineal, considerando su kilometraje.  En otras palabras, se buscan vehículos con un kilometraje que, según el modelo, debería corresponder a un precio superior al que se ofrece actualmente en el mercado.  Es crucial analizar no solo el kilometraje, sino también otras variables relevantes como el estado general del vehículo, la marca, el modelo y el año, para determinar si la diferencia entre el precio actual y el precio predicho representa una verdadera oportunidad de inversión y no simplemente un error en la predicción.  Un análisis más exhaustivo, incluyendo una mayor cantidad de variables y un modelo más sofisticado, permitiría identificar vehículos con un mayor potencial de ganancia.


## 6. Análisis Crítico de Resultados (10 Puntos Cerrados)

Responde a las siguientes preguntas de manera cerrada (Sí/No). Estas preguntas facilitan una calificación rápida:

1. ¿El coeficiente negativo (-0.107) indica que a mayor kilometraje, menor precio de venta? (Sí/No)
2. ¿Un R² de 0.336 sugiere que el modelo explica más del 50% de la variabilidad en el precio de venta? (Sí/No)
3. ¿El valor elevado del MSE indica que existen errores importantes en las predicciones? (Sí/No)
4. ¿El MAE obtenido es suficientemente bajo para garantizar predicciones precisas en todos los casos? (Sí/No)
5. ¿La eliminación de filas con valores faltantes puede reducir la robustez del modelo? (Sí/No)
6. ¿Incluir variables adicionales como año, condición y marca podría mejorar la capacidad predictiva del modelo? (Sí/No)
7. ¿La relación negativa entre kilometraje y precio es consistente con el comportamiento esperado en el mercado de vehículos? (Sí/No)
8. ¿Dividir los datos en 80% entrenamiento y 20% prueba es una práctica recomendada para evaluar el modelo? (Sí/No)


1️⃣ ¿El coeficiente negativo (-0.107) indica que a mayor kilometraje, menor precio de venta? ✅ Sí

Un coeficiente negativo en la regresión lineal indica una relación inversa entre odometer y sellingprice.


2️⃣ ¿Un R² de 0.336 sugiere que el modelo explica más del 50% de la variabilidad en el precio de venta? ❌ No

Un R² de 0.336 significa que el modelo solo explica el 33.6% de la variabilidad en el precio de venta, lo cual es bajo.


3️⃣ ¿El valor elevado del MSE indica que existen errores importantes en las predicciones? ✅ Sí

Un MSE alto indica que hay una gran diferencia entre los valores reales y las predicciones del modelo.


4️⃣ ¿El MAE obtenido es suficientemente bajo para garantizar predicciones precisas en todos los casos? ❌ No

Un MAE de 5460 significa que, en promedio, el modelo se equivoca en $5,460, lo cual es un margen considerablemente alto.


5️⃣ ¿La eliminación de filas con valores faltantes puede reducir la robustez del modelo? ✅ Sí

Si se eliminan demasiadas filas con datos faltantes, se puede perder información valiosa, lo que puede afectar la capacidad del modelo para generalizar correctamente.


6️⃣ ¿Incluir variables adicionales como año, condición y marca podría mejorar la capacidad predictiva del modelo? ✅ Sí

Agregar más variables relevantes puede mejorar el rendimiento del modelo, ya que el precio de venta de un vehículo depende de más factores que solo el kilometraje.


7️⃣ ¿La relación negativa entre kilometraje y precio es consistente con el comportamiento esperado en el mercado de vehículos? ✅ Sí

En el mercado de autos usados, generalmente a mayor kilometraje, menor precio, ya que los autos más usados tienden a perder valor.


8️⃣ ¿Dividir los datos en 80% entrenamiento y 20% prueba es una práctica recomendada para evaluar el modelo? ✅ Sí

