In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score

# Cargar los datos
df = pd.read_csv('car-dataset/CAR DETAILS FROM CAR DEKHO.csv')

# Seleccionar características y variable objetivo
X = df[['year', 'km_driven', 'fuel', 'seller_type', 'transmission', 'owner']]
y = df['selling_price']

# Codificar características categóricas
X_encoded = pd.get_dummies(X)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Entrenar un modelo de regresión (por ejemplo, un modelo de bosque aleatorio)
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Evaluar el rendimiento del modelo
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio:", mse)

# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)
print("El coeficiente de determinación (R^2) del modelo es:", r2)

# Ejemplo de predicción de precio para un nuevo coche
nuevo_coche = pd.DataFrame({'year': [2015],
                            'km_driven': [40000],
                            'fuel': ['Petrol'],
                            'seller_type': ['Individual'],
                            'transmission': ['Manual'],
                            'owner': ['First Owner']})

# Codificar el nuevo coche utilizando la misma codificación que se usó en el conjunto de datos de entrenamiento
nuevo_coche_encoded = pd.get_dummies(nuevo_coche)

# Asegurarse de que el conjunto de datos de prueba tenga las mismas columnas que el conjunto de datos de entrenamiento
for col in X_train.columns:
    if col not in nuevo_coche_encoded.columns:
        nuevo_coche_encoded[col] = 0

# Reordenar las columnas para que coincidan con el orden del conjunto de datos de entrenamiento
nuevo_coche_encoded = nuevo_coche_encoded[X_train.columns]

# Realizar la predicción del precio del nuevo coche
precio_predicho = model.predict(nuevo_coche_encoded)
print("Precio predicho para el nuevo coche:", precio_predicho[0])


Error cuadrático medio: 152971206263.49265
El coeficiente de determinación (R^2) del modelo es: 0.4987349252570792
Precio predicho para el nuevo coche: 269263.49890404043


In [25]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.impute import SimpleImputer

# Cargar los datos
df = pd.read_csv('car-dataset/Car details v3.csv')

# Seleccionar características y variable objetivo
X = df[['year', 'km_driven', 'fuel', 'seller_type', 'transmission', 'owner', 'mileage', 'engine', 'max_power', 'torque', 'seats']]
y = df['selling_price']

# Codificar características categóricas
X_encoded = pd.get_dummies(X)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Imputación de valores faltantes
imputer = SimpleImputer(strategy='mean')
X_train_imputed = imputer.fit_transform(X_train)
X_test_imputed = imputer.transform(X_test)

# Entrenar un modelo de regresión (por ejemplo, un modelo de bosque aleatorio)
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train_imputed, y_train)

# Evaluar el rendimiento del modelo
y_pred = model.predict(X_test_imputed)
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio:", mse)

# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)
print("El coeficiente de determinación (R^2) del modelo es:", r2)

# Ejemplo de predicción de precio para un nuevo coche
nuevo_coche = pd.DataFrame({'year': [2015],
                            'km_driven': [40000],
                            'fuel': ['Petrol'],
                            'seller_type': ['Individual'],
                            'transmission': ['Manual'],
                            'owner': ['First Owner'],
                            'mileage': ['23.4 kmpl'],
                            'engine': ['1248 CC'],
                            'max_power': ['74 bhp'],
                            'torque': ['190Nm@ 2000rpm'],
                            'seats': [5]})

# Codificar el nuevo coche utilizando la misma codificación que se usó en el conjunto de datos de entrenamiento
nuevo_coche_encoded = pd.get_dummies(nuevo_coche)

# Asegurarse de que el conjunto de datos de prueba tenga las mismas columnas que el conjunto de datos de entrenamiento
for col in X_train.columns:
    if col not in nuevo_coche_encoded.columns:
        nuevo_coche_encoded[col] = 0

# Reordenar las columnas para que coincidan con el orden del conjunto de datos de entrenamiento
nuevo_coche_encoded = nuevo_coche_encoded[X_train.columns]

# Realizar la predicción del precio del nuevo coche
precio_predicho = model.predict(nuevo_coche_encoded)
print("Precio predicho para el nuevo coche:", precio_predicho[0])



Error cuadrático medio: 25442468204.616417
El coeficiente de determinación (R^2) del modelo es: 0.9611852446277608


  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_coche_encoded[col] = 0
  nuevo_

Precio predicho para el nuevo coche: 292099.96


