In [3]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import r2_score, mean_squared_error

# Cargar el conjunto de datos
df_train = pd.read_csv('car-dataset/Car details v3.csv')

# Crear un DataFrame para el nuevo coche
nuevo_coche_data = {
    "name": ["Maruti Swift Dzire VDI"],
    "year": [2014],
    "selling_price": [0],  # Se añade el precio del nuevo coche
    "km_driven": [145500],
    "fuel": ["Diesel"],
    "seller_type": ["Individual"],
    "transmission": ["Manual"],
    "owner": ["First Owner"],
    "mileage": ["23.4 kmpl"],
    "engine": ["1248 CC"],
    "max_power": ["74 bhp"],
    "torque": ["190Nm@ 2000rpm"],
    "seats": [5]
}
nuevo_coche = pd.DataFrame(nuevo_coche_data)

# Agregar el nuevo coche al conjunto de datos de entrenamiento
df_train = pd.concat([df_train, nuevo_coche], ignore_index=True)

# Seleccionar características y variable objetivo
X = df_train[['name', 'year', 'km_driven', 'fuel', 'seller_type', 'transmission', 'owner', 'mileage', 'engine', 'max_power', 'torque', 'seats']]
y = df_train['selling_price']

# Codificar características categóricas
X_encoded = pd.get_dummies(X)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Imputar valores faltantes
imputer = SimpleImputer(strategy='mean')
X_train_imputed = imputer.fit_transform(X_train)

# Definir los hiperparámetros a ajustar
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Inicializar el modelo de regresión aleatoria
model = RandomForestRegressor(random_state=42)

# Realizar la búsqueda de hiperparámetros
search = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=50, cv=5, random_state=42, n_jobs=-1)
search.fit(X_train_imputed, y_train)

# Obtener el mejor modelo
best_model = search.best_estimator_

# Realizar la predicción del precio del nuevo coche (último registro en df_train)
nuevo_coche_encoded = X_encoded.tail(1)
nuevo_coche_imputed = imputer.transform(nuevo_coche_encoded)
precio_predicho = best_model.predict(nuevo_coche_imputed)
print("Precio predicho para el nuevo coche:", precio_predicho[0])

# Evaluar el modelo en el conjunto de prueba
X_test_imputed = imputer.transform(X_test)
y_test_pred = best_model.predict(X_test_imputed)
r2 = r2_score(y_test, y_test_pred)
mse = mean_squared_error(y_test, y_test_pred)
print("R^2 en el conjunto de prueba:", r2)
print("Error cuadrático medio en el conjunto de prueba:", mse)


KeyboardInterrupt: 

In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import r2_score, mean_squared_error

# Cargar el conjunto de datos
df_train = pd.read_csv('car-dataset/Car details v3.csv')

# Crear un DataFrame para el nuevo coche
nuevo_coche_data = {
    "name": ["Maruti Swift Dzire VDI"],
    "year": [2014],
    "selling_price": [0],  # Se añade el precio del nuevo coche
    "km_driven": [145500],
    "fuel": ["Diesel"],
    "seller_type": ["Individual"],
    "transmission": ["Manual"],
    "owner": ["First Owner"],
    "mileage": ["23.4 kmpl"],
    "engine": ["1248 CC"],
    "max_power": ["74 bhp"],
    "torque": ["190Nm@ 2000rpm"],
    "seats": [5]
}
nuevo_coche = pd.DataFrame(nuevo_coche_data)

# Agregar el nuevo coche al conjunto de datos de entrenamiento
df_train = pd.concat([df_train, nuevo_coche], ignore_index=True)

# Seleccionar características y variable objetivo
X = df_train[['name', 'year', 'km_driven', 'fuel', 'seller_type', 'transmission', 'owner', 'mileage', 'engine', 'max_power', 'torque', 'seats']]
y = df_train['selling_price']

# Codificar características categóricas
X_encoded = pd.get_dummies(X)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Imputar valores faltantes
imputer = SimpleImputer(strategy='mean')
X_train_imputed = imputer.fit_transform(X_train)

# Definir los hiperparámetros a ajustar
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Inicializar el modelo de regresión aleatoria
model = RandomForestRegressor(random_state=42)

# Realizar la búsqueda de hiperparámetros
search = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=50, cv=5, random_state=42, n_jobs=-1)
search.fit(X_train_imputed, y_train)

# Obtener el mejor modelo
best_model = search.best_estimator_

# Realizar la predicción del precio del nuevo coche (último registro en df_train)
nuevo_coche_encoded = X_encoded.tail(1)
nuevo_coche_imputed = imputer.transform(nuevo_coche_encoded)
precio_predicho = best_model.predict(nuevo_coche_imputed)
print("Precio predicho para el nuevo coche:", precio_predicho[0])

# Evaluar el modelo en el conjunto de prueba
X_test_imputed = imputer.transform(X_test)
y_test_pred = best_model.predict(X_test_imputed)
r2 = r2_score(y_test, y_test_pred)
mse = mean_squared_error(y_test, y_test_pred)
print("R^2 en el conjunto de prueba:", r2)
print("Error cuadrático medio en el conjunto de prueba:", mse)
