In [39]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error

# Cargar los datos
data = pd.read_csv(r"\DATASET\DETALLES CARROS.csv")

# Limpieza de datos: Convertir 'Engine' a un valor numérico
data['Engine'] = data['Engine'].str.replace(' cc', '').astype(float)

# Limpieza de la columna 'Max Torque'
data['Max Torque'] = data['Max Torque'].str.extract(r'(\d+)').astype(float)

# Seleccionar variables (ajusta según tus datos)
X = data[['Kilometer', 'Engine', 'Model', 'Fuel Type', 'Year', 'Fuel Tank Capacity', 'Max Torque']]
y = data['Price']

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear un preprocesador para manejar datos categóricos y faltantes
numeric_features = ['Kilometer', 'Engine', 'Year', 'Fuel Tank Capacity', 'Max Torque']
categorical_features = ['Model', 'Fuel Type']

# Pipeline para procesamiento de datos
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean'))
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Crear un pipeline que incluya preprocesamiento y modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])

# Ajustar el modelo
model.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo ( error cuadrático medio)
mse = mean_squared_error(y_test, y_pred)
print('Error cuadrático medio:', mse)

# Predecir el precio para nuevos datos
# Definir un nuevo conjunto de datos para la predicción
new_data = pd.DataFrame({
    'Kilometer': [50000],  
    'Engine': ['1995 cc'],  
    'Model': ['Model_X'],  
    'Fuel Type': ['Gasoline'],  
    'Year': [2020],  
    'Fuel Tank Capacity': 
    'Max Torque': ['350 Nm @ 1750 rpm']  
})

# Limpieza de datos para el nuevo conjunto
new_data['Engine'] = new_data['Engine'].str.replace(' cc', '').astype(float)
new_data['Max Torque'] = new_data['Max Torque'].str.extract(r'(\d+)').astype(float)

# Realizar la predicción
predicted_price = model.predict(new_data)

print('El precio predicho es:', predicted_price[0])


Error cuadrático medio: 3135620279935.1797
El precio predicho es: 3709686.4668031335
