In [1]:
# Contiene información técnica y de mercado de automóviles. El objetivo es predecir 
# el precio del automóvil en función de sus atributos

# Seleccionar las características más relevantes para entrenar el modelo utilizando selección de características

# 1.Manejo de valores nulos
# 2.Transformación de variables categóricas
# 3.Escalado de datos numéricos

# Importar librerías necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, f_regression

# Cargar el dataset
data = pd.read_csv('Dataset_Regresion_Lineal/Car details v3.csv')

# Limpieza de datos
columns_to_drop = ['name']  # Eliminar columnas irrelevantes
data = data.drop(columns=columns_to_drop)
data = data.dropna()  # Eliminar filas con valores nulos

# Convertir variables categóricas a variables numéricas con One Hot Encoding
data = pd.get_dummies(data, drop_first=True)

# Separar características y el target (Precio)
X = data.drop('selling_price', axis=1)
y = data['selling_price']

# Escalar las características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Selección de características
# Usar SelectKBest para escoger las K características más relevantes
selector = SelectKBest(score_func=f_regression, k=10)  # Cambia 'k' según el número de características que quieras conservar
X_selected = selector.fit_transform(X_scaled, y)

# Revisar las características seleccionadas
selected_features = selector.get_support(indices=True)
print("Características seleccionadas (índices):", selected_features)
print("Características seleccionadas (nombres):", X.columns[selected_features])

# Dividir el dataset en conjuntos de entrenamiento y prueba usando solo las características seleccionadas
X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Evaluar el modelo
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'\nMean Squared Error (MSE): {mse}')
print(f'R² Score: {r2}')




Características seleccionadas (índices): [   0    6    8  165  468  487  663  675 1040 1191]
Características seleccionadas (nombres): Index(['year', 'seller_type_Individual', 'transmission_Manual',
       'mileage_16.78 kmpl', 'engine_1995 CC', 'engine_2487 CC',
       'max_power_190 bhp', 'max_power_214.56 bhp',
       'torque_202Nm@ 3600-5200rpm', 'torque_400Nm@ 1750-2500rpm'],
      dtype='object')

Mean Squared Error (MSE): 211295828511.31836
R² Score: 0.6961009888211256
