**Dividir el dataset en Train y Test para evaluar correctamente el modelo.**

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.preprocessing import StandardScaler

# Cargar los datos
data = pd.read_csv('car data.csv')

# Identificar y manejar los valores faltantes
data_cleaned = data.dropna()

# Codificar las variables categóricas
data_encoded = pd.get_dummies(data_cleaned, columns=['Fuel_Type', 'Seller_Type', 'Transmission'])

# Eliminar la columna 'Car_Name'
data_encoded.drop('Car_Name', axis=1, inplace=True)

# Escalar las características numéricas
scaler = StandardScaler()
numeric_features = ['Year', 'Present_Price', 'Kms_Driven', 'Owner']
data_encoded[numeric_features] = scaler.fit_transform(data_encoded[numeric_features])

# Dividir los datos en características (X) y etiquetas (y)
X = data_encoded.drop('Selling_Price', axis=1)
y = data_encoded['Selling_Price']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Hacer predicciones
y_pred = model.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print('Mean Squared Error:', mse)
print('R^2 Score:', r2)

# Seleccionar las mejores características utilizando la prueba F de ANOVA
selector = SelectKBest(score_func=f_regression, k=5)  # Seleccionar las 5 mejores características
X_selected = selector.fit_transform(X, y)

# Obtener los índices de las características seleccionadas
selected_indices = selector.get_support(indices=True)

# Obtener los nombres de las características seleccionadas
selected_features = X.columns[selected_indices]

# Mostrar las características seleccionadas
print("Características seleccionadas:", selected_features)

# Dividir los datos en características (X) y etiquetas (y)
X = data_encoded.drop('Selling_Price', axis=1)
y = data_encoded['Selling_Price']

# Dividir los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mostrar la forma de los conjuntos de entrenamiento y prueba
print("Forma de X_train:", X_train.shape)
print("Forma de X_test:", X_test.shape)
print("Forma de y_train:", y_train.shape)
print("Forma de y_test:", y_test.shape)

Mean Squared Error: 3.4788039706378995
R^2 Score: 0.8489813024899067
Características seleccionadas: Index(['Present_Price', 'Fuel_Type_Diesel', 'Fuel_Type_Petrol',
       'Seller_Type_Dealer', 'Seller_Type_Individual'],
      dtype='object')
Forma de X_train: (240, 11)
Forma de X_test: (61, 11)
Forma de y_train: (240,)
Forma de y_test: (61,)
