In [None]:
# 1. Instalación de bibliotecas necesarias
# Ejecuta esto en la terminal o en una celda de Jupyter Notebook
# !pip install numpy pandas scikit-learn matplotlib seaborn

# 2. Importar las bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.feature_selection import SelectKBest, f_regression

# 3. Cargar los datasets
car_data = pd.read_csv('car data.csv')
car_details = pd.read_csv('CAR DETAILS FROM CAR DEKHO.csv')  # Asegúrate de que este archivo esté disponible

# 4. Mostrar las primeras filas de ambos datasets para verificar la carga
print("Car Data:")
print(car_data.head())
print("\nCar Details:")
print(car_details.head())

# 5. Análisis Exploratorio de Datos (EDA)
print("\nDescripción de car_data:")
print(car_data.describe())

plt.figure(figsize=(10, 8))
sns.heatmap(car_data.corr(), annot=True, fmt=".2f", cmap='coolwarm')
plt.title('Correlación entre variables en car_data')
plt.show()

sns.histplot(car_data['Selling_Price'], bins=30, kde=True)
plt.title('Distribución de Precios de Venta en car_data')
plt.show()

# 6. Preprocesamiento de Datos
# Manejo de valores faltantes en car_data
car_data.dropna(inplace=True)

# Convertir variables categóricas en dummies
car_data = pd.get_dummies(car_data, columns=['Fuel_Type', 'Seller_Type', 'Transmission'], drop_first=True)

# Normalizar o escalar si es necesario
scaler = MinMaxScaler()
car_data[['Present_Price', 'Kms_Driven']] = scaler.fit_transform(car_data[['Present_Price', 'Kms_Driven']])

# 7. Selección de Características
X = car_data.drop('Selling_Price', axis=1)
y = car_data['Selling_Price']

selector = SelectKBest(score_func=f_regression, k='all')
selector.fit(X, y)

# Mostrar las puntuaciones
scores = pd.DataFrame(selector.scores_, index=X.columns, columns=["Score"])
print("\nPuntuaciones de características:")
print(scores.sort_values(by="Score", ascending=False))

# 8. División del Conjunto de Datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 9. Entrenamiento del Modelo
model = LinearRegression()
model.fit(X_train, y_train)

# 10. Evaluación del Modelo
y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'\nMSE: {mse}, R²: {r2}')

# 11. Visualización de Resultados
plt.scatter(y_test, y_pred)
plt.xlabel('Valores Reales')
plt.ylabel('Predicciones')
plt.title('Predicciones vs Valores Reales')
plt.show()

sns.regplot(x=y_test, y=y_pred)
plt.title('Regresión Lineal')
plt.show()

# 12. Interpretación y Documentación de Resultados
print("\nInterpretación:")
print("El modelo ha sido entrenado y evaluado con éxito.")
print(f"El MSE es {mse}, lo que indica el error promedio al cuadrado entre las predicciones y los valores reales.")
print(f"El R² es {r2}, lo que indica qué tan bien se ajusta el modelo a los datos.")