# Análisis del Dataset "vehicle-dataset-from-cardekho"

En este notebook, realizaremos un análisis exploratorio de los datos, preprocesamiento y entrenamiento de un modelo de regresión lineal para predecir el precio de los automóviles en función de sus atributos.

### 1. Importar bibliotecas

In [1]:
# Importar las bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

### 2. Cargar los datos

In [2]:
# Cargar los datos de los archivos .csv
car_data = pd.read_csv("car data.csv")
car_details_1 = pd.read_csv("car details from car dekho.csv")
car_details_2 = pd.read_csv("car details v3.csv")
car_details_3 = pd.read_csv("car details v4.csv")

### 3. Exploración de los datos

In [3]:
# Combinar los cuatro conjuntos de datos en uno solo
combined_data = pd.concat([car_data, car_details_1, car_details_2, car_details_3], ignore_index=True)

# Mostrar las primeras filas del DataFrame
combined_data.head()

### 4. Preprocesamiento de los datos

In [4]:
# Eliminar columnas no necesarias
combined_data.drop(['Location', 'Color', 'Drivetrain', 'Length', 'Width', 'Height', 'Fuel Tank Capacity'], axis=1, inplace=True)

# Manejar valores faltantes
combined_data.fillna(0, inplace=True)

### 5. Dividir los datos en conjuntos de entrenamiento y prueba

In [5]:
# Definir las características (X) y el objetivo (y)
X = combined_data.drop('Price', axis=1)
y = combined_data['Price']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### 6. Entrenamiento del modelo de regresión lineal

In [6]:
# Inicializar el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo
model.fit(X_train, y_train)

### 7. Evaluación del modelo

In [7]:
# Predecir los precios en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
print('Error cuadrático medio:', mse)

# Calcular el coeficiente de determinación
r2 = r2_score(y_test, y_pred)
print('Coeficiente de determinación:', r2)

### 8. Visualización de resultados

In [8]:
# Visualizar los resultados
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, color='blue')
plt.title('Predicción vs. Valor Real')
plt.xlabel('Valor Real')
plt.ylabel('Predicción')
plt.show()

### 9. Interpretación y conclusiones

Este notebook realiza un análisis exploratorio de datos, preprocesamiento y entrenamiento de un modelo de regresión lineal para predecir el precio de los automóviles. El modelo se evalúa utilizando métricas como el error cuadrático medio y el coeficiente de determinación. Además, se visualizan los resultados mediante un gráfico de dispersión que muestra la relación entre los valores reales y las predicciones.