## Análisis Exploratorio de Datos (EDA) - Dataset: vehicles_us.csv

En este proyecto, analizaremos el conjunto de datos de anuncios de venta de vehículos en EE.UU.

**Objetivo:**
Entender la estructura y contenido del dataset para identificar patrones, valores atípicos y relaciones entre variables.

### 1. Carga y Preparación de Datos

Importamos las librerías y cargamos los datos usando nuestra función de preprocesamiento centralizada. Esto asegura que trabajamos con datos limpios y consistentes.

In [None]:
import pandas as pd
import plotly.express as px
import sys
# Añadir el directorio src a la ruta para poder importar nuestro módulo
sys.path.append('../src')
from data_processing import load_and_preprocess_data

# Cargar y preprocesar los datos
# La ruta es relativa a la ubicación del notebook
file_path = '../data/raw/vehicles_us.csv'
df_car = load_and_preprocess_data(file_path)

print("--- Información del DataFrame después de la limpieza ---")
df_car.info()

### 2. Análisis Exploratorio

Ahora que los datos están limpios, podemos explorarlos para encontrar insights.

#### Análisis de Precios

In [None]:
print("
--- Estadísticas de Precios ---")
print(df_car['price'].describe())

# Histograma de precios
fig1 = px.histogram(df_car, x='price', nbins=50, title='Distribución de Precios')
fig1.show()

#### Precio vs. Kilometraje por Condición

Este gráfico nos ayuda a entender la correlación entre el precio y el desgaste del vehículo.

In [None]:
fig2 = px.scatter(
    df_car,
    x='odometer',
    y='price',
    color='condition',
    title='Precio vs. Kilometraje por Condición del Vehículo'
)
fig2.show()

#### Análisis por Marca

¿Qué marcas tienen el precio promedio más alto?

In [None]:
print("
--- Top 10 Marcas por Precio Promedio ---")
top_10_brands = df_car.groupby('manufacturer')['price'].mean().sort_values(ascending=False).head(10)
print(top_10_brands)

fig3 = px.bar(
    top_10_brands,
    title='Precio Promedio por Marca (Top 10)',
    labels={'value': 'Precio Promedio (USD)', 'manufacturer': 'Marca'}
)
fig3.show()