
# EDA — vehicles_us.csv

Este cuaderno realiza un **análisis exploratorio básico** usando `pandas` y `plotly-express`.
Guárdalo dentro del directorio `notebooks/` de tu proyecto.

> **Nota:** Si este notebook está en `notebooks/EDA.ipynb`, el dataset debe estar en `../vehicles_us.csv` (carpeta raíz del proyecto).


In [None]:

import pandas as pd
import plotly.express as px

pd.set_option("display.max_colwidth", 200)


In [None]:

# Ruta al CSV (ajústala si es necesario)
CSV_PATH = "../vehicles_us.csv"  # si el notebook está en notebooks/ y el CSV en la raíz

df = pd.read_csv(CSV_PATH)
df.head()


In [None]:

print("Shape:", df.shape)
print("\nColumnas:", df.columns.tolist())
print("\nValores nulos por columna:")
print(df.isna().sum().sort_values(ascending=False))


In [None]:

# Convertir fechas si aplica
if "date_posted" in df.columns:
    df["date_posted"] = pd.to_datetime(df["date_posted"], errors="coerce")
df.head(3)


## Histograma — Distribución de precios

In [None]:

fig = px.histogram(df, x="price", nbins=60, title="Distribución de precios (price)")
fig.update_layout(bargap=0.05)
fig.show()


## Dispersión — Precio vs Odómetro (color por condición)

In [None]:

if {"odometer", "price"}.issubset(df.columns):
    fig = px.scatter(
        df, x="odometer", y="price",
        color=df["condition"] if "condition" in df.columns else None,
        opacity=0.5, trendline=None,
        title="Precio vs Odómetro (color=condition)"
    )
    fig.update_traces(marker=dict(size=5))
    fig.show()
else:
    print("Columnas requeridas no encontradas: 'odometer' y/o 'price'")


## Barras — Top 10 modelos más listados

In [None]:

if "model" in df.columns:
    top_models = df["model"].value_counts().nlargest(10).index
    df_top = df[df["model"].isin(top_models)]
    fig = px.histogram(df_top, x="model", color=df_top["condition"] if "condition" in df_top.columns else None,
                       title="Top 10 modelos más listados (color=condition)")
    fig.update_layout(xaxis_title="model", bargap=0.05)
    fig.show()
else:
    print("Columna 'model' no encontrada.")


## (Opcional) Boxplot — Precio por tipo de vehículo

In [None]:

if {"type", "price"}.issubset(df.columns):
    counts = df["type"].value_counts()
    keep_types = counts[counts >= 50].index
    df_box = df[df["type"].isin(keep_types)]
    fig = px.box(df_box, x="type", y="price", title="Distribución de precio por tipo (filtrado a tipos con >=50 registros)")
    fig.update_layout(xaxis_title="type", yaxis_title="price")
    fig.show()
else:
    print("Columnas requeridas no encontradas: 'type' y/o 'price'")



---

Creado automáticamente el **2025-10-23 00:29:17**.  
Ajusta rutas/columnas según tu dataset.
