In [1]:
# Celda 1: Importar librerías
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [2]:
# Celda 2: Cargar dataset
df = pd.read_csv('../vehicles_us.csv')  # Ruta relativa desde notebooks/
df['model_year'] = df['model_year'].astype('Int64')
df['price'] = df['price'].astype(float)
df['odometer'] = df['odometer'].astype(float)
df['cylinders'] = df['cylinders'].astype('Int64')
df['is_4wd'] = df['is_4wd'].astype('Int64')
df['date_posted'] = pd.to_datetime(df['date_posted'], errors='coerce')

# Mostrar información básica
print("Forma del dataset:", df.shape)
print("\nColumnas:", df.columns.tolist())
print("\nPrimeras 5 filas:")
display(df.head())
print("\nInformación general:")
df.info()

In [None]:
# Celda 3: Estadísticas descriptivas
print("\nEstadísticas descriptivas:")
display(df.describe())

In [None]:
# Celda 4: Porcentaje de valores nulos
print("\nPorcentaje de valores nulos por columna:")
nulls = (df.isna().sum() / len(df) * 100).round(2)
display(nulls)

In [None]:
# Celda 5: Gráfico 1 - Dispersión: Precio vs. Kilometraje por Año
df_plot = df.dropna(subset=['price', 'odometer', 'model_year'])
fig1 = px.scatter(
    df_plot,
    x="odometer",
    y="price",
    color="model_year",
    title="Precio vs. Kilometraje (Coloreado por Año)",
    labels={"odometer": "Kilometraje (millas)", "price": "Precio (USD)", "model_year": "Año"},
    hover_data=["model", "condition"]
)
fig1.show()

# Celda 6: Gráfico 2 - Histograma: Distribución de Precios por Combustible
fig2 = px.histogram(
    df,
    x="price",
    color="fuel",
    title="Distribución de Precios por Tipo de Combustible",
    labels={"price": "Precio (USD)", "fuel": "Combustible"},
    nbins=50
)
fig2.show()

In [None]:
# Celda 7: Gráfico 3 - Boxplot: Precios por Tipo de Vehículo
top_types = df['type'].value_counts().head(10).index
df_top_types = df[df['type'].isin(top_types)]
fig3 = px.box(
    df_top_types,
    x="type",
    y="price",
    title="Distribución de Precios por Tipo de Vehículo (Top 10)",
    labels={"type": "Tipo de Vehículo", "price": "Precio (USD)"}
)
fig3.show()

In [None]:
# Celda 8: Correlación entre variables numéricas
numeric_cols = ['price', 'odometer', 'model_year', 'cylinders', 'days_listed']
corr_matrix = df[numeric_cols].corr()
fig4 = go.Figure(data=go.Heatmap(
    z=corr_matrix.values,
    x=corr_matrix.columns,
    y=corr_matrix.columns,
    colorscale='Viridis',
    text=corr_matrix.values.round(2),
    texttemplate="%{text}",
    showscale=True
))
fig4.update_layout(title="Mapa de Calor de Correlaciones")
fig4.show()

In [None]:
# Celda 9: Resumen de hallazgos
print("Resumen de Hallazgos:")
print("- El dataset tiene", df.shape[0], "filas y", df.shape[1], "columnas.")
print("- Columnas con más valores nulos: is_4wd (%.2f%%), odometer (%.2f%%), paint_color (%.2f%%)." % 
      (nulls['is_4wd'], nulls['odometer'], nulls['paint_color']))
print("- Precio vs. Kilometraje: Los vehículos más nuevos tienden a tener menor kilometraje y precios más altos.")
print("- Combustible: La mayoría de los vehículos son de gasolina, con precios variables por tipo de combustible.")
print("- Tipos de vehículos: Los precios varían significativamente según el tipo (SUV, sedan, etc.).")
print("- Correlaciones: Hay una correlación negativa moderada entre precio y kilometraje.")