In [1]:
import pandas as pd
import plotly.express as px

# Cargar el conjunto de datos
# La ruta '../vehicles_us.csv' le dice a pandas que busque el archivo
# en el directorio padre al actual (la raíz de tu proyecto).
try:
    df = pd.read_csv('../vehicles_us.csv')

    # Mostrar las primeras 5 filas para ver cómo se ven los datos
    print("Datos cargados correctamente. Primeras 5 filas:")
    display(df.head())

    # Obtener un resumen rápido de los datos (tipos de columna, valores no nulos)
    print("\nInformación general del DataFrame:")
    df.info()

except FileNotFoundError:
    print("Error: No se encontró el archivo 'vehicles_us.csv' en el directorio raíz del proyecto.")
    print("Asegúrate de haberlo descargado y colocado en la misma carpeta que tu archivo requirements.txt.")

Datos cargados correctamente. Primeras 5 filas:


Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28



Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


In [2]:
# Crear un histograma interactivo del precio de los vehículos
fig_price_hist = px.histogram(
    df,
    x='price',
    title='Distribución de Precios de Vehículos',
    labels={'price': 'Precio (USD)'} # Etiquetas más claras
)

# Mostrar el gráfico
fig_price_hist.show()

In [3]:
df_sample = df.sample(n=5000, random_state=42)

fig_price_year_scatter = px.scatter(
    df_sample,
    x='model_year',
    y='price',
    title='Precio vs. Antigüedad del Vehículo',
    labels={'model_year': 'Año del Modelo', 'price': 'Precio (USD)'},
    color='condition', # Colorear los puntos por la condición del vehículo
    hover_data=['model'] # Mostrar el modelo del coche al pasar el cursor
)

# Mostrar el gráfico
fig_price_year_scatter.show()

In [4]:
# Contar la cantidad de vehículos por tipo
type_counts = df['type'].value_counts()

# Crear un gráfico de barras interactivo
fig_type_bar = px.bar(
    x=type_counts.index,
    y=type_counts.values,
    title='Cantidad de Vehículos por Tipo',
    labels={'x': 'Tipo de Vehículo', 'y': 'Cantidad'},
    color=type_counts.index # Asigna un color a cada tipo
)

# Mostrar el gráfico
fig_type_bar.show()

In [5]:
# Crear un diagrama de caja para comparar los precios por tipo de combustible
fig_price_fuel_box = px.box(
    df,
    x='fuel',
    y='price',
    title='Distribución de Precios por Tipo de Combustible',
    labels={'fuel': 'Tipo de Combustible', 'price': 'Precio (USD)'},
    color='fuel'
)

# Mostrar el gráfico
fig_price_fuel_box.show()