In [2]:
#Llamamos a los paquetes que vamos a usar
import pandas as pd
import plotly_express as px



In [3]:
# Verificamos datos 

df = pd.read_csv('vehicles_us.csv')
df.info()
df.head(30)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
5,14990,2014.0,chrysler 300,excellent,6.0,gas,57954.0,automatic,sedan,black,1.0,2018-06-20,15
6,12990,2015.0,toyota camry,excellent,4.0,gas,79212.0,automatic,sedan,white,,2018-12-27,73
7,15990,2013.0,honda pilot,excellent,6.0,gas,109473.0,automatic,SUV,black,1.0,2019-01-07,68
8,11500,2012.0,kia sorento,excellent,4.0,gas,104174.0,automatic,SUV,,1.0,2018-07-16,19
9,9200,2008.0,honda pilot,excellent,,gas,147191.0,automatic,SUV,blue,1.0,2019-02-15,17


In [4]:
##LIMPIEZA DE DATOS

#rellenamos las celdas vacías
df = df.fillna("unknown")


Analizamos la distribución de precios

In [5]:
#Analizamos la distribución de precios

# Crear rangos de precio (bins), por ejemplo cada 5000 unidades monetarias
bins = [0, 5000, 10000, 15000, 20000, 30000, 50000, 100000, df['price'].max()]
# Crear etiquetas para cada rango
labels = ['0-5k', '5k-10k', '10k-15k', '15k-20k', '20k-30k', '30k-50k', '50k-100k', '100k+']
# Categorizar precios en rangos
df['price_range'] = pd.cut(df['price'], bins=bins, labels=labels, include_lowest=True)
# Contar cantidad de autos por rango
price_counts = df['price_range'].value_counts().sort_index()
# Crear gráfico de pastel
fig = px.pie(
    values=price_counts.values,
    names=price_counts.index,
    title='Distribución de autos por rango de precio'
)
fig.show()

Analizamos cuál es el tipo de autos más vendidos (days_listed) basado en el módelo del año (model_year).

In [6]:

fig = px.box(
    df,
    x="type",
    y="days_listed",
    title="Distribución de días listados por tipo de vehículo",
    labels={"type": "Tipo de vehículo", "days_listed": "Días en el listado"},
    color_discrete_sequence=["orange"]  # Naranja para consistencia
)

# Limitar el eje Y si hay valores extremos
fig.update_layout(yaxis=dict(range=[0, 300]))

fig.show()



Todos los autos tardan al rededor de  35-65 días en venderse. Los que se venden más rápido son los SUV, los pickup, y sedan. El tipo de auto que tarda más es venderse son los autobuses. 

¿cuáles son los colores de autos (paint_color) que se venden más rápido (days_listed)? 

¿Cuáles son los autos más vendidos (days_listed) por el tipo de vehículo (type)? 

In [7]:
# Filtrar datos: eliminar 'unknown'
df_filtrado = df[df['paint_color'] != 'unknown']

# Contar colores
colores_populares = df_filtrado['paint_color'].value_counts().reset_index()
colores_populares.columns = ['paint_color', 'count']

# Mapeo de nombres de color a colores reales
color_map = {
    'white': 'white',
    'black': 'black',
    'silver': 'silver',
    'blue': 'blue',
    'gray': 'gray',
    'red': 'red',
    'green': 'green',
    'brown': 'saddlebrown',
    'yellow': 'gold',
    'orange': 'orange',
    'purple': 'purple'
}

# Crear gráfica con colores reales
fig = px.bar(
    colores_populares,
    x='paint_color',
    y='count',
    title='Colores de Autos Más Populares',
    labels={'paint_color': 'Color de Pintura', 'count': 'Cantidad de Autos'},
    color='paint_color',
    color_discrete_map=color_map
)

fig.update_layout(showlegend=False)  # Oculta la leyenda si no es necesaria
fig.show()

En la gráfica podemos apreciar que la mayoría de los autos se encuentra en excelentes condiciones (48.1%). 

¿Cuáles son los autos más populares? 

In [8]:
# Contar los modelos más comunes
modelos_populares = df['model'].value_counts().reset_index()
modelos_populares.columns = ['model', 'count']

# Ver los 10 más populares
print("Modelos de autos más populares:")
print(modelos_populares.head(10))


Modelos de autos más populares:
                        model  count
0                  ford f-150   2796
1    chevrolet silverado 1500   2171
2                    ram 1500   1750
3         chevrolet silverado   1271
4               jeep wrangler   1119
5                    ram 2500   1091
6                toyota camry    990
7                honda accord    964
8  chevrolet silverado 2500hd    915
9             gmc sierra 1500    906
