In [8]:
import pandas as pd
import plotly.express as px

# Cargamos el dataset
# Nota: usamos '../' porque el CSV está en la raíz y nosotros en la carpeta notebooks
df = pd.read_csv('../vehicles_us.csv')

# 1. Verificamos las dimensiones y tipos de datos
print("Información del dataset:")
print(df.info())

# 2. Vemos los primeros datos para entender las columnas
df.head()

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB
None


Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28


In [9]:
# Contamos cuántos nulos hay por columna
print("Valores ausentes por columna:")
print(df.isna().sum())

# Los más obvios:
# is_4wd: Si es nulo, probablemente es porque no es 4x4. Lo cambiamos a 0.
df['is_4wd'] = df['is_4wd'].fillna(0)

# Verificamos que ya no haya nulos en esa columna
print(f"Nulos restantes en is_4wd: {df['is_4wd'].isna().sum()}")

Valores ausentes por columna:
price               0
model_year       3619
model               0
condition           0
cylinders        5260
fuel                0
odometer         7892
transmission        0
type                0
paint_color      9267
is_4wd          25953
date_posted         0
days_listed         0
dtype: int64
Nulos restantes en is_4wd: 0


In [10]:
# Revisamos estadísticas básicas del precio
print(df['price'].describe())

# Creamos un histograma para ver la distribución
fig_precio = px.histogram(df, x="price", title="Distribución de Precios de Venta")
fig_precio.show()

count     51525.000000
mean      12132.464920
std       10040.803015
min           1.000000
25%        5000.000000
50%        9000.000000
75%       16839.000000
max      375000.000000
Name: price, dtype: float64


In [11]:
# Antes de graficar, verificamos si 'odometer' tiene nulos
print(f"Nulos en odometer: {df['odometer'].isna().sum()}")

# Graficaremos ignorando los nulos
fig_scatter = px.scatter(df, 
                         x="odometer", 
                         y="price", 
                         title="Relación Precio vs Odómetro",
                         opacity=0.3) # opacity ayuda a ver donde hay más densidad de puntos
fig_scatter.show()

Nulos en odometer: 7892


In [12]:
# Vemos cuántos anuncios hay por tipo
print(df['type'].value_counts())

# Graficamos la cantidad de anuncios por tipo de carrocería
fig_tipo = px.histogram(df, x="type", title="Cantidad de Anuncios por Tipo de Vehículo")
fig_tipo.show()

type
SUV            12405
truck          12353
sedan          12154
pickup          6988
coupe           2303
wagon           1541
mini-van        1161
hatchback       1047
van              633
convertible      446
other            256
offroad          214
bus               24
Name: count, dtype: int64


In [13]:
# Verificamos qué tipos de transmisión existen
print(df['transmission'].value_counts())

# Gráfico de dispersión comparando transmisiones
fig_trans = px.scatter(df, 
                       x="odometer", 
                       y="price", 
                       color="transmission", # Diferenciamos por color
                       title="Precio vs Millaje por Tipo de Transmisión",
                       opacity=0.4)
fig_trans.show()

transmission
automatic    46902
manual        2829
other         1794
Name: count, dtype: int64


In [14]:
# Verificamos los 10 modelos más frecuentes
top_models = df['model'].value_counts().head(10)
print("Top 10 modelos en el dataset:")
print(top_models)

# Un gráfico de barras para visualizarlo mejor
fig_models = px.bar(top_models, 
                    title="Top 10 Modelos con más Anuncios",
                    labels={'value': 'Cantidad de anuncios', 'index': 'Modelo'})
fig_models.show()

Top 10 modelos en el dataset:
model
ford f-150                    2796
chevrolet silverado 1500      2171
ram 1500                      1750
chevrolet silverado           1271
jeep wrangler                 1119
ram 2500                      1091
toyota camry                   990
honda accord                   964
chevrolet silverado 2500hd     915
gmc sierra 1500                906
Name: count, dtype: int64


# Conclusiones del Análisis Exploratorio de Datos

Tras realizar el análisis del conjunto de datos de anuncios de vehículos, he llegado a las siguientes conclusiones clave:

1. **Estado de los Datos**: 
   - El dataset original contaba con varios valores ausentes, particularmente en las columnas `is_4wd`, `model_year` y `odometer`. 
   - Se realizó una limpieza inicial tratando los valores nulos de la tracción 4x4 (`is_4wd`), asumiendo que los valores vacíos indicaban la ausencia de esta característica.

2. **Factores que Influyen en el Precio**:
   - Como se esperaba, existe una **correlación negativa** entre el kilometraje (`odometer`) y el precio: a mayor uso, el valor del vehículo tiende a disminuir de forma constante.
   - Los vehículos con transmisión **automática** son los más frecuentes en el mercado, aunque las variaciones de precio parecen estar más ligadas al tipo de vehículo y su año que a la transmisión por sí sola.

3. **Perfil del Mercado**:
   - Los tipos de vehículos más populares en los anuncios son los **SUV** y las **camionetas (trucks)**, lo que indica una fuerte tendencia hacia vehículos de gran tamaño en esta región.
   - El "Top 10" de modelos muestra una presencia dominante de marcas americanas y japonesas conocidas por su durabilidad.

4. **Distribución de Precios**:
   - La mayoría de los vehículos se encuentran en un rango de precio accesible, pero existen valores atípicos (autos muy caros) que podrían representar vehículos de lujo o de colección que se salen del promedio del mercado.

Este análisis sirve como base sólida para construir nuestra aplicación interactiva, donde los usuarios podrán filtrar y visualizar estas tendencias de manera personalizada.