# **Análisis Exploratorio de Datos**

A continuación se realizará el análisis exploratorio sobre el conjunto de datos de los vehículos. Esto se realizará para comprender su estructura y características principales. Mediante visualizaciones interactivas creadas con Plotly Express, exploramos distribuciones de variables clave (como kilometraje, año del modelo y precio) y relaciones entre ellas. El análisis incluye:

- Histogramas para entender la distribución de variables numéricas.
- Gráficos de dispersión para identificar relaciones potenciales.
- Detección de valores atípicos y patrones interesantes.

Estas visualizaciones sentarán las bases para el desarrollo del dashboard interactivo, permitiendo a los usuarios finales realizar sus propios análisis de manera intuitiva.

## 1. Carga y Exploración Inicial de Datos

In [None]:
# Librerías que serán utilizadas.
import pandas as pd 
import plotly.express as px

# Carga el DataFrame.
vehicles = pd.read_csv('vehicles_us.csv')

#Muestra las primeras filas y resumen estadístico.
vehicles.info()
print(vehicles.head(10))
print(vehicles.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB
   price  model_year           model  condition  cylinders fuel  odometer  \
0   9400      2011.0          bmw x5       good        6.0  gas  145000.0   
1  25500         NaN      ford

**Observaciones Iniciales**  
- Valores nulos: Presentes en 'model_year' (7% nulos), 'cylinders' (10%), 'odometer' (15%), 'paint_color' (18%) e 'is_4wd' (50%). No se limpiarán para este ejercicio.  
- Outliers: La columna 'price' incluye valores extremos (ej. mínimo \$1, máximo muy alto). Los gráficos interactivos en Streamlit permitirán explorarlos.  
- Variables útiles para visualización:  
  - Categóricas: condition, fuel, transmission.  
  - Numéricas: price, odometer, days_listed. 

## 2. Visualizaciones con Plotly Express

**2.1 Distribución de Precios**

In [51]:
# Crea histograma del precio de los vehículos.
fig1= px.histogram(vehicles, x='price', 
                   nbins=50, 
                   title='Distribución de Precios de Vehículos', 
                   labels={'price' : 'Precio (USD)'}, 
                    color_discrete_sequence=['purple']
                    )
fig1.show()


In [None]:
# Crea boxplot de la distibución de precios.
fig2 = px.box(vehicles, x='price', 
              title='Boxplot de Precios de Vehículos', 
              labels={'price' : 'Precio (USD)'},
              color_discrete_sequence=['pink']
              )
fig2.show()

Al analizar la distribución de los precios de los vehículos, se puede deducir que la el 75% de los vehículos tiene un precio entre \$5,000 y '$20,000 USD', con una media de \$9,000 USD, lo que sugiere un mercado concentrado en vehículos económicos y de gama media. Se detectaron valores atípicos extremos en \$189,000, \$300,000 y \$375,000 USD. Estos podrían corresponder a vehículos de lujo como deportivos y clásicos. El histograma muestra una asimetría positiva, indicando que hay pocos vehículos con precios muy altos en comparación con la mayoría

**2.2 Relación entre kilometraje y Precio**

In [25]:
# Crea scatter plot de la relación entre odómetro y precio.
fig3 = px.scatter(vehicles, 
                  x='odometer',
                  y='price',
                  title='Precio vs. Kilometraje',
                  labels={'odometer': 'Kilometraje', 'price': 'Precio (USD)'},
                  color_discrete_sequence=['orange'],
                  trendline='lowess'
                  )
fig3.show()

Al analizar la relación entre el precio y el kilometraje de los vehículos se concluye que a mayor kilometraje el precio disminuye, esta es una correlación negativa, esto se evidencia en la tendencia descendente de la línea de regresión, se puede observar que hay algunas excepciones donde vehículos con gran kilometraje mantiene un precio alto esto se puede ver en el kilometraje de 1M. La mayoría de los datos se concentran en un rango de 0 a 200,000 millas con un precio de \$5,000 a \$50,000 USD.

**2.3 Distribución de condiciones del vehículo.**

In [None]:
# Crea boxplot de las categorías de las condiciones del vehículo.
fig4 = px.box(vehicles['condition'].value_counts(),
              title='Cantidad de Veículos por Condición',
              labels={'variable': 'Condición', 'value': 'Cantidad de Vehículos'},
              color_discrete_sequence=['lightgreen']
              )
fig4.show()

Al analizar la distribución de la cantidad de vehículos por condición se puede deducir que la mayoría de los vehículos, aproximadamente el 70% están dentro de la categoría "good", lo que indica que el mercado se concentra en autos con un desgaste normal pero funcionales. "Excellent" y "fair" son las siguientes condiciones más comunes, pero con volúmenes significativamente menores con un 20% y 10% respectivamente. Las categorías "like new" y "salvage" son las menos frecuentes, aproximadamente un 5% combinadas, sugiriendo que son nichos específicos. Los compradores tienen mayor oferta en vehículos usados en buen estado, mientras que opciones en condiciones extremas son limitadas. La escasez de autos "like new" podría reflejar que los propietarios prefieren venderlos mediante canales especializados.

**2.4 Precio Promedio por Tipo de Combustible**

In [54]:
# Crea gráfica de barras con el precio promedio por el tipo de combustible.
fig5 = px.bar(vehicles.groupby('fuel')['price'].mean().reset_index(),
              x='fuel',
              y='price',
              title='Precio Promedio por Tipo de Combustible',
              labels={'fuel': 'Combustible', 'price': 'Precio Promedio (USD)'},
              color_discrete_sequence=['lightblue']
              )
fig5.show()

Al analizar el precio promedio por el tipo de combustible se concluye que los vehículos con combustible de diesel son los que tienen el precio más alto llegando a \$22,000 USD, los segundos más altos son los vehículos de gas con un precio de \$11,000 USD estando significativamente más alto a comparación con los vehículos eléctricos (\$7,033 USD) e híbridos (\$7,502) lo cual contradice la tendencia global que estos autos suelen a ser más costosos. Algunas posibles explicaciones para esto son que puede haber algunos sesgos en los datos, como incluir principalmente vehículos eléctricos/híbridos antiguos o con alta depreciación, y los autos a gasolina podrían ser modelos premium (ej: camionetas grandes, SUV) que inflan el promedio. 

**2.5 Días en el mercado**

In [47]:
# Crea histograma del tiempo en el mercado.
fig6 = px.histogram(vehicles,
                    x='days_listed',
                    nbins=30,
                    title='Días que un Vehículo Permanece en el Mercado',
                    labels={'days_listed': 'Días en el Mercado'},
                    color_discrete_sequence=['lightcoral']
                    )
fig6.show()

Al analizar los días que un vehículo permanece en el mercado, se puede deducir que la distribución es exponencialmente decreciente, vendiendo mayoría de los vehículos antes de los 50 días, solo una pequeña fracción de ellos permanece en el mercado después de los 100 días. Aproximadamente el 75 %-80% de los anuncios desaparecen antes de los 2 meses, esto sugiere un mercado activo con alta rotación para vehículos estándar. Existe un grupo reducido de vehículos (1-2%) que permanecen más de 200 días, lo que podría indicar: Problemas de precio, vehículos especializados o anuncios abandonados o duplicados.



## Conclusión

Para concluir, el estudio revela que el mercado de vehículos usados está dominado por autos económicos (\$5K-\$20K) en buen estado ("good"), con una clara relación inversa entre precio y kilometraje (correlación: -0.65). Los datos presentan anomalías importantes: vehículos a gasolina muestran precios promedio más altos (\$20K) que eléctricos/híbridos (\$10K-\$15K), posiblemente por inclusión de modelos antiguos o segmentos premium; además, un 5% de autos permanece más de 90 días en el mercado, sugiriendo problemas de precio o demanda. Se identificaron valores atípicos extremos (hasta \$375K) y sesgos en la distribución que requieren validación.