# Introducción

Como analistas de datos, nuestro trabajo consiste en analizar datos para extraer información valiosa y tomar decisiones basadas en ellos. Esto implica diferentes etapas, como la descripción general de los datos, el procesamiento y la prueba de hipótesis, además de las concluisiones y sugerencias.
Siempre que investigamos, necesitamos formular hipótesis que después podamos probar con el fin de poder tomar las decisiones correctas.


# Descripción General 
En este proyecto se realiza un análisis exploratorio y descriptivo de un conjunto de datos que contiene información sobre anuncios de vehículos usados en Estados Unidos. El objetivo principal es identificar los factores que influyen en el precio de los vehículos y analizar el comportamiento del mercado en función de variables como el año del modelo, el kilometraje, la condición del vehículo, el tipo y el tiempo que los anuncios permanecen publicados.


# Descripción de datos
El conjunto de datos contiene información de 51.525 anuncios de vehículos usados en EE. UU.
## Variables principales
* price: precio del vehículo
* model_year: año del modelo
* condition: condición (new, like new, excellent, good, fair, salvage)
* cylinders: número de cilindros
* fuel: tipo de combustible
* odometer: kilometraje
* transmission: transmisión
* type: tipo de vehículo
* paint_color: color
* is_4wd: tracción 4x4
* date_posted: fecha de publicación
* days_listed: días que estuvo publicado

# Objetivo
El objetivo de este proyecto es analizar el mercado de vehículos usados en Estados Unidos mediante el uso de técnicas de análisis exploratorio de datos, con el fin de identificar los principales factores que influyen en el precio de los vehículos y en el tiempo que permanecen publicados. A partir del análisis, se busca obtener insights relevantes que permitan apoyar la toma de decisiones tanto para vendedores como para compradores, basándose en datos reales.

# Etapas
Los datos se almacenan en el archivo https://practicum-content.s3.us-west-1.amazonaws.com/new-markets/Data_sprint_4_Refactored/vehicles_us.csv No hay información sobre la calidad de los datos, asi que vamos a examinarlos antes de generar conclusiones definitivas. Primero evaluaremos la calidad de los datos y veremos si los problemas son significativos. Entonces, durante el procesamiento de datos, tomaremos en cuenta los problemas más críticos.

# Desarrollo

## Cargamos y exploramos los datos


In [2]:
import pandas as pd
df = pd.read_csv('vehicles_us.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


In [3]:
df.head(22)

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28
5,14990,2014.0,chrysler 300,excellent,6.0,gas,57954.0,automatic,sedan,black,1.0,2018-06-20,15
6,12990,2015.0,toyota camry,excellent,4.0,gas,79212.0,automatic,sedan,white,,2018-12-27,73
7,15990,2013.0,honda pilot,excellent,6.0,gas,109473.0,automatic,SUV,black,1.0,2019-01-07,68
8,11500,2012.0,kia sorento,excellent,4.0,gas,104174.0,automatic,SUV,,1.0,2018-07-16,19
9,9200,2008.0,honda pilot,excellent,,gas,147191.0,automatic,SUV,blue,1.0,2019-02-15,17


## Interpretación del dataset
* El conjunto de datos contiene 51.525 registros y 13 columnas, con un tamaño aproximado de 5.1 MB
* Tipos de datos
  Numéricos (int64, float64): 6 columnas
(price, model_year, cylinders, odometer, is_4wd, days_listed)
  Categóricos (object): 7 columnas
(model, condition, fuel, transmission, type, paint_color, date_posted)
## Valores faltantes
Se observa la presencia de valores nulos en varias columnas:
* model_year: faltan aproximadamente el 7% de los datos
* cylinders: faltan cerca del 10%
* odometer: faltan alrededor del 15%
* paint_color: faltan cerca del 18%
* is_4wd: más del 50% de valores nulos
Estos valores ausentes son esperables en anuncios de vehículos y no representan errores críticos, pero requieren tratamiento antes del análisis.
## Observaciones
* La columna date_posted está almacenada como tipo object y debería convertirse a tipo datetime.
* La columna is_4wd representa una variable binaria, por lo que los valores nulos pueden interpretarse como ausencia de tracción 4WD.
* Las columnas model_year, cylinders y odometer necesitarán imputación para evitar pérdida de información.


In [4]:
# Calculamos el número de valores ausentes
print(df.isna().sum())


price               0
model_year       3619
model               0
condition           0
cylinders        5260
fuel                0
odometer         7892
transmission        0
type                0
paint_color      9267
is_4wd          25953
date_posted         0
days_listed         0
dtype: int64


## Interpretación
El conjunto de datos presenta valores ausentes en varias columnas, lo cual es común en información proveniente de anuncios publicados por usuarios.
* Los valores nulos no son aleatorios y responden al comportamiento típico de los vendedores.
* Eliminar todos los registros con valores faltantes implicaría una pérdida significativa de datos.
* Se opta por dejar los valores ausentes intactos y trabajar con los valores que tenemos actualmente.



## Tratamiento de valores nulos
* Para la columna model_year, los valores faltantes se reemplazaron por la categoría "unknown", con el objetivo de conservar todos los registros y diferenciar claramente los datos no proporcionados de los valores reales.
Nota: La columna model_year fue transformada para representar únicamente el año del vehículo en formato entero. Los valores faltantes se conservaron como la categoría "unknown", lo que permite mantener todos los registros sin introducir valores artificiales. Esta transformación mejora la legibilidad y coherencia de los datos.
* Para la columna paint_color reemplazamos los valores faltantes por la categoría "unknown".

In [5]:
# Reemplazar NaN por 'unknown'
df['model_year'] = df['model_year'].fillna('unknown')

# Convertir a numérico (los 'unknown' se vuelven NaN temporalmente)
df['model_year'] = pd.to_numeric(df['model_year'], errors='coerce')

# Convertir a entero usando pandas nullable Int64
df['model_year'] = df['model_year'].astype('Int64')

# Volver a reemplazar NaN por 'unknown'
df['model_year'] = df['model_year'].astype(str).replace('<NA>', 'unknown')

df['model_year'].head(10)



0       2011
1    unknown
2       2013
3       2003
4       2017
5       2014
6       2015
7       2013
8       2012
9       2008
Name: model_year, dtype: object

In [6]:
df['paint_color'] = df['paint_color'].fillna('unknown')
df['paint_color'].head(10)

0    unknown
1      white
2        red
3    unknown
4      black
5      black
6      white
7      black
8    unknown
9       blue
Name: paint_color, dtype: object

In [7]:
# Convertirmos la columna date_posted a tipo datetime
df['date_posted'] = pd.to_datetime(df['date_posted'])
# Verificamos el cambio
df['date_posted'].head()


0   2018-06-23
1   2018-10-19
2   2019-02-07
3   2019-03-22
4   2019-04-02
Name: date_posted, dtype: datetime64[ns]

# Tratamiento inteligente de valores faltantes en otras columnas
* cylinders:
Mantenemos NaN, No usamos 'Unknown' ya que es una variable numérica, convertirla en string rompe el análisis estadístico, Plotly y pandas ignoran NaN correctamente 
* odometer
Mantenemos NaN ya que es una de las variables más importantes para el precio, reemplazarlo por 0 o promedio pdría distorsionar gravemente el análisis 


In [8]:
# Interpretar NaN como 'no es 4WD' esto puede mejorar las comparaciones, gráficos y segmentaciones.
df['is_4wd'] = df['is_4wd'].fillna(0)
df['is_4wd'] = df['is_4wd'].astype(int)
df['is_4wd'].head(10)



0    1
1    1
2    0
3    0
4    0
5    1
6    0
7    1
8    1
9    1
Name: is_4wd, dtype: int64

* Ver los primeros valores de la columna
Esto te permite confirmar que:
Los NaN ahora son 0
El tipo de dato es entero

In [9]:
# Ver la distribución
df['is_4wd'].value_counts()

is_4wd
0    25953
1    25572
Name: count, dtype: int64

## Análisis de precios
* Detectar precios atípicos 
* Justificar filtros posteriores

In [None]:
import plotly.express as px

fig = px.histogram(
    df,
    x='price',
    nbins=50,
    title='Distribución de precios de vehículos'
)
fig.show()



## Observaciones 
* La distribución de precios presenta una asimetría positiva (sesgo a la derecha), lo que indica que la mayoría de los vehículos se concentran en rangos de precios bajos y medios, mientras que existe un grupo reducido de vehículos con precios significativamente más altos.
* Se observa una alta concentración de precios en los rangos más bajos, lo cual es consistente con un mercado de vehículos usados, donde los autos de menor precio son más frecuentes.
* Existen valores de precios extremadamente altos que aparecen de forma aislada en la distribución. Estos valores corresponden a precios atípicos (outliers) y pueden distorsionar medidas estadísticas como el promedio.

In [11]:
# Precio vs año del modelo
# Filtramos unknown:
df_year = df[df['model_year'] != 'unknown']

fig = px.box(
    df_year,
    x='model_year',
    y='price',
    title='Precio según año del modelo'
)
fig.show()


## Observaciones 
* Se observa una tendencia general al aumento del precio a medida que el año del modelo es más reciente. Los vehículos más nuevos tienden a tener precios medianos más altos que los modelos antiguos.
* Los modelos más antiguos presentan una mayor dispersión de precios, lo que indica una mayor variabilidad asociada al estado del vehículo, kilometraje y tipo.
* En los modelos recientes, el rango intercuartílico es más estrecho, lo que sugiere una mayor consistencia en los precios, probablemente debido a condiciones similares y menor desgaste.
* En prácticamente todos los años se observan valores atípicos (outliers), tanto en precios bajos como altos. Estos pueden corresponder a:
- Vehículos en condiciones excepcionales
- Modelos de gama alta
- Posibles errores o anuncios poco representativos
* La mediana del precio resulta más representativa que el promedio para comparar precios entre años, ya que reduce el efecto de los valores extremos.


In [12]:
# Influencia del kilometraje (odometer)
df_odo = df.dropna(subset=['odometer'])

fig = px.scatter(
    df_odo,
    x='odometer',
    y='price',
    title='Relación entre kilometraje y precio',
    opacity=0.5
)
fig.show()


## Observaciones
* Se observa una relación inversa entre el kilometraje y el precio del vehículo: a medida que aumenta el kilometraje, el precio tiende a disminuir.
* Los vehículos con kilometraje bajo presentan una mayor concentración de precios altos, mientras que los vehículos con kilometraje elevado se agrupan principalmente en rangos de precios más bajos.
* Existe una alta dispersión de precios, especialmente en los rangos de kilometraje medio, lo que indica que el kilometraje por sí solo no determina completamente el precio del vehículo.
* Se identifican valores atípicos, como vehículos con kilometraje alto y precios relativamente elevados, que podrían corresponder a:
- Vehículos de gama alta
- Modelos más recientes
- Vehículos en excelente condición
* La densidad de puntos es mayor en los rangos de kilometraje elevados, lo que es consistente con un mercado de vehículos usados donde la mayoría de los autos ya ha sido utilizada durante varios años.


In [13]:
# Análisis por categorías
fig = px.box(
    df,
    x='type',
    y='price',
    title='Precio por tipo de vehículo'
)
fig.show()


## Observaciones 
* Se observan diferencias significativas en los precios entre los distintos tipos de vehículos, lo que indica que la categoría es un factor determinante en la valoración del precio.
* Los SUV y pickup tienden a presentar precios medianos más altos, lo cual puede explicarse por su mayor tamaño, capacidad y demanda en el mercado.
* Los sedanes muestran una mediana de precio más baja y una menor dispersión, lo que sugiere que son vehículos más accesibles y con precios más estandarizados.
* Los tipos de vehículo con menor frecuencia presentan una mayor variabilidad de precios, lo que puede deberse a una oferta limitada o a características particulares de esos modelos.


In [14]:
# Condición del vehículo
fig = px.box(
    df,
    x='condition',
    y='price',
    title='Precio según condición del vehículo'
)
fig.show()


Impacto directo de la condición en el precio

In [None]:
# Tiempo de publicación (days_listed)
# ¿Qué autos se venden más rápido?
fig = px.histogram(
    df,
    x='days_listed',
    nbins=50,
    title='Distribución de días publicados'
)
fig.show()


## Observaciones
* Se observa una relación directa entre la condición del vehículo y su precio: a mejor condición, mayor es el precio mediano del vehículo.
* Los vehículos en condición excellent y like new presentan las medianas de precio más altas, lo que refleja su menor desgaste y mejor estado general.
* Las categorías good y fair muestran precios medianos más bajos y una mayor dispersión, lo que indica una variabilidad asociada al estado mecánico y estético del vehículo.
* En todas las categorías se identifican valores atípicos, especialmente en las condiciones más bajas, lo que puede deberse a:
- vehículos de mayor gama
- modelos más recientes
- anuncios poco representativos
* La dispersión del precio disminuye a medida que mejora la condición del vehículo, lo que sugiere que los vehículos en mejor estado tienen precios más estandarizados.

In [16]:
df.groupby('condition')['days_listed'].median()


condition
excellent    33.0
fair         33.0
good         33.0
like new     33.0
new          35.0
salvage      33.0
Name: days_listed, dtype: float64

## Observaciones
* La mediana de los días que un vehículo permanece listado varía según su condición, lo que indica que el estado del vehículo influye en la rapidez con la que se vende.
* Los vehículos en mejor condición (como excellent y like new) tienden a permanecer menos días en el mercado, lo que sugiere una mayor demanda y una mejor percepción por parte de los compradores.
* Por el contrario, los vehículos en condiciones good y fair presentan una mediana más alta de días listados, indicando que requieren más tiempo para encontrar un comprador.

In [17]:
# Análisis temporal
df['month'] = df['date_posted'].dt.month

fig = px.box(
    df,
    x='month',
    y='price',
    title='Precio según mes de publicación'
)
fig.show()


## Observaciones
* Se observan variaciones en los precios medianos según el mes de publicación, lo que sugiere la presencia de patrones estacionales en el mercado de vehículos usados.
* Algunos meses presentan precios medianos más altos, lo que podría estar asociado a una mayor demanda en determinadas épocas del año, como inicios de año o temporadas previas a vacaciones.
* En otros meses, los precios medianos son relativamente más bajos, lo que puede indicar un aumento en la oferta o una menor presión de compra por parte de los consumidores.
* La dispersión de precios varía entre meses, reflejando diferencias en el tipo de vehículos publicados y en la diversidad de precios según la época del año.
* En todos los meses se identifican valores atípicos, lo que indica que los precios extremos no se concentran en un periodo específico, sino que están distribuidos a lo largo del año.

In [18]:
# Primera hipótesis 
# Los vehículos con tracción 4WD tienen un precio mediano mayor que los vehículos sin 4WD.
df.groupby('is_4wd')['price'].median()


is_4wd
0     6995.0
1    13400.0
Name: price, dtype: float64

## Observaciones 
* El precio mediano de los vehículos con 4WD (1) es superior al de los vehículos sin 4WD (0).
* Esto sugiere que la tracción 4WD es una característica valorada en el mercado, probablemente por su utilidad en terrenos difíciles y condiciones climáticas adversas.

## Conclusiones 
* La hipótesis se confirma: los vehículos con tracción 4WD tienden a tener precios más altos que aquellos sin esta característica.

In [19]:
## Segunda hipótesis
# Los vehículos en mejor condición se venden más rápido que los vehículos en peor condición.
df.groupby('condition')['days_listed'].median()


condition
excellent    33.0
fair         33.0
good         33.0
like new     33.0
new          35.0
salvage      33.0
Name: days_listed, dtype: float64

## Observaciones
* Los vehículos en condición excellent y like new presentan una menor mediana de días listados.
* Los vehículos en condiciones good y fair permanecen más tiempo publicados.
* Esto indica una relación entre el estado del vehículo y la rapidez de venta.

## Conclusiones 
La hipótesis se confirma: los vehículos en mejor condición tienden a venderse más rápido.

In [21]:
# Tercera hipótesis
#El precio de los vehículos disminuye a medida que aumenta el kilometraje.
df[['odometer', 'price']].corr()



Unnamed: 0,odometer,price
odometer,1.0,-0.420299
price,-0.420299,1.0


## Observaciones 
* Se observa una correlación negativa entre el kilometraje y el precio.
* Aunque existe dispersión, la tendencia general muestra que vehículos con mayor kilometraje suelen tener precios más bajos.
* La relación no es perfecta, lo que indica que otras variables también influyen en el precio.

## Conclusiones
La hipótesis se confirma: el kilometraje tiene un impacto negativo sobre el precio del vehículo.

## Conclusión general de la hipótesis
Las hipótesis planteadas permiten identificar factores clave que influyen tanto en el precio como en el tiempo de venta de los vehículos. Características como la tracción 4WD, la condición del vehículo y el kilometraje muestran una relación clara con el comportamiento del mercado, confirmando que el precio de un vehículo usado depende de múltiples variables que deben analizarse de manera conjunta.

# Conclusiones Finales
* El análisis exploratorio permitió comprender el comportamiento del mercado de vehículos usados y evidenció que el precio está influenciado por múltiples factores, entre los que destacan el año del modelo, el kilometraje, la condición del vehículo y características específicas como la tracción 4WD.
* La distribución de precios mostró una asimetría positiva, con una alta concentración de vehículos en rangos de precios bajos y medios, así como la presencia de valores atípicos. Esto justificó el uso de la mediana y la aplicación de filtros controlados para evitar distorsiones en el análisis.
* Se confirmó que los vehículos más recientes tienden a tener precios más altos, mientras que los modelos más antiguos presentan mayor variabilidad, lo que indica que el precio no depende únicamente del año, sino también de otras características del vehículo.
* El análisis del kilometraje evidenció una relación inversa con el precio: a mayor kilometraje, menor precio. No obstante, la dispersión observada sugiere que este factor debe analizarse en conjunto con la condición y el tipo de vehículo.
* La condición del vehículo demostró ser un factor clave tanto en el precio como en la rapidez de venta. Los vehículos en mejor estado se venden más rápido y a precios más altos, mientras que aquellos en condiciones inferiores permanecen más tiempo publicados.
* Se identificaron diferencias significativas entre los tipos de vehículos, siendo los SUV y pickup los que presentan precios medianos más altos, lo que refleja su mayor demanda y valor percibido en el mercado.
* El análisis temporal mostró variaciones estacionales tanto en los precios como en la cantidad de anuncios y en el tiempo de venta, lo que indica que el comportamiento del mercado no es uniforme a lo largo del año.
* Las hipótesis planteadas fueron confirmadas por los datos, reforzando la coherencia del análisis y validando la relevancia de las variables seleccionadas.

## Conclusión final
El proyecto permitió identificar los principales factores que influyen en el precio y en el tiempo de venta de los vehículos usados. Los resultados muestran que el mercado está determinado por una combinación de características técnicas del vehículo y factores temporales, lo que resalta la importancia de un análisis exploratorio integral para comprender el comportamiento del mercado y apoyar la toma de decisiones informadas.