***Carga y revisión del conjunto de datos.***
---


In [182]:
import pandas as pd

# Cargar el archivo
df = pd.read_csv('../vehicles_us.csv')

# Vista general del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64  
dtypes: float64(4), int64(2), object(7)
memory usage: 5.1+ MB


In [183]:
df.head()

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6.0,gas,145000.0,automatic,SUV,,1.0,2018-06-23,19
1,25500,,ford f-150,good,6.0,gas,88705.0,automatic,pickup,white,1.0,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4.0,gas,110000.0,automatic,sedan,red,,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8.0,gas,,automatic,pickup,,,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4.0,gas,80903.0,automatic,sedan,black,,2019-04-02,28


In [184]:
# Convertir fechas y valores categóricos correctamente
df['date_posted'] = pd.to_datetime(df['date_posted'])
df['model_year'] = df['model_year'].astype('Int64')  # permite nulos
df['cylinders'] = df['cylinders'].astype('Int64')
df['is_4wd'] = df['is_4wd'].fillna(0).astype('int')  # nulo = no es 4WD

# Limpiar registros para gráficas (ejemplo para uso futuro)
df_clean = df.dropna(subset=['odometer', 'model_year', 'price'])

df.head()

Unnamed: 0,price,model_year,model,condition,cylinders,fuel,odometer,transmission,type,paint_color,is_4wd,date_posted,days_listed
0,9400,2011.0,bmw x5,good,6,gas,145000.0,automatic,SUV,,1,2018-06-23,19
1,25500,,ford f-150,good,6,gas,88705.0,automatic,pickup,white,1,2018-10-19,50
2,5500,2013.0,hyundai sonata,like new,4,gas,110000.0,automatic,sedan,red,0,2019-02-07,79
3,1500,2003.0,ford f-150,fair,8,gas,,automatic,pickup,,0,2019-03-22,9
4,14900,2017.0,chrysler 200,excellent,4,gas,80903.0,automatic,sedan,black,0,2019-04-02,28


***Exploración inicial con gráficos antes de la limpieza.***
---

**Histograma de price (precio del vehículo)**

In [185]:
import plotly.express as px

fig_price = px.histogram(df, x='price', nbins=50, title='Distribución de precios')
fig_price.show()


**Gráfico de dispersión: odometer vs price**

In [186]:
# Eliminar nulos para evitar errores
df_scatter = df.dropna(subset=['odometer', 'price'])

# Gráfico de dispersión
fig_scatter = px.scatter(
    df_scatter,
    x='odometer',
    y='price',
    title='Relación entre kilometraje y precio',
    opacity=0.6
)
fig_scatter.show()


In [187]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   price         51525 non-null  int64         
 1   model_year    47906 non-null  Int64         
 2   model         51525 non-null  object        
 3   condition     51525 non-null  object        
 4   cylinders     46265 non-null  Int64         
 5   fuel          51525 non-null  object        
 6   odometer      43633 non-null  float64       
 7   transmission  51525 non-null  object        
 8   type          51525 non-null  object        
 9   paint_color   42258 non-null  object        
 10  is_4wd        51525 non-null  int64         
 11  date_posted   51525 non-null  datetime64[ns]
 12  days_listed   51525 non-null  int64         
dtypes: Int64(2), datetime64[ns](1), float64(1), int64(3), object(6)
memory usage: 5.2+ MB


In [188]:
df.isnull().sum()

price              0
model_year      3619
model              0
condition          0
cylinders       5260
fuel               0
odometer        7892
transmission       0
type               0
paint_color     9267
is_4wd             0
date_posted        0
days_listed        0
dtype: int64

In [189]:
df.describe()

Unnamed: 0,price,model_year,cylinders,odometer,is_4wd,date_posted,days_listed
count,51525.0,47906.0,46265.0,43633.0,51525.0,51525,51525.0
mean,12132.46492,2009.75047,6.125235,115553.461738,0.496303,2018-10-25 01:57:46.270742528,39.55476
min,1.0,1908.0,3.0,0.0,0.0,2018-05-01 00:00:00,0.0
25%,5000.0,2006.0,4.0,70000.0,0.0,2018-07-29 00:00:00,19.0
50%,9000.0,2011.0,6.0,113000.0,0.0,2018-10-25 00:00:00,33.0
75%,16839.0,2014.0,8.0,155000.0,1.0,2019-01-21 00:00:00,53.0
max,375000.0,2019.0,12.0,990000.0,1.0,2019-04-19 00:00:00,271.0
std,10040.803015,6.282065,1.66036,65094.611341,0.499991,,28.20427


***Limpieza de datos faltantes y atípicos.***
---

Para garantizar la calidad del análisis, se aplicaran los siguientes criterios de limpieza al conjunto de datos:

- Se eliminan precios irreales (< \$100 o > \$100.000).
- Se filtran vehículos con año de modelo menor a 1980.
- Se eliminan valores nulos en columnas esenciales: `model_year`, `cylinders`, `odometer`.
- Se eliminan registros con kilometrajes extremos (mayores a 500.000 km).
- Se descartó la columna `paint_color` por tener demasiados valores nulos y poco aporte al análisis.

In [190]:
# Copia del dataframe original para mantener el respaldo
df_clean = df.copy()

# 1. Eliminar outliers extremos en precio (valores inusuales bajos y altos)
df_clean = df_clean[(df_clean['price'] >= 100) & (df_clean['price'] <= 100000)]

# 2. Eliminar vehículos con año de modelo irreal (por debajo de 1980)
df_clean = df_clean[df_clean['model_year'] >= 1980]

# 3. Eliminar outliers extremos en odómetro (opcional: por encima de 500,000 km)
df_clean = df_clean[df_clean['odometer'] <= 500000]

# 4. Eliminar filas con valores nulos en columnas clave (odómetro y model_year)
df_clean = df_clean.dropna(subset=['model_year', 'cylinders', 'odometer'])

# 5. Opcional: eliminar columna 'paint_color' si no se va a usar
df_clean = df_clean.drop(columns=['paint_color'])

# 6. Reiniciar el índice para que el DataFrame esté limpio
df_clean = df_clean.reset_index(drop=True)


***Cantidad de datos tras la limpieza***
---

In [191]:
# Dimensiones del DataFrame limpio
print("Dimensiones después de la limpieza:", df_clean.shape)

# Recuento de valores nulos restantes
print("\nValores nulos restantes por columna:\n")
print(df_clean.isna().sum())

Dimensiones después de la limpieza: (35633, 12)

Valores nulos restantes por columna:

price           0
model_year      0
model           0
condition       0
cylinders       0
fuel            0
odometer        0
transmission    0
type            0
is_4wd          0
date_posted     0
days_listed     0
dtype: int64


***Generación de graficos sobre los datos limpios.***
---


***Histograma de Precios (price):*** Visualiza la distribución de los precios de los vehículos para identificar rangos frecuentes de venta, posibles sesgos y concentración de valores tras la limpieza de datos.

In [192]:
import plotly.express as px

# Histograma de precios
fig_price = px.histogram(df_clean, x='price', nbins=50, title='Distribución de Precios (limpio)')
fig_price.show()


***Histograma de Kilometraje (odometer):*** Examinar cómo se distribuyen los niveles de kilometraje registrados. Esto permite detectar patrones de uso comunes, agrupaciones de vehículos por desgaste y verificar la eliminación de valores atípicos.

In [193]:
# Histograma de odómetro
fig_odometer = px.histogram(df_clean, x='odometer', nbins=50, title='Distribución de Kilometraje (odometer)')
fig_odometer.show()

***Gráfico de Dispersión: Precio vs Año del Modelo (model_year):*** Explora la relación entre el precio del vehículo y su año de fabricación. Sirve para validar la tendencia general de que los autos más recientes tienden a tener precios más altos, y también para identificar inconsistencias o valores atípicos.

In [194]:
# Dispersión de precio vs año del modelo
fig_model_year_price = px.scatter(df_clean, x='model_year', y='price', title='Precio vs Año del Modelo')
fig_model_year_price.show()

***Gráfico de Dispersión: Precio vs Kilometraje (odometer):*** Evalua la correlación entre el kilometraje y el precio de los vehículos. Esta visualización ayuda a confirmar si los autos con menor uso tienen mayor valor, y permite descubrir patrones de depreciación o puntos inusuales que podrían requerir más análisis.

In [195]:
# Dispersión de precio vs odómetro
fig_price_odometer = px.scatter(df_clean, x='odometer', y='price', title='Precio vs Kilometraje')
fig_price_odometer.show()

***Distribución de Variables Categóricas Relevantes***
---

En esta sección se analizan las distribuciones de las principales variables categóricas del conjunto de datos: ***la condición del vehículo y el tipo de combustible***. Estos gráficos permiten identificar qué categorías son más comunes en los anuncios, lo cual es útil para comprender la oferta predominante en el mercado de vehículos usados. Además, brindan una base para filtrar datos en la interfaz interactiva de Streamlit.

**Gráfico de barras: distribución por condición del vehículo**
Este gráfico nos permitirá ver en qué estado se encuentran la mayoría de los autos (por ejemplo: good, excellent, fair, etc.).

In [196]:
import plotly.express as px

# Preparar los datos para el gráfico de barras
condition_counts = df_clean['condition'].value_counts().reset_index()
condition_counts.columns = ['Condición', 'Cantidad']

# Gráfico de barras
fig_condition = px.bar(
    condition_counts,
    x='Condición',
    y='Cantidad',
    title='Distribución por Condición del Vehículo'
)
fig_condition.show()

In [197]:
import plotly.express as px

# Preparar los datos para el gráfico de barras
type_counts = df_clean['type'].value_counts().reset_index()
type_counts.columns = ['Tipo de Vehículo', 'Cantidad']

# Gráfico de barras
fig_type = px.bar(
    type_counts,
    x='Tipo de Vehículo',
    y='Cantidad',
    title='Distribución por Tipo de Vehículo'
)
fig_type.show()



***Exportar el dataset limpio a CSV***
---

In [198]:
df_clean.to_csv('vehicles_clean.csv', index=False)
