## Análisis Exploratorio de Datos (EDA)

En este notebook realizaremos un análisis exploratorio del dataset del archivo **vehicles_us.csv** utilizando **pandas** y **plotly-express.**

## **1. Importaciones básicas**

Como primer paso importaremos las librerías básicas y cargaremos el dataset que utilizaremos para el análisis.

In [12]:
# Importar librerías necesarias
import pandas as pd
import plotly.express as px

print("=" * 70)
print("ANÁLISIS EXPLORATORIO DE DATOS - VEHICLES US")
print("=" * 70)

# Cargar dataset
try:
    vehicles_df = pd.read_csv('../vehicles_us.csv')
    print("\nLibrerias y Dataset cargado exitosamente")
except FileNotFoundError:
    print("\n Error: No se encontró el archivo vehicles_us.csv")

ANÁLISIS EXPLORATORIO DE DATOS - VEHICLES US

Librerias y Dataset cargado exitosamente


## **2. Dimensionamiento del Dataset**

Como segundo paso, exploraremos la estructura del dataset y analizaremos sus dimensiones.

In [16]:
# Dimensiones del DataFrame (Filas, Columnasprint("=" * 60)
print("=" * 60)
print("DIMENSIONES DEL DATASET")
print("=" * 60)

print(f"Filas: {vehicles_df.shape[0]}")
print(f"Columnas: {vehicles_df.shape[1]}")

# Nombres de las columnas
print("\nCOLUMNAS DEL DATASET")
print("=" * 60)

for col in vehicles_df.columns:
    print(f"- {col}")

# Tipos de datos y valores nulos
print("\nINFORMACIÓN GENERAL DEL DATASET")
print("=" * 60)

vehicles_df.info()

# Valores nulos por columna
print("\nVALORES NULOS POR COLUMNA")
print("=" * 60)

missing = vehicles_df.isna().sum().sort_values(ascending=False)
missing_percent = (missing / len(vehicles_df)) * 100

nulls_df = pd.DataFrame({
    'Valores Nulos': missing,
    'Porcentaje (%)': missing_percent.round(2)
})

nulls_df

# Vista rapida de los datos
vehicles_df.head(5) # Primeras 5 filas
vehicles_df.tail(5) # Últimas 5 filas

# Detección de duplicados
print("\nREGISTROS DUPLICADOS")
print("=" * 60)

duplicates = vehicles_df.duplicated().sum()
print(f"Registros duplicados: {duplicates}")

# Estadísticas descriptivas
print("\nESTADÍSTICAS DESCRIPTIVAS")
print("=" * 60)

vehicles_df.describe()

DIMENSIONES DEL DATASET
Filas: 51525
Columnas: 13

COLUMNAS DEL DATASET
- price
- model_year
- model
- condition
- cylinders
- fuel
- odometer
- transmission
- type
- paint_color
- is_4wd
- date_posted
- days_listed

INFORMACIÓN GENERAL DEL DATASET
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51525 entries, 0 to 51524
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         51525 non-null  int64  
 1   model_year    47906 non-null  float64
 2   model         51525 non-null  object 
 3   condition     51525 non-null  object 
 4   cylinders     46265 non-null  float64
 5   fuel          51525 non-null  object 
 6   odometer      43633 non-null  float64
 7   transmission  51525 non-null  object 
 8   type          51525 non-null  object 
 9   paint_color   42258 non-null  object 
 10  is_4wd        25572 non-null  float64
 11  date_posted   51525 non-null  object 
 12  days_listed   51525 non-null  int64

Unnamed: 0,price,model_year,cylinders,odometer,is_4wd,days_listed
count,51525.0,47906.0,46265.0,43633.0,25572.0,51525.0
mean,12132.46492,2009.75047,6.125235,115553.461738,1.0,39.55476
std,10040.803015,6.282065,1.66036,65094.611341,0.0,28.20427
min,1.0,1908.0,3.0,0.0,1.0,0.0
25%,5000.0,2006.0,4.0,70000.0,1.0,19.0
50%,9000.0,2011.0,6.0,113000.0,1.0,33.0
75%,16839.0,2014.0,8.0,155000.0,1.0,53.0
max,375000.0,2019.0,12.0,990000.0,1.0,271.0


## **3. Proceso de limpieza del Dataset**

Como tercer paso, realizaremos el proceso de limpieza del dataset, con el objetivo de garantizar la calidad de los datos y facilitar un análisis más preciso.

In [17]:
# Copia de seguridad del DataFrame
clean_df = vehicles_df.copy()

# Conversión de date_posted a formato datetime
clean_df['date_posted'] = pd.to_datetime(clean_df['date_posted'], errors='coerce')
clean_df['date_posted'].dtype

# Limpieza de la variable is_4wd
clean_df['is_4wd'] = clean_df['is_4wd'].fillna(0)
clean_df['is_4wd'] = clean_df['is_4wd'].astype(int)
clean_df['is_4wd'].value_counts()

# Tratamiento de valores nulos

# paint_color
clean_df['paint_color'] = clean_df['paint_color'].fillna('unknown')

# cylinders
clean_df['cylinders'] = clean_df['cylinders'].fillna(
    clean_df['cylinders'].median()
)

# model_year
clean_df['model_year'] = clean_df['model_year'].fillna(
    clean_df['model_year'].median()
)

# odometer
clean_df['odometer'] = clean_df['odometer'].fillna(
    clean_df['odometer'].median()
)

# Eliminación de valores atípicos (outliers)

# Precio
price_upper = clean_df['price'].quantile(0.99)

clean_df = clean_df[
    (clean_df['price'] >= 500) &
    (clean_df['price'] <= price_upper)
]

# Kilometraje
odo_upper = clean_df['odometer'].quantile(0.99)

clean_df = clean_df[
    (clean_df['odometer'] > 0) &
    (clean_df['odometer'] <= odo_upper)
]

# Verificación de valores nulos
print("VALORES NULOS DESPUÉS DE LA LIMPIEZA")
print("=" * 50)

clean_df.isna().sum()

# Validación final del dataset limpio
print("DIMENSIONES FINALES")
print("=" * 50)

print(f"Filas: {clean_df.shape[0]}")
print(f"Columnas: {clean_df.shape[1]}")

VALORES NULOS DESPUÉS DE LA LIMPIEZA
DIMENSIONES FINALES
Filas: 49264
Columnas: 13


## **4. Visualizaciones para el análisis exploratorio básico**

Como cuarto paso, realizaremos la creación de visualizaciones con el objetivo de analizar de forma gráfica el comportamiento y las relaciones entre las variables del conjunto de datos.

In [18]:
# Distribución del precio de los vehículos
fig = px.histogram(
    clean_df,
    x='price',
    nbins=50,
    title='Distribución de precios de los vehículos'
)
fig.show()

# Precio según la condición del vehículo
fig = px.box(
    clean_df,
    x='condition',
    y='price',
    title='Distribución del precio según la condición del vehículo'
)
fig.show()

# Relación entre precio y kilometraje
fig = px.scatter(
    clean_df,
    x='odometer',
    y='price',
    opacity=0.4,
    title='Relación entre precio y kilometraje'
)
fig.show()

# Distribución por tipo de vehículo
fig = px.histogram(
    clean_df,
    x='type',
    title='Cantidad de vehículos por tipo'
)
fig.show()

# Precio promedio por tipo de combustible
price_fuel = clean_df.groupby('fuel', as_index=False)['price'].mean()

fig = px.bar(
    price_fuel,
    x='fuel',
    y='price',
    title='Precio promedio por tipo de combustible'
)
fig.show()

# Impacto de la tracción 4WD en el precio
fig = px.box(
    clean_df,
    x='is_4wd',
    y='price',
    title='Precio según tracción 4WD (0 = No, 1 = Sí)'
)
fig.show()

# Precio promedio por año del modelo
price_year = clean_df.groupby('model_year', as_index=False)['price'].mean()

fig = px.line(
    price_year,
    x='model_year',
    y='price',
    title='Precio promedio según el año del modelo'
)
fig.show()

# Días en publicación vs precio
fig = px.scatter(
    clean_df,
    x='days_listed',
    y='price',
    opacity=0.5,
    title='Relación entre precio y días publicados'
)
fig.show()
