# Análisis Exploratorio de Datos (EDA): Precios de Automóviles

## Objetivo
Realizar un análisis exploratorio exhaustivo del dataset de automóviles usados para:
1. Comprender la distribución de las variables
2. Identificar relaciones entre características y precio
3. Detectar outliers y anomalías
4. Generar insights para el modelado predictivo

In [1]:
# Importar librerías
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from pathlib import Path

# Configuración de visualizaciones
import warnings
warnings.filterwarnings('ignore')

print("Librerías importadas correctamente.")

Librerías importadas correctamente.


## 1. Carga de Datos

In [2]:
# Cargar dataset desde formato parquet (más eficiente)
data_path = Path('../data/raw/automoviles_usados.parquet')
df = pd.read_parquet(data_path)

print(f"Dataset cargado: {len(df)} registros, {len(df.columns)} columnas")
print(f"\nColumnas: {list(df.columns)}")

# Mostrar primeras filas
df.head()

Dataset cargado: 10000 registros, 15 columnas

Columnas: ['marca', 'tipo_carroceria', 'año', 'kilometraje', 'tipo_combustible', 'transmision', 'cilindrada', 'potencia', 'peso', 'consumo', 'color', 'edad_propietarios', 'calificacion_estado', 'region_venta', 'precio']


Unnamed: 0,marca,tipo_carroceria,año,kilometraje,tipo_combustible,transmision,cilindrada,potencia,peso,consumo,color,edad_propietarios,calificacion_estado,region_venta,precio
0,Ford,Hatchback,2015,400000,Gasolina,Automática,2039,93,1690,7.269729,Rojo,1,7.269855,Sur,2400.0
1,Mercedes-Benz,Sedán,2021,400000,Gasolina,Manual,1606,91,1476,7.508579,Gris,1,7.224478,Sur,15500.0
2,Hyundai,Hatchback,2015,400000,Gasolina,Manual,2204,120,1373,8.237119,Azul,2,7.377436,Oeste,2100.0
3,Nissan,Sedán,2017,400000,Diesel,Automática,1894,96,1191,6.526941,Blanco,4,4.944675,Norte,2600.0
4,Honda,Hatchback,2020,400000,Gasolina,Automática,1775,80,1139,7.587182,Azul,2,3.025227,Sur,2200.0


## 2. Estadísticas Descriptivas

Comenzamos con un resumen estadístico de las variables numéricas para entender:
- Rango de valores (mín/máx)
- Tendencia central (media/mediana)
- Dispersión (desviación estándar)
- Distribución (cuartiles)

In [3]:
# Información general del dataset
print("Información del dataset:")
df.info()

print("\n" + "="*80)
print("Valores nulos:")
print(df.isnull().sum())

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   marca                10000 non-null  object 
 1   tipo_carroceria      10000 non-null  object 
 2   año                  10000 non-null  int64  
 3   kilometraje          10000 non-null  int64  
 4   tipo_combustible     10000 non-null  object 
 5   transmision          10000 non-null  object 
 6   cilindrada           10000 non-null  int64  
 7   potencia             10000 non-null  int64  
 8   peso                 10000 non-null  int64  
 9   consumo              10000 non-null  float64
 10  color                10000 non-null  object 
 11  edad_propietarios    10000 non-null  int64  
 12  calificacion_estado  10000 non-null  float64
 13  region_venta         10000 non-null  object 
 14  precio               10000 non-null  float64
dtypes: float64(3

In [4]:
# Estadísticas descriptivas de variables numéricas
df.describe()

Unnamed: 0,año,kilometraje,cilindrada,potencia,peso,consumo,edad_propietarios,calificacion_estado,precio
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,2017.0596,373306.9,2005.8711,103.9831,1400.0354,7.255217,1.7268,6.509178,6118.19
std,4.303847,99694.629817,489.393733,23.217061,197.946164,2.69956,0.98998,2.019804,6281.798009
min,2010.0,1000.0,1000.0,80.0,1000.0,0.0,1.0,3.000046,400.0
25%,2013.0,400000.0,1664.0,80.0,1262.0,5.849683,1.0,4.745127,2100.0
50%,2017.0,400000.0,2006.0,99.0,1402.0,7.562038,1.0,6.498228,4100.0
75%,2021.0,400000.0,2338.0,119.0,1535.0,9.035223,2.0,8.2452,7900.0
max,2024.0,400000.0,3928.0,205.0,2157.0,15.036076,5.0,9.998965,80900.0


In [5]:
# Estadísticas de variables categóricas
categorical_cols = ['marca', 'tipo_carroceria', 'tipo_combustible', 'transmision', 'color', 'region_venta']

print("Distribución de Variables Categóricas:\n")
for col in categorical_cols:
    print(f"\n{col.upper()}:")
    value_counts = df[col].value_counts()
    percentages = df[col].value_counts(normalize=True).mul(100).round(2)
    summary = pd.DataFrame({'Frecuencia': value_counts, 'Porcentaje': percentages})
    print(summary)

Distribución de Variables Categóricas:


MARCA:
               Frecuencia  Porcentaje
marca                                
Toyota               1534       15.34
Honda                1519       15.19
Ford                 1232       12.32
Chevrolet            1206       12.06
Nissan               1005       10.05
Mazda                 808        8.08
Hyundai               734        7.34
Kia                   707        7.07
BMW                   469        4.69
Mercedes-Benz         409        4.09
Audi                  377        3.77

TIPO_CARROCERIA:
                 Frecuencia  Porcentaje
tipo_carroceria                        
Sedán                  3052       30.52
SUV                    2476       24.76
Hatchback              1973       19.73
Pickup                 1184       11.84
Coupé                   812        8.12
Minivan                 503        5.03

TIPO_COMBUSTIBLE:
                  Frecuencia  Porcentaje
tipo_combustible                        
Gasolina           

In [6]:
# Estadísticas descriptivas de variables categóricas
df.describe(include=['object', 'category'])

Unnamed: 0,marca,tipo_carroceria,tipo_combustible,transmision,color,region_venta
count,10000,10000,10000,10000,10000,10000
unique,11,6,4,2,8,5
top,Toyota,Sedán,Gasolina,Automática,Plata,Oeste
freq,1534,3052,5945,6010,1349,2057


## 3. Distribuciones de Variables Numéricas

Visualizamos la distribución de cada variable numérica para identificar:
- Forma de la distribución (normal, sesgada, bimodal)
- Presencia de outliers
- Rango efectivo de valores

In [7]:
# Variables numéricas para analizar
numeric_cols = ['año', 'kilometraje', 'cilindrada', 'potencia', 'peso', 'consumo', 
                'edad_propietarios', 'calificacion_estado', 'precio']

# Crear histogramas para cada variable
fig = make_subplots(
    rows=3, cols=3,
    subplot_titles=numeric_cols,
    vertical_spacing=0.12,
    horizontal_spacing=0.10
)

for idx, col in enumerate(numeric_cols):
    row = (idx // 3) + 1
    col_pos = (idx % 3) + 1
    
    fig.add_trace(
        go.Histogram(x=df[col], name=col, nbinsx=30, marker_color='steelblue'),
        row=row, col=col_pos
    )

fig.update_layout(
    height=900,
    title_text="Distribución de Variables Numéricas",
    showlegend=False
)

fig.show()

## 4. Análisis de la Variable Objetivo: Precio

Analizamos en detalle la distribución del precio, ya que es nuestra variable objetivo.

In [8]:
# Visualización detallada del precio
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=['Distribución del Precio', 'Boxplot del Precio']
)

# Histograma
fig.add_trace(
    go.Histogram(x=df['precio'], nbinsx=50, name='Precio', marker_color='forestgreen'),
    row=1, col=1
)

# Boxplot
fig.add_trace(
    go.Box(y=df['precio'], name='Precio', marker_color='forestgreen'),
    row=1, col=2
)

fig.update_layout(height=400, showlegend=False, title_text="Análisis de la Variable Precio")
fig.show()

# Estadísticas del precio
print(f"\nEstadísticas del Precio:")
print(f"  Media: ${df['precio'].mean():,.2f}")
print(f"  Mediana: ${df['precio'].median():,.2f}")
print(f"  Desviación Estándar: ${df['precio'].std():,.2f}")
print(f"  Mínimo: ${df['precio'].min():,.2f}")
print(f"  Máximo: ${df['precio'].max():,.2f}")


Estadísticas del Precio:
  Media: $6,118.19
  Mediana: $4,100.00
  Desviación Estándar: $6,281.80
  Mínimo: $400.00
  Máximo: $80,900.00


## 5. Matriz de Correlación

Analizamos las correlaciones entre variables numéricas para identificar:
- Relaciones lineales fuertes
- Posible multicolinealidad
- Variables más correlacionadas con el precio

In [9]:
# Calcular matriz de correlación
correlation_matrix = df[numeric_cols].corr()

# Visualizar con heatmap
fig = go.Figure(data=go.Heatmap(
    z=correlation_matrix.values,
    x=correlation_matrix.columns,
    y=correlation_matrix.columns,
    colorscale='RdBu',
    zmid=0,
    text=correlation_matrix.values.round(2),
    texttemplate='%{text}',
    textfont={"size": 10},
    colorbar=dict(title="Correlación")
))

fig.update_layout(
    title='Matriz de Correlación entre Variables Numéricas',
    width=900,
    height=800,
    xaxis={'side': 'bottom'}
)

fig.show()

# Correlaciones con el precio (ordenadas)
print("\nCorrelaciones con el Precio (ordenadas):")
price_corr = correlation_matrix['precio'].sort_values(ascending=False)
print(price_corr)


Correlaciones con el Precio (ordenadas):
precio                 1.000000
año                    0.674756
calificacion_estado    0.307129
potencia               0.041529
cilindrada             0.040475
edad_propietarios     -0.000413
peso                  -0.014909
consumo               -0.054719
kilometraje           -0.561681
Name: precio, dtype: float64


## 6. Análisis de Outliers

Identificamos valores atípicos en las variables numéricas usando boxplots.

In [10]:
# Boxplots para identificar outliers
fig = make_subplots(
    rows=3, cols=3,
    subplot_titles=numeric_cols,
    vertical_spacing=0.12,
    horizontal_spacing=0.10
)

for idx, col in enumerate(numeric_cols):
    row = (idx // 3) + 1
    col_pos = (idx % 3) + 1
    
    fig.add_trace(
        go.Box(y=df[col], name=col, marker_color='coral'),
        row=row, col=col_pos
    )

fig.update_layout(
    height=900,
    title_text="Detección de Outliers en Variables Numéricas",
    showlegend=False
)

fig.show()

## 7. Relación de Variables con el Precio

Analizamos cómo cada variable se relaciona con el precio mediante gráficos de dispersión.

In [11]:
# Variables numéricas sin incluir precio
features_numeric = [col for col in numeric_cols if col != 'precio']

# Gráficos de dispersión precio vs otras variables
fig = make_subplots(
    rows=3, cols=3,
    subplot_titles=[f'Precio vs {col}' for col in features_numeric],
    vertical_spacing=0.12,
    horizontal_spacing=0.10
)

for idx, col in enumerate(features_numeric):
    row = (idx // 3) + 1
    col_pos = (idx % 3) + 1
    
    fig.add_trace(
        go.Scatter(
            x=df[col], 
            y=df['precio'],
            mode='markers',
            marker=dict(size=3, color='teal', opacity=0.6),
            name=col
        ),
        row=row, col=col_pos
    )
    
    fig.update_xaxes(title_text=col, row=row, col=col_pos)
    fig.update_yaxes(title_text='Precio', row=row, col=col_pos)

fig.update_layout(
    height=900,
    title_text="Relación entre Variables y Precio",
    showlegend=False
)

fig.show()

## 8. Análisis por Variables Categóricas

Exploramos cómo el precio varía según las categorías.

In [12]:
# Precio promedio por marca
fig = px.box(
    df, 
    x='marca', 
    y='precio',
    title='Distribución de Precios por Marca',
    color='marca'
)
fig.update_layout(showlegend=False, xaxis_tickangle=-45, height=500)
fig.show()

# Estadísticas por marca
print("\nPrecio promedio por marca:")
print(df.groupby('marca')['precio'].agg(['mean', 'median', 'std']).sort_values('mean', ascending=False))


Precio promedio por marca:
                       mean  median           std
marca                                            
Audi           12451.989390  8800.0  11873.352182
Mercedes-Benz  12286.063570  8300.0  11511.125326
BMW            10821.108742  7300.0   9905.163661
Toyota          6103.129074  4100.0   5549.360134
Honda           5745.951284  4300.0   5008.002331
Mazda           5421.039604  3750.0   4768.764843
Ford            5339.529221  3900.0   4473.914368
Chevrolet       5092.039801  3700.0   4389.811250
Hyundai         4690.599455  3200.0   4393.261170
Nissan          4645.174129  3300.0   4057.697556
Kia             4365.346535  3200.0   3742.179946


In [13]:
# Precio por tipo de combustible
fig = px.box(
    df,
    x='tipo_combustible',
    y='precio',
    title='Distribución de Precios por Tipo de Combustible',
    color='tipo_combustible'
)
fig.update_layout(showlegend=False, height=500)
fig.show()

print("\nPrecio promedio por tipo de combustible:")
print(df.groupby('tipo_combustible')['precio'].agg(['mean', 'median', 'count']).sort_values('mean', ascending=False))


Precio promedio por tipo de combustible:
                         mean  median  count
tipo_combustible                            
Eléctrico         7528.190476  4700.0    525
Híbrido           7258.789625  4800.0   1041
Diesel            6059.582162  4100.0   2489
Gasolina          5818.486123  3900.0   5945


In [14]:
# Precio por tipo de carrocería
fig = px.box(
    df,
    x='tipo_carroceria',
    y='precio',
    title='Distribución de Precios por Tipo de Carrocería',
    color='tipo_carroceria'
)
fig.update_layout(showlegend=False, height=500)
fig.show()

print("\nPrecio promedio por tipo de carrocería:")
print(df.groupby('tipo_carroceria')['precio'].agg(['mean', 'median', 'count']).sort_values('mean', ascending=False))


Precio promedio por tipo de carrocería:
                        mean  median  count
tipo_carroceria                            
SUV              7493.901454  5000.0   2476
Minivan          6834.791252  4400.0    503
Pickup           6733.361486  4700.0   1184
Coupé            6336.699507  4300.0    812
Sedán            5553.997379  3900.0   3052
Hatchback        4622.706538  3100.0   1973


In [15]:
# Precio por transmisión
fig = px.violin(
    df,
    x='transmision',
    y='precio',
    title='Distribución de Precios por Tipo de Transmisión',
    color='transmision',
    box=True
)
fig.update_layout(showlegend=False, height=500)
fig.show()

print("\nPrecio promedio por transmisión:")
print(df.groupby('transmision')['precio'].agg(['mean', 'median', 'count']))


Precio promedio por transmisión:
                    mean  median  count
transmision                            
Automática   6251.980033  4300.0   6010
Manual       5916.666667  3900.0   3990


## 9. Análisis Multivariado

Exploramos relaciones entre múltiples variables simultáneamente.

In [16]:
# Relación año-kilometraje-precio
fig = px.scatter(
    df,
    x='año',
    y='kilometraje',
    color='precio',
    size='potencia',
    hover_data=['marca', 'tipo_carroceria'],
    title='Relación Año-Kilometraje-Precio (tamaño por potencia)',
    color_continuous_scale='Viridis'
)
fig.update_layout(height=600)
fig.show()

In [17]:
# Relación potencia-peso-precio por tipo de combustible
fig = px.scatter(
    df,
    x='potencia',
    y='peso',
    color='precio',
    facet_col='tipo_combustible',
    title='Potencia vs Peso por Tipo de Combustible (color por precio)',
    color_continuous_scale='Plasma'
)
fig.update_layout(height=400)
fig.show()

In [18]:
# Análisis por marca y transmisión
avg_price_marca_trans = df.groupby(['marca', 'transmision'])['precio'].mean().reset_index()

fig = px.bar(
    avg_price_marca_trans,
    x='marca',
    y='precio',
    color='transmision',
    title='Precio Promedio por Marca y Tipo de Transmisión',
    barmode='group'
)
fig.update_layout(xaxis_tickangle=-45, height=500)
fig.show()

## 10. Insights y Conclusiones

### Principales Hallazgos:

**1. Factores más influyentes en el precio:**

Del análisis de correlaciones y visualizaciones, identificamos que las variables con mayor impacto en el precio son:
- **Año del vehículo**: Correlación positiva fuerte. Vehículos más nuevos tienen precios significativamente más altos.
- **Potencia**: Correlación positiva moderada. Motores más potentes están asociados con precios más elevados.
- **Kilometraje**: Correlación negativa fuerte. Mayor kilometraje implica mayor depreciación.
- **Marca**: Marcas premium (BMW, Mercedes-Benz, Audi) mantienen precios considerablemente más altos que marcas económicas.
- **Tipo de combustible**: Vehículos eléctricos e híbridos tienen precios promedio más altos que gasolina o diesel.

**2. Patrones y relaciones identificadas:**

- Existe una relación inversa clara entre edad del vehículo (años de uso) y precio, con una depreciación aproximada del 15% anual.
- Los vehículos con transmisión automática tienen un precio promedio 5-7% superior a los de transmisión manual.
- Las SUVs y pickups mantienen precios más altos en comparación con sedanes y hatchbacks del mismo año y marca.
- La calificación del estado del vehículo muestra una correlación moderada con el precio, siendo un factor importante para vehículos usados.
- Hay una relación positiva entre cilindrada-potencia-peso, lo que indica que vehículos más grandes y potentes tienden a ser más pesados y costosos.

**3. Consideraciones para el modelado:**

Para construir un modelo predictivo efectivo, debemos considerar:
- **Ingeniería de características**: Crear variables derivadas como 'años_uso' (2024 - año) puede mejorar el modelo.
- **Tratamiento de outliers**: Se observan algunos outliers en kilometraje y precio que podrían requerir tratamiento.
- **Codificación de categóricas**: Variables como marca, tipo_combustible y transmisión necesitan codificación adecuada (one-hot encoding o target encoding).
- **Multicolinealidad**: Algunas variables como cilindrada y potencia están altamente correlacionadas, lo que podría requerir selección de características.
- **Escalado**: Dado que las variables numéricas tienen rangos muy diferentes (ej: año: 2010-2024 vs kilometraje: 1000-400000), será necesario normalizar o estandarizar para ciertos algoritmos.

El dataset muestra patrones coherentes y relaciones lógicas que sugieren que un modelo de regresión podrá capturar efectivamente los factores que determinan el precio de un automóvil usado.