# Análisis Exploratorio - Vehículos Usados
## Dataset: vehicles_us.csv

In [None]:
# Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Configuración
plt.style.use('ggplot')
pd.set_option('display.max_columns', None)
%matplotlib inline

In [None]:
# Cargar datos
df = pd.read_csv('data/vehicles_us.csv')
print(f"Dataset shape: {df.shape}")
df.head()

In [None]:
# Información del dataset
print("\n=== INFORMACIÓN DEL DATASET ===")
df.info()

print("\n=== VALORES NULOS ===")
print(df.isnull().sum())

print("\n=== ESTADÍSTICAS DESCRIPTIVAS ===")
df.describe()

In [None]:
# Análisis de precios
plt.figure(figsize=(10, 6))
plt.hist(df['price'], bins=20, alpha=0.7, color='skyblue', edgecolor='black')
plt.title('Distribución de Precios de Vehículos')
plt.xlabel('Precio ($)')
plt.ylabel('Frecuencia')
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# Precio por modelo
plt.figure(figsize=(12, 6))
df.groupby('model')['price'].mean().sort_values(ascending=False).plot(kind='bar', color='orange')
plt.title('Precio Promedio por Modelo')
plt.xlabel('Modelo')
plt.ylabel('Precio Promedio ($)')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Correlaciones
numeric_cols = df.select_dtypes(include=[np.number]).columns
if len(numeric_cols) > 1:
    plt.figure(figsize=(10, 8))
    sns.heatmap(df[numeric_cols].corr(), annot=True, cmap='coolwarm', center=0)
    plt.title('Matriz de Correlación')
    plt.tight_layout()
    plt.show()

## Conclusiones del EDA

1. **Distribución de precios**: [Tus observaciones]
2. **Modelos más costosos**: [Tus observaciones] 
3. **Relaciones entre variables**: [Tus observaciones]
4. **Valores nulos**: [Tus observaciones]
5. **Recomendaciones para el dashboard**: [Tus observaciones]