{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Análisis Exploratorio de Datos (EDA) de Vehículos Usados\n",
"\n",
"Este notebook contiene el proceso de carga, limpieza e inspección de los datos del archivo vehicles_us.csv, utilizando las librerías pandas y plotly."
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 1. Importación de Librerías\n",
"import pandas as pd\n",
"import plotly.express as px\n",
"import matplotlib.pyplot as plt\n",
"import numpy as np # Necesario para algunas operaciones de limpieza\n",
"\n",
"print("Librerías importadas correctamente.")"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 2. Carga del Conjunto de Datos\n",
"FILE_PATH = '../vehicles_us.csv'  # Ajusta la ruta si es necesario. Si el notebook está en 'notebooks/', y el CSV en la raíz, se usa '../'\n",
"\n",
"try:\n",
"    df = pd.read_csv(FILE_PATH)\n",
"    print(f"Datos cargados exitosamente. Filas: {len(df)}, Columnas: {len(df.columns)}")\n",
"    display(df.head())\n",
"except FileNotFoundError:\n",
"    print(f"Error: El archivo {FILE_PATH} no se encontró. Verifica la ruta.")"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 3. Inspección Inicial y Valores Faltantes\n",
"print("Tipos de datos y valores no nulos:")\n",
"df.info()\n",
"\n",
"print("\nPorcentaje de valores faltantes:")\n",
"missing_data = df.isnull().sum() / len(df) * 100\n",
"display(pd.DataFrame({'Porcentaje Faltante': missing_data[missing_data > 0].sort_values(ascending=False)}))"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 4. Limpieza y Pre-procesamiento de Datos (Estrategia definida)\n",
"\n",
"# Imputación de columnas numéricas (model_year, cylinders, odometer) con la MEDIANA\n",
"median_model_year = df['model_year'].median()\n",
"median_cylinders = df['cylinders'].median()\n",
"median_odometer = df['odometer'].median()\n",
"\n",
"df['model_year'].fillna(median_model_year, inplace=True)\n",
"df['cylinders'].fillna(median_cylinders, inplace=True)\n",
"df['odometer'].fillna(median_odometer, inplace=True)\n",
"\n",
"# Imputación de columnas categóricas ('paint_color') con 'unknown'\n",
"df['paint_color'].fillna('unknown', inplace=True)\n",
"\n",
"# Imputación de columna binaria ('is_4wd') con 0 y conversión a entero\n",
"df['is_4wd'].fillna(0, inplace=True)\n",
"\n",
"# Conversión de tipos de datos\n",
"df['model_year'] = df['model_year'].astype(int)\n",
"df['cylinders'] = df['cylinders'].astype(int)\n",
"df['is_4wd'] = df['is_4wd'].astype(int)\n",
"\n",
"print("Limpieza completada. No hay valores faltantes en las columnas clave.")\n",
"df.info()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# 5. Visualizaciones Clave con Plotly\n",
"\n",
"A continuación, se exploran las relaciones clave del conjunto de datos, como la distribución de precios y la relación precio-kilometraje, que son fundamentales para el negocio de venta de vehículos."
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 5.1 Histograma de Distribución de Precios\n",
"# Filtramos outliers de precio (> $50,000) para una mejor visualización\n",
"price_filter = df['price'] < 50000\n",
"\n",
"fig_price = px.histogram(\n",
"    df[price_filter], \n",
"    x="price", \n",
"    nbins=50, \n",
"    title='Distribución de Precios (Filtrado a < $50k)',\n",
"    labels={'price': 'Precio (USD)'},\n",
"    color_discrete_sequence=['#1f77b4'],\n",
"    template='plotly_white' # Estilo del gráfico\n",
")\n",
"\n",
"fig_price.show()"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 5.2 Gráfico de Dispersión: Precio vs. Kilometraje por Condición\n",
"# Filtramos outliers en precio y odómetro para un scatter plot más claro\n",
"scatter_filter = (df['price'] < 50000) & (df['odometer'] < 400000)\n",
"\n",
"fig_scatter = px.scatter(\n",
"    df[scatter_filter],\n",
"    x="odometer",\n",
"    y="price",\n",
"    color="condition", # Coloreamos por la condición del vehículo\n",
"    hover_data=['model_year', 'model'],\n",
"    title="Precio vs. Kilometraje por Condición del Vehículo",\n",
"    labels={'odometer': 'Kilometraje (Millas)', 'price': 'Precio (USD)'},\n",
"    template='plotly_white'\n",
")\n",
"fig_scatter.show()"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 5.3 Gráfico de Barras: Conteo de Tipos de Vehículos\n",
"type_counts = df['type'].value_counts().reset_index()\n",
"type_counts.columns = ['type', 'count']\n",
"\n",
"fig_bar = px.bar(\n",
"    type_counts,\n",
"    x='type', \n",
"    y='count',\n",
"    title='Frecuencia de Tipos de Vehículos',\n",
"    color='type', # Colorear por tipo\n",
"    template='plotly_white'\n",
")\n",
"fig_bar.show()"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.10.0"
}
},
"nbformat": 4,
"nbformat_minor": 5
}