# 🧭 Documentación y Taxonomía del EDA - Premium Choice

## 🗂 Propósito del Cuaderno

Este cuaderno central documenta la estructura lógica y la taxonomía del análisis exploratorio de datos (EDA) desarrollado para Premium Choice. Se describe el enfoque de análisis, los objetivos específicos de cada módulo (notebook), la naturaleza de los datos utilizados y las principales métricas o insights extraídos.

---

## 🔍 Visión General del EDA

El análisis se divide en notebooks modulares orientados por dominio de datos:

| Notebook                    | Dominio de Análisis       | Objetivo                                                                 |
|-----------------------------|----------------------------|--------------------------------------------------------------------------|
| `eda_articulos.ipynb`       | Artículos / SKUs           | Distribución de activos/inactivos, SKU con mayor rotación o utilidad.   |
| `eda_clientes.ipynb`        | Clientes                   | Análisis de frecuencia de compra, concentración de ventas (80/20), top. |
| `eda_compras_items.ipynb`   | Compras detalladas (item)  | Evolución temporal, outliers en montos, distribución y tendencias.      |
| `eda_compras.ipynb`         | Compras por documento      | Evolución del valor total, tendencias anuales y mensuales.              |
| `eda_proveedores.ipynb`     | Proveedores                | Calidad de datos, valores nulos, segmentación por ciudad o volumen.     |
| `eda_relacional.ipynb`      | Relaciones cruzadas        | Cruce entre artículos, clientes y documentos para inferencias.          |
| `eda_ventas_items.ipynb`    | Detalle de ventas (ítem)   | Utilidad por artículo, pérdidas acumuladas, estacionalidades.           |
| `eda_ventas.ipynb`          | Ventas por documento       | Tendencia de ventas globales, análisis financiero agregado.             |

---

## 🧬 Taxonomía de Variables por Notebook

| Notebook                  | Variables Clave                                         | Notas                                                                 |
|---------------------------|----------------------------------------------------------|-----------------------------------------------------------------------|
| `eda_articulos`           | `activo`, `cod_articulo_servicio`                        | Estado del artículo, niveles de inventario, volumen vs. utilidad.    |
| `eda_clientes`            | `cod_cliente`, `razon_social`, `subtotal`                | Clientes top, análisis 80/20, compradores frecuentes.                 |
| `eda_compras_items`       | `cantidad`, `subtotal`, `iva`, `total`                   | Devoluciones, comportamiento de ítems, valores extremos.             |
| `eda_proveedores`         | `telefono`, `email`, `pais`, `codciudad`                 | Calidad del contacto, región, duplicados y datos faltantes.          |
| `eda_ventas_items`        | `utilidadps`, `utilidadpc`, `cantidad`, `defecha`        | Productos más rentables y menos rentables, tendencias mensuales.     |
| `eda_relacional`          | Variables cruzadas de `ventas`, `artículos`, `clientes` | Permite análisis conjuntos como utilidad por SKU vs cliente.         |

---

## 📌 Metodología General Aplicada

- ✅ Carga y consolidación de archivos por año y tipo (`ventas_dcto`, `ventas_dcto_items`, etc.)
- ✅ Limpieza de datos y verificación de calidad (valores nulos, duplicados)
- ✅ Cálculo de métricas personalizadas (`utilidadps`, `subtotal`, etc.)
- ✅ Agrupaciones por cliente, artículo, documento o mes
- ✅ Visualizaciones por:
  - Temporalidad (líneas y barras)
  - Distribuciones (boxplot, histogramas)
  - Rankings (top productos, top clientes)
  - Outliers (análisis visual con scatter y box)

---

## 📈 Principales Insights Generados

- 🔹 Alta concentración de utilidad en pocos clientes → priorización comercial.
- 🔹 Productos con utilidad negativa → revisión de costos, precios o errores.
- 🔹 Tendencias estacionales claras → oportunidad para planificación de demanda.
- 🔹 Compras con picos irregulares → investigar causas (promociones, errores).
- 🔹 Campos incompletos en proveedores → posibles riesgos operativos.

---

## 📁 Relación con Archivos Crudos

Los datos utilizados se encuentran en la carpeta `data/raw` y corresponden a históricos detallados y agregados por documento e ítem para cada año (2019 - 2025). Se incluyen archivos de compras, ventas y sus respectivas líneas de ítems.

---

## ✅ Recomendación Final

Este cuaderno debe mantenerse actualizado cada vez que se modifique la lógica de análisis en los notebooks individuales. Puede utilizarse como:

- 🧠 Hoja de ruta para nuevos analistas.
- 📄 Evidencia de trazabilidad para auditoría de procesos.
- 📊 Punto de partida para generar reportes automáticos o dashboards.

---


