# DA-01: Dise√±o de Modelo Dimensional para Anal√≠tica de Inventarios

## üìã Contexto del Caso de Negocio

**Empresa:** Cadena de retail nacional "SuperRetail" con 30 centros de distribuci√≥n y 200 tiendas.

**Situaci√≥n:** La empresa tiene datos de inventario dispersos en m√∫ltiples sistemas operacionales (WMS, ERP, TMS). Los analistas necesitan responder preguntas como:
- ¬øCu√°l es la rotaci√≥n de inventario por categor√≠a y ubicaci√≥n?
- ¬øQu√© productos tienen mayor cobertura (d√≠as de inventario)?
- ¬øD√≥nde est√°n los inventarios obsoletos o de lento movimiento?
- ¬øC√≥mo evoluciona el valor del inventario mes a mes?

**Objetivo:** Dise√±ar e implementar un modelo dimensional (esquema estrella) que permita an√°lisis OLAP r√°pidos y flexibles.

---

## üéØ Qu√© - Por qu√© - Para qu√© - Cu√°ndo - C√≥mo

### ‚ùì ¬øQU√â estamos haciendo?
Dise√±ando un **modelo dimensional tipo estrella** con:
- **Tabla de hechos:** `fact_inventory_daily` con m√©tricas diarias de inventario
- **Dimensiones:** `dim_date`, `dim_product`, `dim_location`, `dim_product_category`
- **M√©tricas calculadas:** rotaci√≥n, cobertura, valor inventario, unidades disponibles

### üîç ¬øPOR QU√â es importante?
- **Velocidad:** El esquema estrella optimiza queries anal√≠ticas (menos JOINs)
- **Simplicidad:** Los analistas de negocio pueden navegar intuitivamente
- **Historizaci√≥n:** Las dimensiones tipo SCD (Slowly Changing Dimension) preservan historia
- **Agregaciones:** Facilita cubos OLAP y reportes drill-down

### üéÅ ¬øPARA QU√â sirve?
- Dashboards ejecutivos de inventario (BI)
- An√°lisis ABC/XYZ de productos
- Detecci√≥n de obsolescencia y slow-movers
- Input para modelos de optimizaci√≥n de inventario
- Auditor√≠as y reconciliaciones contables

### ‚è∞ ¬øCU√ÅNDO aplicarlo?
- **Cuando hay m√∫ltiples fuentes** de datos de inventario que necesitan consolidarse
- **Cuando los queries son lentos** en el modelo transaccional normalizado
- **Cuando necesitas an√°lisis hist√≥ricos** con comparaciones temporales
- **Cuando diferentes √°reas** (finanzas, operaciones, comercial) consultan los mismos datos

### üõ†Ô∏è ¬øC√ìMO lo hacemos?
1. **An√°lisis de requerimientos:** Identificar preguntas de negocio y KPIs
2. **Definir granularidad:** SKU x Ubicaci√≥n x D√≠a
3. **Identificar dimensiones:** Tiempo, Producto, Ubicaci√≥n, Categor√≠a
4. **Definir m√©tricas:** Qty on-hand, valor, entradas, salidas, rotaci√≥n
5. **Dise√±ar claves:** Surrogate keys (SK) vs natural keys
6. **Implementar ETL:** Cargar dimensiones y hechos desde sources
7. **Validar:** Queries de prueba y reconciliaci√≥n con fuentes

In [None]:
# Imports necesarios
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuraci√≥n visual
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Librer√≠as cargadas")

## üì• Paso 1: Cargar datos transaccionales (fuentes)

Simulamos la carga desde sistemas operacionales (WMS, ERP).

In [None]:
# Rutas de datos
data_path = Path('../../data/raw')

# Cargar datasets sint√©ticos
df_inventory = pd.read_csv(data_path / 'inventory.csv', parse_dates=['date'])
df_products = pd.read_csv(data_path / 'products.csv')
df_locations = pd.read_csv(data_path / 'locations.csv')

print(f"üì¶ Inventory records: {len(df_inventory):,}")
print(f"üì¶ Products: {len(df_products):,}")
print(f"üìç Locations: {len(df_locations):,}")

# Vista preliminar
print("\nüîç Sample inventory data:")
df_inventory.head(3)

## üèóÔ∏è Paso 2: Construir Dimensi√≥n Tiempo (dim_date)

La dimensi√≥n tiempo es fundamental en modelos dimensionales. Incluye atributos calend√°ricos para facilitar an√°lisis temporales.

In [None]:
# Crear dimensi√≥n de tiempo
def build_date_dimension(start_date, end_date):
    """
    Genera tabla de dimensi√≥n de fechas con atributos calend√°ricos.
    """
    date_range = pd.date_range(start=start_date, end=end_date, freq='D')
    
    dim_date = pd.DataFrame({
        'date_key': date_range.strftime('%Y%m%d').astype(int),  # Surrogate key
        'date': date_range,
        'year': date_range.year,
        'quarter': date_range.quarter,
        'month': date_range.month,
        'month_name': date_range.strftime('%B'),
        'week': date_range.isocalendar().week,
        'day_of_month': date_range.day,
        'day_of_week': date_range.dayofweek,
        'day_name': date_range.strftime('%A'),
        'is_weekend': date_range.dayofweek.isin([5, 6]).astype(int),
        'is_month_start': date_range.is_month_start.astype(int),
        'is_month_end': date_range.is_month_end.astype(int)
    })
    
    return dim_date

# Construir dimensi√≥n
min_date = df_inventory['date'].min()
max_date = df_inventory['date'].max()

dim_date = build_date_dimension(min_date, max_date)

print(f"üìÖ Dimensi√≥n tiempo creada: {len(dim_date)} d√≠as")
print(f"üìÖ Rango: {min_date.date()} a {max_date.date()}")
print("\nüîç Sample:")
dim_date.head()

## üè∑Ô∏è Paso 3: Construir Dimensi√≥n Producto (dim_product)

Incluye jerarqu√≠as de categorizaci√≥n para drill-down/roll-up.

In [None]:
# Dimensi√≥n producto con jerarqu√≠a
dim_product = df_products.copy()
dim_product['product_key'] = range(1, len(dim_product) + 1)  # Surrogate key

# Reordenar columnas con SK primero
dim_product = dim_product[[
    'product_key', 'sku', 'product_name', 'category', 'subcategory',
    'brand', 'unit_cost', 'unit_price', 'weight_kg', 'is_active'
]]

print(f"üè∑Ô∏è Dimensi√≥n producto creada: {len(dim_product)} SKUs")
print(f"üìä Categor√≠as: {dim_product['category'].nunique()}")
print(f"üìä Subcategor√≠as: {dim_product['subcategory'].nunique()}")
print("\nüîç Sample:")
dim_product.head(3)

## üìç Paso 4: Construir Dimensi√≥n Ubicaci√≥n (dim_location)

Incluye jerarqu√≠a geogr√°fica: regi√≥n > ciudad > ubicaci√≥n.

In [None]:
# Dimensi√≥n ubicaci√≥n
dim_location = df_locations.copy()
dim_location['location_key'] = range(1, len(dim_location) + 1)  # Surrogate key

# Reordenar columnas
dim_location = dim_location[[
    'location_key', 'location_id', 'location_name', 'location_type',
    'region', 'city', 'capacity_units', 'is_active'
]]

print(f"üìç Dimensi√≥n ubicaci√≥n creada: {len(dim_location)} ubicaciones")
print(f"üìä Tipos: {dim_location['location_type'].value_counts().to_dict()}")
print(f"üìä Regiones: {dim_location['region'].nunique()}")
print("\nüîç Sample:")
dim_location.head(3)

## üìä Paso 5: Construir Tabla de Hechos (fact_inventory_daily)

La tabla de hechos contiene m√©tricas num√©ricas a la granularidad definida: **SKU x Ubicaci√≥n x D√≠a**.

In [None]:
# Crear tabla de hechos
fact_inventory = df_inventory.copy()

# Join con dimensiones para obtener surrogate keys
fact_inventory = fact_inventory.merge(
    dim_date[['date', 'date_key']], on='date', how='left'
)

fact_inventory = fact_inventory.merge(
    dim_product[['sku', 'product_key']], on='sku', how='left'
)

fact_inventory = fact_inventory.merge(
    dim_location[['location_id', 'location_key']], on='location_id', how='left'
)

# Agregar m√©tricas calculadas
fact_inventory = fact_inventory.merge(
    dim_product[['product_key', 'unit_cost']], on='product_key', how='left'
)

fact_inventory['inventory_value'] = fact_inventory['qty_on_hand'] * fact_inventory['unit_cost']

# Seleccionar columnas finales de la tabla de hechos
fact_inventory_final = fact_inventory[[
    'date_key', 'product_key', 'location_key',
    'qty_on_hand', 'qty_reserved', 'qty_available',
    'inventory_value'
]]

print(f"üìä Tabla de hechos creada: {len(fact_inventory_final):,} registros")
print(f"üí∞ Valor total inventario: ${fact_inventory_final['inventory_value'].sum():,.2f}")
print(f"üì¶ Total unidades: {fact_inventory_final['qty_on_hand'].sum():,.0f}")
print("\nüîç Sample:")
fact_inventory_final.head()

## üîç Paso 6: Queries Anal√≠ticas - Ejemplos de Uso

Demostramos c√≥mo el modelo dimensional facilita consultas de negocio complejas.

In [None]:
# Query 1: Inventario por categor√≠a y regi√≥n
query1 = fact_inventory_final.merge(
    dim_product[['product_key', 'category']], on='product_key'
).merge(
    dim_location[['location_key', 'region']], on='location_key'
).groupby(['category', 'region']).agg({
    'qty_on_hand': 'sum',
    'inventory_value': 'sum'
}).round(2)

print("üìä Query 1: Inventario por Categor√≠a y Regi√≥n")
print(query1.head(10))

In [None]:
# Query 2: Top 10 SKUs por valor de inventario
query2 = fact_inventory_final.merge(
    dim_product[['product_key', 'sku', 'product_name', 'category']], on='product_key'
).groupby(['sku', 'product_name', 'category']).agg({
    'inventory_value': 'sum'
}).sort_values('inventory_value', ascending=False).head(10)

print("\nüí∞ Query 2: Top 10 SKUs por Valor de Inventario")
print(query2.round(2))

In [None]:
# Query 3: Evoluci√≥n temporal del inventario por mes
fact_with_time = fact_inventory_final.merge(
    dim_date[['date_key', 'year', 'month', 'month_name']], on='date_key'
)

query3 = fact_with_time.groupby(['year', 'month', 'month_name']).agg({
    'qty_on_hand': 'sum',
    'inventory_value': 'sum'
}).reset_index().sort_values(['year', 'month'])

print("\nüìà Query 3: Evoluci√≥n Mensual del Inventario")
print(query3.round(2))

## üìä Paso 7: Visualizaciones del Modelo Dimensional

In [None]:
# Visualizaci√≥n 1: Valor de inventario por categor√≠a
viz1_data = fact_inventory_final.merge(
    dim_product[['product_key', 'category']], on='product_key'
).groupby('category')['inventory_value'].sum().sort_values(ascending=False)

fig, ax = plt.subplots(figsize=(12, 6))
viz1_data.plot(kind='bar', ax=ax, color='steelblue')
ax.set_title('Valor de Inventario por Categor√≠a', fontsize=14, fontweight='bold')
ax.set_xlabel('Categor√≠a')
ax.set_ylabel('Valor ($)')
ax.yaxis.set_major_formatter(plt.FuncFormatter(lambda x, p: f'${x/1000:.0f}K'))
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

print(f"üí° Insight: La categor√≠a '{viz1_data.index[0]}' concentra ${viz1_data.values[0]:,.0f} ({viz1_data.values[0]/viz1_data.sum()*100:.1f}%) del valor total")

In [None]:
# Visualizaci√≥n 2: Distribuci√≥n de inventario por tipo de ubicaci√≥n
viz2_data = fact_inventory_final.merge(
    dim_location[['location_key', 'location_type']], on='location_key'
).groupby('location_type')['inventory_value'].sum()

fig, ax = plt.subplots(figsize=(10, 6))
viz2_data.plot(kind='pie', ax=ax, autopct='%1.1f%%', startangle=90)
ax.set_title('Distribuci√≥n de Valor de Inventario por Tipo de Ubicaci√≥n', fontsize=14, fontweight='bold')
ax.set_ylabel('')
plt.tight_layout()
plt.show()

## üíæ Paso 8: Exportar Modelo Dimensional

Guardamos las tablas dimensionales en formato Parquet para uso posterior.

In [None]:
# Crear directorio de salida
output_path = Path('../../data/processed/dimensional_model')
output_path.mkdir(parents=True, exist_ok=True)

# Exportar dimensiones y hechos
dim_date.to_parquet(output_path / 'dim_date.parquet', index=False)
dim_product.to_parquet(output_path / 'dim_product.parquet', index=False)
dim_location.to_parquet(output_path / 'dim_location.parquet', index=False)
fact_inventory_final.to_parquet(output_path / 'fact_inventory_daily.parquet', index=False)

print("‚úÖ Modelo dimensional exportado exitosamente")
print(f"üìÅ Ubicaci√≥n: {output_path.absolute()}")
print("\nüì¶ Archivos generados:")
for file in output_path.glob('*.parquet'):
    size_mb = file.stat().st_size / (1024 * 1024)
    print(f"  - {file.name}: {size_mb:.2f} MB")

## üìö Resumen y Conclusiones

### ‚úÖ Lo que logramos:
1. ‚úÖ **Modelo dimensional tipo estrella** con 3 dimensiones + 1 tabla de hechos
2. ‚úÖ **Surrogate keys** para independencia de sistemas source
3. ‚úÖ **Jerarqu√≠as navegables:** Categor√≠a ‚Üí Subcategor√≠a ‚Üí SKU | Regi√≥n ‚Üí Ciudad ‚Üí Ubicaci√≥n
4. ‚úÖ **M√©tricas precalculadas:** Valor de inventario para performance
5. ‚úÖ **Queries optimizadas:** An√°lisis multidimensionales con JOINs simples

### üéØ Aplicaciones pr√°cticas:
- **Dashboards BI:** Conexi√≥n directa a Power BI, Tableau, Looker
- **Cubos OLAP:** Pre-agregaciones para queries subsegundo
- **Machine Learning:** Features estructuradas para modelos predictivos
- **Auditor√≠as:** Trazabilidad hist√≥rica de inventarios

### üöÄ Pr√≥ximos pasos:
1. Implementar **SCD Type 2** en dim_product para rastrear cambios de precio/categor√≠a
2. Agregar dimensi√≥n `dim_inventory_status` (disponible, reservado, da√±ado)
3. Crear **agregados** mensuales para optimizar queries de largo plazo
4. Implementar **particionamiento** por fecha en la tabla de hechos
5. A√±adir m√©tricas calculadas: rotaci√≥n, cobertura, obsolescencia

### üìñ Referencias:
- Kimball, R. & Ross, M. (2013). *The Data Warehouse Toolkit*
- Inmon, W.H. (2005). *Building the Data Warehouse*