# Sprint 2 - Webinar 3: Formulaci√≥n de Preguntas de Negocio y Preparaci√≥n de Datos en Excel/Sheets (80 min)

**Fecha de creaci√≥n:** 2025-09-14 01:18  
**Dataset base:** `almacen_ventas.xlsx`

---
## Objetivos de Aprendizaje
- Traducir escenarios de negocio en **preguntas anal√≠ticas claras** y **m√©tricas** medibles.
- Diferenciar m√©tricas **absolutas** vs **relativas** e identificar **KPI/OKR** y *guardrail metrics*.
- Distinguir **leading** vs **lagging indicators** y redactar preguntas enfocadas.
- **Preparar** y **combinar** datasets (XLOOKUP/VLOOKUP), aplicar limpieza categ√≥rica (TRIM/PROPER/CLEAN).
- Resumir datos con **SUMIF/SUMIFS/COUNTIF/AVERAGEIF** y organizar un libro ‚Äúanalysis‚Äëready‚Äù.
- Apoyarse de un **LLM** para refinar stakeholders, m√©tricas y f√≥rmulas (us√°ndolo con criterio).

> **Tiempo total:** 80 minutos ‚Äî pensado para trabajar sobre `almacen_ventas.xlsx`.


---
## Agenda (80 min)
1) Introducci√≥n al contexto anal√≠tico (10 min)  
2) Preguntas de negocio y m√©tricas (25 min)  
3) Preparaci√≥n y exploraci√≥n del dataset (25 min)  
4) Resumen y ejercicios de cierre (20 min)


---
## 0. Setup (Docente)
Antes de iniciar, aseg√∫rate de tener el archivo **`almacen_ventas.xlsx`** en tu equipo.  
Si est√°s usando este notebook en local (con Python), la siguiente celda demuestra c√≥mo leerlo con `pandas`.
Si trabajas en **Excel/Google Sheets**, simplemente abre el archivo y sigue las instrucciones en las hojas.


In [None]:
# (Opcional para docente) Cargar datos con pandas si deseas mostrar ejemplos en Python
import pandas as pd
from pathlib import Path

xlsx_path = Path('/mnt/data/almacen_ventas.xlsx')  # ajusta la ruta si tu archivo est√° en otra ubicaci√≥n
assert xlsx_path.exists(), "No se encuentra el archivo almacen_ventas.xlsx en la ruta especificada."

raw = pd.read_excel(xlsx_path, sheet_name='Raw Data')
customers = pd.read_excel(xlsx_path, sheet_name='Customers')
readme = pd.read_excel(xlsx_path, sheet_name='README')

raw.head(3), customers.head(3)


---
# 1) Analytical Questions in a Business Context (10 + 25 min)

### 1.1 Framing Data Questions from Business Needs (5 min)
**Idea clave:** convertir necesidades del negocio en preguntas anal√≠ticas claras.
- Identifica **stakeholders** (qui√©n decide).
- Explicita la **decisi√≥n** a tomar y el **horizonte temporal**.
- Revisa **campos disponibles** del dataset y mapea c√≥mo responden preguntas.

**Ejemplos r√°pidos (para discutir en clase):**
- Stakeholder: Gerente de Ventas ‚Üí Decisi√≥n: reasignar presupuesto regional trimestral ‚Üí Dataset: `Date, Region, Total_Sales`.
- Stakeholder: Marketing ‚Üí Decisi√≥n: campa√±a por producto ‚Üí Dataset: `Product, Units_Sold, Region`.

**Ejercicio 1 (5 min, en parejas):**
Para cada mini-escenario, escribe:
1) Stakeholder
2) Pregunta clave (1 l√≠nea, clara)
3) Campos del dataset que usar√≠as

a) ‚ÄúNecesito saber qu√© producto impulsar en el pr√≥ximo mes en la regi√≥n West.‚Äù  
b) ‚ÄúQuiero entender el desempe√±o mensual por vendedor.‚Äù  
c) ‚Äú¬øQu√© categor√≠a sostiene el crecimiento del trimestre?‚Äù


### 1.2 Matching Business Questions with the Right Metrics (10 min)
**M√©tricas b√°sicas:** total (SUM), promedio (AVERAGE), crecimiento % (MoM/YoY), razones/ratios, varianza, percentiles.  
**KPI vs OKR:** KPI mide desempe√±o continuo; OKR formula objetivos + resultados clave.  
**Guardrail metrics:** m√©tricas de seguridad para evitar impactos indeseados (p.ej., churn, NPS).  
**Absolutas vs relativas:** totales vs tasas/porcentajes.

**Ejercicio 2 (10 min, en Excel/Sheets):**
En `Raw Data` crear columna `Month`:
- Excel: `=TEXT([@Date],"mmm-yyyy")`  (o usar **Power Query** si prefieres)
- Sheets: `=TEXT(A2,"mmm-yyyy")`

Responde con f√≥rmulas (no Pivot, por ahora):
1) **Total de ventas por producto** (usa `SUMIF` o `SUMIFS`)  
2) **Promedio de ventas por regi√≥n** (`AVERAGEIF`)  
3) **Crecimiento % Mes a Mes** de *Total_Sales*:
   - Construye una tabla de Ventas por `Month`
   - F√≥rmula de crecimiento: `(MesActual - MesAnterior) / MesAnterior`

> Deja las f√≥rmulas visibles y nombra los rangos para facilitar su lectura.


### 1.3 Leading vs. Lagging Indicators (5 min)
- **Leading** (anticipan): visitas al sitio, leads, unidades vendidas, cotizaciones.  
- **Lagging** (confirman): ingresos, margen, utilidad, ventas cerradas.

**Ejercicio 3 (3‚Äì5 min):**
En una tabla de dos columnas, clasifica como *Leading* o *Lagging* los campos de `Raw Data`:
- `Units_Sold` ‚Üí
- `Total_Sales` ‚Üí
- `Date` (cuando mide per√≠odo consolidado) ‚Üí
- `Region` (no es m√©trica, es dimensi√≥n, ¬øc√≥mo la usar√≠as para indicadores?) ‚Üí

Justifica brevemente en 1 oraci√≥n por campo.


### 1.4 Writing Focused Analysis Questions (3 min)
Estructura: **[M√©trica] para [grupo/segmento] en [tiempo]**.  
- Vago: ‚Äú¬øC√≥mo vamos en ventas?‚Äù  
- Enfocado: ‚Äú**Total_Sales** por **Product** en **West** durante **jun-2024** (comparado con may-2024).‚Äù

**Ejercicio 4 (5 min):** Reescribe 3‚Äì5 preguntas vagas a formato listo para Pivot/funci√≥n:
1) ‚ÄúQuiero saber qu√© tan bien vende Sof√≠a.‚Äù  
2) ‚ÄúQuiero entender a los clientes.‚Äù  
3) ‚Äú¬øQu√© regi√≥n es la mejor?‚Äù


### 1.5 ü§ñ AI: Using an LLM for stakeholder & metrics (2 min)
Prompt sugerido (copiar/pegar en tu LLM favorito):
> *Tengo un dataset con columnas Date, Region, Product, Units_Sold, Unit_Price, Salesperson, Total_Sales. Soy el Gerente de Ventas. Necesito priorizar presupuesto por regi√≥n para el pr√≥ximo trimestre. Sugiere: (1) objetivo y pregunta clave, (2) m√©tricas y c√°lculos (incluye crecimiento y tasas), (3) qu√© tablas/res√∫menes construir√≠as para decidir.*

**Discusi√≥n:** ¬øQu√© aceptar√≠as del LLM? ¬øQu√© validar√≠as manualmente?


---
# 2) Preparing and Exploring the Dataset (25 min)

### 2.1 Importing and Exploring a New Dataset (5 min)
Abrir hoja **Customers** y revisar:
- `Customer_ID`, `Region`, `Customer_Type` (Retail/Wholesale)
- ¬øC√≥mo podr√≠a relacionarse con `Raw Data`?

**Ejercicio 5 (5 min):** Lista 3‚Äì4 posibles conexiones entre hojas:
- Por `Region`
- Por (futuro) `Customer_ID` en ventas
- Por `Month` a nivel de segmentaci√≥n comercial
- Por `Customer_Type` para analizar mix Retail vs Wholesale


### 2.2 Combining Two Related Datasets (8 min)
**Lookup exacto** vs aproximado. Lookup tables (dimensiones) vs tablas transaccionales.

**Paso a paso con `XLOOKUP` (o `VLOOKUP`):**
1. En `Raw Data`, inserta columna `Customer_Type` (o `Region_Type` si prefieres).  
2. F√≥rmula (ejemplo por `Region`):  
   - Excel: `=XLOOKUP([@Region],Customers!B:B,Customers!C:C,"NoMatch",0)`  
   - Sheets (XLOOKUP): `=XLOOKUP(C2,Customers!B:B,Customers!C:C,"NoMatch",0)`  
   - o VLOOKUP (asumiendo tabla ordenada): `=VLOOKUP(C2,Customers!B:C,2,FALSE)`
3. **Verificaci√≥n y troubleshooting:**  
   - Cuenta matches: crea un conteo de `#N/A` con `=COUNTIF(Rango,"#N/A")`  
   - Duplica: usa `Quitar duplicados` o conditional formatting

**Ejercicio 6 (8‚Äì10 min):**
- Haz el *perfect match* primero (sin errores).  
- Luego introduce un error tipogr√°fico (‚ÄúNort‚Äù por ‚ÄúNorth‚Äù) y observa `#N/A`.  
- Documenta en una hoja ‚ÄúJOIN_DOC‚Äù:
  - supuestos del join (clave, cardinalidad, exactitud)
  - limitaciones detectadas (errores, duplicados)


### 2.3 Organizing the Spreadsheet for Analysis (5 min)
Buenas pr√°cticas:
- Renombrar y color‚Äëcode tabs (Datos, Dimensiones, Res√∫menes, README).
- Congelar encabezados, ajustar anchos, formato de miles y porcentajes.
- **Declarative names** en columnas: `Total_Sales`, `Units_Sold` (evitar ‚Äúcol1‚Äù).
- Validaci√≥n de datos para `Region` ‚àà {North, South, East, West}.
- **Helper columns**: `Month`, `Quarter`, `Product_Category` (si aplica).

**Ejercicio 7 (5 min):**
- Renombra: `Sales_Raw`, `Customers`, `README`, `Cleaned_Data`, `Summary`.
- Crea validaciones (listas) para `Region` y `Product`.
- En `README`, documenta la estructura, pesta√±as y convenciones.


### 2.4 Preparing Categorical Data for Grouping (5 min)
**Limpieza en hoja `Cleaned_Data`** referenciando `Sales_Raw` (no copiar/pegar manual):
- `=TRIM(Sales_Raw!B2)` elimina espacios extra
- `=PROPER(Sales_Raw!C2)` capitaliza
- `=CLEAN(...)` remueve caracteres no imprimibles
- Plantilla de chequeo: `=IF(ISBLANK(A2),"Missing","OK")`

**Ejercicio 8 (5 min):**
- Implementa una plantilla de limpieza con columnas: `Original`, `Trimmed`, `Proper`, `Check`  
- A√±ade una columna **`Issue_Flag`** con reglas: si `Region` no est√° en la lista v√°lida ‚Üí ‚ÄúInvalid Region‚Äù.
- Guarda esta hoja como **plantilla reutilizable**.


### 2.5 ü§ñ AI para f√≥rmulas & errores (2 min)
Ejemplo de prompt (para depurar f√≥rmulas):
> *Tengo esta f√≥rmula que devuelve #N/A/ERROR en Excel/Sheets: =XLOOKUP(C2,Customers!B:B,Customers!C:C). Mi objetivo es traer Customer_Type por Region. ¬øQu√© revisar√≠a y c√≥mo la reescribir√≠as? Dame 2 alternativas y c√≥mo validar el resultado.*


---
# 3) Summarizing Data with Functions and Filters (r√°fagas guiadas)

### 3.1 Filtering and Exploring Patterns
- Usa filtros combinados (por `Region` y `Month`) para aislar subconjuntos.
- Identifica patrones visuales r√°pidos (colores/heatmap, barras in-cell).

**Ejercicio 9 (5 min):**
Filtra un mes espec√≠fico y responde:  
‚Äú¬øQu√© **Product** tuvo mayor `Total_Sales` en **South**?‚Äù


### 3.2 Conditional Aggregation Functions
- `SUMIF/COUNTIF/AVERAGEIF` (1 condici√≥n) vs `SUMIFS/COUNTIFS/AVERAGEIFS` (multi-condici√≥n).
- Usa referencias absolutas/relativas con intenci√≥n (F4 en Excel).

**Ejercicio 10 (8 min):**
- Total de ventas por **Region** con `SUMIF`  
- Promedio de `Units_Sold` por **Product** con `AVERAGEIF`  
- Resalta duplicados y outliers con **formato condicional** (reglas > umbral)


### 3.3 Comparing Segments with Multiple Conditions
Construye una tabla de resumen usando `SUMIFS` por `Month` y dos regiones (ej. West vs East).

**Ejercicio 11 (7‚Äì8 min):**
Tabla: filas = `Month`; columnas = `West`, `East`; valores = `SUMIFS(Total_Sales, Region, "West", Month, [Mes])` ‚Ä¶  
**Pregunta:** ¬øCu√°l regi√≥n crece m√°s en el √∫ltimo trimestre?


### 3.4 Creating Summary Sheets for Key Metrics
- Hoja `Summary`: KPIs (3), tabla breve y 1 mini‚Äëgr√°fico.
- Ajusta para la audiencia (equipo vs C‚Äëlevel): pocos n√∫meros, limpia y clara.

**Ejercicio 12 (7‚Äì8 min):**
- KPIs sugeridos: **Ventas totales**, **Ticket promedio** (Total_Sales/Units_Sold), **% crecimiento √∫ltimo mes**.
- 1 gr√°fico: columnas apiladas por `Month` y `Region` o por `Product` top‚ÄëN.
- Escribe 2 bullets de insight (contexto ‚Üí hallazgo ‚Üí implicaci√≥n).


---
## 4) Mini‚ÄëCaso de Cierre (15‚Äì20 min)
**Stakeholder:** CEO  
**Pregunta:** ¬øC√≥mo evolucionaron las ventas de *Laptop* y *Smartphone* en el √∫ltimo trimestre por regi√≥n?

**Tareas:**
1. Asegura columna `Month` correcta.
2. Calcula `Total_Sales` por `Month`, `Region`, `Product` (filtro en Laptop/Smartphone).
3. Crea gr√°fico comparativo.
4. Redacta **2‚Äì3 insights** √∫tiles para decisi√≥n de presupuesto.

> **Entrega sugerida:** hoja `Summary` con KPIs, tabla, gr√°fico y secci√≥n ‚ÄúInsights‚Äù.


---
## Ap√©ndice: Tips de clase / Soluciones gu√≠a (para el Tutor)
- Verifica que el `XLOOKUP` tenga coincidencia exacta (0/FALSE) y que no haya espacios ocultos ‚Üí usa `TRIM()` en origen y destino.
- Para crecimiento **MoM**: ordena los meses cronol√≥gicamente (usa una columna `Month_Key = YEAR*100+MONTH`).
- Usa **nombre de rangos** o **Tablas** en Excel para f√≥rmulas legibles (`TablaVentas[Total_Sales]`).
- Si el dataset tiene pocos meses, explica diferencia entre **tasa de crecimiento** y **variaci√≥n absoluta**.
- **Leading vs Lagging**: valida con ejemplos del propio negocio de los estudiantes para afianzar.
