# Sprint 4 — Webinar 12 (Práctica)
**Modalidad:** Coding Together + Breakrooms  
**Tema:** Funnels y Cohorts en PostgreSQL  
**Versión:** 2025-11-02T15:27:26

> Esta sesión práctica parte de lo aprendido en **S4W11 (Teórico)** y lo lleva a ejercicios guiados. Usaremos un *nuevo* esquema para no mezclar con la clase anterior.


<div style="text-align: center">
    <img src="https://raw.githubusercontent.com/ljpiere/tpdata_python/main/images/w1s1_2.png" width="400">
</div>

## Estructura y timeboxing
- **0) Breakrooms (10 min):** Ejercicio simple para calentar usando `DISTINCT`, conteos y validaciones rápidas.
- **1) Coding Together (60 min):** Series de ejercicios guiados para construir funnels, calcular *drop-off*, y armar cohorts/retención.

> Recomendación: abrir conexión a PostgreSQL con `psql` o DBeaver antes de iniciar.


## Objetivos de la sesión
- **1)** Explorar las distintas operaciones y pasos para las tareas de data preparetion.
- **2)** Desarrollar un ejemplo práctico de funnel.
- **3)** Calcular conversiones y drop-off en un escenario real.
- **4)** Construir tablas de retencios de usuario.

## 0) Preparación de entorno: nueva BD / esquema

- Tener un servidor PostgreSQL accesible (local o remoto).  
- Usuario con permisos de creación en un esquema de práctica.  
- Conexión por `psql`, un cliente gráfico (DBeaver), o extensiones como `ipython-sql` (opcional).
- Puedes usar la página web: https://sqliteonline.com/


In [None]:
-- ==============================================
-- DDL S4W12 para SQLiteOnline (sin esquemas)
-- Pega y ejecuta tal cual.
-- ==============================================

-- 1) Asegura FK activas en SQLite
PRAGMA foreign_keys = ON;

-- 2) Limpieza idempotente
DROP TABLE IF EXISTS events;
DROP TABLE IF EXISTS users;

-- 3) Tablas
CREATE TABLE users (
  -- INTEGER PRIMARY KEY => rowid autoincremental implícito
  user_id   INTEGER PRIMARY KEY,
  -- En SQLite conviene almacenar timestamps como texto ISO-8601
  signup_ts TEXT NOT NULL,  -- ejemplo: '2025-10-31 13:45:00'
  plan      TEXT NOT NULL CHECK (plan IN ('free','paid')),
  channel   TEXT NOT NULL CHECK (channel IN ('organic','ads','referral','email')),
  device    TEXT NOT NULL CHECK (device IN ('web','android','ios'))
);

CREATE TABLE events (
  event_id   INTEGER PRIMARY KEY,
  user_id    INTEGER NOT NULL,
  event_name TEXT NOT NULL,
  event_ts   TEXT NOT NULL, -- ISO-8601
  -- Usa TEXT + JSON1; si tu instancia no tiene JSON1, quita el CHECK(json_valid(...))
  props      TEXT NOT NULL DEFAULT '{}' CHECK (json_valid(props)),
  FOREIGN KEY (user_id) REFERENCES users(user_id) ON DELETE CASCADE
);

-- 4) Índices (solo B-Tree en SQLite)
CREATE INDEX IF NOT EXISTS idx_s4w12_events_user_ts ON events (user_id, event_ts);
CREATE INDEX IF NOT EXISTS idx_s4w12_events_name_ts ON events (event_name, event_ts);


In [None]:
--- Seed S4W12 (copia/ejecuta en PostgreSQL) ---
-- ==========================================================
-- Carga mínima con más variabilidad (enero-marzo 2021)
-- ==========================================================
INSERT INTO users (signup_ts, plan, channel, device) VALUES
  -- Enero cohort
  ('2021-01-02 09:10','free','organic','web'),
  ('2021-01-03 14:20','paid','ads','ios'),
  ('2021-01-05 08:05','free','referral','android'),
  ('2021-01-10 18:42','free','organic','web'),
  ('2021-01-12 11:11','paid','email','web'),
  -- Febrero cohort
  ('2021-02-01 09:15','free','ads','android'),
  ('2021-02-05 16:00','paid','referral','ios'),
  ('2021-02-09 10:30','free','organic','web'),
  ('2021-02-12 21:45','free','email','android'),
  ('2021-02-15 07:50','paid','ads','web'),
  -- Marzo cohort
  ('2021-03-02 10:00','free','ads','android'),
  ('2021-03-04 12:00','paid','email','ios'),
  ('2021-03-05 15:20','free','organic','web'),
  ('2021-03-08 18:10','paid','referral','web'),
  ('2021-03-10 09:40','free','organic','android');

-- Flujo típico con ruidos: session_start -> view_item -> add_to_cart -> begin_checkout -> purchase
-- Enero: ids 1..5
INSERT INTO events (user_id, event_name, event_ts, props) VALUES
  (1,'session_start','2021-01-02 09:12','{"utm":"organic"}'),
  (1,'view_item','2021-01-02 09:14','{"sku":"A101"}'),
  (1,'add_to_cart','2021-01-02 09:15','{"sku":"A101"}'),
  (1,'begin_checkout','2021-01-02 09:16','{"cart_value":29.9}'),
  (1,'purchase','2021-01-02 09:18','{"order_id":"O-0001","value":29.9}'),

  (2,'session_start','2021-01-03 14:21','{"utm":"ads"}'),
  (2,'view_item','2021-01-03 14:22','{"sku":"B222"}'),
  (2,'add_to_cart','2021-01-03 14:23','{"sku":"B222"}'),
  (2,'begin_checkout','2021-01-03 14:24','{"cart_value":58.0}'),
  (2,'purchase','2021-01-03 14:27','{"order_id":"O-0002","value":58.0}'),

  (3,'session_start','2021-01-05 08:06','{"utm":"referral"}'),
  (3,'view_item','2021-01-05 08:07','{"sku":"C333"}'),
  (3,'add_to_cart','2021-01-05 08:08','{"sku":"C333"}'),
  (3,'begin_checkout','2021-01-05 08:09','{"cart_value":105.0}'),
  -- abandona antes de purchase

  (4,'session_start','2021-01-10 18:43','{"utm":"organic"}'),
  (4,'view_item','2021-01-10 18:46','{"sku":"D444"}'),
  -- no add_to_cart

  (5,'session_start','2021-01-12 11:12','{"utm":"email"}'),
  (5,'view_item','2021-01-12 11:13','{"sku":"A101"}'),
  (5,'add_to_cart','2021-01-12 11:14','{"sku":"A101"}');
  -- no checkout/purchase

-- Febrero: ids 6..10
INSERT INTO events (user_id, event_name, event_ts, props) VALUES
  (6,'session_start','2021-02-01 09:17','{"utm":"ads"}'),
  (6,'view_item','2021-02-01 09:18','{"sku":"E555"}'),
  -- no add_to_cart

  (7,'session_start','2021-02-05 16:01','{"utm":"referral"}'),
  (7,'view_item','2021-02-05 16:02','{"sku":"B222"}'),
  (7,'add_to_cart','2021-02-05 16:03','{"sku":"B222"}'),
  (7,'begin_checkout','2021-02-05 16:04','{"cart_value":58.0}'),
  (7,'purchase','2021-02-05 16:05','{"order_id":"O-0007","value":58.0}'),

  (8,'session_start','2021-02-09 10:31','{"utm":"organic"}'),
  (8,'view_item','2021-02-09 10:32','{"sku":"C333"}'),
  (8,'add_to_cart','2021-02-09 10:34','{"sku":"C333"}'),
  -- no checkout

  (9,'session_start','2021-02-12 21:46','{"utm":"email"}'),
  -- rebote

  (10,'session_start','2021-02-15 07:51','{"utm":"ads"}'),
  (10,'view_item','2021-02-15 07:52','{"sku":"A101"}'),
  (10,'add_to_cart','2021-02-15 07:53','{"sku":"A101"}'),
  (10,'begin_checkout','2021-02-15 07:54','{"cart_value":29.9}'),
  (10,'purchase','2021-02-15 07:56','{"order_id":"O-0010","value":29.9}');

-- Marzo: ids 11..15 (agregamos algo de ruido/datos incompletos)
INSERT INTO events (user_id, event_name, event_ts, props) VALUES
  (11,'session_start','2021-03-02 10:02','{"utm":"ads"}'),
  (11,'view_item','2021-03-02 10:05','{"sku":"E555"}'),
  (11,'add_to_cart','2021-03-02 10:06','{"sku":"E555"}'),
  (11,'begin_checkout','2021-03-02 10:07','{"cart_value":58.0}'),
  (11,'purchase','2021-03-02 10:10','{"order_id":"O-0011","value":58.0}'),

  (12,'session_start','2021-03-04 12:02','{"utm":"email"}'),
  (12,'view_item','2021-03-04 12:04','{"sku":"A101"}'),
  -- no add_to_cart

  (13,'session_start','2021-03-05 15:22','{"utm":"organic"}'),
  (13,'view_item','2021-03-05 15:24','{"sku":"C333"}'),
  (13,'add_to_cart','2021-03-05 15:26','{"sku":"C333"}'),
  (13,'begin_checkout','2021-03-05 15:28','{"cart_value":105.0}'),
  -- abandona

  (14,'session_start','2021-03-08 18:12','{"utm":"referral"}'),
  -- rebote

  (15,'session_start','2021-03-10 09:42','{"utm":"organic"}'),
  (15,'view_item','2021-03-10 09:44','{"sku":"A101"}');


# Ejercicio 0 — Breakout rooms (10 minutos)
**Objetivo:** calentar motores con tareas simples usando lo visto en S4W11.

**Tareas:**
1. Lista los `event_name` distintos en `s4w12.events` (orden alfabético).
2. Cuenta cuántos **usuarios únicos** tuvieron `session_start` en **marzo 2021**.
3. Identifica usuarios que **agregaron al carrito** pero **no** llegaron a `begin_checkout`.

> Trabaja en parejas/triadas. Comparen respuestas y anoten dudas de SQL/interpretación.

**Pistas:**
- **0.1 DISTINCT:** recuerda que `SELECT DISTINCT col FROM tabla` elimina duplicados. Ordena con `ORDER BY 1` para asegurar legibilidad.  
- **0.2 Conteo de usuarios:** usa `COUNT(DISTINCT user_id)` y limita por rango de fechas. **Pista:** `event_ts >= 'YYYY-MM-01' AND event_ts < 'YYYY-MM-01' + 1 month` evita problemas de fin de mes.  
- **0.3 Set difference:** para “tuvo A pero no B”, crea dos CTEs con `DISTINCT user_id` y haz `LEFT JOIN ... WHERE k.user_id IS NULL`.

**Errores comunes:**  
1) Olvidar el filtro temporal (resultados cambian).  
2) Contar filas en vez de usuarios (`COUNT(*)` vs `COUNT(DISTINCT user_id)`).  
3) Usar `BETWEEN` con fechas puede incluir bordes no deseados; prefiere `>=` y `<`.

In [None]:
--- Solución sugerida: Ejercicio 0 ---
-- 0.1 tipos de evento únicos
SELECT DISTINCT event_name
FROM events
ORDER BY 1;

-- 0.2 usuarios únicos con session_start en marzo 2021
SELECT COUNT(DISTINCT user_id) AS users_mar_session
FROM events
WHERE event_name = 'session_start'
  AND event_ts >= '2021-03-01'
  AND event_ts <  '2021-04-01';

-- 0.3 usuarios con add_to_cart pero sin begin_checkout
WITH cart AS (
  SELECT DISTINCT user_id FROM events WHERE event_name='add_to_cart'
), chk AS (
  SELECT DISTINCT user_id FROM events WHERE event_name='begin_checkout'
)
SELECT c.user_id
FROM cart c
LEFT JOIN chk  k ON k.user_id = c.user_id
WHERE k.user_id IS NULL
ORDER BY 1;


# 1) Coding Together (~60 min)

Iremos construyendo consultas paso a paso. Para cada ejercicio hay un **starter** y una **solución**.


## 1.1 Funnel por etapas con CTEs (Feb 2021)
**Meta:** `session_start → view_item → add_to_cart → begin_checkout → purchase`

- Divide en CTEs por etapa; cada CTE devuelve **usuarios distintos** que alcanzaron esa etapa.  
- Asegúrate de filtrar por el **mismo rango temporal** en el `base`.  
- Para comparar etapas, recuerda que un usuario que llegó a `purchase` ya pasó por las anteriores, pero **tu conteo por CTE** no fuerza esa relación; por eso usamos `DISTINCT` y comparamos tamaños.  
- **Pista de validación:** agrega `EXCEPT` entre CTEs para listar usuarios que **saltaron** una etapa (datos inconsistentes) y discutir si es posible por negocio o por calidad de datos.

**Starter (rellena o ejecuta y adapta):**


In [None]:
--- Starter 1.1 ---
-- Starter 1.1: CTEs por etapa (Feb 2021)
WITH base AS (
  SELECT * FROM events
  WHERE event_ts >= '2021-02-01'
    AND event_ts <  '2021-03-01'
), s AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='session_start'
), v AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='view_item'
), c AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='add_to_cart'
), ch AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='begin_checkout'
), p AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='purchase'
)
SELECT
  (SELECT COUNT(*) FROM s)  AS n_session,
  (SELECT COUNT(*) FROM v)  AS n_view,
  (SELECT COUNT(*) FROM c)  AS n_cart,
  (SELECT COUNT(*) FROM ch) AS n_checkout,
  (SELECT COUNT(*) FROM p)  AS n_purchase;


In [None]:
--- Solución 1.1 ---
-- Solución 1.1 (idéntica al starter; discutir resultados y dudas)
WITH base AS (
  SELECT * FROM events
  WHERE event_ts >= '2021-02-01'
    AND event_ts <  '2021-03-01'
), s AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='session_start'
), v AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='view_item'
), c AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='add_to_cart'
), ch AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='begin_checkout'
), p AS (
  SELECT DISTINCT user_id FROM base WHERE event_name='purchase'
), counts AS (
  SELECT
    (SELECT COUNT(*) FROM s)  AS n_session,
    (SELECT COUNT(*) FROM v)  AS n_view,
    (SELECT COUNT(*) FROM c)  AS n_cart,
    (SELECT COUNT(*) FROM ch) AS n_checkout,
    (SELECT COUNT(*) FROM p)  AS n_purchase
)
SELECT
  n_session,n_view,n_cart,n_checkout,n_purchase,
  (n_session - n_view)       AS drop_s_v,
  (n_view - n_cart)          AS drop_v_c,
  (n_cart - n_checkout)      AS drop_c_ch,
  (n_checkout - n_purchase)  AS drop_ch_p,
  ROUND(100.0 * n_purchase / NULLIF(n_session,0),2) AS conv_s_to_p_pct
FROM counts;


## 1.2 Tiempos entre etapas + cuello de botella
**Meta:** calcular diferencias de tiempo medianas entre pasos y detectar la etapa con mayor *drop-off*.

**Starter (usa window functions y agregaciones):**

- Calcula el **primer timestamp** de cada evento por usuario (`MIN(event_ts)` por `event_name`).  
- Usa diferencias de tiempo en **minutos** para facilitar interpretación de *latencias operativas*.  
- La **mediana (P50)** es más robusta que el promedio ante outliers.  
- **Pista:** si te sale `NULL` en una resta, el usuario no pasó por ambas etapas; puedes excluir con `WHERE ts_a IS NOT NULL AND ts_b IS NOT NULL` o dejar `NULL` y depender de la mediana que ignora nulos.

In [None]:
-- Starter 1.2 (SQLite): tiempo entre etapas por usuario en feb-2021

WITH base AS (
  SELECT *
  FROM events
  WHERE event_ts >= '2021-02-01' AND event_ts < '2021-03-01'
),
s  AS (SELECT user_id, MIN(event_ts) AS ts FROM base WHERE event_name='session_start'   GROUP BY user_id),
v  AS (SELECT user_id, MIN(event_ts) AS ts FROM base WHERE event_name='view_item'       GROUP BY user_id),
c  AS (SELECT user_id, MIN(event_ts) AS ts FROM base WHERE event_name='add_to_cart'     GROUP BY user_id),
ch AS (SELECT user_id, MIN(event_ts) AS ts FROM base WHERE event_name='begin_checkout'  GROUP BY user_id),
p  AS (SELECT user_id, MIN(event_ts) AS ts FROM base WHERE event_name='purchase'        GROUP BY user_id),

uids AS (
  SELECT user_id FROM s
  UNION
  SELECT user_id FROM v
  UNION
  SELECT user_id FROM c
  UNION
  SELECT user_id FROM ch
  UNION
  SELECT user_id FROM p
)

SELECT
  u.user_id,
  -- minutos entre etapas (NULL si falta alguna etapa)
  (julianday(v.ts)  - julianday(s.ts))  * 24.0 * 60.0 AS min_s_to_v,
  (julianday(c.ts)  - julianday(v.ts))  * 24.0 * 60.0 AS min_v_to_c,
  (julianday(ch.ts) - julianday(c.ts))  * 24.0 * 60.0 AS min_c_to_ch,
  (julianday(p.ts)  - julianday(ch.ts)) * 24.0 * 60.0 AS min_ch_to_p
FROM uids u
LEFT JOIN s  USING (user_id)
LEFT JOIN v  USING (user_id)
LEFT JOIN c  USING (user_id)
LEFT JOIN ch USING (user_id)
LEFT JOIN p  USING (user_id)
ORDER BY u.user_id;


## 1.3 Cohorts semanales y retención (0..6 semanas)
**Meta:** asignar cohort por `date_trunc('week', signup_ts)` y medir retención semanal (0..6).

- **Definición de cohort:** primera fecha de contacto (`signup_ts`) o primer evento (`MIN(event_ts)`) según el caso. Aquí usamos `signup_ts`.  
- Construye una **malla temporal (grid)** con `generate_series(0,6)` para *week_offset* y une con cada usuario.  
- **Regla de pertenencia:** un usuario está “retenido” en `week_offset = k` si tiene **algún evento** dentro del intervalo `[cohort_week + k, cohort_week + k + 1)`.  
- **Pista:** valida que el denominador (tamaño de cohort) sea constante por fila.


**Starter:**

In [None]:
-- Starter 1.3 (SQLite): cohort semanal + tabla ancha para heatmap
-- Semana inicia en LUNES.

WITH
-- 1) Cohorte semanal (lunes de la semana de signup)
u AS (
  SELECT
    user_id,
    -- lunes de la semana de signup: 'weekday 1' va al próximo lunes; -7d lo lleva al lunes actual o anterior
    date(signup_ts, 'weekday 1', '-7 days') AS cohort_week
  FROM users
),

-- 2) Serie 0..6 (semanas desde la cohorte)
grid(w) AS (
  SELECT 0
  UNION ALL
  SELECT w+1 FROM grid WHERE w < 6
),

-- 3) Para cada (cohort_week, w) contar usuarios con ≥1 evento en esa ventana semanal
ret AS (
  SELECT
    u.cohort_week,
    g.w AS week_offset,
    -- usuarios en la cohorte
    COUNT(*) AS cohort_users,
    -- cuántos tuvieron al menos 1 evento en la ventana [cohort_week + w, cohort_week + w+1)
    SUM(
      CASE WHEN EXISTS (
        SELECT 1
        FROM events e
        WHERE e.user_id = u.user_id
          AND e.event_ts >= datetime(u.cohort_week, '+' || g.w        || ' weeks')
          AND e.event_ts <  datetime(u.cohort_week, '+' || (g.w + 1)  || ' weeks')
      )
      THEN 1 ELSE 0 END
    ) AS retained
  FROM u
  CROSS JOIN grid g
  GROUP BY u.cohort_week, g.w
)

-- 4) Pivot a ancho para heatmap (W0..W6 en %)
SELECT
  cohort_week,
  MAX(CASE WHEN week_offset=0 THEN ROUND(100.0 * retained * 1.0 / cohort_users, 2) END) AS w0,
  MAX(CASE WHEN week_offset=1 THEN ROUND(100.0 * retained * 1.0 / cohort_users, 2) END) AS w1,
  MAX(CASE WHEN week_offset=2 THEN ROUND(100.0 * retained * 1.0 / cohort_users, 2) END) AS w2,
  MAX(CASE WHEN week_offset=3 THEN ROUND(100.0 * retained * 1.0 / cohort_users, 2) END) AS w3,
  MAX(CASE WHEN week_offset=4 THEN ROUND(100.0 * retained * 1.0 / cohort_users, 2) END) AS w4,
  MAX(CASE WHEN week_offset=5 THEN ROUND(100.0 * retained * 1.0 / cohort_users, 2) END) AS w5,
  MAX(CASE WHEN week_offset=6 THEN ROUND(100.0 * retained * 1.0 / cohort_users, 2) END) AS w6
FROM ret
GROUP BY cohort_week
ORDER BY cohort_week;


## 1.4 Retención segmentada (free vs paid)
**Meta:** comparar retención por `plan` y comentar hallazgos.

- Agrega atributos de usuario (`plan`, `channel`, `device`) a la tabla de cohort para desglosar la retención.  
- Compara **tendencias**, no solo números absolutos: ¿`paid` retiene mejor en W1 pero converge en W3?  
- **Pista:** usa `ORDER BY cohort_week, plan, week_offset` y exporta a CSV para armar dos heatmaps lado a lado en Sheets.

**Starter:**


In [None]:
-- Starter 1.4 (SQLite): retención semanal segmentada por plan
-- Semana inicia en LUNES.

WITH
u AS (
  SELECT
    user_id,
    -- lunes de la semana del signup
    date(signup_ts, 'weekday 1', '-7 days') AS cohort_week,
    plan
  FROM users
),

-- generate_series(0,6)
grid(w) AS (
  SELECT 0
  UNION ALL
  SELECT w+1 FROM grid WHERE w < 6
),

ret AS (
  SELECT
    u.cohort_week,
    u.plan,
    g.w AS week_offset,
    COUNT(*) AS cohort_users,  -- usuarios en la cohorte (por plan)
    SUM(
      CASE WHEN EXISTS (
        SELECT 1
        FROM events e
        WHERE e.user_id = u.user_id
          AND e.event_ts >= datetime(u.cohort_week, '+' || g.w       || ' weeks')
          AND e.event_ts <  datetime(u.cohort_week, '+' || (g.w + 1) || ' weeks')
      )
      THEN 1 ELSE 0 END
    ) AS retained
  FROM u
  CROSS JOIN grid g
  GROUP BY u.cohort_week, u.plan, g.w
)

SELECT
  cohort_week,
  plan,
  week_offset,
  CASE
    WHEN cohort_users = 0 THEN 0
    ELSE ROUND(100.0 * retained * 1.0 / cohort_users, 2)
  END AS retention_pct
FROM ret
ORDER BY cohort_week, plan, week_offset;


## 1.5 Bonus: Vista para funnel mensual
**Meta:** dejar una vista reutilizable que calcule conteos por etapa y conversión mensual.

- Mantén las reglas del negocio en una **vista**: rango temporal, normalización mensual, definición de cada etapa.  
- Puedes crear una **materialized view** si el dataset crece y luego `REFRESH MATERIALIZED VIEW` en ventanas.

In [None]:
-- Solución 1.5 (SQLite): vista de funnel mensual

DROP VIEW IF EXISTS v_funnel_monthly;

CREATE VIEW v_funnel_monthly AS
WITH base AS (
  SELECT
    *,
    date(event_ts, 'start of month') AS m   -- equivalente a date_trunc('month', ...)
  FROM events
),
s  AS (SELECT m, COUNT(DISTINCT user_id) AS n FROM base WHERE event_name='session_start'   GROUP BY m),
v  AS (SELECT m, COUNT(DISTINCT user_id) AS n FROM base WHERE event_name='view_item'       GROUP BY m),
c  AS (SELECT m, COUNT(DISTINCT user_id) AS n FROM base WHERE event_name='add_to_cart'     GROUP BY m),
ch AS (SELECT m, COUNT(DISTINCT user_id) AS n FROM base WHERE event_name='begin_checkout'  GROUP BY m),
p  AS (SELECT m, COUNT(DISTINCT user_id) AS n FROM base WHERE event_name='purchase'        GROUP BY m)
SELECT
  s.m AS month,
  s.n AS n_session,
  v.n AS n_view,
  c.n AS n_cart,
  ch.n AS n_checkout,
  p.n AS n_purchase,
  ROUND(100.0 * p.n / NULLIF(s.n, 0), 2) AS conv_s_to_p_pct
FROM s
LEFT JOIN v  USING (m)
LEFT JOIN c  USING (m)
LEFT JOIN ch USING (m)
LEFT JOIN p  USING (m)
ORDER BY month;


## 1.6 Checks rápidos de calidad de datos
**Meta:** detectar duplicados exactos, eventos en el futuro y usuarios con etapas intermedias perdidas.

- **Duplicados exactos:** misma combinación `(user_id, event_name, event_ts)` más de una vez.  
- **Tiempos imposibles:** `event_ts > NOW()` o retrocede respecto de etapas previas.  
- **Saltos de etapa:** `purchase` sin `begin_checkout` (según negocio).  
- **Pista:** guarda evidencias con `CREATE TABLE s4w12.qa_findings AS (...query...)` para revisar luego.

In [None]:
-- Solución 1.6 (SQLite)

-- 1) Duplicados exactos por (user_id, event_name, event_ts)
SELECT
  user_id,
  event_name,
  event_ts,
  COUNT(*) AS n
FROM events
GROUP BY user_id, event_name, event_ts
HAVING COUNT(*) > 1
ORDER BY n DESC, event_ts;

-- 2) Eventos en el futuro (respecto al momento actual)
--    En SQLite: CURRENT_TIMESTAMP o datetime('now')
SELECT *
FROM events
WHERE event_ts > CURRENT_TIMESTAMP;  -- equivalente: datetime('now')

-- 3) Usuarios con add_to_cart pero sin begin_checkout
WITH cart AS (
  SELECT DISTINCT user_id
  FROM events
  WHERE event_name = 'add_to_cart'
),
chk AS (
  SELECT DISTINCT user_id
  FROM events
  WHERE event_name = 'begin_checkout'
)
SELECT c.user_id
FROM cart c
LEFT JOIN chk k USING (user_id)
WHERE k.user_id IS NULL
ORDER BY c.user_id;


## Exportar a CSV y visualizar en Google Sheets
Para *heatmap* de retención semanal (ej. 1.3):
```sql
COPY (
  /* Pega aquí la consulta de la tabla ancha (starter 1.3) */
) TO '/tmp/s4w12_retention_weekly.csv' WITH CSV HEADER;
```
Sube a Sheets → **Formato condicional → Escala de color**.


## Cierre
**Kahoot de repaso (5 min)**
- Guarda tus consultas clave en un script comentado.
- Exporta una tabla final y redacta una recomendación ejecutiva.
- **Tarea:** rehacer los ejercicios usando tus propias tablas reales si existen.

## Siguientes Pasos
- **Próxima sesión:** Iniciaremos con la siguiente seccion del sprint 4.
- **Participación continua:** asistir a Co-Learning y a Sprint Focus, y usar los canales de Discord para hacer preguntas.
- **Recordatorios:** la grabación y recursos utilizados, se comparten al finalizar la sesión; en caso de necesitar apoyo adicional, agenda un 1:1.


---
**Licencia:** CC BY 4.0 — Uso educativo.  
**Créditos:** Preparado para Sprint 4 — Webinar 12 (Práctica).
