# Sprint 3 ‚Äî Webinar 7 Te√≥rico  
## Introducci√≥n a SQL con DuckDB (desde el navegador) ‚Äî Dataset *Bookstore*

<div style="text-align: center; margin-top: 10px;">
  <img src="https://raw.githubusercontent.com/duckdb/duckdb-web/main/static/images/logo/DuckDB_Logo.png" width="260">
</div>


> **Duraci√≥n sugerida:** 100 minutos  
> **Herramienta (solo navegador):** DuckDB en https://sql-workbench.com/  
> **Dataset:** 5 archivos CSV (Bookstore) que t√∫ subir√°s a GitHub (raw links)

---

## Agenda (100 min)
1. Introducci√≥n a SQL y a DuckDB (10 min)  
2. Entendiendo el esquema relacional del dataset (20 min)  
3. Llaves primarias, for√°neas y relaciones (10 min)  
4. Inspeccionar ‚Äútablas‚Äù desde CSV en DuckDB (10 min)  
5. Consultas b√°sicas: `SELECT`, `WHERE`, `ORDER BY`, `LIMIT` (20 min)  
6. Agregaciones y `GROUP BY` (+ `HAVING`) (25 min)  
7. Tipos, funciones √∫tiles y limpieza (10‚Äì15 min)  
8. Buenas pr√°cticas para SQL legible (10 min)  
**Bonus si hay tiempo:** funciones de ventana (5‚Äì10 min)

---

## Preparaci√≥n previa (Instructor)
Este webinar se dicta **solo con DuckDB**. Antes de clase, sube los CSV a un repositorio en GitHub, por ejemplo:

- `data/duckdb_bookstore_customers.csv`
- `data/duckdb_bookstore_products.csv`
- `data/duckdb_bookstore_orders.csv`
- `data/duckdb_bookstore_order_items.csv`
- `data/duckdb_bookstore_payments.csv`

Luego toma el enlace **RAW** de cada archivo (GitHub ‚Üí abrir CSV ‚Üí bot√≥n ‚ÄúRaw‚Äù ‚Üí copiar URL).


### Objetivos de aprendizaje
Al finalizar, el estudiante podr√°:

- Explicar qu√© es SQL y para qu√© se usa en anal√≠tica.
- Ejecutar consultas b√°sicas con DuckDB desde el navegador.
- Cargar datos desde CSV (por URL) con `read_csv_auto`.
- Filtrar, ordenar, agregar y unir datos con `JOIN`.
- Formular preguntas anal√≠ticas simples (KPIs b√°sicos) a partir del dataset.
- Escribir SQL m√°s limpio (alias, sangr√≠a, nombres consistentes).

### ‚úÖ Reglas del juego (para estudiantes)
- Aqu√≠ **no hay Python**. Todo lo hacemos en el editor SQL del navegador.
- Cada consulta debe ser **copiada/pegada** y ejecutada para ver resultados.
- Si algo falla, leemos el error: en SQL, el error es parte del aprendizaje.


### Conexi√≥n a la base de datos (DuckDB en el navegador)
1. Abre https://sql-workbench.com/  
2. Selecciona **DuckDB** como motor (si te lo pide).  
3. En el editor, ejecuta una consulta de prueba:

```sql
SELECT 1 AS ok;
```

Si ves una tabla con `ok = 1`, est√°s listo/a.


## Introducci√≥n a SQL (Structured Query Language)

### ¬øQu√© es SQL?
SQL es el lenguaje est√°ndar para **consultar** y **transformar** datos almacenados en estructuras tabulares (tablas).  
Como analistas, lo usamos para responder preguntas del negocio: ‚Äú¬øqu√© pas√≥?‚Äù, ‚Äú¬øcu√°nto?‚Äù, ‚Äú¬ød√≥nde?‚Äù, ‚Äú¬øcu√°ndo?‚Äù, ‚Äú¬øqu√© segmento?‚Äù.

### ¬øQu√© es DuckDB y por qu√© lo usamos?
DuckDB es un motor anal√≠tico ‚Äútipo OLAP‚Äù que corre localmente (o embebido) y es excelente para:
- Anal√≠tica r√°pida sobre archivos (CSV/Parquet)
- Consultas tipo ‚Äúdata warehouse‚Äù en peque√±o/mediano
- Ejecutar SQL sin instalar un servidor

En este webinar lo usamos porque permite algo muy c√≥modo:
```sql
SELECT * FROM read_csv_auto('https://.../archivo.csv');
```

### ¬øC√≥mo funciona una consulta? (modelo mental)
Piensa en SQL como una tuber√≠a:

1) **FROM**: ¬øde d√≥nde vienen los datos?  
2) **WHERE**: ¬øqu√© filas me interesan?  
3) **GROUP BY**: ¬øc√≥mo agrupo? (si aplica)  
4) **SELECT**: ¬øqu√© columnas/calculos quiero?  
5) **ORDER BY**: ¬øen qu√© orden los veo?

> Importante: en el c√≥digo se escribe `SELECT ... FROM ... WHERE ...`,  
> pero el motor ‚Äúpiensa‚Äù en ese orden l√≥gico (FROM ‚Üí WHERE ‚Üí GROUP ‚Üí SELECT ‚Üí ORDER).

### Comandos fundamentales (hoy)
- `SELECT` (ver columnas / c√°lculos)
- `FROM` (fuente de datos: tabla o CSV)
- `WHERE` (filtro)
- `ORDER BY` (orden)
- `LIMIT` (muestra)
- `GROUP BY` + funciones agregadas (`COUNT`, `SUM`, `AVG`, etc.)
- `JOIN` (unir tablas)


### üí° Tips iniciales (para sobrevivir el primer SQL)
- Empieza con: `SELECT * FROM ... LIMIT 10;`
- Si no sabes el nombre exacto de una columna: primero mira una muestra.
- Usa alias cortos para tablas: `customers c`, `orders o`.
- No intentes hacerlo perfecto a la primera: itera.
- Escribe SQL como si alguien m√°s lo fuera a leer.


## 0) Cargar el dataset desde GitHub (5‚Äì8 min)

En DuckDB, podemos ‚Äúleer‚Äù un CSV directamente desde una URL RAW.
Pero para no repetir `read_csv_auto` en cada consulta, crearemos **VIEWS** (vistas):

> Reemplaza los `TU_URL_RAW_*` por tus enlaces RAW reales. **Nota:** Actualizado! Pod√©s usarlo directamente.

```sql
CREATE OR REPLACE VIEW customers AS
SELECT * FROM 'https://raw.githubusercontent.com/ljpiere/tpdata_python/main/DA/datasets/duckdb/duckdb_bookstore_customers.parquet';

CREATE OR REPLACE VIEW products AS
SELECT * FROM 'https://raw.githubusercontent.com/ljpiere/tpdata_python/main/DA/datasets/duckdb/duckdb_bookstore_order_items.parquet';

CREATE OR REPLACE VIEW orders AS
SELECT * FROM 'https://raw.githubusercontent.com/ljpiere/tpdata_python/main/DA/datasets/duckdb/duckdb_bookstore_orders.parquet';

CREATE OR REPLACE VIEW order_items AS
SELECT * FROM 'https://raw.githubusercontent.com/ljpiere/tpdata_python/main/DA/datasets/duckdb/duckdb_bookstore_payments.parquet';

CREATE OR REPLACE VIEW payments AS
SELECT * FROM 'https://raw.githubusercontent.com/ljpiere/tpdata_python/main/DA/datasets/duckdb/duckdb_bookstore_products.parquet';
```

Verifica que todo qued√≥ bien:

```sql
SELECT 'customers' AS tabla, COUNT(*) AS filas FROM customers
UNION ALL
SELECT 'products', COUNT(*) FROM products
UNION ALL
SELECT 'orders', COUNT(*) FROM orders
UNION ALL
SELECT 'order_items', COUNT(*) FROM order_items
UNION ALL
SELECT 'payments', COUNT(*) FROM payments;
```


> **Mini-demo opcional (para ense√±ar el concepto con un dataset p√∫blico):**
```sql
SELECT *
FROM read_csv_auto('https://raw.githubusercontent.com/tobilg/public-cloud-provider-ip-ranges/main/data/providers/all.csv')
LIMIT 10;
```

Esto prueba que DuckDB puede leer un CSV desde internet sin instalaciones.


## 1) Entendiendo el esquema relacional (20 min)

Hoy trabajaremos con un ‚Äúmini-ecommerce‚Äù de libros:

- **customers**: clientes  
- **orders**: pedidos (encabezado)  
- **order_items**: detalle de productos por pedido  
- **products**: cat√°logo  
- **payments**: resumen de pago por pedido

### ¬øC√≥mo se conectan?
- `customers.customer_id` ‚Üí `orders.customer_id`  
- `orders.order_id` ‚Üí `order_items.order_id`  
- `products.product_id` ‚Üí `order_items.product_id`  
- `orders.order_id` ‚Üí `payments.order_id`

> Idea clave: **una orden tiene muchas l√≠neas (items)**. Por eso existe `order_items`.

### Ver ‚Äúuna muestra‚Äù de cada tabla
```sql
SELECT * FROM customers LIMIT 5;
SELECT * FROM products LIMIT 5;
SELECT * FROM orders LIMIT 5;
SELECT * FROM order_items LIMIT 5;
SELECT * FROM payments LIMIT 5;
```

### Ejercicio 1 (esquema)
1) Identifica, mirando las 5 tablas:  
- ¬øCu√°l columna parece el ‚Äúid‚Äù principal en cada tabla?
- ¬øQu√© columnas parecen ‚Äúconectar‚Äù tablas?

2) Escribe un comentario (en tu cuaderno) con estas relaciones:
- customers ‚Üí orders
- orders ‚Üí order_items
- products ‚Üí order_items
- orders ‚Üí payments


## 2) Llaves primarias, for√°neas y relaciones (10 min)

### Definiciones r√°pidas
- **Llave primaria (PK):** identifica un registro de forma √∫nica.
- **Llave for√°nea (FK):** columna que ‚Äúapunta‚Äù a la PK de otra tabla.

### ¬øPor qu√© importa?
Porque en anal√≠tica, las relaciones te permiten responder preguntas como:
- ‚Äú¬øCu√°nto gastan los clientes VIP?‚Äù
- ‚Äú¬øQu√© categor√≠a vende m√°s?‚Äù
- ‚Äú¬øQu√© canal trae m√°s √≥rdenes completadas?‚Äù

### Validaciones simples (sanity checks)
**(a) ¬øHay IDs duplicados en orders?**
```sql
SELECT order_id, COUNT(*) AS veces
FROM orders
GROUP BY order_id
HAVING COUNT(*) > 1;
```

**(b) ¬øHay items con product_id que no existe en products?**
```sql
SELECT oi.product_id, COUNT(*) AS items
FROM order_items oi
LEFT JOIN products p ON p.product_id = oi.product_id
WHERE p.product_id IS NULL
GROUP BY oi.product_id;
```

> Si estas consultas devuelven 0 filas, es una buena se√±al.

### Ejercicio 2
- Verifica si hay `customer_id` en `orders` que no exista en `customers`.
Pista: usa `LEFT JOIN` y filtra `WHERE c.customer_id IS NULL`.


## 3) Inspeccionar tablas con SQL (10 min)

En un mundo ideal siempre tienes un diccionario de datos.
En la vida real, muchas veces **lo construyes** inspeccionando.

### (a) Ver columnas r√°pidamente
En DuckDB puedes usar:

```sql
DESCRIBE customers;
DESCRIBE products;
DESCRIBE orders;
DESCRIBE order_items;
DESCRIBE payments;
```

### (b) Estad√≠sticas r√°pidas
```sql
SELECT
  MIN(order_date) AS min_fecha,
  MAX(order_date) AS max_fecha,
  COUNT(*) AS total_ordenes
FROM orders;
```

### (c) Valores distintos (categor√≠as, estados)
```sql
SELECT DISTINCT status FROM orders ORDER BY status;
SELECT DISTINCT category FROM products ORDER BY category;
SELECT DISTINCT segment FROM customers ORDER BY segment;
```


## 4) Consultas b√°sicas: `SELECT`, `WHERE`, `ORDER BY` (20 min)

### 4.1 `SELECT` y `LIMIT`
```sql
SELECT * 
FROM customers
LIMIT 10;
```

### 4.2 Seleccionar columnas espec√≠ficas
```sql
SELECT customer_id, customer_name, city, segment
FROM customers
LIMIT 10;
```

### 4.3 Filtrar con `WHERE`
Clientes de Bogot√°:
```sql
SELECT customer_id, customer_name, city
FROM customers
WHERE city = 'Bogot√°'
LIMIT 10;
```

√ìrdenes completadas:
```sql
SELECT order_id, customer_id, order_date, status
FROM orders
WHERE status = 'completed'
LIMIT 10;
```

### 4.4 Ordenar con `ORDER BY`
Top productos m√°s caros:
```sql
SELECT product_id, title, category, price
FROM products
ORDER BY price DESC
LIMIT 10;
```

### 4.5 Filtros combinados (`AND`, `OR`)
```sql
SELECT order_id, order_date, status, payment_method
FROM orders
WHERE status = 'completed'
  AND payment_method = 'card'
ORDER BY order_date DESC
LIMIT 10;
```

### Ejercicio 3 (b√°sico ‚Üí medio)
1) Lista los 10 clientes **m√°s recientes** (por `signup_date`).  
2) Lista las √≥rdenes **no completadas** (todas excepto `completed`).  
   Pista: `WHERE status <> 'completed'`  
3) Muestra los productos de categor√≠a `Tecnolog√≠a` con precio > 80, ordenados del m√°s caro al m√°s barato.


## 5) Agrupar y agregar datos con `GROUP BY` (25 min)

### 5.1 Conteos por categor√≠a
¬øCu√°ntos productos hay por categor√≠a?
```sql
SELECT
  category,
  COUNT(*) AS productos
FROM products
GROUP BY category
ORDER BY productos DESC;
```

### 5.2 KPI simple: √≥rdenes por estado
```sql
SELECT
  status,
  COUNT(*) AS ordenes
FROM orders
GROUP BY status
ORDER BY ordenes DESC;
```

### 5.3 KPI de ingresos (desde payments)
Ingreso total pagado (ojo: incluye 0 en canceladas):
```sql
SELECT
  SUM(amount_paid) AS ingreso_total
FROM payments;
```

Ingreso por m√©todo de pago:
```sql
SELECT
  payment_method,
  SUM(amount_paid) AS ingreso
FROM payments
GROUP BY payment_method
ORDER BY ingreso DESC;
```

### 5.4 `HAVING` (filtrar grupos)
Categor√≠as con al menos 10 productos:
```sql
SELECT
  category,
  COUNT(*) AS productos
FROM products
GROUP BY category
HAVING COUNT(*) >= 10
ORDER BY productos DESC;
```

### Ejercicio 4 (KPIs)
1) ¬øCu√°ntas √≥rdenes hay por **mes**?  
   Pista: usa `strftime(order_date, '%Y-%m')` o `date_trunc('month', order_date)`.  
2) ¬øCu√°l es el ingreso total por **estado** de orden?  
   Pista: une `orders` con `payments` por `order_id`.  
3) Top 5 ciudades por n√∫mero de clientes.


## 6) Precisi√≥n con tipos y funciones (10‚Äì15 min)

### 6.1 Fechas
Si `order_date` viene como texto, puedes convertir:
```sql
SELECT
  CAST(order_date AS DATE) AS order_date_date
FROM orders
LIMIT 5;
```

Agrupar por mes con `date_trunc`:
```sql
SELECT
  date_trunc('month', CAST(order_date AS DATE)) AS mes,
  COUNT(*) AS ordenes
FROM orders
GROUP BY mes
ORDER BY mes;
```

### 6.2 Redondeo y decimales
Ticket promedio (AOV) sobre pagos:
```sql
SELECT
  ROUND(AVG(amount_paid), 2) AS aov
FROM payments;
```

### 6.3 Control de nulos
¬øCu√°ntas √≥rdenes tienen promo?
```sql
SELECT
  CASE WHEN promo_code IS NULL THEN 'sin_promo' ELSE 'con_promo' END AS promo_flag,
  COUNT(*) AS ordenes
FROM orders
GROUP BY promo_flag;
```


## 7) Buenas pr√°cticas para SQL limpio (10 min)

### 7.1 Alias y formato
Evita esto:
```sql
SELECT * FROM orders, customers WHERE orders.customer_id = customers.customer_id;
```

Prefiere esto:
```sql
SELECT
  o.order_id,
  o.order_date,
  c.customer_name,
  c.city,
  o.status
FROM orders o
JOIN customers c ON c.customer_id = o.customer_id
WHERE o.status = 'completed'
ORDER BY o.order_date DESC
LIMIT 10;
```

### 7.2 Nombres claros
- Columnas: `snake_case`
- Alias de tablas: una letra o 2 letras (`c`, `o`, `oi`, `p`, `pay`)
- Evita `SELECT *` en consultas finales (√∫salo para explorar)

### 7.3 Construye consultas por etapas
1) Explora
2) Filtra
3) Agrega
4) Ordena
5) Documenta (comentarios)


## Cierre
Hoy aprendiste a:

- Cargar CSV por URL con DuckDB (`read_csv_auto`)
- Explorar tablas, columnas y valores distintos
- Escribir filtros (`WHERE`) y ordenamientos (`ORDER BY`)
- Calcular m√©tricas con agregaciones (`GROUP BY`, `HAVING`)
- Unir tablas con `JOIN` para preguntas anal√≠ticas reales

## Siguientes pasos
- Practica 15‚Äì20 min diarios escribiendo queries peque√±as.
- Intenta responder 3 preguntas:
  1) ‚Äú¬øQu√© segmento genera m√°s ingreso?‚Äù
  2) ‚Äú¬øQu√© categor√≠as tienen mejor margen?‚Äù (necesitar√≠as `cost` desde products + items)
  3) ‚Äú¬øQu√© canal trae m√°s clientes VIP?‚Äù
