### **Cuaderno: M√≥dulo 1 - Dominando Common Table Expressions (CTEs)**


**Objetivo del M√≥dulo:** Al finalizar este cuaderno, el participante podr√° refactorizar consultas complejas, transform√°ndolas en CTEs limpios y modulares. Entender√° c√≥mo esta t√©cnica mejora la legibilidad, facilita la depuraci√≥n y previene errores comunes, sentando las bases para escribir SQL de nivel profesional.

-----

### **Introducci√≥n al M√≥dulo**

En este primer m√≥dulo, se aborda un desaf√≠o com√∫n en SQL: el "infierno de las subconsultas anidadas". Se presentar√° una t√©cnica fundamental del SQL moderno, las **Common Table Expressions (CTEs)**, para transformar consultas complejas y dif√≠ciles de mantener en una l√≥gica de negocio clara, secuencial y robusta. El objetivo es que el participante aprenda a estructurar su pensamiento y su c√≥digo de una manera m√°s profesional y escalable.

-----

### **El Escenario: Preparaci√≥n de los Datos**

Todo an√°lisis comienza con los datos. El primer paso consiste en simular un ecosistema de e-commerce realista. El siguiente script de Python genera un conjunto de DataFrames en memoria que representan las entidades de negocio: usuarios, productos y pedidos.

**Acci√≥n:** Se ejecuta esta celda para crear los DataFrames iniciales. La semilla (`SEED`) asegura que los datos generados sean siempre los mismos, garantizando la reproducibilidad del taller.


In [0]:
# Script para generar un conjunto de datos de e-commerce enriquecido
from pyspark.sql import SparkSession
from faker import Faker
import random
from datetime import datetime, timedelta

# --- SEMILLA PARA REPRODUCIBILIDAD ---
# Garantiza que los datos generados sean siempre los mismos en cada ejecuci√≥n.
SEED = 2025
Faker.seed(SEED)
random.seed(SEED)

# Inicializar Faker para generar datos en espa√±ol
fake = Faker('es_ES')

# --- DEFINICI√ìN DE FUNCIONES PARA GENERAR DATOS ---
def generar_usuarios(n=1000):
    """Genera una lista de diccionarios de usuarios."""
    return [{'id_usuario': 1000 + i, 'nombre': fake.name(), 'email': fake.email(), 'fecha_registro': fake.date_time_between(start_date='-2y'), 'ciudad': fake.city()} for i in range(n)]

def generar_productos(n=500):
    """Genera una lista de productos."""
    categorias = ['Electr√≥nica', 'Hogar', 'Ropa', 'Libros', 'Deportes', 'Juguetes', 'Alimentos']
    data = []
    for i in range(n):
        data.append({
            'id_producto': 2000 + i,
            'nombre_producto': fake.word().capitalize() + " " + fake.word(),
            'categoria': random.choice(categorias),
            'precio_unitario': round(random.uniform(5.0, 350.0), 2) # Ojo: PySpark inferir√° esto como DoubleType
        })
    return data

def generar_pedidos(usuarios, productos, n=10000):
    """Genera una lista de pedidos, vinculando usuarios y productos."""
    data = []
    for i in range(n):
        usuario = random.choice(usuarios)
        producto = random.choice(productos)
        cantidad = random.randint(1, 5)
        data.append({
            'id_pedido': 3000 + i,
            'id_usuario': usuario['id_usuario'],
            'id_producto': producto['id_producto'],
            'cantidad': cantidad,
            'monto': round(cantidad * producto['precio_unitario'], 2) # Inferido como DoubleType
        })
    return data

# --- CREACI√ìN DE DATAFRAMES EN MEMORIA ---
print("Generando DataFrames en memoria...")
usuarios_data = generar_usuarios()
productos_data = generar_productos()
pedidos_data = generar_pedidos(usuarios_data, productos_data)

usuarios_df = spark.createDataFrame(usuarios_data)
productos_df = spark.createDataFrame(productos_data)
pedidos_df = spark.createDataFrame(pedidos_data)

print("DataFrames generados exitosamente.")

### **Ingesta a la Capa Bronce y el Error Com√∫n de Esquema**

Ahora, se persistir√°n estos datos crudos en tablas Delta, nuestra capa **Bronce**.

Aqu√≠ es donde a menudo surge el error `DELTA_FAILED_TO_MERGE_FIELDS`. Este error ocurre si se intenta sobrescribir una tabla Delta con datos que tienen un tipo de dato diferente en una columna. Por ejemplo, si PySpark infiere `precio_unitario` como `DOUBLE` la primera vez, y en una ejecuci√≥n posterior, un `CAST` expl√≠cito intenta escribirlo como `DECIMAL`, Delta arrojar√° este error para proteger la integridad del esquema.

**La Soluci√≥n:** Para permitir que Delta actualice el esquema de la tabla de forma segura, se utiliza la opci√≥n `mergeSchema`.

-----

### **Persistencia en la Capa Bronce con Evoluci√≥n de Esquema**

**Acci√≥n:** Se guardan los DataFrames como tablas Delta. Se a√±ade `.option("mergeSchema", "true")` para evitar errores de esquema si el cuaderno se ejecuta varias veces con ligeros cambios en los tipos de datos.

In [0]:
# Persistiendo los DataFrames como Tablas Delta en la Capa Bronce
db_name = "curso_arquitecturas"
spark.sql(f"CREATE DATABASE IF NOT EXISTS {db_name}")
spark.sql(f"USE {db_name}")

print(f"Usando la base de datos: '{db_name}'")

# Se usa .option("mergeSchema", "true") como buena pr√°ctica para la evoluci√≥n del esquema
usuarios_df.write.format("delta").option("mergeSchema", "true").mode("overwrite").saveAsTable("usuarios_bronze")
productos_df.write.format("delta").option("mergeSchema", "true").mode("overwrite").saveAsTable("productos_bronze")
pedidos_df.write.format("delta").option("mergeSchema", "true").mode("overwrite").saveAsTable("pedidos_bronze")

print("Tablas Bronze creadas/actualizadas exitosamente.")

### **Transformaci√≥n a la Capa Plata (Silver)**

**Acci√≥n:** Con los datos crudos en la capa Bronce, se procede a limpiarlos y estructurarlos en la capa **Plata**. Aqu√≠ se realizan conversiones de tipo expl√≠citas (`CAST`) para asegurar la calidad y consistencia de los datos para el an√°lisis.


In [0]:
%sql
-- Creaci√≥n de las tablas Silver a partir de Bronze
USE curso_arquitecturas;

CREATE OR REPLACE TABLE usuarios_silver AS
SELECT 
  id_usuario, 
  nombre AS nombre_usuario, 
  email, 
  fecha_registro, 
  ciudad 
FROM usuarios_bronze 
WHERE id_usuario IS NOT NULL;

CREATE OR REPLACE TABLE productos_silver AS
SELECT 
  id_producto, 
  nombre_producto, 
  categoria, 
  CAST(precio_unitario AS DECIMAL(10, 2)) as precio_unitario -- Se define un tipo de dato expl√≠cito y correcto
FROM productos_bronze 
WHERE id_producto IS NOT NULL;

CREATE OR REPLACE TABLE pedidos_silver AS
SELECT 
  id_pedido, 
  id_usuario, 
  id_producto, 
  cantidad, 
  CAST(monto AS DECIMAL(18, 2)) AS monto_total, -- Se define un tipo de dato expl√≠cito
  fecha_pedido AS ts_pedido
FROM pedidos_bronze 
WHERE id_pedido IS NOT NULL;

### **El Problema de Negocio: Clientes de Alto Valor**

**Contexto:** El equipo de marketing necesita identificar a los **"clientes de alto valor"**, definidos como aquellos cuyo gasto total est√° por encima del gasto promedio de todos los clientes.

-----

### **La "Mala" Soluci√≥n: El Infierno de las Subconsultas üëπ**

**An√°lisis:** Este es un enfoque com√∫n para resolver el problema, pero anida la l√≥gica de manera que se vuelve dif√≠cil de leer, depurar y, lo que es peor, repite c√≥digo.



In [0]:
%sql
-- La "Mala" Soluci√≥n con subconsultas anidadas
SELECT
  u.id_usuario,
  u.nombre_usuario,
  TotalGastadoPorCliente.GastoTotal
FROM
  usuarios_silver u
  JOIN (
    -- Subconsulta 1: Calcula el gasto total de cada cliente.
    SELECT id_usuario, SUM(monto_total) AS GastoTotal
    FROM pedidos_silver
    GROUP BY id_usuario
  ) AS TotalGastadoPorCliente ON u.id_usuario = TotalGastadoPorCliente.id_usuario
WHERE
  TotalGastadoPorCliente.GastoTotal > (
    -- Subconsulta 2: Calcula el gasto promedio... ¬°repitiendo la l√≥gica interna!
    SELECT AVG(GastoTotal)
    FROM (
        SELECT SUM(monto_total) AS GastoTotal
        FROM pedidos_silver
        GROUP BY id_usuario
    ) AS GastoPromedio
  );

### **¬øPor Qu√© es una "Mala" Soluci√≥n?**

El c√≥digo anterior es ineficiente y propenso a errores por tres razones principales:

1.  **Ilegibilidad:** La l√≥gica no es secuencial. Para entenderla, es necesario "desenrollar" las consultas desde adentro hacia afuera.
2.  **Dif√≠cil de Depurar:** Aislar y probar una de las subconsultas internas requiere copiar y pegar, lo cual es tedioso.
3.  **Repetici√≥n de C√≥digo (No es DRY):** La l√≥gica para calcular el gasto total por cliente se escribe dos veces. Un cambio en la definici√≥n de "gasto" requerir√≠a modificar dos partes del c√≥digo.

-----

### **La "Buena" Soluci√≥n: Dominando los CTEs ‚ú®**

**An√°lisis:** Se refactoriza la consulta usando CTEs. La cl√°usula `WITH` introduce bloques de construcci√≥n l√≥gicos y nombrados, haciendo que la consulta se lea como una receta.

In [0]:
%sql
-- La "Buena" Soluci√≥n con CTEs
WITH GastoPorCliente AS (
  -- Paso 1: Se calcula el gasto total por cliente y se nombra el resultado "GastoPorCliente".
  SELECT
    id_usuario,
    SUM(monto_total) AS GastoTotal
  FROM pedidos_silver
  GROUP BY id_usuario
),
PromedioGeneral AS (
  -- Paso 2: Se reutiliza el CTE anterior para calcular el promedio general. Sin repetir c√≥digo.
  SELECT AVG(GastoTotal) AS GastoPromedio
  FROM GastoPorCliente
)
-- Paso 3: La consulta final es ahora simple y clara.
SELECT
  u.id_usuario,
  u.nombre_usuario,
  gpc.GastoTotal
FROM usuarios_silver u
JOIN GastoPorCliente gpc ON u.id_usuario = gpc.id_usuario
-- Se cruza con el promedio para filtrar
CROSS JOIN PromedioGeneral
WHERE gpc.GastoTotal > PromedioGeneral.GastoPromedio
ORDER BY gpc.GastoTotal DESC;

### **Anatom√≠a de un Common Table Expression**

La sintaxis de un CTE es simple y poderosa. Es una de las herramientas m√°s importantes para organizar el c√≥digo SQL.

```sql
WITH 
  nombre_cte_1 AS (
    -- SELECT que define el primer bloque l√≥gico
  ),
  nombre_cte_2 AS (
    -- SELECT que define el segundo bloque, puede usar el primero
  )
-- SELECT principal que usa los CTEs como si fueran tablas
SELECT ... FROM nombre_cte_1 JOIN nombre_cte_2 ON ...;
```

  * **`WITH`**: Inicia la declaraci√≥n de CTEs.
  * **`nombre_cte AS (...)`**: Define un resultado temporal con un nombre.
  * **Coma (`,`)**: Separa las definiciones de m√∫ltiples CTEs.
  * **Consulta Principal**: La sentencia `SELECT` final que orquesta los resultados de los CTEs.

-----

### **El Flujo de Datos en un CTE**

Visualmente, se puede pensar en los CTEs como una tuber√≠a de datos. Cada CTE toma datos, los procesa y pasa el resultado al siguiente paso, hasta llegar a la consulta final.

**Datos Crudos (`pedidos_silver`)** ‚Üí **CTE `GastoPorCliente`** ‚Üí **CTE `PromedioGeneral`** ‚Üí **Resultado Final**

Esta estructura secuencial es la raz√≥n por la que el c√≥digo se vuelve tan intuitivo.

-----

### **Ejemplo Adicional: CTEs con JOINs Internos**

Un CTE no es solo para agregaciones. Puede contener cualquier l√≥gica, incluyendo `JOINs`.

**Problema:** Se quiere saber el total de ventas por **categor√≠a de producto**.



In [0]:
%sql
WITH VentasConCategoria AS (
  -- En este CTE, se unen pedidos y productos para enriquecer cada venta con su categor√≠a.
  SELECT
    p.monto_total,
    pr.categoria
  FROM
    pedidos_silver p
    JOIN productos_silver pr ON p.id_producto = pr.id_producto
)
-- La consulta final es ahora muy simple, porque el trabajo complejo se hizo en el CTE.
SELECT
  categoria,
  SUM(monto_total) AS VentasTotales,
  COUNT(*) AS NumeroDePedidos
FROM
  VentasConCategoria
GROUP BY
  categoria
ORDER BY
  VentasTotales DESC;

### **Momento de Pr√°ctica üèãÔ∏è**

Ahora es el turno del participante. Se resolver√° un nuevo problema de negocio usando lo aprendido.

**Problema:** Se necesita un reporte que muestre, para cada **ciudad**, el n√∫mero de **clientes √∫nicos** que han realizado pedidos y el **monto total** gastado por los clientes de esa ciudad.

**Requerimiento:** Escribir una consulta usando CTEs que devuelva `ciudad`, `numero_clientes` y `gasto_total_ciudad`.

**Pistas:**

1.  Se necesitar√° unir `pedidos_silver` y `usuarios_silver`.
2.  Un buen primer CTE podr√≠a agregar los pedidos para obtener el gasto total por `id_usuario`.
3.  La consulta final puede unir ese resultado con `usuarios_silver` para agrupar por `ciudad`.

-----

### **Espacio para la Soluci√≥n del Participante**


In [0]:
%sql
-- El participante escribe su soluci√≥n aqu√≠...

### **¬øCu√°ndo NO usar un CTE?**

Aunque los CTEs son fant√°sticos, no son una soluci√≥n universal. Hay un punto importante a considerar:

**Optimizaci√≥n:** Un CTE se re-calcula cada vez que se referencia en la consulta principal. Si se tiene un CTE muy costoso y se llama m√∫ltiples veces, su l√≥gica se ejecutar√° m√∫ltiples veces. En esos casos, una **vista temporal (`CREATE TEMP VIEW`)** puede ser m√°s eficiente, ya que materializa el resultado una vez y lo reutiliza.


In [0]:
%sql
-- Ejemplo de Vista Temporal (Alternativa para CTEs costosos y reutilizados)

-- Paso 1: Se materializa el resultado. Esto se calcula UNA SOLA VEZ.
CREATE OR REPLACE TEMP VIEW GastoPorCliente_temp AS
SELECT
  id_usuario,
  SUM(monto_total) AS GastoTotal
FROM
  pedidos_silver
GROUP BY
  id_usuario;

-- Paso 2: Ahora se puede usar la vista temporal como una tabla.
-- Si se usara en m√∫ltiples JOINs, el c√°lculo no se repetir√≠a.
SELECT * FROM GastoPorCliente_temp LIMIT 10;


### **Resumen del M√≥dulo**

Se ha completado el m√≥dulo. El participante ahora cuenta con una herramienta fundamental en su arsenal de SQL.

**Ideas Clave:**

  * **CTEs (`WITH ... AS`)** transforman subconsultas anidadas en bloques de c√≥digo secuenciales y legibles.
  * **Mejoran la Mantenibilidad:** Facilitan la lectura, depuraci√≥n y modificaci√≥n del c√≥digo.
  * **Promueven la L√≥gica Paso a Paso:** Permiten construir consultas complejas como si fueran una receta.
  * **No son una Panacea:** Para l√≥gica muy costosa que se reutiliza varias veces, una `TEMP VIEW` puede ser m√°s performante.

-----

### **Pr√≥ximos Pasos**

En el siguiente m√≥dulo, **"M√°s All√° del `GROUP BY`: Desbloqueando An√°lisis con Funciones de Ventana"**, se llevar√° el an√°lisis a otro nivel, aprendiendo a realizar c√°lculos sobre conjuntos de filas, como rankings, diferencias temporales y promedios m√≥viles, sin necesidad de complejos `self-joins`.

---

### **Soluci√≥n del Ejercicio de Ciudades**

Aqu√≠ se presenta una forma de resolver el problema.


In [0]:
%sql
---- Soluci√≥n del Ejercicio de Ciudades

WITH GastoPorCliente AS (
  -- Paso 1: Se calcula el gasto total por cada cliente.
  SELECT
    id_usuario,
    SUM(monto_total) AS GastoTotal
  FROM
    pedidos_silver
  GROUP BY
    id_usuario
)
-- Paso 2: Se unen los gastos con la informaci√≥n de los usuarios y se agrupa por ciudad.
SELECT
  u.ciudad,
  COUNT(DISTINCT u.id_usuario) AS numero_clientes,
  SUM(gpc.GastoTotal) AS gasto_total_ciudad
FROM
  usuarios_silver u
  JOIN GastoPorCliente gpc ON u.id_usuario = gpc.id_usuario
GROUP BY
  u.ciudad
ORDER BY
  gasto_total_ciudad DESC;