# Conceptos de ETL y ELT

## Objetivos de Aprendizaje
- Entender qu√© es un pipeline de datos
- Diferenciar entre ETL y ELT
- Conocer los componentes de un pipeline
- Identificar cu√°ndo usar cada enfoque

## Prerequisitos
- `00_setup/02_spark_basics.ipynb`

## Tiempo Estimado
‚è±Ô∏è 30 minutos

## M√≥dulo AWS Academy Relacionado
üìö M√≥dulo 6: Data Processing and Analysis - ETL concepts

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from datetime import datetime

spark = SparkSession.builder.appName("ETL_Concepts").getOrCreate()
spark.sparkContext.setLogLevel("WARN")
print("Spark listo para ETL")

Spark listo para ETL


---
# === SECCI√ìN 1 ===
## 1. ¬øQu√© es un Pipeline de Datos?

### Explicaci√≥n Conceptual

Un **pipeline de datos** es un conjunto de procesos que mueven datos desde una o m√°s fuentes hasta uno o m√°s destinos, aplicando transformaciones en el camino.

**Analog√≠a del mundo real:** Imagina una f√°brica de jugo de naranja:
- **Extract**: Las naranjas llegan de diferentes granjas (fuentes)
- **Transform**: Se lavan, pelan, exprimen y filtran (procesamiento)
- **Load**: El jugo se embotella y distribuye (destino)

En datos:
- **Extract**: Leer datos de bases de datos, APIs, archivos
- **Transform**: Limpiar, normalizar, enriquecer, agregar
- **Load**: Guardar en data warehouse, data lake, base de datos

In [2]:
# Ejemplo simple de pipeline

# 1. EXTRACT - Simular datos de fuente
datos_crudos = [
    ("001", "  Juan P√©rez  ", "CDMX", "2024-01-15", 1500.50),
    ("002", "maria garcia", "gdl", "2024/01/16", 2300.00),
    ("003", "CARLOS LOPEZ", "MTY", "15-01-2024", None),  # Valor nulo
    ("002", "maria garcia", "gdl", "2024/01/16", 2300.00),  # Duplicado
]

df_raw = spark.createDataFrame(
    datos_crudos, 
    ["id", "nombre", "ciudad", "fecha", "monto"]
)

print("DATOS CRUDOS (Extract):")
df_raw.show(truncate=False)

DATOS CRUDOS (Extract):
+---+--------------+------+----------+------+
|id |nombre        |ciudad|fecha     |monto |
+---+--------------+------+----------+------+
|001|  Juan P√©rez  |CDMX  |2024-01-15|1500.5|
|002|maria garcia  |gdl   |2024/01/16|2300.0|
|003|CARLOS LOPEZ  |MTY   |15-01-2024|NULL  |
|002|maria garcia  |gdl   |2024/01/16|2300.0|
+---+--------------+------+----------+------+



In [3]:
# 2. TRANSFORM - Limpiar y normalizar

df_transformed = df_raw \
    .dropDuplicates(["id"]) \
    .withColumn("nombre", F.initcap(F.trim(F.col("nombre")))) \
    .withColumn("ciudad", F.upper(F.col("ciudad"))) \
    .withColumn("monto", F.coalesce(F.col("monto"), F.lit(0.0))) \
    .withColumn("fecha_proceso", F.current_timestamp())

print("DATOS TRANSFORMADOS (Transform):")
df_transformed.show(truncate=False)

DATOS TRANSFORMADOS (Transform):
+---+------------+------+----------+------+--------------------------+
|id |nombre      |ciudad|fecha     |monto |fecha_proceso             |
+---+------------+------+----------+------+--------------------------+
|001|Juan P√©rez  |CDMX  |2024-01-15|1500.5|2026-02-12 00:27:54.680298|
|002|Maria Garcia|GDL   |2024/01/16|2300.0|2026-02-12 00:27:54.680298|
|003|Carlos Lopez|MTY   |15-01-2024|0.0   |2026-02-12 00:27:54.680298|
+---+------------+------+----------+------+--------------------------+



In [4]:
# 3. LOAD - Guardar (simulado)

# En un pipeline real, aqui guardariamos a Parquet, base de datos, etc.
# df_transformed.write.mode("overwrite").parquet("/data/processed/clientes")

print("DATOS LISTOS PARA CARGA (Load):")
print(f"  Registros: {df_transformed.count()}")
print(f"  Columnas: {df_transformed.columns}")
df_transformed.printSchema()

DATOS LISTOS PARA CARGA (Load):
  Registros: 3
  Columnas: ['id', 'nombre', 'ciudad', 'fecha', 'monto', 'fecha_proceso']
root
 |-- id: string (nullable = true)
 |-- nombre: string (nullable = true)
 |-- ciudad: string (nullable = true)
 |-- fecha: string (nullable = true)
 |-- monto: double (nullable = false)
 |-- fecha_proceso: timestamp (nullable = false)



---
# === SECCI√ìN 2 ===
## 2. ETL vs ELT

### Explicaci√≥n Conceptual

**ETL (Extract-Transform-Load)**
- Transforma los datos ANTES de cargarlos al destino
- El procesamiento ocurre en un servidor ETL dedicado
- Tradicional, usado con data warehouses on-premise

**ELT (Extract-Load-Transform)**
- Carga los datos crudos primero, transforma despu√©s
- El procesamiento ocurre en el destino (data lake/warehouse)
- Moderno, aprovecha poder de c√≥mputo en la nube

**¬øCu√°ndo usar cada uno?**

| Criterio | ETL | ELT |
|----------|-----|-----|
| Volumen de datos | Peque√±o-Mediano | Grande |
| Destino | Data Warehouse tradicional | Data Lake / Cloud DW |
| C√≥mputo | Limitado en destino | Escalable en destino |
| Latencia | Mayor | Menor (carga r√°pida) |
| Flexibilidad | Menos (esquema fijo) | M√°s (esquema on-read) |

In [5]:
# Ejemplo conceptual: ETL tradicional
print("=== ENFOQUE ETL ===")
print()
print("1. Extract: Leer ventas del d√≠a")
print("2. Transform EN SPARK:")
print("   - Limpiar datos")
print("   - Calcular totales")
print("   - Agregar por regi√≥n")
print("3. Load: Guardar resumen en Data Warehouse")
print()
print("Ventaja: Solo datos limpios llegan al DW")
print("Desventaja: Si necesitas los datos crudos, no los tienes")

=== ENFOQUE ETL ===

1. Extract: Leer ventas del d√≠a
2. Transform EN SPARK:
   - Limpiar datos
   - Calcular totales
   - Agregar por regi√≥n
3. Load: Guardar resumen en Data Warehouse

Ventaja: Solo datos limpios llegan al DW
Desventaja: Si necesitas los datos crudos, no los tienes


In [6]:
# Ejemplo conceptual: ELT moderno
print("=== ENFOQUE ELT ===")
print()
print("1. Extract: Leer ventas del d√≠a")
print("2. Load: Guardar datos CRUDOS en Data Lake (S3)")
print("3. Transform EN EL DATA LAKE:")
print("   - Crear vista limpia")
print("   - Crear vista agregada")
print("   - Mantener datos crudos disponibles")
print()
print("Ventaja: Flexibilidad, datos crudos siempre disponibles")
print("Desventaja: Requiere m√°s almacenamiento")

=== ENFOQUE ELT ===

1. Extract: Leer ventas del d√≠a
2. Load: Guardar datos CRUDOS en Data Lake (S3)
3. Transform EN EL DATA LAKE:
   - Crear vista limpia
   - Crear vista agregada
   - Mantener datos crudos disponibles

Ventaja: Flexibilidad, datos crudos siempre disponibles
Desventaja: Requiere m√°s almacenamiento


---
# === SECCI√ìN 3 ===
## 3. Componentes de un Pipeline ETL

### Explicaci√≥n Conceptual

Un pipeline robusto incluye:
1. **Fuentes de datos**: Bases de datos, archivos, APIs
2. **Validaci√≥n de entrada**: Verificar que los datos llegaron
3. **Transformaciones**: Limpieza, enriquecimiento
4. **Validaci√≥n de salida**: Verificar calidad de datos
5. **Carga**: Escribir al destino
6. **Logging**: Registrar qu√© pas√≥
7. **Manejo de errores**: Qu√© hacer si algo falla

In [7]:
# Ejemplo de pipeline estructurado

class ETLPipeline:
    """Pipeline ETL simple para demostraci√≥n"""
    
    def __init__(self, spark, nombre):
        self.spark = spark
        self.nombre = nombre
        self.logs = []
    
    def log(self, mensaje):
        """Registrar evento en el pipeline"""
        timestamp = datetime.now().strftime("%H:%M:%S")
        log_entry = f"[{timestamp}] {self.nombre}: {mensaje}"
        self.logs.append(log_entry)
        print(log_entry)
    
    def extract(self, datos, schema):
        """Fase de extracci√≥n"""
        self.log("Iniciando extracci√≥n...")
        df = self.spark.createDataFrame(datos, schema)
        self.log(f"Extra√≠dos {df.count()} registros")
        return df
    
    def validate(self, df, reglas):
        """Validar datos seg√∫n reglas"""
        self.log("Validando datos...")
        errores = []
        
        for columna, regla in reglas.items():
            if regla == "not_null":
                nulos = df.filter(F.col(columna).isNull()).count()
                if nulos > 0:
                    errores.append(f"{columna}: {nulos} nulos")
        
        if errores:
            self.log(f"Advertencias: {errores}")
        else:
            self.log("Validaci√≥n exitosa")
        
        return df
    
    def transform(self, df, transformaciones):
        """Aplicar transformaciones"""
        self.log("Aplicando transformaciones...")
        
        for nombre_t, func in transformaciones.items():
            df = func(df)
            self.log(f"  - Aplicada: {nombre_t}")
        
        return df
    
    def load(self, df, destino):
        """Cargar datos (simulado)"""
        self.log(f"Cargando a {destino}...")
        # En producci√≥n: df.write.mode("overwrite").parquet(destino)
        self.log(f"Cargados {df.count()} registros")
        return df

print("Clase ETLPipeline definida")

Clase ETLPipeline definida


In [8]:
# Usar el pipeline

# Datos de ejemplo
datos_ventas = [
    ("V001", "P001", 100.0, "2024-01-15"),
    ("V002", "P002", None, "2024-01-15"),
    ("V003", "P001", 150.0, "2024-01-16"),
]

# Transformaciones a aplicar
transformaciones = {
    "rellenar_nulos": lambda df: df.fillna({"monto": 0.0}),
    "agregar_timestamp": lambda df: df.withColumn("procesado", F.current_timestamp())
}

# Ejecutar pipeline
pipeline = ETLPipeline(spark, "VentasPipeline")

df = pipeline.extract(datos_ventas, ["venta_id", "producto_id", "monto", "fecha"])
df = pipeline.validate(df, {"monto": "not_null"})
df = pipeline.transform(df, transformaciones)
df = pipeline.load(df, "/data/processed/ventas")

print("\nResultado final:")
df.show()

[00:28:10] VentasPipeline: Iniciando extracci√≥n...
[00:28:11] VentasPipeline: Extra√≠dos 3 registros
[00:28:11] VentasPipeline: Validando datos...
[00:28:11] VentasPipeline: Advertencias: ['monto: 1 nulos']
[00:28:11] VentasPipeline: Aplicando transformaciones...
[00:28:11] VentasPipeline:   - Aplicada: rellenar_nulos
[00:28:11] VentasPipeline:   - Aplicada: agregar_timestamp
[00:28:11] VentasPipeline: Cargando a /data/processed/ventas...
[00:28:11] VentasPipeline: Cargados 3 registros

Resultado final:
+--------+-----------+-----+----------+--------------------+
|venta_id|producto_id|monto|     fecha|           procesado|
+--------+-----------+-----+----------+--------------------+
|    V001|       P001|100.0|2024-01-15|2026-02-12 00:28:...|
|    V002|       P002|  0.0|2024-01-15|2026-02-12 00:28:...|
|    V003|       P001|150.0|2024-01-16|2026-02-12 00:28:...|
+--------+-----------+-----+----------+--------------------+



---
# === EJERCICIOS PR√ÅCTICOS ===

### üéØ Ejercicio ETL.1: Identificar Tipo de Pipeline

Para cada escenario, indica si usar√≠as ETL o ELT y por qu√©:

1. Migrar datos de Oracle a Redshift (cloud)
2. Cargar logs de servidores a HDFS para an√°lisis ad-hoc
3. Alimentar un dashboard de ventas diarias
4. Construir un data lake para machine learning

In [None]:
# TODO: Escribe tus respuestas

respuestas = {
    "escenario_1": "___",  # ETL o ELT?
    "escenario_2": "___",
    "escenario_3": "___",
    "escenario_4": "___"
}

### ‚úÖ Soluci√≥n Ejercicio ETL.1

In [None]:
respuestas = {
    "escenario_1": "ELT - Redshift es un cloud DW con poder de c√≥mputo",
    "escenario_2": "ELT - Data lake, queremos datos crudos para an√°lisis flexible",
    "escenario_3": "ETL - Dashboard necesita datos ya procesados y resumidos",
    "escenario_4": "ELT - ML necesita acceso a datos crudos para feature engineering"
}

for escenario, respuesta in respuestas.items():
    print(f"{escenario}: {respuesta}")

### üéØ Ejercicio ETL.2: Mini Pipeline

Crea un pipeline que:
1. Extraiga datos de clientes con campos: id, email, pais
2. Transforme: emails a min√∫sculas, pa√≠ses a may√∫sculas
3. Valide: que no haya emails nulos
4. Agregue timestamp de proceso

In [None]:
# TODO: Crea tu pipeline

datos_clientes = [
    (1, "ANA@Email.COM", "mexico"),
    (2, "carlos@TEST.com", "colombia"),
    (3, None, "argentina"),
]

# Tu c√≥digo aqu√≠


### ‚úÖ Soluci√≥n Ejercicio ETL.2

In [None]:
datos_clientes = [
    (1, "ANA@Email.COM", "mexico"),
    (2, "carlos@TEST.com", "colombia"),
    (3, None, "argentina"),
]

# Extract
df_clientes = spark.createDataFrame(datos_clientes, ["id", "email", "pais"])
print("1. EXTRACT:")
df_clientes.show()

# Validate
nulos = df_clientes.filter(F.col("email").isNull()).count()
print(f"2. VALIDATE: {nulos} emails nulos encontrados")

# Transform
df_transformado = df_clientes \
    .filter(F.col("email").isNotNull()) \
    .withColumn("email", F.lower(F.col("email"))) \
    .withColumn("pais", F.upper(F.col("pais"))) \
    .withColumn("fecha_proceso", F.current_timestamp())

print("3. TRANSFORM + 4. LOAD (listo):")
df_transformado.show(truncate=False)

---
# === RESUMEN FINAL ===

## Resumen

### Conceptos Clave
- **Pipeline de datos**: Flujo de Extract ‚Üí Transform ‚Üí Load
- **ETL**: Transforma antes de cargar, tradicional
- **ELT**: Carga primero, transforma despu√©s, moderno/cloud
- **Componentes**: Fuentes, validaci√≥n, transformaci√≥n, carga, logging, errores

### Conexi√≥n con AWS
- **AWS Glue**: Servicio ETL serverless
- **Glue Studio**: ETL visual (drag & drop)
- **Glue Crawlers**: Descubren esquemas autom√°ticamente
- **Step Functions**: Orquestar pipelines complejos

### Siguiente Paso
Contin√∫a con: `02_data_extraction.ipynb` para aprender extracci√≥n de datos