# 🐍 Junior - 02. Python para Manipulación de Datos

**Objetivos de Aprendizaje:**
- [ ] Dominar estructuras de datos en Python (listas, diccionarios, sets)
- [ ] Trabajar eficientemente con archivos y formatos de datos
- [ ] Aplicar comprensiones y generadores para optimizar código
- [ ] Manejar errores y excepciones correctamente
- [ ] Implementar funciones reutilizables

**Duración Estimada:** 90 minutos  
**Nivel de Dificultad:** Principiante-Intermedio  
**Prerrequisitos:** 01_introduccion_ingenieria_datos.ipynb

---

## 📦 Estructuras de Datos Fundamentales

### 1. Listas - Colecciones Ordenadas

### 📖 ¿Qué vamos a aprender en esta sección?

En este primer bloque vamos a explorar **tipos de datos fundamentales** en Python:

**Tipos numéricos:**
- `int` (enteros): números sin decimales como 42, -10, 0
- `float` (flotantes): números con decimales como 3.14, -0.5

**Tipos de texto:**
- `str` (strings): cadenas de texto como "Hola", 'Python'

**Tipos lógicos:**
- `bool` (booleanos): valores de verdad `True` o `False`

**¿Por qué es importante?**
En ingeniería de datos, entender los tipos de datos es crucial porque:
- Cada tipo ocupa diferente espacio en memoria
- Las operaciones varían según el tipo
- Los errores de tipo son comunes al procesar datos reales

**Tip:** Usa `type()` para verificar el tipo de cualquier variable en Python.

In [None]:
# Listas: colecciones mutables y ordenadas
usuarios = ['Ana', 'Carlos', 'María', 'Juan']
edades = [25, 30, 28, 35]
datos_mixtos = [1, 'texto', 3.14, True, None]

print("📋 Operaciones básicas con listas:")
print(f"   • Primer usuario: {usuarios[0]}")
print(f"   • Último usuario: {usuarios[-1]}")
print(f"   • Primeros 2: {usuarios[:2]}")
print(f"   • Longitud: {len(usuarios)}")

# Agregar elementos
usuarios.append('Pedro')
print(f"\n✅ Después de append: {usuarios}")

# Extender con otra lista
usuarios.extend(['Laura', 'Diego'])
print(f"✅ Después de extend: {usuarios}")

# Insertar en posición específica
usuarios.insert(1, 'Sofia')
print(f"✅ Después de insert: {usuarios}")

### 2. Diccionarios - Mapeo Clave-Valor

### 📖 Entendiendo las Listas en Python

**¿Qué es una lista?**
Una lista es una **colección ordenada y mutable** de elementos. Piensa en ella como una fila de cajones numerados donde puedes guardar cualquier tipo de dato.

**Características clave:**
- **Ordenada**: Los elementos mantienen su posición (índice)
- **Mutable**: Puedes agregar, eliminar o modificar elementos después de crearla
- **Heterogénea**: Puede contener diferentes tipos de datos en la misma lista
- **Indexada**: Se accede a elementos por su posición (empezando desde 0)

**Sintaxis básica:**
```python
mi_lista = [elemento1, elemento2, elemento3]
```

**Casos de uso en Data Engineering:**
- Almacenar secuencias de registros
- Procesar datos antes de cargarlos a una base de datos
- Mantener listas de archivos a procesar
- Acumular resultados de queries

**En este bloque aprenderás:**
1. Crear listas de diferentes formas
2. Acceder a elementos por índice (positivo y negativo)
3. Hacer slicing (rebanado) para extraer sublistas
4. Métodos esenciales: append(), extend(), insert(), remove(), pop()
5. Operaciones comunes: longitud, búsqueda, ordenamiento

In [None]:
# Diccionarios: estructuras clave-valor (similar a JSON)
usuario = {
    'id': 1,
    'nombre': 'Ana García',
    'email': 'ana@example.com',
    'edad': 28,
    'ciudad': 'Madrid',
    'activo': True,
    'skills': ['Python', 'SQL', 'Pandas']
}

print("🗂️ Acceso a diccionarios:")
print(f"   • Nombre: {usuario['nombre']}")
print(f"   • Email: {usuario.get('email')}")
print(f"   • Teléfono: {usuario.get('telefono', 'No disponible')}")

# Iterar sobre diccionarios
print("\n🔄 Iterando sobre el diccionario:")
for clave, valor in usuario.items():
    print(f"   • {clave}: {valor}")

# Diccionario anidado (estructura JSON típica)
empleado = {
    'info_personal': {
        'nombre': 'Carlos',
        'edad': 30
    },
    'info_laboral': {
        'cargo': 'Data Engineer',
        'salario': 50000,
        'departamento': 'IT'
    }
}

print(f"\n👔 Cargo: {empleado['info_laboral']['cargo']}")
print(f"💰 Salario: ${empleado['info_laboral']['salario']:,}")

### 3. Sets - Colecciones Únicas

### 📖 Trabajando con Diccionarios (dict)

**¿Qué es un diccionario?**
Un diccionario es una **colección no ordenada de pares clave-valor**. Es como una agenda telefónica: buscas por nombre (clave) y obtienes el número (valor).

**Características fundamentales:**
- **Mapeo clave-valor**: Cada elemento tiene una clave única y su valor asociado
- **Mutable**: Puedes agregar, modificar o eliminar pares después de crearlo
- **Claves únicas**: No puede haber claves duplicadas (el último valor sobrescribe)
- **Claves inmutables**: Las claves deben ser strings, números o tuplas
- **Acceso rápido**: O(1) - búsqueda por clave es muy eficiente

**Sintaxis básica:**
```python
mi_dict = {
    "clave1": "valor1",
    "clave2": 123,
    "clave3": [1, 2, 3]
}
```

**¿Por qué son cruciales en Data Engineering?**
- Representar registros de bases de datos (cada fila como dict)
- Parsear JSON/APIs (formato nativo de intercambio)
- Configuraciones y metadatos de pipelines
- Agregar datos por categorías/grupos
- Cache de resultados por ID

**En este bloque verás:**
1. Crear diccionarios de múltiples formas
2. Acceder a valores con `dict[clave]` y `.get()`
3. Agregar y modificar elementos
4. Métodos útiles: .keys(), .values(), .items(), .update()
5. Iterar sobre diccionarios
6. Diccionarios anidados (estructuras complejas)

In [None]:
# Sets: colecciones sin duplicados y sin orden
ciudades_visitadas = {'Madrid', 'Barcelona', 'Valencia', 'Madrid', 'Sevilla'}
print(f"🌍 Ciudades únicas: {ciudades_visitadas}")
print(f"   • Total: {len(ciudades_visitadas)} (Madrid no se duplica)")

# Operaciones de conjuntos
equipo_a = {'Ana', 'Carlos', 'María', 'Juan'}
equipo_b = {'Carlos', 'Pedro', 'Laura', 'Juan'}

print("\n👥 Operaciones con sets:")
print(f"   • Intersección (en ambos): {equipo_a & equipo_b}")
print(f"   • Unión (todos): {equipo_a | equipo_b}")
print(f"   • Diferencia (solo A): {equipo_a - equipo_b}")
print(f"   • Diferencia simétrica: {equipo_a ^ equipo_b}")

# Uso práctico: eliminar duplicados de una lista
emails = ['user@example.com', 'admin@test.com', 'user@example.com', 'test@demo.com']
emails_unicos = list(set(emails))
print(f"\n📧 Emails únicos: {emails_unicos}")

## 🚀 Comprensiones - Código Conciso y Eficiente

### List Comprehensions

### 📖 Dominando los Sets (Conjuntos)

**¿Qué es un set?**
Un set es una **colección no ordenada de elementos únicos**. Es como una bolsa donde no puedes tener dos objetos idénticos.

**Características distintivas:**
- **Elementos únicos**: Automáticamente elimina duplicados
- **No ordenado**: No tiene índices, no se puede acceder por posición
- **Mutable**: Puedes agregar/eliminar elementos
- **Operaciones matemáticas**: Unión, intersección, diferencia
- **Búsqueda rápida**: O(1) para verificar si un elemento existe

**Sintaxis:**
```python
mi_set = {1, 2, 3, 4, 5}
set_vacio = set()  # {} crea un dict, no un set!
```

**Casos de uso críticos en Data Engineering:**
- **Deduplicación**: Eliminar registros duplicados rápidamente
- **Validación**: Verificar si un ID existe en un conjunto de válidos
- **Comparación de datasets**: Encontrar diferencias entre dos fuentes
- **IDs únicos**: Extraer identificadores únicos de logs
- **Filtrado**: Crear listas blancas/negras de valores permitidos

**Operaciones matemáticas:**
- **Unión** (|): Todos los elementos de ambos sets
- **Intersección** (&): Solo elementos comunes
- **Diferencia** (-): Elementos en A pero no en B
- **Diferencia simétrica** (^): Elementos que están en uno u otro, pero no en ambos

**En este bloque explorarás:**
1. Crear sets y convertir listas a sets
2. Agregar/eliminar elementos
3. Operaciones de conjuntos (unión, intersección, diferencia)
4. Verificar membresía con `in`
5. Casos prácticos de deduplicación

In [None]:
# List comprehension: forma pythonica de crear listas
numeros = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Forma tradicional
cuadrados_tradicional = []
for num in numeros:
    cuadrados_tradicional.append(num ** 2)

# List comprehension (más eficiente)
cuadrados_comprension = [num ** 2 for num in numeros]

print("🔢 Cuadrados (comprehension):")
print(f"   {cuadrados_comprension}")

# Con condicional
pares = [num for num in numeros if num % 2 == 0]
print(f"\n✅ Números pares: {pares}")

# Con if-else
etiquetas = ['Par' if num % 2 == 0 else 'Impar' for num in numeros]
print(f"\n🏷️ Etiquetas: {etiquetas}")

# Ejemplo práctico: limpiar emails
emails_raw = ['  USER@EXAMPLE.COM  ', 'admin@test.com', '  TEST@DEMO.COM']
emails_limpios = [email.strip().lower() for email in emails_raw]
print(f"\n📧 Emails limpios: {emails_limpios}")

### Dictionary y Set Comprehensions

### 📖 List Comprehensions - El Poder de la Sintaxis Compacta

**¿Qué son las list comprehensions?**
Son una forma **elegante y pythónica** de crear listas en una sola línea de código. Es como escribir un bucle `for` de manera comprimida y más legible.

**Sintaxis general:**
```python
nueva_lista = [expresión for item in iterable if condición]
```

**Ventajas sobre bucles tradicionales:**
1. **Más legible**: Una vez que te acostumbras, es más fácil de leer
2. **Más rápido**: Python optimiza internamente las comprehensions
3. **Menos líneas**: Reduce código boilerplate
4. **Pythonic**: Es el estilo idiomático de Python

**Estructura desglosada:**
```python
# Bucle tradicional (4 líneas)
resultado = []
for numero in rango:
    if condicion:
        resultado.append(transformacion)

# List comprehension (1 línea)
resultado = [transformacion for numero in rango if condicion]
```

**Casos de uso en Data Engineering:**
- Transformar valores (normalización, limpieza)
- Filtrar datasets en memoria
- Extraer campos específicos de listas de diccionarios
- Generar rangos numéricos con transformaciones
- Parsear y limpiar strings de archivos

**Ejemplos comunes:**
```python
# Cuadrados de números pares
cuadrados = [x**2 for x in range(10) if x % 2 == 0]

# Convertir strings a mayúsculas
mayus = [nombre.upper() for nombre in nombres]

# Extraer IDs de registros
ids = [registro['id'] for registro in registros]
```

**⚠️ Cuándo NO usar comprehensions:**
- Lógica muy compleja (dificulta lectura)
- Múltiples niveles de anidamiento (mejor bucles normales)
- Efectos secundarios (prints, escritura a archivos)

**En este bloque practicarás:**
1. List comprehensions básicas
2. Comprehensions con filtrado (if)
3. Transformaciones numéricas y de texto
4. Comprehensions anidadas (con cuidado)
5. Comparación de performance vs bucles

In [None]:
# Dictionary comprehension
numeros = [1, 2, 3, 4, 5]
cuadrados_dict = {num: num**2 for num in numeros}
print("📊 Dictionary comprehension:")
print(f"   {cuadrados_dict}")

# Invertir diccionario
usuario = {'nombre': 'Ana', 'edad': 28, 'ciudad': 'Madrid'}
invertido = {valor: clave for clave, valor in usuario.items()}
print(f"\n🔄 Diccionario invertido: {invertido}")

# Set comprehension
palabras = ['data', 'python', 'sql', 'data', 'python', 'airflow']
longitudes_unicas = {len(palabra) for palabra in palabras}
print(f"\n📏 Longitudes únicas: {longitudes_unicas}")

# Ejemplo práctico: contar frecuencias
transacciones = ['compra', 'venta', 'compra', 'compra', 'venta', 'compra']
frecuencias = {tipo: transacciones.count(tipo) for tipo in set(transacciones)}
print(f"\n📈 Frecuencias: {frecuencias}")

## ⚡ Generadores - Eficiencia de Memoria

### 📖 Dictionary y Set Comprehensions - Más Allá de las Listas

**¿Sabías que las comprehensions no son solo para listas?**
Python permite crear **diccionarios y sets** con la misma sintaxis compacta y elegante.

**Dictionary Comprehension:**
```python
{clave_expr: valor_expr for item in iterable if condición}
```

**Set Comprehension:**
```python
{expresión for item in iterable if condición}
```

**¿Cómo distinguirlos?**
- **List**: `[...]` - Corchetes cuadrados
- **Dict**: `{k: v ...}` - Llaves con `:` separando clave-valor
- **Set**: `{x ...}` - Llaves sin `:`, solo expresión

**Dictionary Comprehensions - Casos de uso:**
1. **Invertir diccionarios**: Cambiar claves por valores
2. **Filtrar diccionarios**: Mantener solo ciertos pares
3. **Transformar valores**: Aplicar función a todos los valores
4. **Crear lookups**: ID → Objeto desde lista
5. **Agregar datos**: Categoria → Lista de items

**Ejemplos prácticos:**
```python
# Invertir dict
invertido = {v: k for k, v in original.items()}

# Filtrar por condición
mayores = {k: v for k, v in edades.items() if v >= 18}

# Transformar valores
precios_con_iva = {prod: precio * 1.19 for prod, precio in precios.items()}

# Crear lookup desde lista
usuarios_dict = {user['id']: user for user in usuarios_lista}
```

**Set Comprehensions - Casos de uso:**
1. **Extraer valores únicos con transformación**
2. **Normalizar y deduplicar en un paso**
3. **Filtrar y obtener conjunto**

**Ejemplos:**
```python
# Emails únicos en minúsculas
emails_limpios = {email.lower().strip() for email in emails_raw}

# Extensiones de archivos únicas
extensiones = {archivo.split('.')[-1] for archivo in archivos}
```

**Performance tip:**
Dict/Set comprehensions son más rápidas que crear estructuras vacías y llenarlas con bucles.

**En este bloque verás:**
1. Crear diccionarios con comprehensions
2. Invertir y filtrar diccionarios
3. Set comprehensions para deduplicación
4. Casos prácticos de transformación de datos

In [None]:
import sys

# Lista vs Generador: comparación de memoria
lista_grande = [x**2 for x in range(1000000)]
generador_grande = (x**2 for x in range(1000000))

print("💾 Comparación de memoria:")
print(f"   • Lista: {sys.getsizeof(lista_grande):,} bytes")
print(f"   • Generador: {sys.getsizeof(generador_grande):,} bytes")

# Función generadora
def generar_pares(n):
    """Genera números pares hasta n"""
    for i in range(0, n+1, 2):
        yield i

print("\n🔢 Generador de pares:")
for par in generar_pares(10):
    print(f"   {par}", end=' ')

# Generador para procesar archivos grandes (línea por línea)
def procesar_archivo_grande(ruta):
    """
    Lee archivo línea por línea sin cargar todo en memoria
    """
    try:
        with open(ruta, 'r', encoding='utf-8') as archivo:
            for linea in archivo:
                yield linea.strip()
    except FileNotFoundError:
        print(f"❌ Archivo no encontrado: {ruta}")

print("\n\n📄 Ejemplo de generador para archivos grandes (implementado)")

## 📁 Manejo de Archivos y Formatos

### Trabajar con archivos de texto

### 📖 Generadores - La Clave para Procesar Grandes Volúmenes de Datos

**¿Qué es un generador?**
Un generador es una **función especial que produce valores bajo demanda** (lazy evaluation) en lugar de crear toda la secuencia en memoria de una vez.

**¿Por qué son CRÍTICOS en Data Engineering?**
Imagina procesar un archivo CSV de 10 GB:
- **Sin generador**: Cargas todo en memoria → 💥 MemoryError
- **Con generador**: Procesas línea por línea → ✅ Solo unos KB en memoria

**Diferencias clave:**

| Aspecto | Lista | Generador |
|---------|-------|-----------|
| Memoria | Toda en RAM | Solo item actual |
| Velocidad inicial | Lenta (crea todo) | Rápida (lazy) |
| Reutilizable | Sí (múltiples iteraciones) | No (una sola pasada) |
| Sintaxis | `[x for x in ...]` | `(x for x in ...)` |

**Sintaxis:**

**Generador Expression (similar a comprehension):**
```python
generador = (x**2 for x in range(1000000))  # Paréntesis en lugar de corchetes
```

**Función Generadora (con yield):**
```python
def mi_generador():
    yield 1
    yield 2
    yield 3
```

**La magia de `yield`:**
- Cuando encuentras `yield`, la función se "pausa"
- Retorna el valor pero **mantiene su estado**
- La próxima llamada continúa desde donde se pausó

**Casos de uso esenciales:**
1. **Leer archivos grandes**: Procesar línea por línea
2. **APIs paginadas**: Iterar sobre páginas sin cargar todo
3. **Streams de datos**: Procesar eventos en tiempo real
4. **Pipelines ETL**: Transformaciones encadenadas eficientes
5. **Infinitos**: Generar secuencias sin límite (timestamps, IDs)

**Ejemplo práctico:**
```python
# ❌ Malo: Carga todo en memoria
lineas = [linea for linea in archivo]  # Puede ser GB

# ✅ Bueno: Procesa una a la vez
lineas = (linea for linea in archivo)  # Solo bytes actuales
```

**En este bloque aprenderás:**
1. Crear generadores con expresiones
2. Usar funciones generadoras con `yield`
3. Comparar memoria: lista vs generador
4. Procesar archivos grandes eficientemente
5. Encadenar generadores para pipelines
6. Usar `next()` para controlar la iteración

In [None]:
import os
from datetime import datetime

# Crear directorio si no existe
os.makedirs('../datasets/raw', exist_ok=True)

# Escribir archivo de texto
ruta_log = '../datasets/raw/procesamiento.log'

# Context manager (with) garantiza cierre del archivo
with open(ruta_log, 'w', encoding='utf-8') as archivo:
    archivo.write(f"Log de procesamiento\n")
    archivo.write(f"Fecha: {datetime.now()}\n")
    archivo.write(f"Estado: Iniciado\n")
    archivo.write(f"Registros procesados: 0\n")

print(f"✅ Archivo creado: {ruta_log}")

# Leer archivo
with open(ruta_log, 'r', encoding='utf-8') as archivo:
    contenido = archivo.read()
    print("\n📄 Contenido del archivo:")
    print(contenido)

# Leer línea por línea (mejor para archivos grandes)
print("\n📋 Leyendo línea por línea:")
with open(ruta_log, 'r', encoding='utf-8') as archivo:
    for numero_linea, linea in enumerate(archivo, 1):
        print(f"   Línea {numero_linea}: {linea.strip()}")

# Append (agregar al final)
with open(ruta_log, 'a', encoding='utf-8') as archivo:
    archivo.write(f"Estado: Completado\n")
    archivo.write(f"Registros procesados: 1000\n")

print("\n✅ Contenido agregado al archivo")

### Trabajar con JSON

### 📖 Lectura de Archivos - La Puerta de Entrada de los Datos

**¿Qué estamos haciendo aquí?**
Abriendo y leyendo archivos es la **operación más común en Data Engineering**. Todo pipeline comienza aquí:
- Logs de servidores
- Archivos CSV/JSON de APIs
- Archivos de configuración
- Datos exportados de bases de datos

**El contexto `with` - Tu mejor amigo:**

```python
with open('archivo.txt', 'r') as f:
    contenido = f.read()
```

**¿Por qué usar `with`?**
- **Auto-cierra el archivo**: Incluso si hay error
- **Libera recursos**: Evita file descriptors abiertos
- **Más limpio**: No necesitas `f.close()` manual
- **Más seguro**: Previene corrupción de archivos

**Métodos de lectura:**

| Método | Retorna | Uso ideal |
|--------|---------|-----------|
| `.read()` | String completo | Archivos pequeños (<10 MB) |
| `.readline()` | Una línea | Procesamiento controlado |
| `.readlines()` | Lista de líneas | Todo en memoria |
| Iterar `for line in f:` | Línea por línea (lazy) | 🏆 **Archivos grandes** |

**Modos de apertura:**
- `'r'`: Read (solo lectura) - Por defecto
- `'w'`: Write (sobrescribe todo)
- `'a'`: Append (agrega al final)
- `'r+'`: Read + Write
- `'rb'`: Read binary (para imágenes, PDFs, etc.)

**Encoding - El enemigo silencioso:**
```python
# ❌ Puede fallar con caracteres especiales
open('datos.csv', 'r')

# ✅ Siempre especifica encoding
open('datos.csv', 'r', encoding='utf-8')
```

**Casos de uso en Data Engineering:**
1. **ETL**: Leer fuentes de datos (CSV, JSON, logs)
2. **Configuración**: Cargar parámetros de pipelines
3. **Validación**: Verificar formatos antes de procesar
4. **Logging**: Escribir resultados y errores
5. **Backup**: Guardar estados intermedios

**En este bloque verás:**
1. Abrir archivos con `with open()`
2. Leer contenido completo vs línea por línea
3. El poder de iterar directamente sobre el archivo
4. Por qué `.read()` puede romper tu pipeline
5. Buenas prácticas de gestión de recursos

In [None]:
import json

# Datos de ejemplo
datos_usuario = {
    'usuarios': [
        {
            'id': 1,
            'nombre': 'Ana García',
            'email': 'ana@example.com',
            'edad': 28,
            'skills': ['Python', 'SQL', 'Pandas'],
            'activo': True
        },
        {
            'id': 2,
            'nombre': 'Carlos López',
            'email': 'carlos@example.com',
            'edad': 32,
            'skills': ['Java', 'SQL', 'Spark'],
            'activo': False
        }
    ],
    'metadata': {
        'fecha_creacion': datetime.now().isoformat(),
        'version': '1.0',
        'total_usuarios': 2
    }
}

# Guardar JSON
ruta_json = '../datasets/raw/usuarios.json'
with open(ruta_json, 'w', encoding='utf-8') as archivo:
    json.dump(datos_usuario, archivo, indent=2, ensure_ascii=False)

print(f"✅ JSON guardado: {ruta_json}")

# Leer JSON
with open(ruta_json, 'r', encoding='utf-8') as archivo:
    datos_leidos = json.load(archivo)

print("\n📊 Datos leídos del JSON:")
print(f"   • Total usuarios: {datos_leidos['metadata']['total_usuarios']}")
print(f"   • Primer usuario: {datos_leidos['usuarios'][0]['nombre']}")

# JSON a string y viceversa
json_string = json.dumps(datos_usuario, indent=2)
print(f"\n📝 JSON como string (primeros 200 chars):\n{json_string[:200]}...")

# String a objeto Python
datos_desde_string = json.loads(json_string)
print(f"\n✅ Convertido de string a Python: {type(datos_desde_string)}")

### Trabajar con CSV

### 📖 JSON - El Lenguaje Universal de las APIs

**¿Qué es JSON?**
JSON (JavaScript Object Notation) es el **formato estándar** para intercambiar datos entre sistemas:
- APIs REST retornan JSON
- Bases de datos NoSQL almacenan JSON
- Configuraciones de aplicaciones usan JSON
- Eventos de streaming vienen en JSON

**¿Por qué es tan importante?**
- **Universal**: Todos los lenguajes lo entienden
- **Legible**: Humanos y máquinas lo leen fácilmente
- **Estructurado**: Representa datos complejos (listas, objetos anidados)
- **Ligero**: Menos pesado que XML

**Mapeo Python ↔ JSON:**

| Python | JSON |
|--------|------|
| dict | object |
| list | array |
| str | string |
| int/float | number |
| True/False | true/false |
| None | null |

**Operaciones esenciales:**

**1. Cargar JSON (parse):**
```python
import json

# Desde string
data = json.loads('{"nombre": "Luis", "edad": 30}')

# Desde archivo
with open('datos.json', 'r') as f:
    data = json.load(f)  # Sin 's' - load vs loads
```

**2. Convertir a JSON (stringify):**
```python
# A string
json_str = json.dumps(data, indent=2)  # indent para formatear

# A archivo
with open('salida.json', 'w') as f:
    json.dump(data, f, indent=2)  # Sin 's' - dump vs dumps
```

**Opciones útiles de `json.dumps()`:**
- `indent=2`: Formatea con espacios (legible)
- `sort_keys=True`: Ordena claves alfabéticamente
- `ensure_ascii=False`: Permite caracteres UTF-8 (ñ, á, etc.)
- `default=str`: Convierte objetos no serializables a string

**Casos de uso en Data Engineering:**
1. **Consumir APIs**: Parsear respuestas de endpoints REST
2. **Configurar pipelines**: Cargar parámetros desde archivos
3. **Logs estructurados**: Escribir eventos en formato estándar
4. **Data Lakes**: Almacenar datos semi-estructurados
5. **Message Queues**: Kafka, RabbitMQ usan JSON

**Truco común - JSON anidado:**
```python
# API de usuarios con dirección
usuario = {
    "nombre": "Ana",
    "direccion": {
        "ciudad": "Madrid",
        "codigo_postal": "28001"
    }
}

# Acceso anidado
ciudad = usuario["direccion"]["ciudad"]
```

**En este bloque aprenderás:**
1. Convertir strings JSON a objetos Python con `loads()`
2. Serializar objetos Python a JSON con `dumps()`
3. Leer y escribir archivos JSON
4. Manejar opciones de formato (indent, encoding)
5. Trabajar con estructuras anidadas
6. Debugging común: `'` vs `"` (JSON requiere comillas dobles)

In [None]:
import csv

# Datos de ejemplo
ventas = [
    ['fecha', 'producto', 'cantidad', 'precio', 'total'],
    ['2024-01-01', 'Laptop', 2, 1000, 2000],
    ['2024-01-02', 'Mouse', 10, 25, 250],
    ['2024-01-03', 'Teclado', 5, 75, 375],
    ['2024-01-04', 'Monitor', 3, 300, 900]
]

# Escribir CSV
ruta_csv = '../datasets/raw/ventas.csv'
with open(ruta_csv, 'w', newline='', encoding='utf-8') as archivo:
    writer = csv.writer(archivo)
    writer.writerows(ventas)

print(f"✅ CSV guardado: {ruta_csv}")

# Leer CSV
with open(ruta_csv, 'r', encoding='utf-8') as archivo:
    reader = csv.reader(archivo)
    print("\n📊 Contenido del CSV:")
    for fila in reader:
        print(f"   {fila}")

# Leer CSV como diccionario
with open(ruta_csv, 'r', encoding='utf-8') as archivo:
    reader = csv.DictReader(archivo)
    print("\n📋 CSV como diccionario:")
    for fila in reader:
        print(f"   {fila['producto']}: ${fila['total']}")

# Escribir CSV desde diccionarios
empleados = [
    {'nombre': 'Ana', 'departamento': 'IT', 'salario': 50000},
    {'nombre': 'Carlos', 'departamento': 'Ventas', 'salario': 45000},
    {'nombre': 'María', 'departamento': 'IT', 'salario': 55000}
]

ruta_empleados = '../datasets/raw/empleados.csv'
with open(ruta_empleados, 'w', newline='', encoding='utf-8') as archivo:
    campos = ['nombre', 'departamento', 'salario']
    writer = csv.DictWriter(archivo, fieldnames=campos)
    writer.writeheader()
    writer.writerows(empleados)

print(f"\n✅ CSV de empleados guardado: {ruta_empleados}")

## 🛡️ Manejo de Errores y Excepciones

### 📖 CSV - El Pan de Cada Día del Data Engineer

**¿Qué es CSV?**
CSV (Comma-Separated Values) es el **formato más común** para datasets tabulares:
- Exportaciones de Excel
- Reportes de bases de datos
- Datasets de Kaggle
- Logs estructurados

**¿Por qué usar el módulo `csv` en lugar de split?**

**❌ Forma ingenua (NO hacer):**
```python
# Falla con comillas, comas dentro de valores, etc.
for linea in archivo:
    campos = linea.split(',')
```

**✅ Forma correcta (módulo csv):**
```python
import csv
reader = csv.reader(archivo)
for fila in reader:
    # Maneja casos complejos automáticamente
```

**Problemas que `csv` resuelve:**
1. **Comas dentro de valores**: `"García, Juan"` no se divide incorrectamente
2. **Comillas**: Maneja `"` y `'` correctamente
3. **Saltos de línea**: Valores multi-línea en una celda
4. **Diferentes delimitadores**: `,` `;` `\t` `|`
5. **Encoding**: UTF-8, Latin-1, etc.

**Dos formas de leer CSV:**

**1. Como lista (csv.reader):**
```python
with open('datos.csv', 'r') as f:
    reader = csv.reader(f)
    for fila in reader:
        print(fila[0])  # Acceso por índice
```

**2. Como diccionario (csv.DictReader) - RECOMENDADO:**
```python
with open('datos.csv', 'r') as f:
    reader = csv.DictReader(f)  # Primera fila = headers
    for fila in reader:
        print(fila['nombre'])  # Acceso por nombre de columna
```

**¿Cuándo usar cada uno?**
- **DictReader**: Cuando tienes headers y quieres legibilidad
- **reader**: Cuando no hay headers o necesitas máxima velocidad

**Escritura de CSV:**
```python
# Como lista
with open('salida.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['nombre', 'edad'])  # Header
    writer.writerow(['Ana', 25])

# Como diccionario
with open('salida.csv', 'w', newline='') as f:
    fieldnames = ['nombre', 'edad']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerow({'nombre': 'Ana', 'edad': 25})
```

**⚠️ IMPORTANTE: `newline=''` en modo escritura**
- Evita líneas en blanco extra en Windows
- Recomendación oficial de la documentación Python

**Opciones comunes:**
- `delimiter=';'`: Cambiar separador (común en Europa)
- `quotechar='"'`: Cambiar caracter de comillas
- `encoding='utf-8'`: Especificar encoding

**Casos de uso en Data Engineering:**
1. **ETL básico**: Leer datos de sistemas legacy
2. **Exportar resultados**: Guardar transformaciones
3. **Integración**: Intercambiar datos con Excel/BI tools
4. **Validación**: Revisar muestras antes de cargar a DB
5. **Logs tabulares**: Escribir métricas estructuradas

**En este bloque aprenderás:**
1. Leer CSV con `csv.reader()` vs `csv.DictReader()`
2. Escribir CSV con `csv.writer()` vs `csv.DictWriter()`
3. Manejar headers automáticamente
4. Por qué `newline=''` es crucial
5. Diferencias entre acceso por índice vs por nombre
6. Ventajas sobre split() manual

In [None]:
# Try-except básico
def dividir_seguro(a, b):
    """División con manejo de errores"""
    try:
        resultado = a / b
        return resultado
    except ZeroDivisionError:
        print("❌ Error: No se puede dividir entre cero")
        return None
    except TypeError:
        print("❌ Error: Los argumentos deben ser números")
        return None

print("🧮 Pruebas de división:")
print(f"   • 10 / 2 = {dividir_seguro(10, 2)}")
print(f"   • 10 / 0 = {dividir_seguro(10, 0)}")
print(f"   • 10 / 'a' = {dividir_seguro(10, 'a')}")

# Try-except-else-finally
def leer_archivo_completo(ruta):
    """Lee archivo con manejo completo de errores"""
    archivo = None
    try:
        print(f"🔄 Intentando abrir: {ruta}")
        archivo = open(ruta, 'r', encoding='utf-8')
        contenido = archivo.read()
        
    except FileNotFoundError:
        print(f"❌ Error: Archivo no encontrado")
        contenido = None
        
    except PermissionError:
        print(f"❌ Error: Sin permisos para leer el archivo")
        contenido = None
        
    else:
        print(f"✅ Archivo leído exitosamente")
        
    finally:
        if archivo:
            archivo.close()
            print(f"🔒 Archivo cerrado")
    
    return contenido

print("\n📁 Prueba de lectura:")
contenido = leer_archivo_completo('../datasets/raw/ventas.csv')
if contenido:
    print(f"   Primeros 100 caracteres: {contenido[:100]}")

print("\n📁 Prueba con archivo inexistente:")
leer_archivo_completo('../datasets/raw/inexistente.txt')

## 🔧 Funciones Avanzadas para Data Engineering

### 📖 Manejo de Excepciones - Construyendo Pipelines Resilientes

**¿Por qué es CRÍTICO en Data Engineering?**
Los pipelines fallan. No es cuestión de "si", sino de "cuándo":
- Archivos corruptos
- APIs caídas
- Datos mal formateados
- Conexiones de red perdidas
- Permisos insuficientes

**Un pipeline robusto NO falla silenciosamente**. Debe:
1. Detectar el error
2. Logearlo con contexto
3. Intentar recuperarse
4. Notificar si es crítico

**Anatomía de try-except:**

```python
try:
    # Código que puede fallar
    resultado = operacion_riesgosa()
except TipoDeError as e:
    # Manejo específico del error
    print(f"Error: {e}")
else:
    # Se ejecuta SI NO hubo error
    print("Éxito")
finally:
    # SIEMPRE se ejecuta (limpiar recursos)
    cerrar_conexion()
```

**Bloques:**
- **try**: Código protegido
- **except**: Captura errores (puedes tener múltiples)
- **else**: Solo si no hubo error (opcional)
- **finally**: Limpieza garantizada (opcional pero MUY útil)

**Excepciones comunes en Data Engineering:**

| Excepción | Causa | Ejemplo |
|-----------|-------|---------|
| `FileNotFoundError` | Archivo no existe | Ruta incorrecta |
| `ValueError` | Tipo correcto, valor incorrecto | `int("abc")` |
| `TypeError` | Tipo incorrecto | `"3" + 3` |
| `KeyError` | Clave no existe en dict | `dict['inexistente']` |
| `IndexError` | Índice fuera de rango | `lista[999]` |
| `ConnectionError` | API/DB inaccesible | Timeout de red |
| `json.JSONDecodeError` | JSON mal formado | Sintaxis inválida |

**Captura específica vs genérica:**

**❌ Malo (captura todo):**
```python
try:
    procesar_datos()
except:  # Captura TODO, incluso KeyboardInterrupt
    pass  # Y lo ignora silenciosamente
```

**✅ Bueno (específico y con log):**
```python
try:
    procesar_datos()
except FileNotFoundError as e:
    logging.error(f"Archivo no encontrado: {e}")
    usar_fuente_alternativa()
except ValueError as e:
    logging.error(f"Dato inválido: {e}")
    saltar_registro()
```

**Estrategias de recuperación:**

**1. Reintentos (retry):**
```python
for intento in range(3):
    try:
        llamar_api()
        break  # Éxito, salir del loop
    except ConnectionError:
        if intento < 2:
            time.sleep(2 ** intento)  # Backoff exponencial
        else:
            raise  # Último intento, propagar error
```

**2. Fallback (fuente alternativa):**
```python
try:
    datos = leer_desde_api()
except ConnectionError:
    datos = leer_desde_cache()
```

**3. Skip (continuar con siguiente):**
```python
for archivo in archivos:
    try:
        procesar(archivo)
    except ValueError:
        logging.warning(f"Saltando {archivo}")
        continue
```

**Logging + Excepciones = ❤️**
```python
import logging

try:
    procesar_pipeline()
except Exception as e:
    logging.exception("Pipeline falló")  # Auto-incluye traceback
    raise  # Re-lanzar para que Airflow lo detecte
```

**Casos de uso en Data Engineering:**
1. **APIs no confiables**: Reintentos con backoff
2. **Datos sucios**: Validar y saltar registros malos
3. **Cargas parciales**: Procesar lo que se pueda, logear lo que falla
4. **Notificaciones**: Alertar cuando errores críticos ocurren
5. **Idempotencia**: Usar `finally` para limpiar estados parciales

**En este bloque aprenderás:**
1. Estructura completa try-except-else-finally
2. Captura de múltiples excepciones específicas
3. Usar `as e` para acceder al mensaje de error
4. Diferencia entre capturar y propagar (`raise`)
5. Por qué `except:` sin tipo es peligroso
6. Combinar excepciones con logging
7. Patrones de retry y fallback

In [None]:
from typing import List, Dict, Optional, Union
import logging

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(levelname)s: %(message)s')
logger = logging.getLogger(__name__)

def validar_email(email: str) -> bool:
    """
    Valida formato básico de email
    
    Args:
        email: String con el email a validar
        
    Returns:
        bool: True si el formato es válido
    """
    return '@' in email and '.' in email.split('@')[1]

def limpiar_datos_usuario(
    usuarios: List[Dict],
    campos_requeridos: Optional[List[str]] = None
) -> List[Dict]:
    """
    Limpia y valida lista de usuarios
    
    Args:
        usuarios: Lista de diccionarios con datos de usuarios
        campos_requeridos: Lista de campos que deben existir
        
    Returns:
        Lista de usuarios válidos y limpios
    """
    if campos_requeridos is None:
        campos_requeridos = ['nombre', 'email']
    
    usuarios_limpios = []
    
    for i, usuario in enumerate(usuarios):
        try:
            # Validar campos requeridos
            for campo in campos_requeridos:
                if campo not in usuario:
                    logger.warning(f"Usuario {i}: Falta campo '{campo}'")
                    raise ValueError(f"Campo requerido faltante: {campo}")
            
            # Limpiar email
            email_limpio = usuario['email'].strip().lower()
            
            # Validar email
            if not validar_email(email_limpio):
                logger.warning(f"Usuario {i}: Email inválido '{email_limpio}'")
                continue
            
            # Crear usuario limpio
            usuario_limpio = {
                'nombre': usuario['nombre'].strip().title(),
                'email': email_limpio,
                'edad': usuario.get('edad'),
                'ciudad': usuario.get('ciudad', 'No especificada')
            }
            
            usuarios_limpios.append(usuario_limpio)
            logger.info(f"Usuario {i}: Procesado correctamente")
            
        except Exception as e:
            logger.error(f"Usuario {i}: Error al procesar - {e}")
            continue
    
    return usuarios_limpios

# Probar función
usuarios_raw = [
    {'nombre': '  ana garcia  ', 'email': '  ANA@EXAMPLE.COM  ', 'edad': 28},
    {'nombre': 'carlos lopez', 'email': 'carlos@test.com', 'ciudad': 'Madrid'},
    {'nombre': 'maria', 'email': 'email_invalido', 'edad': 25},  # Email inválido
    {'email': 'pedro@test.com'},  # Falta nombre
    {'nombre': 'laura diaz', 'email': 'laura@example.com', 'edad': 30}
]

print("🧹 Limpiando datos de usuarios:\n")
usuarios_limpios = limpiar_datos_usuario(usuarios_raw)

print(f"\n📊 Resultado:")
print(f"   • Usuarios originales: {len(usuarios_raw)}")
print(f"   • Usuarios válidos: {len(usuarios_limpios)}")
print(f"\n✅ Usuarios limpios:")
for usuario in usuarios_limpios:
    print(f"   {usuario}")

## 🎯 Ejercicio Práctico Final

Crea un sistema de procesamiento de datos que:

1. Lea un archivo JSON con transacciones
2. Limpie y valide los datos
3. Calcule estadísticas agregadas
4. Guarde resultados en CSV
5. Maneje todos los errores apropiadamente

### 📖 Funciones Avanzadas - Los Bloques de Construcción de Pipelines

**¿Qué hace diferente a una función en Data Engineering?**
No es solo "código reutilizable". Una buena función debe:
- **Ser predecible**: Mismo input → mismo output
- **Tener un propósito claro**: Hace UNA cosa bien
- **Ser testeáble**: Fácil de validar con unit tests
- **Manejar errores**: No fallar silenciosamente
- **Estar documentada**: Docstrings claros

**Estructura completa:**

```python
def nombre_descriptivo(param1: tipo, param2: tipo = default) -> tipo_retorno:
    """
    Descripción breve de lo que hace.
    
    Args:
        param1: Descripción del parámetro
        param2: Descripción del parámetro (opcional)
    
    Returns:
        Descripción del valor retornado
    
    Raises:
        TipoError: Cuándo y por qué lanza esta excepción
    """
    # Validación de inputs
    if not isinstance(param1, tipo):
        raise TypeError(f"Se esperaba {tipo}, recibido {type(param1)}")
    
    # Lógica de la función
    resultado = procesar(param1, param2)
    
    # Retorno explícito
    return resultado
```

**Type Hints - Tu mejor amigo:**
```python
def procesar_datos(archivo: str, encoding: str = 'utf-8') -> dict:
    # IDE te autocompleta
    # Mypy valida tipos
    # Código auto-documentado
```

**Argumentos posicionales vs keyword:**
```python
# Posicionales: Orden importa
def dividir(a, b):
    return a / b

dividir(10, 2)  # 5.0
dividir(2, 10)  # 0.2 ← Diferente!

# Keyword: Orden no importa
dividir(b=2, a=10)  # 5.0 ← Mismo resultado
```

**Parámetros por defecto - CUIDADO con mutables:**
```python
# ❌ BUG CLÁSICO
def agregar_item(item, lista=[]):
    lista.append(item)
    return lista

agregar_item(1)  # [1]
agregar_item(2)  # [1, 2] ← ¡WTF! Esperábamos [2]

# ✅ CORRECTO
def agregar_item(item, lista=None):
    if lista is None:
        lista = []
    lista.append(item)
    return lista
```

**`*args` y `**kwargs` - Flexibilidad:**
```python
# *args: Argumentos posicionales variables
def sumar_todos(*numeros):
    return sum(numeros)

sumar_todos(1, 2, 3, 4, 5)  # 15

# **kwargs: Argumentos keyword variables
def imprimir_config(**config):
    for clave, valor in config.items():
        print(f"{clave}: {valor}")

imprimir_config(host="localhost", puerto=5432, usuario="admin")
```

**Docstrings - Documentación integrada:**
```python
def extraer_datos(fuente: str, formato: str = 'csv') -> pd.DataFrame:
    """
    Extrae datos de una fuente y retorna un DataFrame.
    
    Esta función soporta múltiples formatos y maneja errores
    comunes como archivos faltantes o formatos incorrectos.
    
    Args:
        fuente: Ruta al archivo o URL de la API
        formato: Formato de los datos ('csv', 'json', 'parquet')
    
    Returns:
        DataFrame con los datos cargados
    
    Raises:
        FileNotFoundError: Si el archivo no existe
        ValueError: Si el formato no es soportado
    
    Example:
        >>> df = extraer_datos('datos.csv')
        >>> df = extraer_datos('api.com/datos', formato='json')
    """
    # Implementación...
```

**Retornos múltiples:**
```python
# Retornar tupla
def estadisticas(datos):
    return len(datos), sum(datos), sum(datos)/len(datos)

total, suma, promedio = estadisticas([1, 2, 3, 4, 5])

# Retornar diccionario (más legible)
def estadisticas(datos):
    return {
        'total': len(datos),
        'suma': sum(datos),
        'promedio': sum(datos)/len(datos)
    }

stats = estadisticas([1, 2, 3])
print(stats['promedio'])
```

**Casos de uso en Data Engineering:**
1. **Transformaciones**: Funciones puras que transforman datos
2. **Validaciones**: Verificar calidad de datos
3. **Conectores**: Abstraer conexiones a APIs/DBs
4. **Utilidades**: Helpers reutilizables en múltiples pipelines
5. **ETL Steps**: Cada paso del pipeline como función testeáble

**Principios de diseño:**
- **DRY** (Don't Repeat Yourself): Si lo haces 3 veces, es una función
- **Single Responsibility**: Una función = una responsabilidad
- **Fail Fast**: Validar inputs al inicio
- **Naming**: `obtener_datos_usuario()` > `datos()`

**En este bloque verás:**
1. Definir funciones con type hints
2. Parámetros posicionales, keyword, y por defecto
3. `*args` y `**kwargs` para flexibilidad
4. Docstrings siguiendo convenciones
5. Retornos simples vs múltiples
6. Validación de inputs
7. El bug de listas mutables en defaults
8. Cómo estructurar funciones testeábles

In [None]:
# Crear datos de ejemplo
transacciones_raw = {
    'transacciones': [
        {'id': 1, 'fecha': '2024-01-01', 'producto': 'Laptop', 'cantidad': 2, 'precio': 1000},
        {'id': 2, 'fecha': '2024-01-02', 'producto': 'Mouse', 'cantidad': 10, 'precio': 25},
        {'id': 3, 'fecha': '2024-01-03', 'producto': 'Laptop', 'cantidad': 1, 'precio': 1000},
        {'id': 4, 'fecha': '2024-01-04', 'producto': 'Teclado', 'cantidad': -1, 'precio': 75},  # Cantidad negativa
        {'id': 5, 'fecha': '2024-01-05', 'producto': 'Monitor', 'cantidad': 3, 'precio': 300},
        {'id': 6, 'fecha': 'invalida', 'producto': 'Mouse', 'cantidad': 5, 'precio': 25},  # Fecha inválida
    ]
}

# Guardar JSON de ejemplo
with open('../datasets/raw/transacciones.json', 'w') as f:
    json.dump(transacciones_raw, f, indent=2)

print("✅ Archivo de transacciones creado")
print("\n📝 Ahora implementa tu solución en las celdas siguientes:")
print("   1. Leer el JSON")
print("   2. Validar datos (cantidad > 0, fecha válida)")
print("   3. Calcular total por transacción")
print("   4. Agrupar por producto (suma de cantidades y totales)")
print("   5. Guardar resultados en CSV")

In [None]:
# 🚀 TU SOLUCIÓN AQUÍ
from datetime import datetime
from collections import defaultdict

def procesar_transacciones(ruta_json: str, ruta_csv_salida: str) -> Dict:
    """
    Procesa archivo de transacciones completo
    
    Args:
        ruta_json: Ruta del archivo JSON de entrada
        ruta_csv_salida: Ruta del archivo CSV de salida
        
    Returns:
        Diccionario con estadísticas del procesamiento
    """
    try:
        # 1. Leer JSON
        with open(ruta_json, 'r') as f:
            datos = json.load(f)
        
        transacciones = datos['transacciones']
        print(f"📥 Leídas {len(transacciones)} transacciones")
        
        # 2. Validar y limpiar
        transacciones_validas = []
        errores = 0
        
        for trans in transacciones:
            try:
                # Validar cantidad positiva
                if trans['cantidad'] <= 0:
                    raise ValueError(f"Cantidad inválida: {trans['cantidad']}")
                
                # Validar fecha
                datetime.strptime(trans['fecha'], '%Y-%m-%d')
                
                # Calcular total
                trans['total'] = trans['cantidad'] * trans['precio']
                
                transacciones_validas.append(trans)
                
            except (ValueError, KeyError) as e:
                logger.warning(f"Transacción ID {trans.get('id')}: {e}")
                errores += 1
        
        print(f"✅ Transacciones válidas: {len(transacciones_validas)}")
        print(f"❌ Transacciones con errores: {errores}")
        
        # 3. Agrupar por producto
        resumen_productos = defaultdict(lambda: {'cantidad': 0, 'total': 0, 'transacciones': 0})
        
        for trans in transacciones_validas:
            producto = trans['producto']
            resumen_productos[producto]['cantidad'] += trans['cantidad']
            resumen_productos[producto]['total'] += trans['total']
            resumen_productos[producto]['transacciones'] += 1
        
        # 4. Guardar en CSV
        with open(ruta_csv_salida, 'w', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(['producto', 'cantidad_total', 'monto_total', 'num_transacciones', 'precio_promedio'])
            
            for producto, stats in resumen_productos.items():
                precio_prom = stats['total'] / stats['cantidad']
                writer.writerow([
                    producto,
                    stats['cantidad'],
                    stats['total'],
                    stats['transacciones'],
                    round(precio_prom, 2)
                ])
        
        print(f"\n💾 Resultados guardados en: {ruta_csv_salida}")
        
        return {
            'total_leidas': len(transacciones),
            'total_validas': len(transacciones_validas),
            'total_errores': errores,
            'productos_unicos': len(resumen_productos)
        }
        
    except Exception as e:
        logger.error(f"Error al procesar transacciones: {e}")
        return None

# Ejecutar procesamiento
stats = procesar_transacciones(
    '../datasets/raw/transacciones.json',
    '../datasets/processed/resumen_productos.csv'
)

if stats:
    print("\n📊 Estadísticas finales:")
    for clave, valor in stats.items():
        print(f"   • {clave}: {valor}")
    
    # Leer y mostrar resultados
    print("\n📋 Resumen por producto:")
    with open('../datasets/processed/resumen_productos.csv', 'r') as f:
        reader = csv.DictReader(f)
        for fila in reader:
            print(f"   • {fila['producto']}: {fila['cantidad_total']} unidades, ${fila['monto_total']}")

## 🎓 Resumen y Conclusiones

### ✅ Lo que aprendiste:

1. **Estructuras de Datos**
   - Listas, diccionarios, sets y tuplas
   - Cuándo usar cada una
   - Operaciones comunes y eficientes

2. **Comprensiones**
   - List, dict y set comprehensions
   - Código más pythónico y legible
   - Mejor performance

3. **Generadores**
   - Procesamiento eficiente en memoria
   - Ideal para archivos grandes
   - yield vs return

4. **Manejo de Archivos**
   - Texto plano, JSON y CSV
   - Context managers (with)
   - Encoding y buenas prácticas

5. **Manejo de Errores**
   - try-except-else-finally
   - Diferentes tipos de excepciones
   - Logging para debugging

6. **Funciones Avanzadas**
   - Type hints
   - Docstrings
   - Validación de datos

### 🔜 Próximos pasos:

- **03_pandas_fundamentos.ipynb**: Manipulación de datos con Pandas
- **04_sql_basico.ipynb**: Consultas SQL y bases de datos
- **05_limpieza_datos.ipynb**: Técnicas avanzadas de limpieza

### 🏠 Tarea:

1. Practica las comprensiones con diferentes datasets
2. Crea funciones reutilizables para validación de datos
3. Implementa un pipeline completo con manejo de errores

---

**¡Excelente trabajo! Ahora dominas las bases de Python para Data Engineering** 🎉