# üêç Junior - 02. Python para Manipulaci√≥n de Datos

**Objetivos de Aprendizaje:**
- [ ] Dominar estructuras de datos en Python (listas, diccionarios, sets)
- [ ] Trabajar eficientemente con archivos y formatos de datos
- [ ] Aplicar comprensiones y generadores para optimizar c√≥digo
- [ ] Manejar errores y excepciones correctamente
- [ ] Implementar funciones reutilizables

**Duraci√≥n Estimada:** 90 minutos  
**Nivel de Dificultad:** Principiante-Intermedio  
**Prerrequisitos:** 01_introduccion_ingenieria_datos.ipynb

---

## üì¶ Estructuras de Datos Fundamentales

### 1. Listas - Colecciones Ordenadas

### üìñ ¬øQu√© vamos a aprender en esta secci√≥n?

En este primer bloque vamos a explorar **tipos de datos fundamentales** en Python:

**Tipos num√©ricos:**
- `int` (enteros): n√∫meros sin decimales como 42, -10, 0
- `float` (flotantes): n√∫meros con decimales como 3.14, -0.5

**Tipos de texto:**
- `str` (strings): cadenas de texto como "Hola", 'Python'

**Tipos l√≥gicos:**
- `bool` (booleanos): valores de verdad `True` o `False`

**¬øPor qu√© es importante?**
En ingenier√≠a de datos, entender los tipos de datos es crucial porque:
- Cada tipo ocupa diferente espacio en memoria
- Las operaciones var√≠an seg√∫n el tipo
- Los errores de tipo son comunes al procesar datos reales

**Tip:** Usa `type()` para verificar el tipo de cualquier variable en Python.

In [None]:
# Listas: colecciones mutables y ordenadas
usuarios = ['Ana', 'Carlos', 'Mar√≠a', 'Juan']
edades = [25, 30, 28, 35]
datos_mixtos = [1, 'texto', 3.14, True, None]

print("üìã Operaciones b√°sicas con listas:")
print(f"   ‚Ä¢ Primer usuario: {usuarios[0]}")
print(f"   ‚Ä¢ √öltimo usuario: {usuarios[-1]}")
print(f"   ‚Ä¢ Primeros 2: {usuarios[:2]}")
print(f"   ‚Ä¢ Longitud: {len(usuarios)}")

# Agregar elementos
usuarios.append('Pedro')
print(f"\n‚úÖ Despu√©s de append: {usuarios}")

# Extender con otra lista
usuarios.extend(['Laura', 'Diego'])
print(f"‚úÖ Despu√©s de extend: {usuarios}")

# Insertar en posici√≥n espec√≠fica
usuarios.insert(1, 'Sofia')
print(f"‚úÖ Despu√©s de insert: {usuarios}")

### 2. Diccionarios - Mapeo Clave-Valor

### üìñ Entendiendo las Listas en Python

**¬øQu√© es una lista?**
Una lista es una **colecci√≥n ordenada y mutable** de elementos. Piensa en ella como una fila de cajones numerados donde puedes guardar cualquier tipo de dato.

**Caracter√≠sticas clave:**
- **Ordenada**: Los elementos mantienen su posici√≥n (√≠ndice)
- **Mutable**: Puedes agregar, eliminar o modificar elementos despu√©s de crearla
- **Heterog√©nea**: Puede contener diferentes tipos de datos en la misma lista
- **Indexada**: Se accede a elementos por su posici√≥n (empezando desde 0)

**Sintaxis b√°sica:**
```python
mi_lista = [elemento1, elemento2, elemento3]
```

**Casos de uso en Data Engineering:**
- Almacenar secuencias de registros
- Procesar datos antes de cargarlos a una base de datos
- Mantener listas de archivos a procesar
- Acumular resultados de queries

**En este bloque aprender√°s:**
1. Crear listas de diferentes formas
2. Acceder a elementos por √≠ndice (positivo y negativo)
3. Hacer slicing (rebanado) para extraer sublistas
4. M√©todos esenciales: append(), extend(), insert(), remove(), pop()
5. Operaciones comunes: longitud, b√∫squeda, ordenamiento

In [None]:
# Diccionarios: estructuras clave-valor (similar a JSON)
usuario = {
    'id': 1,
    'nombre': 'Ana Garc√≠a',
    'email': 'ana@example.com',
    'edad': 28,
    'ciudad': 'Madrid',
    'activo': True,
    'skills': ['Python', 'SQL', 'Pandas']
}

print("üóÇÔ∏è Acceso a diccionarios:")
print(f"   ‚Ä¢ Nombre: {usuario['nombre']}")
print(f"   ‚Ä¢ Email: {usuario.get('email')}")
print(f"   ‚Ä¢ Tel√©fono: {usuario.get('telefono', 'No disponible')}")

# Iterar sobre diccionarios
print("\nüîÑ Iterando sobre el diccionario:")
for clave, valor in usuario.items():
    print(f"   ‚Ä¢ {clave}: {valor}")

# Diccionario anidado (estructura JSON t√≠pica)
empleado = {
    'info_personal': {
        'nombre': 'Carlos',
        'edad': 30
    },
    'info_laboral': {
        'cargo': 'Data Engineer',
        'salario': 50000,
        'departamento': 'IT'
    }
}

print(f"\nüëî Cargo: {empleado['info_laboral']['cargo']}")
print(f"üí∞ Salario: ${empleado['info_laboral']['salario']:,}")

### 3. Sets - Colecciones √önicas

### üìñ Trabajando con Diccionarios (dict)

**¬øQu√© es un diccionario?**
Un diccionario es una **colecci√≥n no ordenada de pares clave-valor**. Es como una agenda telef√≥nica: buscas por nombre (clave) y obtienes el n√∫mero (valor).

**Caracter√≠sticas fundamentales:**
- **Mapeo clave-valor**: Cada elemento tiene una clave √∫nica y su valor asociado
- **Mutable**: Puedes agregar, modificar o eliminar pares despu√©s de crearlo
- **Claves √∫nicas**: No puede haber claves duplicadas (el √∫ltimo valor sobrescribe)
- **Claves inmutables**: Las claves deben ser strings, n√∫meros o tuplas
- **Acceso r√°pido**: O(1) - b√∫squeda por clave es muy eficiente

**Sintaxis b√°sica:**
```python
mi_dict = {
    "clave1": "valor1",
    "clave2": 123,
    "clave3": [1, 2, 3]
}
```

**¬øPor qu√© son cruciales en Data Engineering?**
- Representar registros de bases de datos (cada fila como dict)
- Parsear JSON/APIs (formato nativo de intercambio)
- Configuraciones y metadatos de pipelines
- Agregar datos por categor√≠as/grupos
- Cache de resultados por ID

**En este bloque ver√°s:**
1. Crear diccionarios de m√∫ltiples formas
2. Acceder a valores con `dict[clave]` y `.get()`
3. Agregar y modificar elementos
4. M√©todos √∫tiles: .keys(), .values(), .items(), .update()
5. Iterar sobre diccionarios
6. Diccionarios anidados (estructuras complejas)

In [None]:
# Sets: colecciones sin duplicados y sin orden
ciudades_visitadas = {'Madrid', 'Barcelona', 'Valencia', 'Madrid', 'Sevilla'}
print(f"üåç Ciudades √∫nicas: {ciudades_visitadas}")
print(f"   ‚Ä¢ Total: {len(ciudades_visitadas)} (Madrid no se duplica)")

# Operaciones de conjuntos
equipo_a = {'Ana', 'Carlos', 'Mar√≠a', 'Juan'}
equipo_b = {'Carlos', 'Pedro', 'Laura', 'Juan'}

print("\nüë• Operaciones con sets:")
print(f"   ‚Ä¢ Intersecci√≥n (en ambos): {equipo_a & equipo_b}")
print(f"   ‚Ä¢ Uni√≥n (todos): {equipo_a | equipo_b}")
print(f"   ‚Ä¢ Diferencia (solo A): {equipo_a - equipo_b}")
print(f"   ‚Ä¢ Diferencia sim√©trica: {equipo_a ^ equipo_b}")

# Uso pr√°ctico: eliminar duplicados de una lista
emails = ['user@example.com', 'admin@test.com', 'user@example.com', 'test@demo.com']
emails_unicos = list(set(emails))
print(f"\nüìß Emails √∫nicos: {emails_unicos}")

## üöÄ Comprensiones - C√≥digo Conciso y Eficiente

### List Comprehensions

### üìñ Dominando los Sets (Conjuntos)

**¬øQu√© es un set?**
Un set es una **colecci√≥n no ordenada de elementos √∫nicos**. Es como una bolsa donde no puedes tener dos objetos id√©nticos.

**Caracter√≠sticas distintivas:**
- **Elementos √∫nicos**: Autom√°ticamente elimina duplicados
- **No ordenado**: No tiene √≠ndices, no se puede acceder por posici√≥n
- **Mutable**: Puedes agregar/eliminar elementos
- **Operaciones matem√°ticas**: Uni√≥n, intersecci√≥n, diferencia
- **B√∫squeda r√°pida**: O(1) para verificar si un elemento existe

**Sintaxis:**
```python
mi_set = {1, 2, 3, 4, 5}
set_vacio = set()  # {} crea un dict, no un set!
```

**Casos de uso cr√≠ticos en Data Engineering:**
- **Deduplicaci√≥n**: Eliminar registros duplicados r√°pidamente
- **Validaci√≥n**: Verificar si un ID existe en un conjunto de v√°lidos
- **Comparaci√≥n de datasets**: Encontrar diferencias entre dos fuentes
- **IDs √∫nicos**: Extraer identificadores √∫nicos de logs
- **Filtrado**: Crear listas blancas/negras de valores permitidos

**Operaciones matem√°ticas:**
- **Uni√≥n** (|): Todos los elementos de ambos sets
- **Intersecci√≥n** (&): Solo elementos comunes
- **Diferencia** (-): Elementos en A pero no en B
- **Diferencia sim√©trica** (^): Elementos que est√°n en uno u otro, pero no en ambos

**En este bloque explorar√°s:**
1. Crear sets y convertir listas a sets
2. Agregar/eliminar elementos
3. Operaciones de conjuntos (uni√≥n, intersecci√≥n, diferencia)
4. Verificar membres√≠a con `in`
5. Casos pr√°cticos de deduplicaci√≥n

In [None]:
# List comprehension: forma pythonica de crear listas
numeros = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Forma tradicional
cuadrados_tradicional = []
for num in numeros:
    cuadrados_tradicional.append(num ** 2)

# List comprehension (m√°s eficiente)
cuadrados_comprension = [num ** 2 for num in numeros]

print("üî¢ Cuadrados (comprehension):")
print(f"   {cuadrados_comprension}")

# Con condicional
pares = [num for num in numeros if num % 2 == 0]
print(f"\n‚úÖ N√∫meros pares: {pares}")

# Con if-else
etiquetas = ['Par' if num % 2 == 0 else 'Impar' for num in numeros]
print(f"\nüè∑Ô∏è Etiquetas: {etiquetas}")

# Ejemplo pr√°ctico: limpiar emails
emails_raw = ['  USER@EXAMPLE.COM  ', 'admin@test.com', '  TEST@DEMO.COM']
emails_limpios = [email.strip().lower() for email in emails_raw]
print(f"\nüìß Emails limpios: {emails_limpios}")

### Dictionary y Set Comprehensions

### üìñ List Comprehensions - El Poder de la Sintaxis Compacta

**¬øQu√© son las list comprehensions?**
Son una forma **elegante y pyth√≥nica** de crear listas en una sola l√≠nea de c√≥digo. Es como escribir un bucle `for` de manera comprimida y m√°s legible.

**Sintaxis general:**
```python
nueva_lista = [expresi√≥n for item in iterable if condici√≥n]
```

**Ventajas sobre bucles tradicionales:**
1. **M√°s legible**: Una vez que te acostumbras, es m√°s f√°cil de leer
2. **M√°s r√°pido**: Python optimiza internamente las comprehensions
3. **Menos l√≠neas**: Reduce c√≥digo boilerplate
4. **Pythonic**: Es el estilo idiom√°tico de Python

**Estructura desglosada:**
```python
# Bucle tradicional (4 l√≠neas)
resultado = []
for numero in rango:
    if condicion:
        resultado.append(transformacion)

# List comprehension (1 l√≠nea)
resultado = [transformacion for numero in rango if condicion]
```

**Casos de uso en Data Engineering:**
- Transformar valores (normalizaci√≥n, limpieza)
- Filtrar datasets en memoria
- Extraer campos espec√≠ficos de listas de diccionarios
- Generar rangos num√©ricos con transformaciones
- Parsear y limpiar strings de archivos

**Ejemplos comunes:**
```python
# Cuadrados de n√∫meros pares
cuadrados = [x**2 for x in range(10) if x % 2 == 0]

# Convertir strings a may√∫sculas
mayus = [nombre.upper() for nombre in nombres]

# Extraer IDs de registros
ids = [registro['id'] for registro in registros]
```

**‚ö†Ô∏è Cu√°ndo NO usar comprehensions:**
- L√≥gica muy compleja (dificulta lectura)
- M√∫ltiples niveles de anidamiento (mejor bucles normales)
- Efectos secundarios (prints, escritura a archivos)

**En este bloque practicar√°s:**
1. List comprehensions b√°sicas
2. Comprehensions con filtrado (if)
3. Transformaciones num√©ricas y de texto
4. Comprehensions anidadas (con cuidado)
5. Comparaci√≥n de performance vs bucles

In [None]:
# Dictionary comprehension
numeros = [1, 2, 3, 4, 5]
cuadrados_dict = {num: num**2 for num in numeros}
print("üìä Dictionary comprehension:")
print(f"   {cuadrados_dict}")

# Invertir diccionario
usuario = {'nombre': 'Ana', 'edad': 28, 'ciudad': 'Madrid'}
invertido = {valor: clave for clave, valor in usuario.items()}
print(f"\nüîÑ Diccionario invertido: {invertido}")

# Set comprehension
palabras = ['data', 'python', 'sql', 'data', 'python', 'airflow']
longitudes_unicas = {len(palabra) for palabra in palabras}
print(f"\nüìè Longitudes √∫nicas: {longitudes_unicas}")

# Ejemplo pr√°ctico: contar frecuencias
transacciones = ['compra', 'venta', 'compra', 'compra', 'venta', 'compra']
frecuencias = {tipo: transacciones.count(tipo) for tipo in set(transacciones)}
print(f"\nüìà Frecuencias: {frecuencias}")

## ‚ö° Generadores - Eficiencia de Memoria

### üìñ Dictionary y Set Comprehensions - M√°s All√° de las Listas

**¬øSab√≠as que las comprehensions no son solo para listas?**
Python permite crear **diccionarios y sets** con la misma sintaxis compacta y elegante.

**Dictionary Comprehension:**
```python
{clave_expr: valor_expr for item in iterable if condici√≥n}
```

**Set Comprehension:**
```python
{expresi√≥n for item in iterable if condici√≥n}
```

**¬øC√≥mo distinguirlos?**
- **List**: `[...]` - Corchetes cuadrados
- **Dict**: `{k: v ...}` - Llaves con `:` separando clave-valor
- **Set**: `{x ...}` - Llaves sin `:`, solo expresi√≥n

**Dictionary Comprehensions - Casos de uso:**
1. **Invertir diccionarios**: Cambiar claves por valores
2. **Filtrar diccionarios**: Mantener solo ciertos pares
3. **Transformar valores**: Aplicar funci√≥n a todos los valores
4. **Crear lookups**: ID ‚Üí Objeto desde lista
5. **Agregar datos**: Categoria ‚Üí Lista de items

**Ejemplos pr√°cticos:**
```python
# Invertir dict
invertido = {v: k for k, v in original.items()}

# Filtrar por condici√≥n
mayores = {k: v for k, v in edades.items() if v >= 18}

# Transformar valores
precios_con_iva = {prod: precio * 1.19 for prod, precio in precios.items()}

# Crear lookup desde lista
usuarios_dict = {user['id']: user for user in usuarios_lista}
```

**Set Comprehensions - Casos de uso:**
1. **Extraer valores √∫nicos con transformaci√≥n**
2. **Normalizar y deduplicar en un paso**
3. **Filtrar y obtener conjunto**

**Ejemplos:**
```python
# Emails √∫nicos en min√∫sculas
emails_limpios = {email.lower().strip() for email in emails_raw}

# Extensiones de archivos √∫nicas
extensiones = {archivo.split('.')[-1] for archivo in archivos}
```

**Performance tip:**
Dict/Set comprehensions son m√°s r√°pidas que crear estructuras vac√≠as y llenarlas con bucles.

**En este bloque ver√°s:**
1. Crear diccionarios con comprehensions
2. Invertir y filtrar diccionarios
3. Set comprehensions para deduplicaci√≥n
4. Casos pr√°cticos de transformaci√≥n de datos

In [None]:
import sys

# Lista vs Generador: comparaci√≥n de memoria
lista_grande = [x**2 for x in range(1000000)]
generador_grande = (x**2 for x in range(1000000))

print("üíæ Comparaci√≥n de memoria:")
print(f"   ‚Ä¢ Lista: {sys.getsizeof(lista_grande):,} bytes")
print(f"   ‚Ä¢ Generador: {sys.getsizeof(generador_grande):,} bytes")

# Funci√≥n generadora
def generar_pares(n):
    """Genera n√∫meros pares hasta n"""
    for i in range(0, n+1, 2):
        yield i

print("\nüî¢ Generador de pares:")
for par in generar_pares(10):
    print(f"   {par}", end=' ')

# Generador para procesar archivos grandes (l√≠nea por l√≠nea)
def procesar_archivo_grande(ruta):
    """
    Lee archivo l√≠nea por l√≠nea sin cargar todo en memoria
    """
    try:
        with open(ruta, 'r', encoding='utf-8') as archivo:
            for linea in archivo:
                yield linea.strip()
    except FileNotFoundError:
        print(f"‚ùå Archivo no encontrado: {ruta}")

print("\n\nüìÑ Ejemplo de generador para archivos grandes (implementado)")

## üìÅ Manejo de Archivos y Formatos

### Trabajar con archivos de texto

### üìñ Generadores - La Clave para Procesar Grandes Vol√∫menes de Datos

**¬øQu√© es un generador?**
Un generador es una **funci√≥n especial que produce valores bajo demanda** (lazy evaluation) en lugar de crear toda la secuencia en memoria de una vez.

**¬øPor qu√© son CR√çTICOS en Data Engineering?**
Imagina procesar un archivo CSV de 10 GB:
- **Sin generador**: Cargas todo en memoria ‚Üí üí• MemoryError
- **Con generador**: Procesas l√≠nea por l√≠nea ‚Üí ‚úÖ Solo unos KB en memoria

**Diferencias clave:**

| Aspecto | Lista | Generador |
|---------|-------|-----------|
| Memoria | Toda en RAM | Solo item actual |
| Velocidad inicial | Lenta (crea todo) | R√°pida (lazy) |
| Reutilizable | S√≠ (m√∫ltiples iteraciones) | No (una sola pasada) |
| Sintaxis | `[x for x in ...]` | `(x for x in ...)` |

**Sintaxis:**

**Generador Expression (similar a comprehension):**
```python
generador = (x**2 for x in range(1000000))  # Par√©ntesis en lugar de corchetes
```

**Funci√≥n Generadora (con yield):**
```python
def mi_generador():
    yield 1
    yield 2
    yield 3
```

**La magia de `yield`:**
- Cuando encuentras `yield`, la funci√≥n se "pausa"
- Retorna el valor pero **mantiene su estado**
- La pr√≥xima llamada contin√∫a desde donde se paus√≥

**Casos de uso esenciales:**
1. **Leer archivos grandes**: Procesar l√≠nea por l√≠nea
2. **APIs paginadas**: Iterar sobre p√°ginas sin cargar todo
3. **Streams de datos**: Procesar eventos en tiempo real
4. **Pipelines ETL**: Transformaciones encadenadas eficientes
5. **Infinitos**: Generar secuencias sin l√≠mite (timestamps, IDs)

**Ejemplo pr√°ctico:**
```python
# ‚ùå Malo: Carga todo en memoria
lineas = [linea for linea in archivo]  # Puede ser GB

# ‚úÖ Bueno: Procesa una a la vez
lineas = (linea for linea in archivo)  # Solo bytes actuales
```

**En este bloque aprender√°s:**
1. Crear generadores con expresiones
2. Usar funciones generadoras con `yield`
3. Comparar memoria: lista vs generador
4. Procesar archivos grandes eficientemente
5. Encadenar generadores para pipelines
6. Usar `next()` para controlar la iteraci√≥n

In [None]:
import os
from datetime import datetime

# Crear directorio si no existe
os.makedirs('../datasets/raw', exist_ok=True)

# Escribir archivo de texto
ruta_log = '../datasets/raw/procesamiento.log'

# Context manager (with) garantiza cierre del archivo
with open(ruta_log, 'w', encoding='utf-8') as archivo:
    archivo.write(f"Log de procesamiento\n")
    archivo.write(f"Fecha: {datetime.now()}\n")
    archivo.write(f"Estado: Iniciado\n")
    archivo.write(f"Registros procesados: 0\n")

print(f"‚úÖ Archivo creado: {ruta_log}")

# Leer archivo
with open(ruta_log, 'r', encoding='utf-8') as archivo:
    contenido = archivo.read()
    print("\nüìÑ Contenido del archivo:")
    print(contenido)

# Leer l√≠nea por l√≠nea (mejor para archivos grandes)
print("\nüìã Leyendo l√≠nea por l√≠nea:")
with open(ruta_log, 'r', encoding='utf-8') as archivo:
    for numero_linea, linea in enumerate(archivo, 1):
        print(f"   L√≠nea {numero_linea}: {linea.strip()}")

# Append (agregar al final)
with open(ruta_log, 'a', encoding='utf-8') as archivo:
    archivo.write(f"Estado: Completado\n")
    archivo.write(f"Registros procesados: 1000\n")

print("\n‚úÖ Contenido agregado al archivo")

### Trabajar con JSON

### üìñ Lectura de Archivos - La Puerta de Entrada de los Datos

**¬øQu√© estamos haciendo aqu√≠?**
Abriendo y leyendo archivos es la **operaci√≥n m√°s com√∫n en Data Engineering**. Todo pipeline comienza aqu√≠:
- Logs de servidores
- Archivos CSV/JSON de APIs
- Archivos de configuraci√≥n
- Datos exportados de bases de datos

**El contexto `with` - Tu mejor amigo:**

```python
with open('archivo.txt', 'r') as f:
    contenido = f.read()
```

**¬øPor qu√© usar `with`?**
- **Auto-cierra el archivo**: Incluso si hay error
- **Libera recursos**: Evita file descriptors abiertos
- **M√°s limpio**: No necesitas `f.close()` manual
- **M√°s seguro**: Previene corrupci√≥n de archivos

**M√©todos de lectura:**

| M√©todo | Retorna | Uso ideal |
|--------|---------|-----------|
| `.read()` | String completo | Archivos peque√±os (<10 MB) |
| `.readline()` | Una l√≠nea | Procesamiento controlado |
| `.readlines()` | Lista de l√≠neas | Todo en memoria |
| Iterar `for line in f:` | L√≠nea por l√≠nea (lazy) | üèÜ **Archivos grandes** |

**Modos de apertura:**
- `'r'`: Read (solo lectura) - Por defecto
- `'w'`: Write (sobrescribe todo)
- `'a'`: Append (agrega al final)
- `'r+'`: Read + Write
- `'rb'`: Read binary (para im√°genes, PDFs, etc.)

**Encoding - El enemigo silencioso:**
```python
# ‚ùå Puede fallar con caracteres especiales
open('datos.csv', 'r')

# ‚úÖ Siempre especifica encoding
open('datos.csv', 'r', encoding='utf-8')
```

**Casos de uso en Data Engineering:**
1. **ETL**: Leer fuentes de datos (CSV, JSON, logs)
2. **Configuraci√≥n**: Cargar par√°metros de pipelines
3. **Validaci√≥n**: Verificar formatos antes de procesar
4. **Logging**: Escribir resultados y errores
5. **Backup**: Guardar estados intermedios

**En este bloque ver√°s:**
1. Abrir archivos con `with open()`
2. Leer contenido completo vs l√≠nea por l√≠nea
3. El poder de iterar directamente sobre el archivo
4. Por qu√© `.read()` puede romper tu pipeline
5. Buenas pr√°cticas de gesti√≥n de recursos

In [None]:
import json

# Datos de ejemplo
datos_usuario = {
    'usuarios': [
        {
            'id': 1,
            'nombre': 'Ana Garc√≠a',
            'email': 'ana@example.com',
            'edad': 28,
            'skills': ['Python', 'SQL', 'Pandas'],
            'activo': True
        },
        {
            'id': 2,
            'nombre': 'Carlos L√≥pez',
            'email': 'carlos@example.com',
            'edad': 32,
            'skills': ['Java', 'SQL', 'Spark'],
            'activo': False
        }
    ],
    'metadata': {
        'fecha_creacion': datetime.now().isoformat(),
        'version': '1.0',
        'total_usuarios': 2
    }
}

# Guardar JSON
ruta_json = '../datasets/raw/usuarios.json'
with open(ruta_json, 'w', encoding='utf-8') as archivo:
    json.dump(datos_usuario, archivo, indent=2, ensure_ascii=False)

print(f"‚úÖ JSON guardado: {ruta_json}")

# Leer JSON
with open(ruta_json, 'r', encoding='utf-8') as archivo:
    datos_leidos = json.load(archivo)

print("\nüìä Datos le√≠dos del JSON:")
print(f"   ‚Ä¢ Total usuarios: {datos_leidos['metadata']['total_usuarios']}")
print(f"   ‚Ä¢ Primer usuario: {datos_leidos['usuarios'][0]['nombre']}")

# JSON a string y viceversa
json_string = json.dumps(datos_usuario, indent=2)
print(f"\nüìù JSON como string (primeros 200 chars):\n{json_string[:200]}...")

# String a objeto Python
datos_desde_string = json.loads(json_string)
print(f"\n‚úÖ Convertido de string a Python: {type(datos_desde_string)}")

### Trabajar con CSV

### üìñ JSON - El Lenguaje Universal de las APIs

**¬øQu√© es JSON?**
JSON (JavaScript Object Notation) es el **formato est√°ndar** para intercambiar datos entre sistemas:
- APIs REST retornan JSON
- Bases de datos NoSQL almacenan JSON
- Configuraciones de aplicaciones usan JSON
- Eventos de streaming vienen en JSON

**¬øPor qu√© es tan importante?**
- **Universal**: Todos los lenguajes lo entienden
- **Legible**: Humanos y m√°quinas lo leen f√°cilmente
- **Estructurado**: Representa datos complejos (listas, objetos anidados)
- **Ligero**: Menos pesado que XML

**Mapeo Python ‚Üî JSON:**

| Python | JSON |
|--------|------|
| dict | object |
| list | array |
| str | string |
| int/float | number |
| True/False | true/false |
| None | null |

**Operaciones esenciales:**

**1. Cargar JSON (parse):**
```python
import json

# Desde string
data = json.loads('{"nombre": "Luis", "edad": 30}')

# Desde archivo
with open('datos.json', 'r') as f:
    data = json.load(f)  # Sin 's' - load vs loads
```

**2. Convertir a JSON (stringify):**
```python
# A string
json_str = json.dumps(data, indent=2)  # indent para formatear

# A archivo
with open('salida.json', 'w') as f:
    json.dump(data, f, indent=2)  # Sin 's' - dump vs dumps
```

**Opciones √∫tiles de `json.dumps()`:**
- `indent=2`: Formatea con espacios (legible)
- `sort_keys=True`: Ordena claves alfab√©ticamente
- `ensure_ascii=False`: Permite caracteres UTF-8 (√±, √°, etc.)
- `default=str`: Convierte objetos no serializables a string

**Casos de uso en Data Engineering:**
1. **Consumir APIs**: Parsear respuestas de endpoints REST
2. **Configurar pipelines**: Cargar par√°metros desde archivos
3. **Logs estructurados**: Escribir eventos en formato est√°ndar
4. **Data Lakes**: Almacenar datos semi-estructurados
5. **Message Queues**: Kafka, RabbitMQ usan JSON

**Truco com√∫n - JSON anidado:**
```python
# API de usuarios con direcci√≥n
usuario = {
    "nombre": "Ana",
    "direccion": {
        "ciudad": "Madrid",
        "codigo_postal": "28001"
    }
}

# Acceso anidado
ciudad = usuario["direccion"]["ciudad"]
```

**En este bloque aprender√°s:**
1. Convertir strings JSON a objetos Python con `loads()`
2. Serializar objetos Python a JSON con `dumps()`
3. Leer y escribir archivos JSON
4. Manejar opciones de formato (indent, encoding)
5. Trabajar con estructuras anidadas
6. Debugging com√∫n: `'` vs `"` (JSON requiere comillas dobles)

In [None]:
import csv

# Datos de ejemplo
ventas = [
    ['fecha', 'producto', 'cantidad', 'precio', 'total'],
    ['2024-01-01', 'Laptop', 2, 1000, 2000],
    ['2024-01-02', 'Mouse', 10, 25, 250],
    ['2024-01-03', 'Teclado', 5, 75, 375],
    ['2024-01-04', 'Monitor', 3, 300, 900]
]

# Escribir CSV
ruta_csv = '../datasets/raw/ventas.csv'
with open(ruta_csv, 'w', newline='', encoding='utf-8') as archivo:
    writer = csv.writer(archivo)
    writer.writerows(ventas)

print(f"‚úÖ CSV guardado: {ruta_csv}")

# Leer CSV
with open(ruta_csv, 'r', encoding='utf-8') as archivo:
    reader = csv.reader(archivo)
    print("\nüìä Contenido del CSV:")
    for fila in reader:
        print(f"   {fila}")

# Leer CSV como diccionario
with open(ruta_csv, 'r', encoding='utf-8') as archivo:
    reader = csv.DictReader(archivo)
    print("\nüìã CSV como diccionario:")
    for fila in reader:
        print(f"   {fila['producto']}: ${fila['total']}")

# Escribir CSV desde diccionarios
empleados = [
    {'nombre': 'Ana', 'departamento': 'IT', 'salario': 50000},
    {'nombre': 'Carlos', 'departamento': 'Ventas', 'salario': 45000},
    {'nombre': 'Mar√≠a', 'departamento': 'IT', 'salario': 55000}
]

ruta_empleados = '../datasets/raw/empleados.csv'
with open(ruta_empleados, 'w', newline='', encoding='utf-8') as archivo:
    campos = ['nombre', 'departamento', 'salario']
    writer = csv.DictWriter(archivo, fieldnames=campos)
    writer.writeheader()
    writer.writerows(empleados)

print(f"\n‚úÖ CSV de empleados guardado: {ruta_empleados}")

## üõ°Ô∏è Manejo de Errores y Excepciones

### üìñ CSV - El Pan de Cada D√≠a del Data Engineer

**¬øQu√© es CSV?**
CSV (Comma-Separated Values) es el **formato m√°s com√∫n** para datasets tabulares:
- Exportaciones de Excel
- Reportes de bases de datos
- Datasets de Kaggle
- Logs estructurados

**¬øPor qu√© usar el m√≥dulo `csv` en lugar de split?**

**‚ùå Forma ingenua (NO hacer):**
```python
# Falla con comillas, comas dentro de valores, etc.
for linea in archivo:
    campos = linea.split(',')
```

**‚úÖ Forma correcta (m√≥dulo csv):**
```python
import csv
reader = csv.reader(archivo)
for fila in reader:
    # Maneja casos complejos autom√°ticamente
```

**Problemas que `csv` resuelve:**
1. **Comas dentro de valores**: `"Garc√≠a, Juan"` no se divide incorrectamente
2. **Comillas**: Maneja `"` y `'` correctamente
3. **Saltos de l√≠nea**: Valores multi-l√≠nea en una celda
4. **Diferentes delimitadores**: `,` `;` `\t` `|`
5. **Encoding**: UTF-8, Latin-1, etc.

**Dos formas de leer CSV:**

**1. Como lista (csv.reader):**
```python
with open('datos.csv', 'r') as f:
    reader = csv.reader(f)
    for fila in reader:
        print(fila[0])  # Acceso por √≠ndice
```

**2. Como diccionario (csv.DictReader) - RECOMENDADO:**
```python
with open('datos.csv', 'r') as f:
    reader = csv.DictReader(f)  # Primera fila = headers
    for fila in reader:
        print(fila['nombre'])  # Acceso por nombre de columna
```

**¬øCu√°ndo usar cada uno?**
- **DictReader**: Cuando tienes headers y quieres legibilidad
- **reader**: Cuando no hay headers o necesitas m√°xima velocidad

**Escritura de CSV:**
```python
# Como lista
with open('salida.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['nombre', 'edad'])  # Header
    writer.writerow(['Ana', 25])

# Como diccionario
with open('salida.csv', 'w', newline='') as f:
    fieldnames = ['nombre', 'edad']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerow({'nombre': 'Ana', 'edad': 25})
```

**‚ö†Ô∏è IMPORTANTE: `newline=''` en modo escritura**
- Evita l√≠neas en blanco extra en Windows
- Recomendaci√≥n oficial de la documentaci√≥n Python

**Opciones comunes:**
- `delimiter=';'`: Cambiar separador (com√∫n en Europa)
- `quotechar='"'`: Cambiar caracter de comillas
- `encoding='utf-8'`: Especificar encoding

**Casos de uso en Data Engineering:**
1. **ETL b√°sico**: Leer datos de sistemas legacy
2. **Exportar resultados**: Guardar transformaciones
3. **Integraci√≥n**: Intercambiar datos con Excel/BI tools
4. **Validaci√≥n**: Revisar muestras antes de cargar a DB
5. **Logs tabulares**: Escribir m√©tricas estructuradas

**En este bloque aprender√°s:**
1. Leer CSV con `csv.reader()` vs `csv.DictReader()`
2. Escribir CSV con `csv.writer()` vs `csv.DictWriter()`
3. Manejar headers autom√°ticamente
4. Por qu√© `newline=''` es crucial
5. Diferencias entre acceso por √≠ndice vs por nombre
6. Ventajas sobre split() manual

In [None]:
# Try-except b√°sico
def dividir_seguro(a, b):
    """Divisi√≥n con manejo de errores"""
    try:
        resultado = a / b
        return resultado
    except ZeroDivisionError:
        print("‚ùå Error: No se puede dividir entre cero")
        return None
    except TypeError:
        print("‚ùå Error: Los argumentos deben ser n√∫meros")
        return None

print("üßÆ Pruebas de divisi√≥n:")
print(f"   ‚Ä¢ 10 / 2 = {dividir_seguro(10, 2)}")
print(f"   ‚Ä¢ 10 / 0 = {dividir_seguro(10, 0)}")
print(f"   ‚Ä¢ 10 / 'a' = {dividir_seguro(10, 'a')}")

# Try-except-else-finally
def leer_archivo_completo(ruta):
    """Lee archivo con manejo completo de errores"""
    archivo = None
    try:
        print(f"üîÑ Intentando abrir: {ruta}")
        archivo = open(ruta, 'r', encoding='utf-8')
        contenido = archivo.read()
        
    except FileNotFoundError:
        print(f"‚ùå Error: Archivo no encontrado")
        contenido = None
        
    except PermissionError:
        print(f"‚ùå Error: Sin permisos para leer el archivo")
        contenido = None
        
    else:
        print(f"‚úÖ Archivo le√≠do exitosamente")
        
    finally:
        if archivo:
            archivo.close()
            print(f"üîí Archivo cerrado")
    
    return contenido

print("\nüìÅ Prueba de lectura:")
contenido = leer_archivo_completo('../datasets/raw/ventas.csv')
if contenido:
    print(f"   Primeros 100 caracteres: {contenido[:100]}")

print("\nüìÅ Prueba con archivo inexistente:")
leer_archivo_completo('../datasets/raw/inexistente.txt')

## üîß Funciones Avanzadas para Data Engineering

### üìñ Manejo de Excepciones - Construyendo Pipelines Resilientes

**¬øPor qu√© es CR√çTICO en Data Engineering?**
Los pipelines fallan. No es cuesti√≥n de "si", sino de "cu√°ndo":
- Archivos corruptos
- APIs ca√≠das
- Datos mal formateados
- Conexiones de red perdidas
- Permisos insuficientes

**Un pipeline robusto NO falla silenciosamente**. Debe:
1. Detectar el error
2. Logearlo con contexto
3. Intentar recuperarse
4. Notificar si es cr√≠tico

**Anatom√≠a de try-except:**

```python
try:
    # C√≥digo que puede fallar
    resultado = operacion_riesgosa()
except TipoDeError as e:
    # Manejo espec√≠fico del error
    print(f"Error: {e}")
else:
    # Se ejecuta SI NO hubo error
    print("√âxito")
finally:
    # SIEMPRE se ejecuta (limpiar recursos)
    cerrar_conexion()
```

**Bloques:**
- **try**: C√≥digo protegido
- **except**: Captura errores (puedes tener m√∫ltiples)
- **else**: Solo si no hubo error (opcional)
- **finally**: Limpieza garantizada (opcional pero MUY √∫til)

**Excepciones comunes en Data Engineering:**

| Excepci√≥n | Causa | Ejemplo |
|-----------|-------|---------|
| `FileNotFoundError` | Archivo no existe | Ruta incorrecta |
| `ValueError` | Tipo correcto, valor incorrecto | `int("abc")` |
| `TypeError` | Tipo incorrecto | `"3" + 3` |
| `KeyError` | Clave no existe en dict | `dict['inexistente']` |
| `IndexError` | √çndice fuera de rango | `lista[999]` |
| `ConnectionError` | API/DB inaccesible | Timeout de red |
| `json.JSONDecodeError` | JSON mal formado | Sintaxis inv√°lida |

**Captura espec√≠fica vs gen√©rica:**

**‚ùå Malo (captura todo):**
```python
try:
    procesar_datos()
except:  # Captura TODO, incluso KeyboardInterrupt
    pass  # Y lo ignora silenciosamente
```

**‚úÖ Bueno (espec√≠fico y con log):**
```python
try:
    procesar_datos()
except FileNotFoundError as e:
    logging.error(f"Archivo no encontrado: {e}")
    usar_fuente_alternativa()
except ValueError as e:
    logging.error(f"Dato inv√°lido: {e}")
    saltar_registro()
```

**Estrategias de recuperaci√≥n:**

**1. Reintentos (retry):**
```python
for intento in range(3):
    try:
        llamar_api()
        break  # √âxito, salir del loop
    except ConnectionError:
        if intento < 2:
            time.sleep(2 ** intento)  # Backoff exponencial
        else:
            raise  # √öltimo intento, propagar error
```

**2. Fallback (fuente alternativa):**
```python
try:
    datos = leer_desde_api()
except ConnectionError:
    datos = leer_desde_cache()
```

**3. Skip (continuar con siguiente):**
```python
for archivo in archivos:
    try:
        procesar(archivo)
    except ValueError:
        logging.warning(f"Saltando {archivo}")
        continue
```

**Logging + Excepciones = ‚ù§Ô∏è**
```python
import logging

try:
    procesar_pipeline()
except Exception as e:
    logging.exception("Pipeline fall√≥")  # Auto-incluye traceback
    raise  # Re-lanzar para que Airflow lo detecte
```

**Casos de uso en Data Engineering:**
1. **APIs no confiables**: Reintentos con backoff
2. **Datos sucios**: Validar y saltar registros malos
3. **Cargas parciales**: Procesar lo que se pueda, logear lo que falla
4. **Notificaciones**: Alertar cuando errores cr√≠ticos ocurren
5. **Idempotencia**: Usar `finally` para limpiar estados parciales

**En este bloque aprender√°s:**
1. Estructura completa try-except-else-finally
2. Captura de m√∫ltiples excepciones espec√≠ficas
3. Usar `as e` para acceder al mensaje de error
4. Diferencia entre capturar y propagar (`raise`)
5. Por qu√© `except:` sin tipo es peligroso
6. Combinar excepciones con logging
7. Patrones de retry y fallback

In [None]:
from typing import List, Dict, Optional, Union
import logging

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(levelname)s: %(message)s')
logger = logging.getLogger(__name__)

def validar_email(email: str) -> bool:
    """
    Valida formato b√°sico de email
    
    Args:
        email: String con el email a validar
        
    Returns:
        bool: True si el formato es v√°lido
    """
    return '@' in email and '.' in email.split('@')[1]

def limpiar_datos_usuario(
    usuarios: List[Dict],
    campos_requeridos: Optional[List[str]] = None
) -> List[Dict]:
    """
    Limpia y valida lista de usuarios
    
    Args:
        usuarios: Lista de diccionarios con datos de usuarios
        campos_requeridos: Lista de campos que deben existir
        
    Returns:
        Lista de usuarios v√°lidos y limpios
    """
    if campos_requeridos is None:
        campos_requeridos = ['nombre', 'email']
    
    usuarios_limpios = []
    
    for i, usuario in enumerate(usuarios):
        try:
            # Validar campos requeridos
            for campo in campos_requeridos:
                if campo not in usuario:
                    logger.warning(f"Usuario {i}: Falta campo '{campo}'")
                    raise ValueError(f"Campo requerido faltante: {campo}")
            
            # Limpiar email
            email_limpio = usuario['email'].strip().lower()
            
            # Validar email
            if not validar_email(email_limpio):
                logger.warning(f"Usuario {i}: Email inv√°lido '{email_limpio}'")
                continue
            
            # Crear usuario limpio
            usuario_limpio = {
                'nombre': usuario['nombre'].strip().title(),
                'email': email_limpio,
                'edad': usuario.get('edad'),
                'ciudad': usuario.get('ciudad', 'No especificada')
            }
            
            usuarios_limpios.append(usuario_limpio)
            logger.info(f"Usuario {i}: Procesado correctamente")
            
        except Exception as e:
            logger.error(f"Usuario {i}: Error al procesar - {e}")
            continue
    
    return usuarios_limpios

# Probar funci√≥n
usuarios_raw = [
    {'nombre': '  ana garcia  ', 'email': '  ANA@EXAMPLE.COM  ', 'edad': 28},
    {'nombre': 'carlos lopez', 'email': 'carlos@test.com', 'ciudad': 'Madrid'},
    {'nombre': 'maria', 'email': 'email_invalido', 'edad': 25},  # Email inv√°lido
    {'email': 'pedro@test.com'},  # Falta nombre
    {'nombre': 'laura diaz', 'email': 'laura@example.com', 'edad': 30}
]

print("üßπ Limpiando datos de usuarios:\n")
usuarios_limpios = limpiar_datos_usuario(usuarios_raw)

print(f"\nüìä Resultado:")
print(f"   ‚Ä¢ Usuarios originales: {len(usuarios_raw)}")
print(f"   ‚Ä¢ Usuarios v√°lidos: {len(usuarios_limpios)}")
print(f"\n‚úÖ Usuarios limpios:")
for usuario in usuarios_limpios:
    print(f"   {usuario}")

## üéØ Ejercicio Pr√°ctico Final

Crea un sistema de procesamiento de datos que:

1. Lea un archivo JSON con transacciones
2. Limpie y valide los datos
3. Calcule estad√≠sticas agregadas
4. Guarde resultados en CSV
5. Maneje todos los errores apropiadamente

### üìñ Funciones Avanzadas - Los Bloques de Construcci√≥n de Pipelines

**¬øQu√© hace diferente a una funci√≥n en Data Engineering?**
No es solo "c√≥digo reutilizable". Una buena funci√≥n debe:
- **Ser predecible**: Mismo input ‚Üí mismo output
- **Tener un prop√≥sito claro**: Hace UNA cosa bien
- **Ser teste√°ble**: F√°cil de validar con unit tests
- **Manejar errores**: No fallar silenciosamente
- **Estar documentada**: Docstrings claros

**Estructura completa:**

```python
def nombre_descriptivo(param1: tipo, param2: tipo = default) -> tipo_retorno:
    """
    Descripci√≥n breve de lo que hace.
    
    Args:
        param1: Descripci√≥n del par√°metro
        param2: Descripci√≥n del par√°metro (opcional)
    
    Returns:
        Descripci√≥n del valor retornado
    
    Raises:
        TipoError: Cu√°ndo y por qu√© lanza esta excepci√≥n
    """
    # Validaci√≥n de inputs
    if not isinstance(param1, tipo):
        raise TypeError(f"Se esperaba {tipo}, recibido {type(param1)}")
    
    # L√≥gica de la funci√≥n
    resultado = procesar(param1, param2)
    
    # Retorno expl√≠cito
    return resultado
```

**Type Hints - Tu mejor amigo:**
```python
def procesar_datos(archivo: str, encoding: str = 'utf-8') -> dict:
    # IDE te autocompleta
    # Mypy valida tipos
    # C√≥digo auto-documentado
```

**Argumentos posicionales vs keyword:**
```python
# Posicionales: Orden importa
def dividir(a, b):
    return a / b

dividir(10, 2)  # 5.0
dividir(2, 10)  # 0.2 ‚Üê Diferente!

# Keyword: Orden no importa
dividir(b=2, a=10)  # 5.0 ‚Üê Mismo resultado
```

**Par√°metros por defecto - CUIDADO con mutables:**
```python
# ‚ùå BUG CL√ÅSICO
def agregar_item(item, lista=[]):
    lista.append(item)
    return lista

agregar_item(1)  # [1]
agregar_item(2)  # [1, 2] ‚Üê ¬°WTF! Esper√°bamos [2]

# ‚úÖ CORRECTO
def agregar_item(item, lista=None):
    if lista is None:
        lista = []
    lista.append(item)
    return lista
```

**`*args` y `**kwargs` - Flexibilidad:**
```python
# *args: Argumentos posicionales variables
def sumar_todos(*numeros):
    return sum(numeros)

sumar_todos(1, 2, 3, 4, 5)  # 15

# **kwargs: Argumentos keyword variables
def imprimir_config(**config):
    for clave, valor in config.items():
        print(f"{clave}: {valor}")

imprimir_config(host="localhost", puerto=5432, usuario="admin")
```

**Docstrings - Documentaci√≥n integrada:**
```python
def extraer_datos(fuente: str, formato: str = 'csv') -> pd.DataFrame:
    """
    Extrae datos de una fuente y retorna un DataFrame.
    
    Esta funci√≥n soporta m√∫ltiples formatos y maneja errores
    comunes como archivos faltantes o formatos incorrectos.
    
    Args:
        fuente: Ruta al archivo o URL de la API
        formato: Formato de los datos ('csv', 'json', 'parquet')
    
    Returns:
        DataFrame con los datos cargados
    
    Raises:
        FileNotFoundError: Si el archivo no existe
        ValueError: Si el formato no es soportado
    
    Example:
        >>> df = extraer_datos('datos.csv')
        >>> df = extraer_datos('api.com/datos', formato='json')
    """
    # Implementaci√≥n...
```

**Retornos m√∫ltiples:**
```python
# Retornar tupla
def estadisticas(datos):
    return len(datos), sum(datos), sum(datos)/len(datos)

total, suma, promedio = estadisticas([1, 2, 3, 4, 5])

# Retornar diccionario (m√°s legible)
def estadisticas(datos):
    return {
        'total': len(datos),
        'suma': sum(datos),
        'promedio': sum(datos)/len(datos)
    }

stats = estadisticas([1, 2, 3])
print(stats['promedio'])
```

**Casos de uso en Data Engineering:**
1. **Transformaciones**: Funciones puras que transforman datos
2. **Validaciones**: Verificar calidad de datos
3. **Conectores**: Abstraer conexiones a APIs/DBs
4. **Utilidades**: Helpers reutilizables en m√∫ltiples pipelines
5. **ETL Steps**: Cada paso del pipeline como funci√≥n teste√°ble

**Principios de dise√±o:**
- **DRY** (Don't Repeat Yourself): Si lo haces 3 veces, es una funci√≥n
- **Single Responsibility**: Una funci√≥n = una responsabilidad
- **Fail Fast**: Validar inputs al inicio
- **Naming**: `obtener_datos_usuario()` > `datos()`

**En este bloque ver√°s:**
1. Definir funciones con type hints
2. Par√°metros posicionales, keyword, y por defecto
3. `*args` y `**kwargs` para flexibilidad
4. Docstrings siguiendo convenciones
5. Retornos simples vs m√∫ltiples
6. Validaci√≥n de inputs
7. El bug de listas mutables en defaults
8. C√≥mo estructurar funciones teste√°bles

In [None]:
# Crear datos de ejemplo
transacciones_raw = {
    'transacciones': [
        {'id': 1, 'fecha': '2024-01-01', 'producto': 'Laptop', 'cantidad': 2, 'precio': 1000},
        {'id': 2, 'fecha': '2024-01-02', 'producto': 'Mouse', 'cantidad': 10, 'precio': 25},
        {'id': 3, 'fecha': '2024-01-03', 'producto': 'Laptop', 'cantidad': 1, 'precio': 1000},
        {'id': 4, 'fecha': '2024-01-04', 'producto': 'Teclado', 'cantidad': -1, 'precio': 75},  # Cantidad negativa
        {'id': 5, 'fecha': '2024-01-05', 'producto': 'Monitor', 'cantidad': 3, 'precio': 300},
        {'id': 6, 'fecha': 'invalida', 'producto': 'Mouse', 'cantidad': 5, 'precio': 25},  # Fecha inv√°lida
    ]
}

# Guardar JSON de ejemplo
with open('../datasets/raw/transacciones.json', 'w') as f:
    json.dump(transacciones_raw, f, indent=2)

print("‚úÖ Archivo de transacciones creado")
print("\nüìù Ahora implementa tu soluci√≥n en las celdas siguientes:")
print("   1. Leer el JSON")
print("   2. Validar datos (cantidad > 0, fecha v√°lida)")
print("   3. Calcular total por transacci√≥n")
print("   4. Agrupar por producto (suma de cantidades y totales)")
print("   5. Guardar resultados en CSV")

In [None]:
# üöÄ TU SOLUCI√ìN AQU√ç
from datetime import datetime
from collections import defaultdict

def procesar_transacciones(ruta_json: str, ruta_csv_salida: str) -> Dict:
    """
    Procesa archivo de transacciones completo
    
    Args:
        ruta_json: Ruta del archivo JSON de entrada
        ruta_csv_salida: Ruta del archivo CSV de salida
        
    Returns:
        Diccionario con estad√≠sticas del procesamiento
    """
    try:
        # 1. Leer JSON
        with open(ruta_json, 'r') as f:
            datos = json.load(f)
        
        transacciones = datos['transacciones']
        print(f"üì• Le√≠das {len(transacciones)} transacciones")
        
        # 2. Validar y limpiar
        transacciones_validas = []
        errores = 0
        
        for trans in transacciones:
            try:
                # Validar cantidad positiva
                if trans['cantidad'] <= 0:
                    raise ValueError(f"Cantidad inv√°lida: {trans['cantidad']}")
                
                # Validar fecha
                datetime.strptime(trans['fecha'], '%Y-%m-%d')
                
                # Calcular total
                trans['total'] = trans['cantidad'] * trans['precio']
                
                transacciones_validas.append(trans)
                
            except (ValueError, KeyError) as e:
                logger.warning(f"Transacci√≥n ID {trans.get('id')}: {e}")
                errores += 1
        
        print(f"‚úÖ Transacciones v√°lidas: {len(transacciones_validas)}")
        print(f"‚ùå Transacciones con errores: {errores}")
        
        # 3. Agrupar por producto
        resumen_productos = defaultdict(lambda: {'cantidad': 0, 'total': 0, 'transacciones': 0})
        
        for trans in transacciones_validas:
            producto = trans['producto']
            resumen_productos[producto]['cantidad'] += trans['cantidad']
            resumen_productos[producto]['total'] += trans['total']
            resumen_productos[producto]['transacciones'] += 1
        
        # 4. Guardar en CSV
        with open(ruta_csv_salida, 'w', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(['producto', 'cantidad_total', 'monto_total', 'num_transacciones', 'precio_promedio'])
            
            for producto, stats in resumen_productos.items():
                precio_prom = stats['total'] / stats['cantidad']
                writer.writerow([
                    producto,
                    stats['cantidad'],
                    stats['total'],
                    stats['transacciones'],
                    round(precio_prom, 2)
                ])
        
        print(f"\nüíæ Resultados guardados en: {ruta_csv_salida}")
        
        return {
            'total_leidas': len(transacciones),
            'total_validas': len(transacciones_validas),
            'total_errores': errores,
            'productos_unicos': len(resumen_productos)
        }
        
    except Exception as e:
        logger.error(f"Error al procesar transacciones: {e}")
        return None

# Ejecutar procesamiento
stats = procesar_transacciones(
    '../datasets/raw/transacciones.json',
    '../datasets/processed/resumen_productos.csv'
)

if stats:
    print("\nüìä Estad√≠sticas finales:")
    for clave, valor in stats.items():
        print(f"   ‚Ä¢ {clave}: {valor}")
    
    # Leer y mostrar resultados
    print("\nüìã Resumen por producto:")
    with open('../datasets/processed/resumen_productos.csv', 'r') as f:
        reader = csv.DictReader(f)
        for fila in reader:
            print(f"   ‚Ä¢ {fila['producto']}: {fila['cantidad_total']} unidades, ${fila['monto_total']}")

## üéì Resumen y Conclusiones

### ‚úÖ Lo que aprendiste:

1. **Estructuras de Datos**
   - Listas, diccionarios, sets y tuplas
   - Cu√°ndo usar cada una
   - Operaciones comunes y eficientes

2. **Comprensiones**
   - List, dict y set comprehensions
   - C√≥digo m√°s pyth√≥nico y legible
   - Mejor performance

3. **Generadores**
   - Procesamiento eficiente en memoria
   - Ideal para archivos grandes
   - yield vs return

4. **Manejo de Archivos**
   - Texto plano, JSON y CSV
   - Context managers (with)
   - Encoding y buenas pr√°cticas

5. **Manejo de Errores**
   - try-except-else-finally
   - Diferentes tipos de excepciones
   - Logging para debugging

6. **Funciones Avanzadas**
   - Type hints
   - Docstrings
   - Validaci√≥n de datos

### üîú Pr√≥ximos pasos:

- **03_pandas_fundamentos.ipynb**: Manipulaci√≥n de datos con Pandas
- **04_sql_basico.ipynb**: Consultas SQL y bases de datos
- **05_limpieza_datos.ipynb**: T√©cnicas avanzadas de limpieza

### üè† Tarea:

1. Practica las comprensiones con diferentes datasets
2. Crea funciones reutilizables para validaci√≥n de datos
3. Implementa un pipeline completo con manejo de errores

---

**¬°Excelente trabajo! Ahora dominas las bases de Python para Data Engineering** üéâ