# 🐍 Junior - 02. Python para Manipulación de Datos

**Objetivos de Aprendizaje:**
- [ ] Dominar estructuras de datos en Python (listas, diccionarios, sets)
- [ ] Trabajar eficientemente con archivos y formatos de datos
- [ ] Aplicar comprensiones y generadores para optimizar código
- [ ] Manejar errores y excepciones correctamente
- [ ] Implementar funciones reutilizables

**Duración Estimada:** 90 minutos  
**Nivel de Dificultad:** Principiante-Intermedio  
**Prerrequisitos:** 01_introduccion_ingenieria_datos.ipynb

---

## 📦 Estructuras de Datos Fundamentales

### 1. Listas - Colecciones Ordenadas

In [None]:
# Listas: colecciones mutables y ordenadas
usuarios = ['Ana', 'Carlos', 'María', 'Juan']
edades = [25, 30, 28, 35]
datos_mixtos = [1, 'texto', 3.14, True, None]

print("📋 Operaciones básicas con listas:")
print(f"   • Primer usuario: {usuarios[0]}")
print(f"   • Último usuario: {usuarios[-1]}")
print(f"   • Primeros 2: {usuarios[:2]}")
print(f"   • Longitud: {len(usuarios)}")

# Agregar elementos
usuarios.append('Pedro')
print(f"\n✅ Después de append: {usuarios}")

# Extender con otra lista
usuarios.extend(['Laura', 'Diego'])
print(f"✅ Después de extend: {usuarios}")

# Insertar en posición específica
usuarios.insert(1, 'Sofia')
print(f"✅ Después de insert: {usuarios}")

### 2. Diccionarios - Mapeo Clave-Valor

In [None]:
# Diccionarios: estructuras clave-valor (similar a JSON)
usuario = {
    'id': 1,
    'nombre': 'Ana García',
    'email': 'ana@example.com',
    'edad': 28,
    'ciudad': 'Madrid',
    'activo': True,
    'skills': ['Python', 'SQL', 'Pandas']
}

print("🗂️ Acceso a diccionarios:")
print(f"   • Nombre: {usuario['nombre']}")
print(f"   • Email: {usuario.get('email')}")
print(f"   • Teléfono: {usuario.get('telefono', 'No disponible')}")

# Iterar sobre diccionarios
print("\n🔄 Iterando sobre el diccionario:")
for clave, valor in usuario.items():
    print(f"   • {clave}: {valor}")

# Diccionario anidado (estructura JSON típica)
empleado = {
    'info_personal': {
        'nombre': 'Carlos',
        'edad': 30
    },
    'info_laboral': {
        'cargo': 'Data Engineer',
        'salario': 50000,
        'departamento': 'IT'
    }
}

print(f"\n👔 Cargo: {empleado['info_laboral']['cargo']}")
print(f"💰 Salario: ${empleado['info_laboral']['salario']:,}")

### 3. Sets - Colecciones Únicas

In [None]:
# Sets: colecciones sin duplicados y sin orden
ciudades_visitadas = {'Madrid', 'Barcelona', 'Valencia', 'Madrid', 'Sevilla'}
print(f"🌍 Ciudades únicas: {ciudades_visitadas}")
print(f"   • Total: {len(ciudades_visitadas)} (Madrid no se duplica)")

# Operaciones de conjuntos
equipo_a = {'Ana', 'Carlos', 'María', 'Juan'}
equipo_b = {'Carlos', 'Pedro', 'Laura', 'Juan'}

print("\n👥 Operaciones con sets:")
print(f"   • Intersección (en ambos): {equipo_a & equipo_b}")
print(f"   • Unión (todos): {equipo_a | equipo_b}")
print(f"   • Diferencia (solo A): {equipo_a - equipo_b}")
print(f"   • Diferencia simétrica: {equipo_a ^ equipo_b}")

# Uso práctico: eliminar duplicados de una lista
emails = ['user@example.com', 'admin@test.com', 'user@example.com', 'test@demo.com']
emails_unicos = list(set(emails))
print(f"\n📧 Emails únicos: {emails_unicos}")

## 🚀 Comprensiones - Código Conciso y Eficiente

### List Comprehensions

In [None]:
# List comprehension: forma pythonica de crear listas
numeros = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Forma tradicional
cuadrados_tradicional = []
for num in numeros:
    cuadrados_tradicional.append(num ** 2)

# List comprehension (más eficiente)
cuadrados_comprension = [num ** 2 for num in numeros]

print("🔢 Cuadrados (comprehension):")
print(f"   {cuadrados_comprension}")

# Con condicional
pares = [num for num in numeros if num % 2 == 0]
print(f"\n✅ Números pares: {pares}")

# Con if-else
etiquetas = ['Par' if num % 2 == 0 else 'Impar' for num in numeros]
print(f"\n🏷️ Etiquetas: {etiquetas}")

# Ejemplo práctico: limpiar emails
emails_raw = ['  USER@EXAMPLE.COM  ', 'admin@test.com', '  TEST@DEMO.COM']
emails_limpios = [email.strip().lower() for email in emails_raw]
print(f"\n📧 Emails limpios: {emails_limpios}")

### Dictionary y Set Comprehensions

In [None]:
# Dictionary comprehension
numeros = [1, 2, 3, 4, 5]
cuadrados_dict = {num: num**2 for num in numeros}
print("📊 Dictionary comprehension:")
print(f"   {cuadrados_dict}")

# Invertir diccionario
usuario = {'nombre': 'Ana', 'edad': 28, 'ciudad': 'Madrid'}
invertido = {valor: clave for clave, valor in usuario.items()}
print(f"\n🔄 Diccionario invertido: {invertido}")

# Set comprehension
palabras = ['data', 'python', 'sql', 'data', 'python', 'airflow']
longitudes_unicas = {len(palabra) for palabra in palabras}
print(f"\n📏 Longitudes únicas: {longitudes_unicas}")

# Ejemplo práctico: contar frecuencias
transacciones = ['compra', 'venta', 'compra', 'compra', 'venta', 'compra']
frecuencias = {tipo: transacciones.count(tipo) for tipo in set(transacciones)}
print(f"\n📈 Frecuencias: {frecuencias}")

## ⚡ Generadores - Eficiencia de Memoria

In [None]:
import sys

# Lista vs Generador: comparación de memoria
lista_grande = [x**2 for x in range(1000000)]
generador_grande = (x**2 for x in range(1000000))

print("💾 Comparación de memoria:")
print(f"   • Lista: {sys.getsizeof(lista_grande):,} bytes")
print(f"   • Generador: {sys.getsizeof(generador_grande):,} bytes")

# Función generadora
def generar_pares(n):
    """Genera números pares hasta n"""
    for i in range(0, n+1, 2):
        yield i

print("\n🔢 Generador de pares:")
for par in generar_pares(10):
    print(f"   {par}", end=' ')

# Generador para procesar archivos grandes (línea por línea)
def procesar_archivo_grande(ruta):
    """
    Lee archivo línea por línea sin cargar todo en memoria
    """
    try:
        with open(ruta, 'r', encoding='utf-8') as archivo:
            for linea in archivo:
                yield linea.strip()
    except FileNotFoundError:
        print(f"❌ Archivo no encontrado: {ruta}")

print("\n\n📄 Ejemplo de generador para archivos grandes (implementado)")

## 📁 Manejo de Archivos y Formatos

### Trabajar con archivos de texto

In [None]:
import os
from datetime import datetime

# Crear directorio si no existe
os.makedirs('../datasets/raw', exist_ok=True)

# Escribir archivo de texto
ruta_log = '../datasets/raw/procesamiento.log'

# Context manager (with) garantiza cierre del archivo
with open(ruta_log, 'w', encoding='utf-8') as archivo:
    archivo.write(f"Log de procesamiento\n")
    archivo.write(f"Fecha: {datetime.now()}\n")
    archivo.write(f"Estado: Iniciado\n")
    archivo.write(f"Registros procesados: 0\n")

print(f"✅ Archivo creado: {ruta_log}")

# Leer archivo
with open(ruta_log, 'r', encoding='utf-8') as archivo:
    contenido = archivo.read()
    print("\n📄 Contenido del archivo:")
    print(contenido)

# Leer línea por línea (mejor para archivos grandes)
print("\n📋 Leyendo línea por línea:")
with open(ruta_log, 'r', encoding='utf-8') as archivo:
    for numero_linea, linea in enumerate(archivo, 1):
        print(f"   Línea {numero_linea}: {linea.strip()}")

# Append (agregar al final)
with open(ruta_log, 'a', encoding='utf-8') as archivo:
    archivo.write(f"Estado: Completado\n")
    archivo.write(f"Registros procesados: 1000\n")

print("\n✅ Contenido agregado al archivo")

### Trabajar con JSON

In [None]:
import json

# Datos de ejemplo
datos_usuario = {
    'usuarios': [
        {
            'id': 1,
            'nombre': 'Ana García',
            'email': 'ana@example.com',
            'edad': 28,
            'skills': ['Python', 'SQL', 'Pandas'],
            'activo': True
        },
        {
            'id': 2,
            'nombre': 'Carlos López',
            'email': 'carlos@example.com',
            'edad': 32,
            'skills': ['Java', 'SQL', 'Spark'],
            'activo': False
        }
    ],
    'metadata': {
        'fecha_creacion': datetime.now().isoformat(),
        'version': '1.0',
        'total_usuarios': 2
    }
}

# Guardar JSON
ruta_json = '../datasets/raw/usuarios.json'
with open(ruta_json, 'w', encoding='utf-8') as archivo:
    json.dump(datos_usuario, archivo, indent=2, ensure_ascii=False)

print(f"✅ JSON guardado: {ruta_json}")

# Leer JSON
with open(ruta_json, 'r', encoding='utf-8') as archivo:
    datos_leidos = json.load(archivo)

print("\n📊 Datos leídos del JSON:")
print(f"   • Total usuarios: {datos_leidos['metadata']['total_usuarios']}")
print(f"   • Primer usuario: {datos_leidos['usuarios'][0]['nombre']}")

# JSON a string y viceversa
json_string = json.dumps(datos_usuario, indent=2)
print(f"\n📝 JSON como string (primeros 200 chars):\n{json_string[:200]}...")

# String a objeto Python
datos_desde_string = json.loads(json_string)
print(f"\n✅ Convertido de string a Python: {type(datos_desde_string)}")

### Trabajar con CSV

In [None]:
import csv

# Datos de ejemplo
ventas = [
    ['fecha', 'producto', 'cantidad', 'precio', 'total'],
    ['2024-01-01', 'Laptop', 2, 1000, 2000],
    ['2024-01-02', 'Mouse', 10, 25, 250],
    ['2024-01-03', 'Teclado', 5, 75, 375],
    ['2024-01-04', 'Monitor', 3, 300, 900]
]

# Escribir CSV
ruta_csv = '../datasets/raw/ventas.csv'
with open(ruta_csv, 'w', newline='', encoding='utf-8') as archivo:
    writer = csv.writer(archivo)
    writer.writerows(ventas)

print(f"✅ CSV guardado: {ruta_csv}")

# Leer CSV
with open(ruta_csv, 'r', encoding='utf-8') as archivo:
    reader = csv.reader(archivo)
    print("\n📊 Contenido del CSV:")
    for fila in reader:
        print(f"   {fila}")

# Leer CSV como diccionario
with open(ruta_csv, 'r', encoding='utf-8') as archivo:
    reader = csv.DictReader(archivo)
    print("\n📋 CSV como diccionario:")
    for fila in reader:
        print(f"   {fila['producto']}: ${fila['total']}")

# Escribir CSV desde diccionarios
empleados = [
    {'nombre': 'Ana', 'departamento': 'IT', 'salario': 50000},
    {'nombre': 'Carlos', 'departamento': 'Ventas', 'salario': 45000},
    {'nombre': 'María', 'departamento': 'IT', 'salario': 55000}
]

ruta_empleados = '../datasets/raw/empleados.csv'
with open(ruta_empleados, 'w', newline='', encoding='utf-8') as archivo:
    campos = ['nombre', 'departamento', 'salario']
    writer = csv.DictWriter(archivo, fieldnames=campos)
    writer.writeheader()
    writer.writerows(empleados)

print(f"\n✅ CSV de empleados guardado: {ruta_empleados}")

## 🛡️ Manejo de Errores y Excepciones

In [None]:
# Try-except básico
def dividir_seguro(a, b):
    """División con manejo de errores"""
    try:
        resultado = a / b
        return resultado
    except ZeroDivisionError:
        print("❌ Error: No se puede dividir entre cero")
        return None
    except TypeError:
        print("❌ Error: Los argumentos deben ser números")
        return None

print("🧮 Pruebas de división:")
print(f"   • 10 / 2 = {dividir_seguro(10, 2)}")
print(f"   • 10 / 0 = {dividir_seguro(10, 0)}")
print(f"   • 10 / 'a' = {dividir_seguro(10, 'a')}")

# Try-except-else-finally
def leer_archivo_completo(ruta):
    """Lee archivo con manejo completo de errores"""
    archivo = None
    try:
        print(f"🔄 Intentando abrir: {ruta}")
        archivo = open(ruta, 'r', encoding='utf-8')
        contenido = archivo.read()
        
    except FileNotFoundError:
        print(f"❌ Error: Archivo no encontrado")
        contenido = None
        
    except PermissionError:
        print(f"❌ Error: Sin permisos para leer el archivo")
        contenido = None
        
    else:
        print(f"✅ Archivo leído exitosamente")
        
    finally:
        if archivo:
            archivo.close()
            print(f"🔒 Archivo cerrado")
    
    return contenido

print("\n📁 Prueba de lectura:")
contenido = leer_archivo_completo('../datasets/raw/ventas.csv')
if contenido:
    print(f"   Primeros 100 caracteres: {contenido[:100]}")

print("\n📁 Prueba con archivo inexistente:")
leer_archivo_completo('../datasets/raw/inexistente.txt')

## 🔧 Funciones Avanzadas para Data Engineering

In [None]:
from typing import List, Dict, Optional, Union
import logging

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(levelname)s: %(message)s')
logger = logging.getLogger(__name__)

def validar_email(email: str) -> bool:
    """
    Valida formato básico de email
    
    Args:
        email: String con el email a validar
        
    Returns:
        bool: True si el formato es válido
    """
    return '@' in email and '.' in email.split('@')[1]

def limpiar_datos_usuario(
    usuarios: List[Dict],
    campos_requeridos: Optional[List[str]] = None
) -> List[Dict]:
    """
    Limpia y valida lista de usuarios
    
    Args:
        usuarios: Lista de diccionarios con datos de usuarios
        campos_requeridos: Lista de campos que deben existir
        
    Returns:
        Lista de usuarios válidos y limpios
    """
    if campos_requeridos is None:
        campos_requeridos = ['nombre', 'email']
    
    usuarios_limpios = []
    
    for i, usuario in enumerate(usuarios):
        try:
            # Validar campos requeridos
            for campo in campos_requeridos:
                if campo not in usuario:
                    logger.warning(f"Usuario {i}: Falta campo '{campo}'")
                    raise ValueError(f"Campo requerido faltante: {campo}")
            
            # Limpiar email
            email_limpio = usuario['email'].strip().lower()
            
            # Validar email
            if not validar_email(email_limpio):
                logger.warning(f"Usuario {i}: Email inválido '{email_limpio}'")
                continue
            
            # Crear usuario limpio
            usuario_limpio = {
                'nombre': usuario['nombre'].strip().title(),
                'email': email_limpio,
                'edad': usuario.get('edad'),
                'ciudad': usuario.get('ciudad', 'No especificada')
            }
            
            usuarios_limpios.append(usuario_limpio)
            logger.info(f"Usuario {i}: Procesado correctamente")
            
        except Exception as e:
            logger.error(f"Usuario {i}: Error al procesar - {e}")
            continue
    
    return usuarios_limpios

# Probar función
usuarios_raw = [
    {'nombre': '  ana garcia  ', 'email': '  ANA@EXAMPLE.COM  ', 'edad': 28},
    {'nombre': 'carlos lopez', 'email': 'carlos@test.com', 'ciudad': 'Madrid'},
    {'nombre': 'maria', 'email': 'email_invalido', 'edad': 25},  # Email inválido
    {'email': 'pedro@test.com'},  # Falta nombre
    {'nombre': 'laura diaz', 'email': 'laura@example.com', 'edad': 30}
]

print("🧹 Limpiando datos de usuarios:\n")
usuarios_limpios = limpiar_datos_usuario(usuarios_raw)

print(f"\n📊 Resultado:")
print(f"   • Usuarios originales: {len(usuarios_raw)}")
print(f"   • Usuarios válidos: {len(usuarios_limpios)}")
print(f"\n✅ Usuarios limpios:")
for usuario in usuarios_limpios:
    print(f"   {usuario}")

## 🎯 Ejercicio Práctico Final

Crea un sistema de procesamiento de datos que:

1. Lea un archivo JSON con transacciones
2. Limpie y valide los datos
3. Calcule estadísticas agregadas
4. Guarde resultados en CSV
5. Maneje todos los errores apropiadamente

In [None]:
# Crear datos de ejemplo
transacciones_raw = {
    'transacciones': [
        {'id': 1, 'fecha': '2024-01-01', 'producto': 'Laptop', 'cantidad': 2, 'precio': 1000},
        {'id': 2, 'fecha': '2024-01-02', 'producto': 'Mouse', 'cantidad': 10, 'precio': 25},
        {'id': 3, 'fecha': '2024-01-03', 'producto': 'Laptop', 'cantidad': 1, 'precio': 1000},
        {'id': 4, 'fecha': '2024-01-04', 'producto': 'Teclado', 'cantidad': -1, 'precio': 75},  # Cantidad negativa
        {'id': 5, 'fecha': '2024-01-05', 'producto': 'Monitor', 'cantidad': 3, 'precio': 300},
        {'id': 6, 'fecha': 'invalida', 'producto': 'Mouse', 'cantidad': 5, 'precio': 25},  # Fecha inválida
    ]
}

# Guardar JSON de ejemplo
with open('../datasets/raw/transacciones.json', 'w') as f:
    json.dump(transacciones_raw, f, indent=2)

print("✅ Archivo de transacciones creado")
print("\n📝 Ahora implementa tu solución en las celdas siguientes:")
print("   1. Leer el JSON")
print("   2. Validar datos (cantidad > 0, fecha válida)")
print("   3. Calcular total por transacción")
print("   4. Agrupar por producto (suma de cantidades y totales)")
print("   5. Guardar resultados en CSV")

In [None]:
# 🚀 TU SOLUCIÓN AQUÍ
from datetime import datetime
from collections import defaultdict

def procesar_transacciones(ruta_json: str, ruta_csv_salida: str) -> Dict:
    """
    Procesa archivo de transacciones completo
    
    Args:
        ruta_json: Ruta del archivo JSON de entrada
        ruta_csv_salida: Ruta del archivo CSV de salida
        
    Returns:
        Diccionario con estadísticas del procesamiento
    """
    try:
        # 1. Leer JSON
        with open(ruta_json, 'r') as f:
            datos = json.load(f)
        
        transacciones = datos['transacciones']
        print(f"📥 Leídas {len(transacciones)} transacciones")
        
        # 2. Validar y limpiar
        transacciones_validas = []
        errores = 0
        
        for trans in transacciones:
            try:
                # Validar cantidad positiva
                if trans['cantidad'] <= 0:
                    raise ValueError(f"Cantidad inválida: {trans['cantidad']}")
                
                # Validar fecha
                datetime.strptime(trans['fecha'], '%Y-%m-%d')
                
                # Calcular total
                trans['total'] = trans['cantidad'] * trans['precio']
                
                transacciones_validas.append(trans)
                
            except (ValueError, KeyError) as e:
                logger.warning(f"Transacción ID {trans.get('id')}: {e}")
                errores += 1
        
        print(f"✅ Transacciones válidas: {len(transacciones_validas)}")
        print(f"❌ Transacciones con errores: {errores}")
        
        # 3. Agrupar por producto
        resumen_productos = defaultdict(lambda: {'cantidad': 0, 'total': 0, 'transacciones': 0})
        
        for trans in transacciones_validas:
            producto = trans['producto']
            resumen_productos[producto]['cantidad'] += trans['cantidad']
            resumen_productos[producto]['total'] += trans['total']
            resumen_productos[producto]['transacciones'] += 1
        
        # 4. Guardar en CSV
        with open(ruta_csv_salida, 'w', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(['producto', 'cantidad_total', 'monto_total', 'num_transacciones', 'precio_promedio'])
            
            for producto, stats in resumen_productos.items():
                precio_prom = stats['total'] / stats['cantidad']
                writer.writerow([
                    producto,
                    stats['cantidad'],
                    stats['total'],
                    stats['transacciones'],
                    round(precio_prom, 2)
                ])
        
        print(f"\n💾 Resultados guardados en: {ruta_csv_salida}")
        
        return {
            'total_leidas': len(transacciones),
            'total_validas': len(transacciones_validas),
            'total_errores': errores,
            'productos_unicos': len(resumen_productos)
        }
        
    except Exception as e:
        logger.error(f"Error al procesar transacciones: {e}")
        return None

# Ejecutar procesamiento
stats = procesar_transacciones(
    '../datasets/raw/transacciones.json',
    '../datasets/processed/resumen_productos.csv'
)

if stats:
    print("\n📊 Estadísticas finales:")
    for clave, valor in stats.items():
        print(f"   • {clave}: {valor}")
    
    # Leer y mostrar resultados
    print("\n📋 Resumen por producto:")
    with open('../datasets/processed/resumen_productos.csv', 'r') as f:
        reader = csv.DictReader(f)
        for fila in reader:
            print(f"   • {fila['producto']}: {fila['cantidad_total']} unidades, ${fila['monto_total']}")

## 🎓 Resumen y Conclusiones

### ✅ Lo que aprendiste:

1. **Estructuras de Datos**
   - Listas, diccionarios, sets y tuplas
   - Cuándo usar cada una
   - Operaciones comunes y eficientes

2. **Comprensiones**
   - List, dict y set comprehensions
   - Código más pythónico y legible
   - Mejor performance

3. **Generadores**
   - Procesamiento eficiente en memoria
   - Ideal para archivos grandes
   - yield vs return

4. **Manejo de Archivos**
   - Texto plano, JSON y CSV
   - Context managers (with)
   - Encoding y buenas prácticas

5. **Manejo de Errores**
   - try-except-else-finally
   - Diferentes tipos de excepciones
   - Logging para debugging

6. **Funciones Avanzadas**
   - Type hints
   - Docstrings
   - Validación de datos

### 🔜 Próximos pasos:

- **03_pandas_fundamentos.ipynb**: Manipulación de datos con Pandas
- **04_sql_basico.ipynb**: Consultas SQL y bases de datos
- **05_limpieza_datos.ipynb**: Técnicas avanzadas de limpieza

### 🏠 Tarea:

1. Practica las comprensiones con diferentes datasets
2. Crea funciones reutilizables para validación de datos
3. Implementa un pipeline completo con manejo de errores

---

**¡Excelente trabajo! Ahora dominas las bases de Python para Data Engineering** 🎉