generadores: es tener mejor eficiencia en memoria, combinar facilmente

In [None]:

cuadrados_pares_gen = (x ** 2 for x in range (10) if x % 2 == 0)

In [2]:
for num in cuadrados_pares_gen:
    print(num)

0
4
16
36
64


¡Claro! Vamos a crear generadores prácticos para análisis de datos usando una base de 10 registros de empleados. Los generadores son como "fábricas de datos bajo demanda" que te ayudan a manejar grandes volúmenes sin saturar la memoria. Aquí tienes 3 ejemplos clave:

Beneficios Clave para Analistas de Datos
🚀 Eficiencia en memoria: Generan datos de uno en uno (útil para archivos grandes).

⚡ Lazy evaluation: Solo calculan lo que necesitas en el momento.

🔁 Reutilización: Puedes encadenar generadores (ej: filtrar → transformar → exportar).



In [3]:
empleados = [
    {"id": 1, "nombre": "Ana", "edad": 28, "departamento": "Ventas", "salario": 3500},
    {"id": 2, "nombre": "Luis", "edad": 32, "departamento": "IT", "salario": 4200},
    {"id": 3, "nombre": "Carlos", "edad": 45, "departamento": "RH", "salario": 3800},
    # ... (otros 7 registros similares)
]

1️⃣ Generador para Filtrar Datos (Ej: Departamentos)
Utilidad: Extraer solo empleados de un departamento específico sin crear listas temporales.

=== Empleados de IT ===
Luis - Salario: $4200
[... otros empleados de IT ...]

In [4]:
def filtrar_por_depto(empleados, departamento):
    for emp in empleados:
        if emp["departamento"] == departamento:
            yield emp  # "Entrega" un empleado a la vez

# Uso:
print("=== Empleados de IT ===")
for emp in filtrar_por_depto(empleados, "IT"):
    print(f"{emp['nombre']} - Salario: ${emp['salario']}")

=== Empleados de IT ===
Luis - Salario: $4200


2️⃣ Generador para Procesar por Lotes (Ej: 3 registros a la vez)
Utilidad: Procesar datos en bloques para evitar sobrecargar la memoria.

In [5]:
def procesar_por_lotes(empleados, tamano_lote=3):
    lote = []
    for emp in empleados:
        lote.append(emp)
        if len(lote) == tamano_lote:
            yield lote  # Entrega un lote completo
            lote = []
    if lote:  # Entrega los registros restantes
        yield lote

# Uso:
print("=== Procesando por lotes de 3 ===")
for i, lote in enumerate(procesar_por_lotes(empleados), 1):
    print(f"Lote {i}: {[emp['nombre'] for emp in lote]}")

=== Procesando por lotes de 3 ===
Lote 1: ['Ana', 'Luis', 'Carlos']


3️⃣ Generador para Transformar Datos (Ej: Aumento de Salario)
Utilidad: Aplicar cálculos complejos sin modificar los datos originales.

In [None]:
def aplicar_aumento(empleados, porcentaje):
    for emp in empleados:
        nuevo_salario = emp["salario"] * (1 + porcentaje/100)
        yield {**emp, "salario": nuevo_salario}  # Crea un nuevo diccionario

# Uso:
print("=== Salarios con 10% de aumento ===")
for emp in aplicar_aumento(empleados, 10):
    print(f"{emp['nombre']}: ${emp['salario']:.2f}")

Ejemplo Avanzado: Pipeline de Generadores
Combina múltiples operaciones en un solo flujo:

¿Cuándo Usar Generadores?
Cuando trabajes con archivos CSV/Excel grandes.

Para pipelines de transformación (ETL).

Al necesitar resultados intermedios sin almacenarlos todos en memoria.

In [None]:
# Paso 1: Filtrar empleados de Ventas
filtrados = filtrar_por_depto(empleados, "Ventas")

# Paso 2: Aplicar aumento del 15%
con_aumento = aplicar_aumento(filtrados, 15)

# Paso 3: Procesar por lotes de 2
for lote in procesar_por_lotes(con_aumento, 2):
    print("Lote procesado:", [emp["nombre"] for emp in lote])

Explicación línea por línea:
Solicitud de datos:

Pedimos al usuario que ingrese datos de pacientes (peso y altura).

Usamos un bucle while para continuar pidiendo datos hasta que el usuario escriba 'fin'.

Comprensión de generador:

(peso / (altura ** 2) for peso, altura in datos_pacientes) es la comprensión de generador.

No calcula todos los IMCs inmediatamente, sino que genera cada resultado cuando se necesita (eficiente para muchos datos).

Clasificación:

Definimos categorías de IMC usando un diccionario donde las claves son rangos (tuplas) y los valores son las categorías.

Procesamiento:

Iteramos sobre el generador con enumerate para obtener cada IMC con su índice.

Para cada IMC, determinamos la categoría comparando con los rangos definidos.

Mostramos los resultados formateados para cada paciente.

In [None]:
# EJEMPLO: Cálculo del índice de masa corporal (IMC) para múltiples pacientes
# Este es un ejemplo práctico que un analista de datos podría usar en salud

# 1. Solicitamos al usuario que ingrese los datos de los pacientes
print("Ingrese los datos de los pacientes (peso en kg, altura en m). Ejemplo: 70,1.75")
print("Escriba 'fin' para terminar la entrada de datos")

datos_pacientes = []
while True:
    entrada = input("Datos del paciente (peso,altura) o 'fin': ")
    if entrada.lower() == 'fin':
        break
    try:
        # Convertimos la entrada en una tupla de números (peso, altura)
        peso, altura = map(float, entrada.split(','))
        datos_pacientes.append((peso, altura))
    except:
        print("Formato incorrecto. Use: peso,altura (ej: 70,1.75)")

# 2. Usamos una comprensión de generador para calcular el IMC de cada paciente
# El generador procesa los datos bajo demanda, eficiente para grandes volúmenes
calculador_imc = (peso / (altura ** 2) for peso, altura in datos_pacientes)

# 3. Clasificamos a los pacientes según su IMC
# Definimos las categorías de IMC
categorias = {
    (0, 18.5): "Bajo peso",
    (18.5, 25): "Normal",
    (25, 30): "Sobrepeso",
    (30, float('inf')): "Obesidad"
}

# 4. Procesamos los resultados del generador
print("\nResultados de análisis:")
print("-----------------------")

# Iteramos sobre el generador para obtener los resultados uno por uno
for i, imc in enumerate(calculador_imc, 1):
    # Determinamos la categoría
    for rango, categoria in categorias.items():
        if rango[0] <= imc < rango[1]:
            resultado = categoria
            break
    
    # Mostramos el resultado para cada paciente
    print(f"Paciente {i}:")
    print(f"  Peso: {datos_pacientes[i-1][0]} kg")
    print(f"  Altura: {datos_pacientes[i-1][1]} m")
    print(f"  IMC: {imc:.2f} → {resultado}")
    print()