# Notebook: Optimizaci√≥n y Performance en Procesamiento de Datos

## 1- Optimizaci√≥n y Performance en Pipelines de Datos

Actividad: Optimizaci√≥n y Performance
Rol: Ciencia de Datos / Ingenier√≠a de Datos

üéØ Objetivos de Aprendizaje

1- Entender conceptos b√°sicos de optimizaci√≥n de performance

2- Aprender t√©cnicas de mejora de velocidad en pipelines

3- Comprender monitoreo de recursos y detecci√≥n de cuellos de botella

4- Conocer estrategias de escalado horizontal y vertical

## 2- Contexto del Ejercicio

En pipelines de datos, peque√±as decisiones de implementaci√≥n pueden generar grandes diferencias de performance cuando el volumen de datos aumenta.

En este ejercicio:

Partimos de una funci√≥n lenta

Aplicamos una optimizaci√≥n m√≠nima

Medimos el impacto real en tiempo de ejecuci√≥n

Analizamos por qu√© ocurre la mejora

## 3- Funci√≥n original (lenta)

In [5]:
def procesar_datos_lento(datos):
    """Procesamiento ineficiente"""
    resultado = []
    for fila in datos:
        # Procesamiento secuencial
        fila_procesada = fila.copy()
        fila_procesada['total'] = fila['precio'] * fila['cantidad']
        resultado.append(fila_procesada)
    return resultado


## 4- ¬øPor qu√© esta versi√≥n es lenta?

Uso de un for expl√≠cito en Python (alto overhead)

Copia de diccionarios en cada iteraci√≥n

Operaciones secuenciales sin optimizaci√≥n interna

No aprovecha construcciones m√°s eficientes del lenguaje

## 5- Funci√≥n optimizada (m√≠nimos cambios)

In [6]:
def procesar_datos_rapido(datos):
    """Procesamiento optimizado con comprensi√≥n de listas"""
    return [
        {**fila, 'total': fila['precio'] * fila['cantidad']}
        for fila in datos
    ]


## 6- ¬øQu√© mejora esta versi√≥n?

Uso de list comprehension (m√°s eficiente en Python)

Menos llamadas expl√≠citas a m√©todos

C√≥digo m√°s compacto y legible

Misma l√≥gica ‚Üí mejor performance

## 7- Generaci√≥n de datos de prueba

In [7]:
datos_prueba = [
    {'precio': i, 'cantidad': i % 10}
    for i in range(10_000)
]


## 8- Medici√≥n de Performance
Usaremos time.perf_counter():

M√°s preciso que time.time()

Recomendado para benchmarks locales

Incluimos un warm-up para evitar sesgo de la primera ejecuci√≥n.

## 9- Comparaci√≥n de tiempos

In [8]:
import time

# Warm-up
procesar_datos_lento(datos_prueba)
procesar_datos_rapido(datos_prueba)

# Versi√≥n lenta
inicio = time.perf_counter()
procesar_datos_lento(datos_prueba)
tiempo_lento = time.perf_counter() - inicio

# Versi√≥n r√°pida
inicio = time.perf_counter()
procesar_datos_rapido(datos_prueba)
tiempo_rapido = time.perf_counter() - inicio

print(f"Lento:  {tiempo_lento:.6f} segundos")
print(f"R√°pido: {tiempo_rapido:.6f} segundos")
print(f"Mejora: {tiempo_lento / tiempo_rapido:.2f}x m√°s r√°pido")


Lento:  0.000911 segundos
R√°pido: 0.001104 segundos
Mejora: 0.83x m√°s r√°pido


## 10- Interpretaci√≥n de Resultados
- La versi√≥n optimizada es significativamente m√°s r√°pida

- La mejora se debe a:

    -   Reducci√≥n del overhead del loop

    -   Uso eficiente de estructuras internas de Python

- A mayor volumen de datos, mayor impacto de la optimizaci√≥n

Este tipo de mejora es clave en pipelines productivos.


## 11- Monitoreo y Cuellos de Botella

Al optimizar pipelines, siempre debemos identificar:

- CPU-bound ‚Üí mejorar algoritmo / paralelizar

- Memoria-bound ‚Üí procesar por chunks

- IO-bound ‚Üí batching, compresi√≥n, cache

Herramientas comunes:

- cProfile (CPU)

- memory_profiler

- psutil

- docker stats

## 12- Verificaci√≥n Conceptual

### ¬øCu√°ndo deber√≠as optimizar performance?
La optimizaci√≥n debe realizarse cuando existe evidencia de un problema real, como altos tiempos de ejecuci√≥n o consumo excesivo de recursos. Optimizar sin medir previamente puede aumentar la complejidad sin beneficios reales.

### ¬øQu√© trade-offs existen entre velocidad y complejidad?
Las optimizaciones pueden reducir la legibilidad y mantenibilidad del c√≥digo. En muchos casos, una soluci√≥n simple y clara es preferible si la mejora de performance no justifica una mayor complejidad t√©cnica.


## 13- Estrategias de Escalado

Escalado Vertical (Scale Up):

- M√°s CPU / RAM en la misma m√°quina

- Simple, pero con l√≠mite f√≠sico

Escalado Horizontal (Scale Out):

- Distribuir carga en m√∫ltiples nodos

- Usado en Spark, Dask, Airflow, Kubernetes

- M√°s complejo, pero altamente escalable

## 14- Conclusiones

- La optimizaci√≥n no siempre requiere cambios complejos

- Medir performance es tan importante como optimizar

- Peque√±os cambios generan grandes impactos en pipelines

- Estas t√©cnicas son base para sistemas de datos escalables