
# Computación Distribuida con Celery

Este notebook tiene como objetivo proporcionar una guía completa para implementar computación distribuida utilizando **Celery** en Python. Se exploran conceptos teóricos y técnicos, así como ejemplos prácticos para que los alumnos comprendan y apliquen Celery en distintos escenarios.

## Contenidos
1. Introducción a Celery
2. Conceptos Básicos de Celery
3. Introducción a Redis y RabbitMQ
4. Configuración de Celery con Redis
5. Ejemplo 1: Procesamiento Distribuido de Imágenes
6. Ejemplo 2: Análisis de Datos en Paralelo
7. Conclusión



## 1. Introducción a Celery

**Celery** es una biblioteca de Python para manejar tareas en segundo plano, distribuir trabajos entre múltiples máquinas y programar trabajos periódicos. Es útil en escenarios donde se requiere ejecutar procesos asíncronos o distribuir tareas para maximizar el uso de los recursos del sistema.

Celery se utiliza comúnmente en sistemas de **computación distribuida**, donde se necesita paralelizar el trabajo para mejorar el rendimiento y la eficiencia. Los principales componentes de Celery son:

- **Tareas (Tasks)**: Funciones que se ejecutan en segundo plano.
- **Workers**: Procesos que ejecutan las tareas en uno o varios nodos (máquinas).
- **Broker**: Sistema de mensajería que distribuye las tareas a los workers (ej., Redis o RabbitMQ).
- **Backend**: Almacena el estado y los resultados de las tareas ejecutadas.



## 2. Conceptos Básicos de Celery

Los elementos clave en el ecosistema de Celery son:

1. **Task (Tarea)**: Es una función Python que se define para ejecutarse en segundo plano. Celery envía las tareas a través del broker y se ejecutan por los workers.
2. **Worker**: Es un proceso que se ejecuta en segundo plano y espera tareas del broker. Un worker puede ejecutarse en una o varias máquinas, y Celery puede coordinar varios workers al mismo tiempo.
3. **Broker**: Es un sistema de mensajería que se encarga de distribuir las tareas a los workers. Los brokers más utilizados son Redis y RabbitMQ.
4. **Backend**: Es el sistema que almacena el estado y el resultado de las tareas. Puede ser el mismo sistema que el broker (por ejemplo, Redis) o uno distinto.

A continuación, se introduce Redis y RabbitMQ, los dos brokers más comunes usados con Celery.



## 3. Introducción a Redis y RabbitMQ

### Redis
**Redis** (Remote Dictionary Server) es una base de datos en memoria de estructura de datos clave-valor de alta velocidad. Actúa como broker en Celery al proporcionar colas de mensajes para la distribución de tareas.

Características clave de Redis:
- **Alto Rendimiento**: Redis está optimizado para manejar grandes cantidades de datos en memoria, lo que lo hace extremadamente rápido.
- **Simplicidad**: Configurar Redis es sencillo y tiene un API intuitiva.
- **Persistencia Opcional**: Aunque es una base de datos en memoria, Redis permite persistir datos en disco de forma opcional.

### RabbitMQ
**RabbitMQ** es un broker de mensajes más avanzado basado en el protocolo AMQP (Advanced Message Queuing Protocol). RabbitMQ permite colas más complejas y configuraciones avanzadas para la distribución de mensajes.

Características clave de RabbitMQ:
- **Soporte de AMQP**: RabbitMQ permite colas y mensajes más complejos que Redis.
- **Durabilidad y Persistencia**: Los mensajes pueden persistirse en disco, lo que lo hace adecuado para aplicaciones críticas.
- **Interoperabilidad**: RabbitMQ es compatible con muchos lenguajes y frameworks, lo que facilita su integración en sistemas heterogéneos.

En este notebook, se utilizará **Redis** como broker de ejemplo, dado su fácil configuración y rapidez.



## 4. Configuración de Celery con Redis

Para usar Celery con Redis, es necesario instalar Redis y la biblioteca Celery en el entorno de Python.

### Instalación
- Instalar Celery:
    ```bash
    pip install celery
    ```
- Instalar Redis en el sistema operativo o utilizar una instancia en la nube.

### Configuración Básica

A continuación, se muestra un ejemplo simple de configuración de Celery utilizando Redis como broker.

```python
# tasks.py
from celery import Celery

# Configuración de la aplicación Celery
app = Celery('tasks', broker='redis://localhost:6379/0', backend='redis://localhost:6379/0')

@app.task
def add(x, y):
    return x + y
```

Para ejecutar el worker de Celery, se utiliza el siguiente comando:

```bash
celery -A tasks worker --loglevel=info
```

El worker comenzará a escuchar tareas que se envíen al broker Redis. Este ejemplo configura una tarea simple (`add`) que suma dos números.



## 5. Ejemplo 1: Procesamiento Distribuido de Imágenes

En este ejemplo, se muestra cómo distribuir el procesamiento de imágenes utilizando Celery. Se dividirán las tareas de procesamiento de imágenes entre varios workers en diferentes máquinas.

```python
# tasks.py
from celery import Celery
from PIL import Image
import os

# Conexión a Redis como broker
app = Celery('image_processing', broker='redis://<BROKER_IP>:6379/0', backend='redis://<BROKER_IP>:6379/0')

@app.task
def process_image(image_path):
    # Abre y procesa la imagen
    with Image.open(image_path) as img:
        grayscale_image = img.convert('L')
        processed_path = os.path.splitext(image_path)[0] + '_processed.jpg'
        grayscale_image.save(processed_path)
        return processed_path
```

El worker se ejecuta con el siguiente comando:

```bash
celery -A tasks worker --loglevel=info
```

Para enviar tareas al worker:

```python
# main.py
from tasks import process_image

image_files = ['/path/to/image1.jpg', '/path/to/image2.jpg', '/path/to/image3.jpg']

for image in image_files:
    result = process_image.delay(image)
    print(f"Tarea enviada para {image}. Resultado en: {result.get()}")
```

### Explicación
- **Distribución de Tareas**: Las imágenes se distribuyen entre los workers, permitiendo que múltiples nodos procesen imágenes en paralelo.
- **Escalabilidad**: Se pueden agregar más workers para manejar grandes cantidades de imágenes.



## 6. Ejemplo 2: Análisis de Datos en Paralelo

Este ejemplo muestra cómo usar Celery para dividir el análisis de un archivo CSV grande en fragmentos, distribuyendo la carga entre varios workers.

```python
# tasks.py
from celery import Celery
import pandas as pd

# Configuración de la aplicación Celery
app = Celery('data_analysis', broker='redis://<BROKER_IP>:6379/0', backend='redis://<BROKER_IP>:6379/0')

@app.task
def analyze_chunk(data_chunk):
    # Convertimos el chunk en un DataFrame
    df = pd.DataFrame(data_chunk)
    
    # Calcula estadísticas por categoría
    total_per_category = df.groupby('category')['amount'].sum().to_dict()
    average_per_category = df.groupby('category')['amount'].mean().to_dict()
    
    # Retorna los resultados como diccionarios
    return {'total': total_per_category, 'average': average_per_category}
```

En este caso, la función `analyze_chunk` procesa un fragmento de datos del CSV, calculando el total y el promedio por categoría.

### Distribuir las Tareas

```python
# main.py
import pandas as pd
from tasks import analyze_chunk

# Ruta del archivo CSV
file_path = 'large_transactions.csv'
chunksize = 10000  # Cantidad de registros por fragmento

results = []
for chunk in pd.read_csv(file_path, chunksize=chunksize):
    # Convertimos el DataFrame en un diccionario para enviarlo como tarea
    data_chunk = chunk.to_dict(orient='records')
    # Enviamos la tarea para que sea procesada por Celery
    result = analyze_chunk.delay(data_chunk)
    results.append(result)

# Recopila los resultados cuando todas las tareas han terminado
totals = {}
averages = {}
for result in results:
    chunk_result = result.get()  # Espera a que cada tarea termine
    for category, total in chunk_result['total'].items():
        totals[category] = totals.get(category, 0) + total
    for category, average in chunk_result['average'].items():
        averages[category] = averages.get(category, 0) + average

# Calcula el promedio global por categoría basado en el total y la cantidad de fragmentos
for category in averages:
    averages[category] /= len(results)

print("Totales por categoría:", totals)
print("Promedios por categoría:", averages)
```

### Explicación del Ejemplo
- **Fragmentación del Archivo**: El archivo CSV se divide en fragmentos (chunks) manejables para evitar cargar todo el archivo en memoria.
- **Distribución de Tareas**: Cada fragmento se envía como una tarea a Celery, y los workers lo procesan en paralelo.
- **Recopilación de Resultados**: Los resultados de cada tarea se recopilan y consolidan para obtener totales y promedios globales.

Este enfoque permite procesar archivos de gran tamaño de manera eficiente, aprovechando los recursos de múltiples máquinas.



## 7. Conclusión

Celery es una herramienta poderosa para la computación distribuida en Python, especialmente cuando se requiere manejar tareas asíncronas o distribuir cargas de trabajo de manera eficiente en múltiples nodos. Los ejemplos presentados demuestran cómo se puede aplicar Celery en distintos contextos:

- **Procesamiento de Imágenes en Paralelo**: Utilizando Celery para distribuir tareas de procesamiento de imágenes, se puede aprovechar al máximo los recursos de múltiples máquinas.
- **Análisis de Datos en Paralelo**: Dividiendo archivos CSV grandes en fragmentos y distribuyendo su procesamiento, Celery permite realizar cálculos complejos sin cargar en memoria grandes volúmenes de datos.

### Puntos Clave
- Celery se apoya en brokers como Redis o RabbitMQ para gestionar la distribución de tareas.
- La escalabilidad horizontal es un beneficio clave, ya que se pueden agregar o quitar workers según la carga de trabajo.
- El manejo eficiente de recursos y la posibilidad de persistencia de resultados hacen de Celery una opción robusta para sistemas distribuidos.

El conocimiento de los fundamentos de Celery, junto con la comprensión de sus componentes y su configuración con diferentes brokers, es esencial para su uso efectivo en la práctica de la computación distribuida.



## 8. Computación Distribuida con Celery: Perspectiva Técnica

Para entender cómo Celery maneja la computación distribuida, es importante analizar cómo se ejecutan y coordinan las tareas en el nivel del sistema operativo y cómo interactúan los distintos componentes.

### 8.1 Manejo de Procesos y Threads

Celery utiliza **procesos** y **threads** para gestionar las tareas en segundo plano:

1. **Procesos**: Cuando se inicia un worker en Celery, este se ejecuta como un proceso del usuario en el sistema operativo. El worker puede manejar múltiples tareas a la vez, y dependiendo de la configuración, puede usar multiprocesamiento o multithreading.
   - El kernel asigna tiempo de CPU a estos procesos basándose en la política de planificación del sistema operativo (por ejemplo, Round Robin o FIFO).
   - Los procesos de Celery son gestionados por el kernel como cualquier otro proceso del espacio de usuario.

2. **Threads**: Celery puede emplear threads dentro de los procesos para paralelizar aún más el trabajo. Los threads comparten memoria y recursos del proceso, lo que permite un acceso rápido, pero deben sincronizarse para evitar condiciones de carrera.
   - El kernel gestiona estos threads a través de mecanismos de planificación y sincronización para maximizar el uso de la CPU y minimizar conflictos.

### 8.2 Gestión de Memoria

Celery opera en el **espacio de usuario** y, por tanto, depende del kernel para la gestión de la memoria:

- **Asignación de Memoria**: Celery utiliza memoria para almacenar las tareas, sus resultados y el estado de los workers. El kernel asigna memoria virtual a los procesos de Celery y controla su acceso y paginación en caso de falta de memoria.
- **Comunicación entre Threads y Procesos**: Para coordinar tareas y datos, Celery puede utilizar memoria compartida, un mecanismo facilitado por el kernel que permite que varios procesos accedan a una región de memoria común de manera controlada.

### 8.3 Comunicación entre Procesos (IPC) y Brokers de Mensajería

Celery se apoya en sistemas de mensajería como **Redis** y **RabbitMQ** para distribuir tareas entre nodos (máquinas). Estos sistemas usan sockets y otros mecanismos de IPC proporcionados por el kernel:

- **Sockets**: Los workers se conectan al broker (Redis o RabbitMQ) mediante **sockets TCP/IP**. El kernel asigna puertos y buffers para gestionar estas conexiones, asegurando que los mensajes (tareas) se envíen y reciban correctamente.
- **Inter-Process Communication (IPC)**: Celery utiliza mecanismos de IPC para sincronizar y comunicar procesos en una misma máquina o en una red distribuida. Esto permite la transmisión de datos y señales entre workers y el broker de manera eficiente.

### 8.4 Coordinación de Múltiples Nodos

Cuando Celery se configura en un entorno distribuido, los procesos y threads se extienden a través de múltiples nodos:

- **Escalabilidad Horizontal**: Celery permite agregar y quitar nodos de forma dinámica. El kernel de cada nodo administra los procesos y threads, y Redis o RabbitMQ aseguran que las tareas se asignen a los nodos disponibles.
- **Manejo de Fallos**: Si un nodo falla, Redis o RabbitMQ pueden reasignar las tareas pendientes a otros workers activos, utilizando características de persistencia y reintentos.
- **Conexión en Red**: La red y el kernel juegan un papel crucial en la comunicación entre nodos. El broker (Redis o RabbitMQ) utiliza puertos y conexiones gestionadas por el kernel para coordinar los mensajes entre máquinas. Esto permite una baja latencia en la distribución de tareas.

### 8.5 Señales del Sistema y Eventos

Celery interactúa con el sistema operativo mediante **señales** y **eventos**:

- **Señales**: Celery puede manejar señales del sistema operativo (como SIGTERM o SIGKILL) para iniciar, detener o reiniciar workers. Estas señales son gestionadas por el kernel y permiten una interacción directa con los procesos de Celery.
- **Timers y Eventos**: Celery utiliza temporizadores y eventos para programar trabajos periódicos (a través de Celery Beat). El kernel proporciona mecanismos de temporización que Celery aprovecha para ejecutar tareas en momentos específicos.

### Resumen

Desde una perspectiva técnica, Celery es una aplicación de computación distribuida que se basa en el sistema operativo y sus servicios para coordinar y ejecutar tareas en segundo plano. La interacción con el kernel, la gestión de procesos y threads, y el uso de sistemas de mensajería como Redis y RabbitMQ son elementos fundamentales que permiten que Celery distribuya tareas eficientemente en múltiples nodos.
