<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>



# Introducción a la Paralización 

La paralelización es un concepto esencial en el procesamiento de grandes volúmenes de datos y la optimización de tareas computacionales grandes. La paralelización es la técnica de dividir una tarea en múltiples sub-tareas que pueden ser ejecutadas simultáneamente, distribuyéndolas entre múltiples procesadores o núcleos de una CPU. Esto nos va a permtir acelerar el procesamiento y extracción de datos, optimizar entrenamientos de modelos de *machine learning* y ejecutar tareas complejas de forma más eficiente.

## Importancia de la Paralización:

- **Escalabilidad:** Permite manejar datasets de gran tamaño al distribuir el procesamiento en múltiples unidades.
- **Reducción de tiempos de cómputo:** Al dividir las tareas, se pueden completar más rápidamente en comparación con una ejecución secuencial.
- **Mejor aprovechamiento de recursos de hardware:** Los sistemas modernos cuentan con múltiples núcleos, por lo que es fundamental aprovecharlos mediante la paralización.



## Paralización: procesos vs.  hilos

En Python, la paralización se puede lograr principalmente a través de dos enfoques: a nivel de procesos y a nivel de hilos.

- **Paralización a nivel de procesos:**
  - Se basa en la creación de procesos independientes mediante el módulo `multiprocessing`. Cada proceso tiene su propio espacio de memoria y se ejecuta en paralelo, lo que permite aprovechar múltiples núcleos.
  - Es más eficiente para tareas que son intensivas en CPU, ya que evita el Global Interpreter Lock (GIL) de Python.
  - Ejemplo: Entrenar múltiples modelos de machine learning en paralelo.


- **Paralización a nivel de hilos:**
  - Se basa en la creación de hilos (`threads`) dentro de un mismo proceso. Estos hilos comparten la memoria del proceso principal, lo que facilita la comunicación entre ellos.
  - Sin embargo, en Python, debido al GIL, solo un hilo puede ejecutar código Python puro a la vez, lo que limita su utilidad para tareas intensivas en CPU.
  - Es más efectivo para tareas E/S intensivas, como leer y escribir en archivos o hacer peticiones HTTP.
  - Ejemplo: Realizar múltiples consultas a una base de datos al mismo tiempo.

## Casos de uso comunes en ciencia de datos

La paralización es crucial en ciencia de datos para optimizar diversas operaciones. Algunos ejemplos comunes incluyen:

- **Preprocesamiento de datos:** Aplicar transformaciones o limpiar grandes volúmenes de datos en paralelo. Ejemplo: Paralelizar la carga y transformación de múltiples archivos CSV.
- **Entrenamiento de modelos:** Entrenar múltiples versiones de un modelo con diferentes hiperparámetros (búsqueda de hiperparámetros en paralelo) o entrenar modelos en distintas particiones de datos.
- **Procesamiento de imágenes y datos no estructurados:** Procesar imágenes o archivos de texto masivos utilizando paralización para mejorar la eficiencia.
- **Análisis exploratorio de datos:** Ejecutar tareas computacionalmente intensivas como cálculos estadísticos en grandes datasets.

Estos casos de uso resaltan cómo la paralización no solo acelera las operaciones, sino que también permite escalar soluciones de ciencia de datos para proyectos que involucran grandes volúmenes de datos y modelos complejos.


# Introducción a multiprocessing

El módulo `multiprocessing` permite aprovechar los múltiples núcleos de un procesador, ejecutando tareas intensivas en CPU de manera paralela. Ofrece múltiples clases y métodos para gestionar la ejecución de procesos, comunicación entre ellos y sincronización, lo que lo convierte en una herramienta esencial para aplicaciones que necesitan optimizar el rendimiento mediante la paralelización.

La librería `multiprocessing` de Python es una herramienta fundamental para realizar tareas en paralelo utilizando múltiples procesos. A diferencia de los hilos, que tienen limitaciones debido al Global Interpreter Lock (GIL) de Python, los procesos ejecutan código de manera independiente y pueden correr verdaderamente en paralelo en diferentes núcleos de la CPU. Esto es ideal para tareas intensivas en CPU, como procesamiento de datos o cálculos complejos.

# ¿Para qué la vamos a usar?

En ciencia de datos, usaremos `multiprocessing` para:
- **Procesamiento de grandes volúmenes de datos en paralelo:** Por ejemplo, aplicar transformaciones simultáneas a diferentes partes de un dataset.
- **Entrenamiento paralelo de modelos de machine learning:** Ejecutar varias instancias de entrenamiento con diferentes hiperparámetros al mismo tiempo.
- **Optimización de pipelines de procesamiento:** Dividir y procesar tareas complejas para mejorar el rendimiento.

# Principales Métodos y Clases en `multiprocessing`

1. **`Process`**: La clase `Process` permite crear y manejar procesos independientes. Cada proceso tiene su propio espacio de memoria y puede ejecutarse de manera independiente.

   - **Métodos clave**:
     - `start()`: Inicia la ejecución del proceso.
     - `join()`: Espera a que el proceso termine.
     - `terminate()`: Termina el proceso inmediatamente.

2. **`Pool`**: Una clase más conveniente para distribuir tareas en múltiples procesos. Permite manejar un conjunto de procesos (piscina) y aplicar funciones en paralelo a un grupo de datos.

   - **Métodos clave**:
     - `apply()`: Ejecuta una función en un proceso específico.
     - `map()`: Similar a la función `map()` de Python, pero paraleliza la ejecución.
     - `apply_async()`: Ejecuta una función de manera asíncrona.

3. **`Queue` y `Pipe`**: Herramientas para la comunicación entre procesos. Son útiles para compartir datos entre diferentes procesos.

   - **Queue** permite pasar datos entre procesos de manera segura.
   - **Pipe** es más simple, permite comunicación bidireccional entre dos procesos.


## Ejemplo Práctico 

Imaginemos que queremos calcular la suma de los cuadrados de los números de una lista grande. En lugar de hacerlo de manera secuencial, podemos paralelizar el cálculo usando `multiprocessing` para acelerar la operación.


In [1]:
import multiprocessing as mp
from multiprocessing import get_context

import warnings
warnings.filterwarnings('ignore')

In [2]:
# Función que calcula el cuadrado de un número
def calcular_cuadrado(numero):
    return numero ** 2

In [None]:
numeros = [i for i in range(1, 1000000)]

In [None]:
%%time

resultados = [calcular_cuadrado(x) for x in numeros]

resultados[:5]

In [None]:
%%time

resultados = list(map(calcular_cuadrado, numeros))

resultados[:5]

In [None]:
%%time

pool = get_context('fork').Pool(mp.cpu_count())   # ARM M1  (en vez de ir de 1en1 va de 8en8)
 
resultados = pool.map(calcular_cuadrado, numeros)

pool.close()

resultados[:5]





```python
import multiprocessing

# Función que calcula el cuadrado de un número
def calcular_cuadrado(numero):
    return numero * numero

# Función principal para aplicar multiprocessing
def main():
    # Lista de números grandes
    numeros = [i for i in range(1, 1000000)]

    # Crear un Pool de procesos
    with multiprocessing.Pool(processes=4) as pool:  # Aquí definimos el número de procesos
        # Usamos el método map para aplicar la función en paralelo
        resultados = pool.map(calcular_cuadrado, numeros)

    # Mostrar una parte de los resultados
    print(resultados[:10])  # Mostramos los primeros 10 resultados

if __name__ == "__main__":
    main()
```

**Explicación del Código:**
- Creamos un **Pool** de 4 procesos. Esto significa que las tareas se dividirán en 4 procesos paralelos.
- El método `map()` distribuye la lista de números entre los procesos y aplica la función `calcular_cuadrado` en paralelo.
- Finalmente, se obtienen los resultados combinados de todos los procesos.

Este ejemplo es útil para ilustrar cómo podemos usar `multiprocessing` para acelerar cálculos en un escenario típico de procesamiento de datos.




# Principales Clases de `multiprocessing`

1. **`multiprocessing.Process`**:
   - Representa un proceso que se ejecuta en paralelo. Se puede crear, iniciar y gestionar de forma manual.
   - **Métodos clave**:
     - `start()`: Inicia la ejecución del proceso.
     - `join()`: Espera a que el proceso termine.
     - `terminate()`: Termina el proceso abruptamente.

   ```python
   from multiprocessing import Process

   def funcion_proceso():
       print("Proceso en ejecución")

   if __name__ == '__main__':
       p = Process(target=funcion_proceso)
       p.start()
       p.join()
   ```

2. **`multiprocessing.Pool`**:
   - Ofrece una forma sencilla de paralelizar la ejecución de una función aplicándola a una lista de elementos (trabajos) con un conjunto de procesos.
   - **Métodos clave**:
     - `map()`: Aplica una función a una lista de elementos de manera paralela.
     - `apply()`: Ejecuta una función en un solo proceso.
     - `close()`: Cierra el pool para que no se puedan agregar más tareas.
     - `terminate()`: Finaliza los procesos del pool inmediatamente.

   ```python
   from multiprocessing import Pool

   def cuadrado(x):
       return x * x

   if __name__ == '__main__':
       with Pool(4) as pool:
           resultados = pool.map(cuadrado, [1, 2, 3, 4, 5])
           print(resultados)
   ```

3. **`multiprocessing.Queue`**:
   - Proporciona una cola segura entre procesos para enviar y recibir datos entre procesos.
   - **Métodos clave**:
     - `put(item)`: Coloca un elemento en la cola.
     - `get()`: Obtiene un elemento de la cola.

   ```python
   from multiprocessing import Process, Queue

   def productor(q):
       q.put("Mensaje desde el proceso")

   if __name__ == '__main__':
       q = Queue()
       p = Process(target=productor, args=(q,))
       p.start()
       print(q.get())  # Recibir el mensaje del proceso
       p.join()
   ```

4. **`multiprocessing.Pipe`**:
   - Permite la comunicación bidireccional entre dos procesos.
   - **Método clave**:
     - `send(objeto)`: Envía un objeto a través del pipe.
     - `recv()`: Recibe un objeto del otro extremo del pipe.

   ```python
   from multiprocessing import Process, Pipe

   def hijo(conexion):
       conexion.send("Mensaje desde el proceso hijo")
       conexion.close()

   if __name__ == '__main__':
       padre_conn, hijo_conn = Pipe()
       p = Process(target=hijo, args=(hijo_conn,))
       p.start()
       print(padre_conn.recv())  # Recibe el mensaje
       p.join()
   ```

5. **`multiprocessing.Lock`**:
   - Es un mecanismo para garantizar que solo un proceso acceda a un recurso a la vez, evitando condiciones de carrera.
   - **Método clave**:
     - `acquire()`: Adquiere el bloqueo.
     - `release()`: Libera el bloqueo.

   ```python
   from multiprocessing import Process, Lock

   def tarea(lock, i):
       with lock:
           print(f"Proceso {i} en ejecución")

   if __name__ == '__main__':
       lock = Lock()
       for i in range(5):
           p = Process(target=tarea, args=(lock, i))
           p.start()
           p.join()
   ```

6. **`multiprocessing.Semaphore`**:
   - Permite que un número limitado de procesos acceda a un recurso simultáneamente.
   - **Método clave**:
     - `acquire()`: Adquiere una unidad del semáforo.
     - `release()`: Libera una unidad del semáforo.

7. **`multiprocessing.Manager`**:
   - Proporciona una forma de compartir objetos complejos como listas y diccionarios entre procesos.
   - **Métodos clave**:
     - `list()`: Crea una lista compartida entre procesos.
     - `dict()`: Crea un diccionario compartido entre procesos.

   ```python
   from multiprocessing import Process, Manager

   def actualizar_lista(lista_compartida):
       lista_compartida.append(1)

   if __name__ == '__main__':
       with Manager() as manager:
           lista_compartida = manager.list()
           p = Process(target=actualizar_lista, args=(lista_compartida,))
           p.start()
           p.join()
           print(lista_compartida)  # Muestra la lista compartida
   ```



# Principales Métodos de `multiprocessing`

1. **`multiprocessing.current_process()`**:
   - Retorna el objeto del proceso que está ejecutándose actualmente.
   - ```python
     from multiprocessing import current_process
     print(current_process().name)
     ```

2. **`multiprocessing.cpu_count()`**:
   - Retorna el número de CPUs disponibles en la máquina.
   - ```python
     import multiprocessing
     print(multiprocessing.cpu_count())
     ```

3. **`multiprocessing.Value` y `multiprocessing.Array`**:
   - Permiten compartir datos primitivos entre procesos.
   - `Value`: Proporciona un contenedor para un único valor.
   - `Array`: Proporciona un array de valores que pueden ser compartidos entre procesos.
   
   ```python
   from multiprocessing import Process, Value

   def incrementar(v):
       v.value += 1

   if __name__ == '__main__':
       valor_compartido = Value('i', 0)  # 'i' es para enteros
       p = Process(target=incrementar, args=(valor_compartido,))
       p.start()
       p.join()
       print(valor_compartido.value)
   ```

4. **`multiprocessing.JoinableQueue`**:
   - Similar a `Queue`, pero permite que los procesos indiquen cuándo han terminado con una tarea, lo que facilita la sincronización.
   - **Métodos clave**:
     - `task_done()`: Marca una tarea como completada.
     - `join()`: Espera a que todas las tareas en la cola se completen.

   ```python
   from multiprocessing import Process, JoinableQueue

   def productor(q):
       for item in ['tarea1', 'tarea2', 'tarea3']:
           q.put(item)
       q.put(None)  # Señal de finalización

   def consumidor(q):
       while True:
           item = q.get()
           if item is None:
               break
           print(f"Procesando {item}")
           q.task_done()

   if __name__ == '__main__':
       q = JoinableQueue()
       p1 = Process(target=productor, args=(q,))
       p2 = Process(target=consumidor, args=(q,))
       p1.start()
       p2.start()
       q.join()
   ```
