## Reduction: the sum of the elements of an array

In [None]:
import numpy as np
import sys

if len(sys.argv) > 1:
    value = int(sys.argv[1])
np.random.seed(12345) #Para que siempre se genere el mismo array
X = np.random.rand(value)

cores = int(sys.argv[2])
if cores == 1: #Como sólo funciona en secuencial, no quiero que se repita cuando haya más de un núcleo porque es el mismo resultado
    def reduc_operation(A):
        """Compute the sum of the elements of Array A."""
        s = 0
        for i in range(A.size):
            s += A[i]
        return s
    
    
    # Utilizando las operaciones mágicas de ipython
    
    tiempo = %timeit -r 2 -o -q reduc_operation(X)
    
    print("Time taken by reduction operation using a function:", tiempo)
    
    print(f"And the result of the sum of numbers in the range [0, value) is: {reduc_operation(X)}\n")
    
    
    # Utilizando numpy.sum()
    
    tiempo = %timeit -r 2 -o -q np.sum(X)
    
    print("Time taken by reduction operation using numpy.sum():", tiempo)
    
    print("Now, the result using numpy.sum():", np.sum(X),"\n ")


In [None]:
from multiprocessing import Pool

def reduc_operation(array):
    """Compute the sum of the elements of Array A."""
    s = 0
    for i in range(array.size):
        s += array[i]
    return s

def simulacion_multiprocessing(array, cores):
    #Dividir el array en tantos sub-arrays como procesos (chunks)
    chunks = np.array_split(array, cores)
    
    #Crear el pool y usar map
    with Pool(processes=cores) as pool:
        resultados_parciales = pool.map(reduc_operation, chunks)
    
    return sum(resultados_parciales)

# Utilizando las operaciones mágicas de ipython

print ("Tiempo con Multiprocessing usando", cores, "núcleos")
tiempo = %timeit -r 2 -o -q simulacion_multiprocessing(X, cores)

print("Time taken by reduction operation using a function:", tiempo)

print(f"And the result of the sum of numbers in the range [0, value) is: {simulacion_multiprocessing(X, cores)}\n")

In [None]:
import numba
from numba import njit, prange

numba.set_num_threads(cores)

# Numba Secuencial

@njit
def reduc_numba_seq(A):
    s = 0
    for i in range(A.size):
        s += A[i]
    return s

if cores == 1:
    # Calentamiento
    reduc_numba_seq(X[:100])
    print("Usando numba secuencial con @njit")
    tiempo_seq = %timeit -r 2 -o -q reduc_numba_seq(X)
    print("Time taken by reduction operation using Numba Sequential:", tiempo_seq)
    print(f"And the result of the sum is: {reduc_numba_seq(X)}\n")

# Numba Paralelo
@njit(parallel=True)
def reduc_numba_par(A):
    s = 0
    for i in prange(A.size):
        s += A[i]
    return s
if cores != 1:
    # Calentamiento
    reduc_numba_par(X[:100])
    
    print("Numba Paralelo con", cores, "núcleos")
    tiempo_par = %timeit -r 2 -o -q reduc_numba_par(X)
    print(f"Time taken by reduction operation using Numba Parallel ({cores} cores):", tiempo_par)
    print(f"And the result of the sum is: {reduc_numba_par(X)}\n")

### Utilizando valor 10^8
Utilizando 1 núcleos

Time taken by reduction operation using a function: 17.4 s ± 76.8 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 49998879.68971876

Time taken by reduction operation using numpy.sum(): 64 ms ± 2.26 μs per loop (mean ± std. dev. of 2 runs, 10 loops each)
Now, the result using numpy.sum(): 49998879.689715065

Tiempo con Multiprocessing usando 1 núcleos

Time taken by reduction operation using a function: 20.9 s ± 2.2 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 49998879.68971876

Usando numba secuencial con @njit

Time taken by reduction operation using Numba Sequential: 115 ms ± 13.6 μs per loop (mean ± std. dev. of 2 runs, 10 loops each)
And the result of the sum is: 49998879.68971876

Utilizando 2 núcleos

Tiempo con Multiprocessing usando 2 núcleos

Time taken by reduction operation using a function: 11.1 s ± 2.61 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 49998879.68971129

Numba Paralelo con 2 núcleos

Time taken by reduction operation using Numba Parallel (2 cores): 58 ms ± 16.2 μs per loop (mean ± std. dev. of 2 runs, 10 loops each)
And the result of the sum is: 49998879.68971129

Utilizando 4 núcleos

Tiempo con Multiprocessing usando 4 núcleos

Time taken by reduction operation using a function: 6.15 s ± 30.9 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 49998879.689719506

Numba Paralelo con 4 núcleos

Time taken by reduction operation using Numba Parallel (4 cores): 34.5 ms ± 222 μs per loop (mean ± std. dev. of 2 runs, 10 loops each)
And the result of the sum is: 49998879.689719506

Utilizando 8 núcleos

Tiempo con Multiprocessing usando 8 núcleos

Time taken by reduction operation using a function: 3.84 s ± 3.26 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 49998879.6897147

Numba Paralelo con 8 núcleos

Time taken by reduction operation using Numba Parallel (8 cores): 27.2 ms ± 913 μs per loop (mean ± std. dev. of 2 runs, 10 loops each)
And the result of the sum is: 49998879.6897147


### Utilizando valor 10^9
Utilizando 1 núcleos

Time taken by reduction operation using a function: 2min 52s ± 2.57 s per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 499995699.5243666

Time taken by reduction operation using numpy.sum(): 641 ms ± 264 μs per loop (mean ± std. dev. of 2 runs, 1 loop each)
Now, the result using numpy.sum(): 499995699.52454114

Tiempo con Multiprocessing usando 1 núcleos

Time taken by reduction operation using a function: 3min 33s ± 1.29 s per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 499995699.5243666

Usando numba secuencial con @njit

Time taken by reduction operation using Numba Sequential: 1.18 s ± 5.56 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum is: 499995699.5243666

Utilizando 2 núcleos

Tiempo con Multiprocessing usando 2 núcleos

Time taken by reduction operation using a function: 1min 52s ± 493 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 499995699.5248729

Numba Paralelo con 2 núcleos

Time taken by reduction operation using Numba Parallel (2 cores): 595 ms ± 4.84 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum is: 499995699.5248729

Utilizando 4 núcleos

Tiempo con Multiprocessing usando 4 núcleos

Time taken by reduction operation using a function: 1min 1s ± 238 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 499995699.5246329

Numba Paralelo con 4 núcleos

Time taken by reduction operation using Numba Parallel (4 cores): 335 ms ± 444 μs per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum is: 499995699.5246329

Utilizando 8 núcleos

Tiempo con Multiprocessing usando 8 núcleos

Time taken by reduction operation using a function: 36.9 s ± 175 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 499995699.52448696

Numba Paralelo con 8 núcleos

Time taken by reduction operation using Numba Parallel (8 cores): 239 ms ± 14.4 ms per loop (mean ± std. dev. of 2 runs, 1 loop 
each)
And the result of the sum is: 499995699.5244869


En la primera prueba con 10^8, se ve claramente cómo cambia la velocidad según el método que usemos. Si usamos Python normal, el ordenador tarda unos 17 segundos en sumar todo porque tiene que ir leyendo número a número de forma lenta. En cambio, si usamos Numpy, el tiempo baja a menos de una décima de segundo. Al intentar usar varios núcleos con la técnica de Multiprocessing, vemos que ayuda un poco a bajar el tiempo respecto a Python normal (de 21 a 4 segundos), pero sigue siendo mucho más lento que Numpy; esto pasa porque al ordenador le cuesta mucho trabajo y tiempo repartir los datos entre los distintos núcleos, perdiendo la ventaja que gana al sumar en paralelo. La mejor opción aquí es Numba, cuya versión paralela con 8 núcleos es capaz de hacerlo en solo 27 milisegundos, ganando incluso a Numpy.

En la segunda prueba, donde se usa 10^9, las diferencias se hacen más notables. Hacerlo con Python normal es casi imposible en la práctica, ya que tarda casi 3 minutos. Numpy sigue siendo muy bueno y estable, tardando un poco más de medio segundo. Sin embargo, aquí es donde mejor funciona la paralelización con Numba: al usar 8 núcleos, el trabajo termina en solo 0,2 segundos, siendo casi tres veces más rápido que Numpy. Por otro lado, la técnica de Multiprocessing con 8 núcleos sigue siendo más pesada, tardando casi 37 segundos, lo que demuestra que no es la herramienta adecuada.

Como conclusión general, todos los métodos funcionan bien matemáticamente porque dan el mismo resultado de la suma y se confirma que para que merezca la pena utilizar un  número alto de núcleos, el problema a resolver también tiene que ser demandante computacionalmente, sino no es adecuado.