## Reduction operation: the sum of the numbers in the range [0, value)

In [2]:
import numpy as np
import sys

def reduc_operation(A):
    """Compute the sum of the elements of Array A in the range [0, value)."""
    s = 0
    for i in range(A.size):
        s += A[i]
    return s

# Secuencial

#value = 5*10**4
value=int(sys.argv[1])

X = np.random.rand(value)

# Para imprimir los pimeros valores del array

# print(X[0:12])

# Utilizando las operaciones mágicas de ipython

tiempo = %timeit -r 2 -o -q reduc_operation(X)

print("Time taken by reduction operation using a function:", tiempo)


print(f"And the result of the sum of numbers in the range [0, value) is: {reduc_operation(X)}\n")


# Utilizando numpy.sum()

tiempo = %timeit -r 2 -o -q np.sum(X)

print("Time taken by reduction operation using numpy.sum():", tiempo)

print("Now, the result using numpy.sum():", np.sum(X),"\n ")


# Utilizando numpy.ndarray.sum()

tiempo= %timeit -r 2 -o -q X.sum()

print("Time taken by reduction operation using numpy.ndarray.sum():", tiempo)

print("Now, the result using numpy.ndarray.sum():", X.sum())




Time taken by reduction operation using a function: 5.43 ms ± 246 µs per loop (mean ± std. dev. of 2 runs, 100 loops each)
And the result of the sum of numbers in the range [0, value) is: 24951.433563822837

Time taken by reduction operation using numpy.sum(): 13.5 µs ± 112 ns per loop (mean ± std. dev. of 2 runs, 100,000 loops each)
Now, the result using numpy.sum(): 24951.433563823113 
 
Time taken by reduction operation using numpy.ndarray.sum(): 11.6 µs ± 12.4 ns per loop (mean ± std. dev. of 2 runs, 100,000 loops each)
Now, the result using numpy.ndarray.sum(): 24951.433563823113


### Apartado 3.3 a) Libreria CuPy

In [1]:
# Primero importamos todas las librerias necesarias 
import numpy as np
import cupy as cp
import time

def reduc_operation(A):
    """Compute the sum of the elements of Array A in the range [0, value)."""
    s = 0
    for i in range(A.size):
        s += A[i]
    return s

# Definimos el tamaño del array
#value = 5 * 10**4
value=int(sys.argv[1])


# Mido el tiempo que tardo en crear el array en CPU con NumPy
s = time.time()
# Creo el array con numpy
X_cpu = np.random.rand(value)
e = time.time()
print(f"CPU Array creation: {e - s} seconds")
print(f"Array size (CPU): {X_cpu.size}")
print(f"Array dtype (CPU): {X_cpu.dtype}")

# Mido el tiempo que tardo en crear el array en GPU con CuPy
s = time.time()
# Creo el array con CuPy
X_gpu = cp.random.rand(value)  
cp.cuda.Stream.null.synchronize()  
# Sincronización para asegurar que la GPU haya terminado
e = time.time()
print(f"GPU Array creation: {e - s} seconds")
print(f"Array shape (GPU): {X_gpu.shape}")



# Reducción secuencial usando reduc_operation (CPU)
print("Reducción secuencial en CPU")
s = time.time()
result_cpu = reduc_operation(X_cpu)
e = time.time()
print("Time taken by reduction operation using a function:", e - s)
print(f"And the result of the sum of numbers in the range [0, value) is: {result_cpu}\n")

# Reducción secuencial usando reduc_operation (GPU)
print("Reducción secuencial en GPU")
s = time.time()
result_gpu = reduc_operation(X_gpu)  
# Suma en la GPU usando la función reduc_operation
cp.cuda.Stream.null.synchronize() 
# Sincronización para asegurar que la GPU haya terminado
e = time.time()
print("Time taken by reduction operation using a function on GPU:", e - s)
print(f"And the result of the sum of numbers in the range [0, value) is: {result_gpu}\n")

# Reducción utilizando numpy.sum() (CPU)
print("Reducción con numpy.sum()")
s = time.time()
result_numpy_sum = np.sum(X_cpu)
e = time.time()
print("Time taken by reduction operation using numpy.sum():", e - s)
print(f"Now, the result using numpy.sum(): {result_numpy_sum}\n")


# Reducción utilizando cupy.sum() (GPU)
print("Reducción con cupy.sum()")
s = time.time()
result_cupy_sum = cp.sum(X_gpu)
cp.cuda.Stream.null.synchronize()  
# Sincronización para garantizar que la GPU haya terminado
e = time.time()
print("Time taken by reduction operation using cupy.sum():", e - s)
print(f"Now, the result using cupy.sum(): {result_cupy_sum}\n")  



CPU Array creation: 0.0003829002380371094 seconds
Array size (CPU): 50000
Array dtype (CPU): float64
GPU Array creation: 0.08430266380310059 seconds
Array shape (GPU): (50000,)
Reducción secuencial en CPU
Time taken by reduction operation using a function: 0.005198478698730469
And the result of the sum of numbers in the range [0, value) is: 24934.612873965198

Reducción secuencial en GPU
Time taken by reduction operation using a function on GPU: 0.5224764347076416
And the result of the sum of numbers in the range [0, value) is: 25072.203549622725

Reducción con numpy.sum()
Time taken by reduction operation using numpy.sum(): 9.179115295410156e-05
Now, the result using numpy.sum(): 24934.61287396513

Reducción con cupy.sum()
Time taken by reduction operation using cupy.sum(): 0.00868082046508789
Now, the result using cupy.sum(): 25072.203549622885



### Apartado 3.3 d)

Crea una nueva celda de texto debajo de la última celda de código para explicar los resultados obtenidos por los paquetes cupy y Numba usando la GPU.

Solo vamos a ver los resultados usando la librerúa CuPy porque el paquete Numba no lo usamos al final.

### Resultado 1: 

Ejecutando en la cola bohr-gpu con 5*10**6 obtuve los siguientes resultados: 

Time taken by reduction operation using a function: 260 ms ± 1.06 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 2500248.34205854

Time taken by reduction operation using numpy.sum(): 1.37 ms ± 3.3 µs per loop (mean ± std. dev. of 2 runs, 1,000 loops each)
Now, the result using numpy.sum(): 2500248.3420584826 
 
Time taken by reduction operation using numpy.ndarray.sum(): 1.36 ms ± 1.13 µs per loop (mean ± std. dev. of 2 runs, 1,000 loops each)
Now, the result using numpy.ndarray.sum(): 2500248.3420584826

CPU Array creation: 0.016791105270385742 seconds
Array size (CPU): 5000000
Array dtype (CPU): float64

GPU Array creation: 0.7074065208435059 seconds
Array shape (GPU): (5000000,)

Reducción secuencial en CPU
Time taken by reduction operation using a function: 0.26178669929504395
And the result of the sum of numbers in the range [0, value) is: 2499540.5338810883

Reducción secuencial en GPU
Time taken by reduction operation using a function on GPU: 20.55726146697998
And the result of the sum of numbers in the range [0, value) is: 2499899.3434088686

Reducción con numpy.sum()
Time taken by reduction operation using numpy.sum(): 0.001874685287475586
Now, the result using numpy.sum(): 2499540.533881166

Reducción con cupy.sum()
Time taken by reduction operation using cupy.sum(): 0.015312910079956055
Now, the result using cupy.sum(): 2499899.3434088277


### Resultado 2: 

Ejecutando en la cola bohr-gpu con 5*10**7 obtuve los siguientes resultados:

Time taken by reduction operation using a function: 2.62 s ± 7.99 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 24999744.401541766

Time taken by reduction operation using numpy.sum(): 17.7 ms ± 4.58 µs per loop (mean ± std. dev. of 2 runs, 100 loops each)
Now, the result using numpy.sum(): 24999744.401545413 
 
Time taken by reduction operation using numpy.ndarray.sum(): 17.7 ms ± 23.4 µs per loop (mean ± std. dev. of 2 runs, 100 loops each)
Now, the result using numpy.ndarray.sum(): 24999744.401545413

CPU Array creation: 0.16660761833190918 seconds
Array size (CPU): 50000000
Array dtype (CPU): float64

GPU Array creation: 4.348877429962158 seconds
Array shape (GPU): (50000000,)

Reducción secuencial en CPU
Time taken by reduction operation using a function: 2.6361966133117676
And the result of the sum of numbers in the range [0, value) is: 24997561.513052203

Reducción secuencial en GPU
Time taken by reduction operation using a function on GPU: 211.7965545654297
And the result of the sum of numbers in the range [0, value) is: 24997979.59035174

Reducción con numpy.sum()
Time taken by reduction operation using numpy.sum(): 0.01816391944885254
Now, the result using numpy.sum(): 24997561.513059415

Reducción con cupy.sum()
Time taken by reduction operation using cupy.sum(): 0.38214588165283203
Now, the result using cupy.sum(): 24997979.59035136

### Resultado 3: 

Time taken by reduction operation using a function: 27 s ± 86.3 ms per loop (mean ± std. dev. of 2 runs, 1 loop each)
And the result of the sum of numbers in the range [0, value) is: 250000884.9455672

Time taken by reduction operation using numpy.sum(): 180 ms ± 62.3 µs per loop (mean ± std. dev. of 2 runs, 10 loops each)
Now, the result using numpy.sum(): 250000884.9453151 
 
Time taken by reduction operation using numpy.ndarray.sum(): 180 ms ± 17.1 µs per loop (mean ± std. dev. of 2 runs, 10 loops each)
Now, the result using numpy.ndarray.sum(): 250000884.9453151

CPU Array creation: 1.6256401538848877 seconds
Array size (CPU): 500000000
Array dtype (CPU): float64

GPU Array creation: 1.90981125831604 seconds
Array shape (GPU): (500000000,)

Reducción secuencial en CPU
Time taken by reduction operation using a function: 26.516064405441284
And the result of the sum of numbers in the range [0, value) is: 249999952.19205445

Reducción secuencial en GPU
Time taken by reduction operation using a function on GPU: 2008.5711297988892
And the result of the sum of numbers in the range [0, value) is: 249997214.61731622

Reducción con numpy.sum()
Time taken by reduction operation using numpy.sum(): 0.18059301376342773
Now, the result using numpy.sum(): 249999952.19232768

Reducción con cupy.sum()
Time taken by reduction operation using cupy.sum(): 0.02237224578857422
Now, the result using cupy.sum(): 249997214.61727217

### Comentarios

Los resultados obtenidos reflejan cómo el rendimiento entre la CPU y la GPU varía significativamente según el tamaño del array y la naturaleza del cálculo que se realiza. En operaciones con arrays pequeños, como los de tamaño 5*10^6, la CPU con herramientas como NumPy muestra un rendimiento superior (vemos un menor tiempo) gracias a su bajo overhead y a la optimización interna de sus operaciones, que están diseñadas para aprovechar eficientemente el hardware subyacente. Por tanto, en estos casos, la GPU presenta importantes desventajas debido al tiempo necesario para transferir los datos desde la memoria de la CPU hacia la GPU, además de los costos asociados a la inicialización de los kernels de cálculo, que no son proporcionales al tamaño del array y representan un costo fijo significativo. Por esta razón, el uso de la GPU en problemas pequeños no es una buena idea en mi opinión tras los resultados observados.

Por otro lado, a medida que el tamaño del array aumenta, como en el caso de 5*10^7, el paralelismo masivo de la GPU comienza a compensar estas penalizaciones iniciales. Aunque en este rango de tamaño la CPU aún mantiene una ventaja en tiempo de ejecución debido a las optimizaciones de NumPy, se observa una reducción en la brecha de rendimiento. Por tanto, deduzco que, si el tamaño del array se incrementara aún más, como a 5*10^8, es muy probable que la GPU supere a la CPU.

Ante esta teoría se aumentó el tamaño del array a 5*10^8, observando ahora sí una mejora con respecto al uso de la GPU. CuPy muestra un rendimiento significativamente superior en tiempo de reducción (22 ms) frente a NumPy (180 ms), pero el tiempo inicial de creación del array en GPU sigue siendo un factor importante.

En resumen, los resultados reflejan las fortalezas y debilidades de cada arquitectura para tareas específicas. Para tamaños pequeños o medianos, la CPU sigue siendo más eficiente debido a su capacidad para realizar operaciones con un overhead mínimo y aprovechar la optimización de bibliotecas como NumPy. Para tamaños grandes o tareas computacionalmente intensivas, la GPU muestra su verdadero potencial gracias a su arquitectura diseñada para el paralelismo masivo. Sin embargo, para maximizar los beneficios de la GPU, es crucial trabajar con problemas suficientemente grandes y considerar las optimizaciones necesarias para minimizar los costos asociados a la transferencia de datos y la configuración inicial.
