## Reduction operation: the sum of the numbers in the range [0, value)

In [2]:
import numpy as np
import sys

def reduc_operation(A):
    """Compute the sum of the elements of Array A in the range [0, value)."""
    s = 0
    for i in range(A.size):
        s += A[i]
    return s

# Secuencial

value = int(sys.argv[1])

X = np.random.rand(value)

# Para imprimir los pimeros valores del array

# print(X[0:12])

# Utilizando las operaciones mágicas de ipython

tiempo = %timeit -r 2 -o -q reduc_operation(X)

print("Time taken by reduction operation using a function:", tiempo)


print(f"And the result of the sum of numbers in the range [0, value) is: {reduc_operation(X)}\n")


# Utilizando numpy.sum()

tiempo = %timeit -r 2 -o -q np.sum(X)

print("Time taken by reduction operation using numpy.sum():", tiempo)

print("Now, the result using numpy.sum():", np.sum(X),"\n ")


# Utilizando numpy.ndarray.sum()

tiempo= %timeit -r 2 -o -q X.sum()

print("Time taken by reduction operation using numpy.ndarray.sum():", tiempo)

print("Now, the result using numpy.ndarray.sum():", X.sum())




Time taken by reduction operation using a function: 4.93 ms ± 33.7 µs per loop (mean ± std. dev. of 2 runs, 100 loops each)
And the result of the sum of numbers in the range [0, value) is: 25087.236671455674

Time taken by reduction operation using numpy.sum(): 13.4 µs ± 15.9 ns per loop (mean ± std. dev. of 2 runs, 100,000 loops each)
Now, the result using numpy.sum(): 25087.23667145522 
 
Time taken by reduction operation using numpy.ndarray.sum(): 11.9 µs ± 35 ns per loop (mean ± std. dev. of 2 runs, 100,000 loops each)
Now, the result using numpy.ndarray.sum(): 25087.23667145522


### Apartado A. Librería cupy

In [4]:
import numpy as np
import cupy as cp
import time
from numba import cuda
import sys

def reduc_operation(A):
    """Compute the sum of the elements of Array A in the range [0, value)."""
    s = 0
    for i in range(A.size):
        s += A[i]
    return s


value =int(sys.argv[1])
X= cp.random.rand(value)


# Medir el tiempo para reduc_operation
start_time = time.time()
result = reduc_operation(X)
cp.cuda.Device().synchronize()
end_time = time.time()
print(f"Tiempo de ejecución de reduc_operation: {end_time - start_time} segundos")

# Medir el tiempo para numpy.sum()
start_time = time.time()
result_cp = cp.sum(X) 
cp.cuda.Device().synchronize()
end_time = time.time()
print(f"Tiempo de ejecución de cp.sum: {end_time - start_time} segundos")


Tiempo de ejecución de reduc_operation: 0.4836995601654053 segundos
Tiempo de ejecución de cp.sum: 0.0003311634063720703 segundos


### Apartado C y D

Resultados:
-Lanzado con valor 5000000:
Time taken by reduction operation using numpy.sum(): 1.35 ms ± 18.3 ns per loop (mean ± std. dev. of 2 runs, 1,000 loops each)
Time taken by reduction operation using numpy.ndarray.sum(): 1.34 ms ± 1.56 µs per loop (mean ± std. dev. of 2 runs, 1,000 loops each)
Tiempo de ejecución de cp.sum: 0.015525341033935547 segundos

-Lanzado con valor 50000000:
Time taken by reduction operation using numpy.sum(): 17.7 ms ± 718 ns per loop (mean ± std. dev. of 2 runs, 100 loops each)
Time taken by reduction operation using numpy.ndarray.sum(): 17.7 ms ± 1.42 µs per loop (mean ± std. dev. of 2 runs, 100 loops each)
Tiempo de ejecución de cp.sum: 0.38386011123657227 segundos

-Lanzado con valor 500000000:
Time taken by reduction operation using numpy.sum(): 180 ms ± 156 µs per loop (mean ± std. dev. of 2 runs, 10 loops each)
Time taken by reduction operation using numpy.ndarray.sum(): 180 ms ± 19.1 µs per loop (mean ± std. dev. of 2 runs, 10 loops each)
Tiempo de ejecución de cp.sum: 0.02091526985168457 segundos

Explicación:
Para tamaños pequeños (5x10^6) e intermedios (5x10^7) es significativamente más lento que NumPy.
Esto ocurre porque para tamaños pequeños, la transferencia de datos entre la CPU y la GPU en CuPy introduce una sobrecarga que no existe en NumPy. Mientras que NumPy opera directamente en la memoria principal de la CPU, CuPy debe mover los datos hacia y desde la memoria de la GPU, lo que puede tomar más tiempo que realizar la operación directamente en la CPU.
Para tamaños grandes (5x10^8), el tiempo de ejecución es mucho menor que NumPy.
Para datos grandes, las GPUs pueden manejar mejor la carga de trabajo debido a su paralelismo masivo, mientras que las CPUs se ven limitadas por su arquitectura secuencial. CuPy muestra una ventaja significativa porque la GPU ejecuta operaciones más rápido que la CPU y aprovecha mejor su memoria compartida.