# 3.2. Python HPC: lists y Numpy con Jupyter notebook

### Reduction operation: the sum of the numbers in the range [0, a)

In [1]:
import time
import sys

# Modificación solicitada en el laboratorio:
# Leer valor desde línea de comandos o usar valor por defecto
try:
    value = int(sys.argv[1])
except (IndexError, ValueError):
    value = 10**6

print(f"Usando value = {value}")    

def reduc_operation(a):
    """Compute the sum of the numbers in the range [0, a)."""
    x = 0
    for i in range(a):
        x += i
    return x

# Secuencial

initialTime = time.time()
suma = reduc_operation(value)
finalTime = time.time()

print("Time taken by reduction operation:", (finalTime - initialTime), "seconds")

# Utilizando las operaciones mágicas de ipython
%timeit -r 2 reduc_operation(value)

print(f"\n \t Computing the sum of numbers in the range [0, value): {suma}\n")

Time taken by reduction operation: 0.031900882720947266 seconds
30.5 ms ± 50.3 μs per loop (mean ± std. dev. of 2 runs, 10 loops each)

 	 Computing the sum of numbers in the range [0, value): 499999500000



## a) Usando listas de Python

In [6]:
import time

# Crear lista con 10^6 elementos
data_list = list(range(value))

# ==========================================
# Método 1: Bucle for
# ==========================================
# Definir función como buena práctica para el uso posterior de %timeit
def sum_with_for(data):
    total = 0
    for item in data:
        total += item
    return total

print("\n>>> Método 1: Bucle for con lista\n")

# Con librería time
start = time.time()
total = sum_with_for(data_list)
end = time.time()
print(f"  Tiempo (time): {end - start:.6f} segundos ({(end - start)*1000:.2f} ms)")

# Con %timeit
print("\n  Tiempo (%timeit):")
%timeit sum_with_for(data_list)

print(f"  Resultado: {total}")

# ==========================================
# Método 2: Función sum()
# ==========================================
print("\n>>> Método 2: Función sum() con lista\n")

# Con librería time
start = time.time()
total = sum(data_list)
end = time.time()
print(f"  Tiempo (time): {end - start:.6f} segundos ({(end - start)*1000:.2f} ms)")

# Con %timeit
print("\n  Tiempo (%timeit):")
%timeit sum(data_list)

print(f"  Resultado: {total}")


>>> Método 1: Bucle for con lista

  Tiempo (time): 0.024427 segundos (24.43 ms)

  Tiempo (%timeit):
23.4 ms ± 215 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)
  Resultado: 499999500000

>>> Método 2: Función sum() con lista

  Tiempo (time): 0.006186 segundos (6.19 ms)

  Tiempo (%timeit):
5.84 ms ± 21.2 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
  Resultado: 499999500000


## b) Usando arrays de NumPy

In [7]:
import time
import numpy as np

# Convertir la lista anterior a array de NumPy
data_array = np.array(data_list)

# ==========================================
# Método 1: Bucle for con array 
# ==========================================
print("\n>>> Método 1: Bucle for con array de NumPy\n")

# Con librería time
start = time.time()
total = sum_with_for(data_array)  # ← reutiliza la función del ejercicio (a)
end = time.time()
print(f"Tiempo (time):   {end - start:.6f} segundos ({(end - start)*1000:.2f} ms)")

# Con %timeit
print("\nTiempo (%timeit):")
%timeit sum_with_for(data_array)

print(f"\nResultado: {total}")

# ==========================================
# Método 2: numpy.sum()
# ==========================================
print("\n>>> Método 2: Función numpy.sum() con array\n")

# Con librería time
start = time.time()
total = np.sum(data_array)
end = time.time()
print(f"Tiempo (time):   {end - start:.6f} segundos ({(end - start)*1000:.2f} ms)")

# Con %timeit
print("\nTiempo (%timeit):")
%timeit np.sum(data_array)

print(f"\nResultado: {total}")


>>> Método 1: Bucle for con array de NumPy

Tiempo (time):   0.058228 segundos (58.23 ms)

Tiempo (%timeit):
57 ms ± 507 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)

Resultado: 499999500000

>>> Método 2: Función numpy.sum() con array

Tiempo (time):   0.000401 segundos (0.40 ms)

Tiempo (%timeit):
243 μs ± 1.26 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

Resultado: 499999500000


## c) Análisis comparativo de los resultados obtenidos por los tres procedimientos

### Comparación de tiempos (usando %timeit):

| Método | Estructura | Tiempo | Velocidad relativa |
|--------|-----------|--------|-------------------|
| **Código original** | range() interno | 30.5 ms | 1.0x (baseline) |
| **Bucle for** | Lista | 23.4 ms | 1.3x más rápido |
| **sum()** | Lista | 5.84 ms | **5.2x más rápido** |
| **Bucle for** | Array NumPy | 57 ms | **0.5x más lento** |
| **np.sum()** | Array NumPy | 243 µs | **125x más rápido** |


Los resultados obtenidos revelan diferencias significativas en el rendimiento entre las distintas aproximaciones evaluadas. El código original, que utiliza `range()` de forma interna, presenta un tiempo de ejecución de aproximadamente 30.5 ms, estableciendo la línea base para las comparaciones.

Al trabajar con listas de Python, se observa una mejora notable al emplear la función `sum()` integrada (5.84 ms) frente al bucle for manual (23.4 ms), logrando una aceleración de aproximadamente 5.2 veces respecto al código original. Este comportamiento se debe a que las funciones built-in de Python están optimizadas a nivel de C, minimizando el overhead del intérprete.

Sin embargo, los resultados más reveladores aparecen al introducir arrays de NumPy. Iterar sobre un array de NumPy mediante un bucle for explícito (57 ms) resulta **más lento** que hacerlo sobre una lista estándar. Este fenómeno se explica por el overhead de conversión de tipos entre Python y C en cada iteración, ya que NumPy debe convertir cada elemento del array (tipo NumPy) a un objeto Python antes de sumarlo.

La verdadera potencia de NumPy se manifiesta al utilizar sus funciones vectorizadas. La función `np.sum()` completa la operación en tan solo 243 microsegundos (0.243 ms), lo que representa una aceleración de **125 veces** respecto al código original. Esta mejora dramática se debe a que las operaciones vectorizadas están implementadas en C, aprovechan las instrucciones SIMD del procesador y evitan completamente el bucle interpretado en Python.

En conclusión, para cálculo científico con Python es fundamental utilizar las capacidades de vectorización que ofrece NumPy mediante sus funciones optimizadas, evitando en la medida de lo posible la iteración explícita sobre arrays.

# 3.3. Python HPC: Numba con Jupyter notebook y uso de colas

## a) Añadir @njit

In [8]:
from numba import njit
import time
import numpy as np

# Para comparar fácilmente las diferencias de tiempo, lo pondremos sin y 
# con el decorador @njit de Numba en esta misma celda

# ==========================================
# Definir funciones SIN Numba 
# ==========================================
def sum_with_for_no_numba(data):
    """Suma con bucle for - Python puro"""
    total = 0
    for item in data:
        total += item
    return total

def sum_no_numba(data):
    """Suma usando .sum() - Python/NumPy"""
    return data.sum()

# ==========================================
# Definir funciones CON Numba (@njit)
# ==========================================
@njit
def sum_with_for_numba(data):
    """Suma con bucle for - Compilado con Numba"""
    total = 0
    for item in data:
        total += item
    return total

@njit
def sum_numba(data):
    """Suma usando .sum() - Compilado con Numba"""
    return data.sum()

# ==========================================
# Comparación 1: Bucle for (NumPy vs Numba)
# ==========================================
print("\n" + "="*60)
print("COMPARACIÓN 1: Bucle for")
print("="*60)

# Versión SIN Numba
print("\n>>> Versión SIN Numba (Python puro)\n")
start = time.time()
result1 = sum_with_for_no_numba(data_array)
end = time.time()
tiempo_for_no_numba = end - start
print(f"Tiempo: {tiempo_for_no_numba:.6f} s")

# Versión CON Numba - Primera ejecución (compilación + ejecución)
print("\n>>> Versión CON Numba @njit - Primera ejecución\n")
start = time.time()
result2 = sum_with_for_numba(data_array)
end = time.time()
tiempo_for_numba_primera = end - start
print(f"Tiempo (incluye compilación): {tiempo_for_numba_primera:.6f} s")

# Versión CON Numba - Segunda ejecución (ya compilado)
print("\n>>> Versión CON Numba @njit - Segunda ejecución (ya compilado)\n")
start = time.time()
result2 = sum_with_for_numba(data_array)
end = time.time()
tiempo_for_numba = end - start
print(f"Tiempo: {tiempo_for_numba:.6f} s")

# ==========================================
# Comparación 2: .sum() (NumPy vs Numba)
# ==========================================
print("\n" + "="*60)
print("COMPARACIÓN 2: Método .sum()")
print("="*60)

# Versión NumPy (SIN Numba)
print("\n>>> Versión NumPy (SIN Numba)\n")
start = time.time()
result3 = sum_no_numba(data_array)
end = time.time()
tiempo_sum_no_numba = end - start
print(f"Tiempo: {tiempo_sum_no_numba:.6f} s")

# Versión CON Numba - Primera ejecución
print("\n>>> Versión CON Numba @njit - Primera ejecución\n")
start = time.time()
result4 = sum_numba(data_array)
end = time.time()
tiempo_sum_numba_primera = end - start
print(f"Tiempo (incluye compilación): {tiempo_sum_numba_primera:.6f} s")

# Versión CON Numba - Segunda ejecución
print("\n>>> Versión CON Numba @njit - Segunda ejecución (ya compilado)\n")
start = time.time()
result4 = sum_numba(data_array)
end = time.time()
tiempo_sum_numba = end - start
print(f"Tiempo: {tiempo_sum_numba:.6f} s")

# ==========================================
# Resumen de resultados
# ==========================================
print("\n" + "="*60)
print("RESUMEN DE TIEMPOS (ya compilado)")
print("="*60)
print(f"\nBucle for (Python puro):       {tiempo_for_no_numba:.6f} s")
print(f"Bucle for (Numba @njit):       {tiempo_for_numba:.6f} s")
print(f"Speedup con Numba:             {tiempo_for_no_numba/tiempo_for_numba:.2f}x")
print(f"\n.sum() (NumPy):                {tiempo_sum_no_numba:.6f} s")
print(f".sum() (Numba @njit):          {tiempo_sum_numba:.6f} s")
print(f"Speedup con Numba:             {tiempo_sum_no_numba/tiempo_sum_numba:.2f}x")
print(f"\nResultado: {result4}")
print("="*60)



COMPARACIÓN 1: Bucle for

>>> Versión SIN Numba (Python puro)

Tiempo: 0.057359 s

>>> Versión CON Numba @njit - Primera ejecución

Tiempo (incluye compilación): 3.850325 s

>>> Versión CON Numba @njit - Segunda ejecución (ya compilado)

Tiempo: 0.000630 s

COMPARACIÓN 2: Método .sum()

>>> Versión NumPy (SIN Numba)

Tiempo: 0.000409 s

>>> Versión CON Numba @njit - Primera ejecución

Tiempo (incluye compilación): 0.120005 s

>>> Versión CON Numba @njit - Segunda ejecución (ya compilado)

Tiempo: 0.000388 s

RESUMEN DE TIEMPOS (ya compilado)

Bucle for (Python puro):       0.057359 s
Bucle for (Numba @njit):       0.000630 s
Speedup con Numba:             91.06x

.sum() (NumPy):                0.000409 s
.sum() (Numba @njit):          0.000388 s
Speedup con Numba:             1.05x

Resultado: 499999500000


## b) Análisis de resultados con numba

### Comparación de tiempos (usando time):

| Implementación | Tiempo (s) | Speedup |
|---------------|-----------|---------|
| **Bucle for (Python puro)** | 0.057359 | - |
| **Bucle for (Numba @njit)** | 0.000630 | **91.06x** |
| **.sum() (NumPy)** | 0.000409 | - |
| **.sum() (Numba @njit)** | 0.000388 | 1.05x |

*Nota: Primera ejecución con Numba incluye compilación JIT (3.85 s para bucle for, 0.12 s para .sum())*

Los resultados obtenidos con Numba revelan conclusiones muy interesantes sobre el impacto de la compilación JIT (Just-In-Time) en código Python. La primera observación importante es el overhead de compilación: cuando ejecutamos por primera vez una función decorada con `@njit`, Numba debe traducir el código Python a código máquina optimizado, lo que añade un tiempo considerable (3.85 segundos para el bucle for). Sin embargo, este coste se paga una sola vez, y las ejecuciones posteriores aprovechan el código ya compilado.

El verdadero potencial de Numba se manifiesta en operaciones con bucles explícitos. El bucle for implementado en Python puro tarda 57.4 milisegundos, mientras que la versión compilada con Numba reduce este tiempo a tan solo 0.63 milisegundos, logrando una aceleración de más de 91 veces. Esta mejora dramática se debe a que Numba elimina el overhead del intérprete de Python y genera código máquina optimizado que opera directamente sobre los datos del array de NumPy sin conversiones de tipo intermedias.

Sin embargo, cuando comparamos el método `.sum()`, la diferencia entre NumPy y Numba es mínima (0.409 ms vs 0.388 ms, apenas un 5% de mejora). Esto ocurre porque la implementación nativa de NumPy ya está altamente optimizada en C y utiliza instrucciones vectorizadas del procesador. En este caso, Numba no puede mejorar significativamente una operación que ya está cerca del rendimiento óptimo del hardware.

La conclusión principal es que Numba resulta especialmente valioso cuando necesitamos implementar algoritmos con bucles complejos que no se pueden vectorizar fácilmente con NumPy. En estos casos, Numba permite escribir código Python legible y natural mientras se obtiene un rendimiento comparable al de código compilado en C.

## c) Resultados de ejecución en cola SLURM (hpc-bio-ampere) con los valores especificados en la línea de comandos

### Ejecución con value = 10^7 elementos

### Ejecución con value = 10^8 elementos

### Análisis de escalabilidad

Los resultados demuestran un escalado prácticamente lineal en todos los métodos al aumentar el tamaño de los datos de 10^6 a 10^7 (×10) y de 10^7 a 10^8 (×10). El código original pasa de 30.5 ms a 344 ms (×11.3) y finalmente a 3.43 s (×10), mientras que `sum()` con listas escala de 5.84 ms a 61.4 ms (×10.5) y a 614 ms (×10). La función vectorizada `np.sum()` mantiene su ventaja absoluta escalando de 0.243 ms a 3.6 ms (×14.8) y a 35.8 ms (×10), aunque con mayor variabilidad en el primer salto. 

El comportamiento más destacable lo presenta Numba con bucles for, que mantiene consistentemente un speedup superior a 105× respecto a Python puro independientemente del tamaño de datos (105.91× con 10^7 y 105.68× con 10^8), demostrando que la aceleración por compilación JIT se mantiene estable al escalar. En contraste, el overhead de conversión de tipos en bucles for sobre arrays de NumPy se amplifica con datos más grandes, pasando de 57 ms (10^6) a 596 ms (10^7, ×10.5) y a 6.17 s (10^8, ×10.3), confirmando que esta aproximación debe evitarse en producción. Las funciones optimizadas (`sum()`, `np.sum()`, Numba) mantienen su comportamiento lineal predecible, crucial para estimar tiempos de cómputo en aplicaciones de gran escala.