# üß™ Tarea: Rendimiento con listas de Python vs NumPy

## üéØ Objetivos
- Entender la **ventaja de la vectorizaci√≥n** frente a bucles en Python puro.
- Medir tiempos de ejecuci√≥n de **operaciones estad√≠sticas** (suma, media, mediana, desviaci√≥n est√°ndar) sobre datos grandes.
- Documentar resultados y extraer **conclusiones**.

## üß∞ Entorno
- Ejecuta este notebook en **Jupyter/Colab** o local con Python 3.12+.
- Necesitas `numpy` (y opcionalmente `pandas` para presentar tablas m√°s bonitas).

---

## 1) Preparaci√≥n
Define tama√±os de datos y comprueba las versiones de Python y NumPy.

In [1]:
import sys, platform, math, statistics, random
from time import perf_counter

try:
    import numpy as np
except Exception as e:
    raise SystemExit("NumPy no est√° instalado. Inst√°lalo con `pip install numpy`.\n" + str(e))

print("Python:", sys.version.split()[0])
print("Plataforma:", platform.platform())
print("NumPy:", np.__version__)

Python: 3.10.11
Plataforma: Windows-10-10.0.26100-SP0
NumPy: 1.26.4


## 2) Utilidades de medici√≥n
Incluye una funci√≥n de **bench** con *warm-up* y repeticiones. No edites esta celda salvo que sepas lo que haces.

### Explicaci√≥n de la funci√≥n `bench`

La funci√≥n `bench` permite medir el **tiempo medio de ejecuci√≥n** de una funci√≥n cualquiera (`func`) sobre unos argumentos dados. Realiza una ejecuci√≥n de "calentamiento" (*warm-up*) para evitar efectos de inicializaci√≥n, y luego repite la medici√≥n varias veces (por defecto 3), devolviendo el promedio de los tiempos obtenidos. Es √∫til para comparar el rendimiento de distintas implementaciones de una misma operaci√≥n.

- **Par√°metros principales:**
  - `func`: funci√≥n a medir.
  - `*args`, `**kwargs`: argumentos para la funci√≥n.
  - `repeats`: n√∫mero de repeticiones.
  - `warmup`: si se realiza una ejecuci√≥n previa de calentamiento.

Devuelve el tiempo medio en segundos.

In [4]:
def bench(func, *args, repeats=3, warmup=True, **kwargs):
    """Devuelve el tiempo medio (seg) de ejecutar func(*args, **kwargs)."""
    if warmup:
        func(*args, **kwargs)
    times = []
    for _ in range(repeats):
        t0 = perf_counter()
        func(*args, **kwargs)
        times.append(perf_counter() - t0)
    return sum(times) / len(times)

def gen_list(N, seed=42):
    random.seed(seed)
    return [random.random() for _ in range(N)]

## 3) Funciones en Python puro y con NumPy
‚ö†Ô∏è **No mezcles** generaci√≥n de datos con la medici√≥n. Crea el `np.array` **una vez** por tama√±o.

In [3]:
# Python puro
def py_sum(x):      return sum(x)
def py_mean(x):     return sum(x) / len(x)
def py_median(x):   return statistics.median(x)
def py_std(x):      return statistics.pstdev(x)  # desviaci√≥n est√°ndar poblacional

# NumPy
def np_sum(a):      return np.sum(a)
def np_mean(a):     return np.mean(a)
def np_median(a):   return np.median(a)
def np_std(a):      return np.std(a)  # ddof=0 (poblacional)

### Explicaci√≥n de las funciones estad√≠sticas (Python puro y NumPy)

Estas funciones implementan operaciones estad√≠sticas b√°sicas sobre una colecci√≥n de datos, tanto usando Python est√°ndar como la librer√≠a NumPy:

- **Python puro:**
  - `py_sum(x)`: suma todos los elementos de la lista `x`.
  - `py_mean(x)`: calcula la media aritm√©tica de la lista `x`.
  - `py_median(x)`: obtiene la mediana de la lista `x`.
  - `py_std(x)`: calcula la desviaci√≥n est√°ndar poblacional de la lista `x`.

- **NumPy:**
  - `np_sum(a)`: suma todos los elementos del array `a`.
  - `np_mean(a)`: calcula la media aritm√©tica del array `a`.
  - `np_median(a)`: obtiene la mediana del array `a`.
  - `np_std(a)`: calcula la desviaci√≥n est√°ndar poblacional del array `a`.

Las funciones de NumPy suelen ser mucho m√°s r√°pidas en grandes vol√∫menes de datos gracias a la vectorizaci√≥n.

## 4) Ejecuta el experimento
Por defecto usaremos tama√±os `N = 100k, 500k, 1M`. Si tu equipo es modesto, reduce los valores.

In [5]:
Ns = [100_000, 500_000, 1_000_000]  # ajusta si es necesario
repeats = 3

results = []
for N in Ns:
    L = gen_list(N)
    A = np.array(L, dtype=np.float64)
    row = {"N": N}

    # Python puro
    row["py_sum"]    = bench(py_sum,    L, repeats=repeats)
    row["py_mean"]   = bench(py_mean,   L, repeats=repeats)
    row["py_median"] = bench(py_median, L, repeats=repeats)
    row["py_std"]    = bench(py_std,    L, repeats=repeats)

    # NumPy
    row["np_sum"]    = bench(np_sum,    A, repeats=repeats)
    row["np_mean"]   = bench(np_mean,   A, repeats=repeats)
    row["np_median"] = bench(np_median, A, repeats=repeats)
    row["np_std"]    = bench(np_std,    A, repeats=repeats)

    results.append(row)

def fmt(s):
    try:
        return f"{s:.6f}"
    except Exception:
        return str(s)

print("N\tpy_sum\tnp_sum\tpy_mean\tnp_mean\tpy_median\tnp_median\tpy_std\tnp_std")
for r in results:
    print(f"{r['N']}\t{fmt(r['py_sum'])}\t{fmt(r['np_sum'])}\t{fmt(r['py_mean'])}\t{fmt(r['np_mean'])}\t"
          f"{fmt(r['py_median'])}\t{fmt(r['np_median'])}\t{fmt(r['py_std'])}\t{fmt(r['np_std'])}")

N	py_sum	np_sum	py_mean	np_mean	py_median	np_median	py_std	np_std
100000	0.000248	0.000030	0.000244	0.000031	0.010283	0.000936	0.095090	0.000100
500000	0.001338	0.000136	0.001361	0.000131	0.066547	0.004775	0.474739	0.000443
1000000	0.003323	0.000316	0.003979	0.000254	0.159266	0.008208	0.936564	0.000767


### Explicaci√≥n del experimento de rendimiento

Esta celda ejecuta el experimento principal:

- Define varios tama√±os de datos (`N`).
- Genera listas y arrays NumPy de n√∫meros aleatorios.
- Mide el tiempo de ejecuci√≥n de cada operaci√≥n estad√≠stica (suma, media, mediana, desviaci√≥n est√°ndar) usando tanto Python puro como NumPy.
- Almacena los resultados en una lista de diccionarios.
- Presenta los resultados en formato de tabla para comparar el rendimiento.

Permite observar c√≥mo escala el tiempo de c√°lculo al aumentar el tama√±o de los datos y comparar la eficiencia entre Python puro y NumPy.

### (Opcional) Presentar la tabla con `pandas` y hacer gr√°fica simple

In [5]:
try:
    import pandas as pd
    df = pd.DataFrame(results)
    display(df)
except Exception:
    print("Pandas no est√° instalado; omitiendo visualizaci√≥n con DataFrame.")
    df = None

Unnamed: 0,N,py_sum,py_mean,py_median,py_std,np_sum,np_mean,np_median,np_std
0,100000,0.00095,0.000822,0.025019,0.078049,5.5e-05,4e-05,0.001181,0.000133
1,500000,0.004006,0.005281,0.247486,0.347542,0.000627,0.000279,0.008906,0.001868
2,1000000,0.009872,0.008892,0.567648,0.65781,0.000655,0.000523,0.016211,0.007557


### Explicaci√≥n de la visualizaci√≥n con pandas

Esta celda intenta mostrar los resultados del experimento en una tabla usando la librer√≠a `pandas`. Si `pandas` est√° instalado, se crea un `DataFrame` y se visualiza para facilitar la comparaci√≥n de los tiempos. Si no est√° disponible, se omite la visualizaci√≥n.

In [6]:
# Gr√°fica opcional (si pandas y matplotlib est√°n disponibles)
try:
    import matplotlib.pyplot as plt
    if df is not None:
        metrics = ["sum", "mean", "median", "std"]
        for m in metrics:
            plt.figure()
            plt.plot(df["N"], df[f"py_{m}"], marker='o', label=f"Python {m}")
            plt.plot(df["N"], df[f"np_{m}"], marker='o', label=f"NumPy {m}")
            plt.xlabel("N")
            plt.ylabel("Tiempo (s)")
            plt.title(f"Rendimiento Python vs NumPy ‚Äì {m}")
            plt.legend()
            plt.show()
except Exception:
    print("Matplotlib no est√° instalado; omitiendo gr√°ficas.")

Matplotlib no est√° instalado; omitiendo gr√°ficas.


### Explicaci√≥n de la gr√°fica de rendimiento

Esta celda genera gr√°ficas (si est√°n disponibles `pandas` y `matplotlib`) que muestran el tiempo de ejecuci√≥n de cada operaci√≥n estad√≠stica para distintos tama√±os de datos, comparando Python puro y NumPy. Las gr√°ficas ayudan a visualizar de forma clara las diferencias de rendimiento.

## 5) (Opcional) Extensi√≥n con **JAX NumPy**
En Colab suele venir preinstalado. Si no, instala con `pip install jax jaxlib` (en CPU) o consulta la docu de JAX para GPU.

In [7]:
USE_JAX = True  # cambia a True si quieres probar JAX
if USE_JAX:
    try:
        import jax
        import jax.numpy as jnp
        print("JAX:", jax.__version__)
        print("JAX backend:", jax.default_backend())
        
        def jnp_sum(a):    return jnp.sum(a).block_until_ready()
        def jnp_mean(a):   return jnp.mean(a).block_until_ready()
        def jnp_median(a): return jnp.median(a).block_until_ready()
        def jnp_std(a):    return jnp.std(a).block_until_ready()

        results_jax = []
        for N in Ns:
            L = gen_list(N)
            A = np.array(L, dtype=np.float64)
            J = jnp.array(A)
            _ = jnp_sum(J)  # Warm-up compilaci√≥n JIT

            row = {"N": N}
            row["jax_sum"]    = bench(jnp_sum,    J, repeats=repeats)
            row["jax_mean"]   = bench(jnp_mean,   J, repeats=repeats)
            row["jax_median"] = bench(jnp_median, J, repeats=repeats)
            row["jax_std"]    = bench(jnp_std,    J, repeats=repeats)
            results_jax.append(row)

        try:
            import pandas as pd
            display(pd.DataFrame(results_jax))
        except Exception:
            print(results_jax)
    except Exception as e:
        print("No se pudo usar JAX:", e)

No se pudo usar JAX: No module named 'jax'


### Explicaci√≥n de la extensi√≥n con JAX NumPy

Esta celda permite repetir el experimento usando la librer√≠a JAX, que implementa operaciones similares a NumPy pero con compilaci√≥n JIT y soporte para GPU/TPU. Si se activa `USE_JAX`, se mide el rendimiento de las operaciones estad√≠sticas con JAX y se presentan los resultados.

## 6) Conclusi√≥n (rellenar por el alumno)
- ¬øQu√© operaciones mejoran m√°s con NumPy y por qu√©?
- ¬øC√≥mo escala el tiempo al crecer N?
- Si probaste JAX: ¬øqu√© diferencia observaste respecto a NumPy en tu entorno?