# NumPy Esencial – Arrays, Operaciones y Rendimiento

**Curso:** Fundamentos de Programación y Analítica de Datos con Python  
Duración estimada: 2 horas 30 minutos

## Objetivos específicos
- Crear y manipular arreglos multidimensionales con NumPy (creación, `dtype`, `shape`, `ndim`, `reshape`, `slicing`).
- Aplicar operaciones vectorizadas y funciones universales (`ufuncs`) para transformar datos numéricos de forma eficiente.
- Comparar el rendimiento entre listas nativas de Python y arreglos de NumPy en operaciones numéricas intensivas.
- Implementar prácticas profesionales básicas para código reproducible y legible en análisis numérico.

## Prerrequisitos
- Fundamentos de Python: tipos básicos, listas, bucles, funciones.
- Conocimientos básicos de álgebra lineal (vectores, matrices) son recomendables, aunque no estrictamente necesarios.


## Tema 1 — Arrays de NumPy: creación, propiedades, slicing y reshape

### Definición
Un **array de NumPy** (`numpy.ndarray`) es una estructura de datos homogénea y multidimensional para almacenar y operar eficientemente con datos numéricos. A diferencia de las listas de Python, los arrays mantienen un único tipo de dato y una distribución contigua en memoria, lo que habilita operaciones vectorizadas y un acceso más eficiente.

### Importancia en programación y analítica de datos
Los arrays constituyen la base del ecosistema científico en Python: **Pandas** usa NumPy internamente, y bibliotecas como **SciPy**, **scikit-learn**, **TensorFlow** o **PyTorch** asumen arreglos o tensores como tipos de entrada. Dominar `ndarray` facilita la limpieza, transformación y computación numérica de grandes volúmenes de datos con **legibilidad** y **rendimiento** superiores a las estructuras nativas.


### Buenas prácticas profesionales y errores comunes
- **Preferir tipado explícito** (`dtype`) cuando se requiera control numérico (por ejemplo, `float64` vs `float32`).  
- **Evitar copias innecesarias**: usar **views** mediante slicing y `reshape` cuando sea posible.  
- **Documentar supuestos de forma y dimensiones** (`shape`, `ndim`) especialmente en funciones reutilizables.  
- **Error común**: asumir que `reshape` siempre copia datos. En la mayoría de casos devuelve una *vista*; si no es posible, crea una copia. Verificar con `arr.base is not None` cuando sea relevante.


In [None]:
# Ejemplo en Python — creación, propiedades, slicing y reshape
import numpy as np

# Creación desde listas
arr = np.array([1, 2, 3, 4, 5])
print("Array:", arr, "| dtype:", arr.dtype, "| shape:", arr.shape, "| ndim:", arr.ndim)

# Matrices inicializadas
z = np.zeros((2, 3), dtype=np.float64)
o = np.ones((3, 3), dtype=np.int64)
r = np.random.rand(2, 4)  # valores uniformes en [0, 1)
print("\nCeros:\n", z)
print("Unos:\n", o)
print("Aleatorios uniformes:\n", r)

# Arange y linspace
a = np.arange(1, 13)   # 1..12
b = np.linspace(0, 1, num=5)  # 5 puntos equiespaciados en [0,1]
print("\nArange:", a)
print("Linspace:", b)

# Slicing básico
print("\nPrimeros 4:", a[:4])
print("Elementos con paso 2:", a[::2])

# Reshape (vista si es posible)
m = a.reshape((3, 4))  # 3 filas, 4 columnas
print("\nMatriz 3x4:\n", m)
print("Fila 0:", m[0, :])
print("Columna 3:", m[:, 3])

# Comprobar si 'm' comparte memoria con 'a' (vista vs copia)
print("\n¿m es vista de a?:", m.base is a)


## Tema 2 — Operaciones vectorizadas, ufuncs, broadcasting y rendimiento

### Definición
Las **operaciones vectorizadas** aplican transformaciones elemento a elemento sobre arreglos completos sin escribir bucles explícitos en Python. Las **funciones universales** (*ufuncs*) de NumPy (por ejemplo, `np.add`, `np.sqrt`, `np.sin`) están implementadas en C y se ejecutan de forma altamente optimizada. El **broadcasting** permite combinar arreglos de diferentes formas compatibles expandiendo dimensiones lógicamente sin materializar copias innecesarias.

### Importancia en programación y analítica de datos
- Reduce la complejidad de código al eliminar bucles explícitos, mejorando **legibilidad** y **mantenibilidad**.  
- Mejora significativamente el **rendimiento** al delegar el trabajo a código compilado y al aprovechar memoria contigua.  
- Es esencial para **preprocesamiento**, **normalización**, **estandarización** y transformaciones numéricas previas a modelado estadístico o de aprendizaje automático.


### Buenas prácticas profesionales y errores comunes
- **Vectorizar antes que iterar**: priorice `ufuncs` y operaciones entre arreglos sobre bucles `for`.  
- **Validar formas** (`shape`) antes de operar: errores por incompatibilidades de broadcasting son frecuentes.  
- **Evitar conversiones implícitas**: mezclar tipos enteros y flotantes puede producir *casts* inesperados. Sea explícito cuando el tipo sea relevante.  
- **Medir antes de optimizar**: use mediciones simples (`time`, `perf_counter`) o `np.testing` para validar exactitud y rendimiento.


In [None]:
# Ejemplo en Python — operaciones vectorizadas, ufuncs y broadcasting
import numpy as np

x = np.array([1.0, 2.0, 3.0, 4.0])
y = np.array([10.0, 20.0, 30.0, 40.0])

# Operaciones elemento a elemento
print("Suma:", x + y)
print("Multiplicación:", x * y)
print("Potencia:", x ** 2)

# Ufuncs
print("Raíz cuadrada de x:", np.sqrt(x))
print("Seno de x:", np.sin(x))
print("Media de y:", np.mean(y))

# Broadcasting: sumar un escalar a un vector
print("\nBroadcasting escalar + vector:", x + 5)

# Broadcasting: matriz (3x1) con vector (1x4) -> resultado (3x4)
m = np.arange(12, dtype=float).reshape(3, 4)
v = np.array([1.0, 0.0, -1.0, 2.0])
print("\nMatriz m:\n", m)
print("Vector v:", v)
print("m + v (broadcasting):\n", m + v)


In [None]:
# Ejemplo en Python — comparación de rendimiento: listas vs arrays
import numpy as np
import time

N = 1_000_00  # 100k para ejecución rápida en clase; puede aumentarse a 1_000_000

# Listas de Python
lista = list(range(N))
t0 = time.perf_counter()
lista_cuadrados = [x * x for x in lista]
t1 = time.perf_counter()
print(f"Tiempo listas (cuadrado, N={N}): {t1 - t0:.6f} s")

# NumPy array
arr = np.arange(N)
t2 = time.perf_counter()
arr_cuadrados = arr * arr
t3 = time.perf_counter()
print(f"Tiempo NumPy (cuadrado, N={N}): {t3 - t2:.6f} s")

# Validación rápida
print("¿Resultados equivalentes?", np.array_equal(np.array(lista_cuadrados), arr_cuadrados))


# Ejercicios integradores

A continuación se proponen ejercicios que integran los temas del bloque. Cada ejercicio incluye contexto técnico, datos/entradas, requerimientos, criterios de aceptación, pistas y una solución propuesta.


## Ejercicio 1 — Normalización de métricas de sensores

**Contexto técnico:** Usted es analista de datos en un equipo de IoT. Debe preparar métricas de temperatura de varios sensores para un panel de control. Requiere escalar los datos para visualizaciones comparables y operaciones posteriores.

**Datos/entradas:** Genere un arreglo `temperaturas` con 48 valores en el rango [15, 35] con `np.linspace`. Separe en 2 días de 24 mediciones cada uno (matriz 2x24).

**Requerimientos:**
1. Calcular la normalización *min-max* por día (fila) para llevar cada fila al rango [0, 1].
2. Reportar el valor mínimo, máximo y media por día antes y después de normalizar.
3. Verificar que cada fila normalizada tenga mínimo 0 y máximo 1 (tolerancia 1e-9).

**Criterios de aceptación:**
- Se imprimen min, max, media por día (antes/después).
- Las filas normalizadas cumplen: `np.isclose(fila.min(), 0)` y `np.isclose(fila.max(), 1)`.

**Pistas:**
- Use `reshape(2, 24)` para repartir las mediciones por día.
- Para normalización por fila: restar `min` por fila y dividir por `(max - min)` por fila usando broadcasting.


In [None]:
# Solución Ejercicio 1
import numpy as np

temperaturas = np.linspace(15.0, 35.0, num=48)
mat = temperaturas.reshape(2, 24)  # 2 días, 24 mediciones

print("Estadísticos originales por día:")
print("Mínimos:", mat.min(axis=1))
print("Máximos:", mat.max(axis=1))
print("Medias :", mat.mean(axis=1))

mins = mat.min(axis=1, keepdims=True)
maxs = mat.max(axis=1, keepdims=True)
norm = (mat - mins) / (maxs - mins)

print("\nEstadísticos normalizados por día:")
print("Mínimos:", norm.min(axis=1))
print("Máximos:", norm.max(axis=1))
print("Medias :", norm.mean(axis=1))

assert np.allclose(norm.min(axis=1), 0.0, atol=1e-9)
assert np.allclose(norm.max(axis=1), 1.0, atol=1e-9)
print("\nValidación OK: filas normalizadas en [0, 1].")


## Ejercicio 2 — Filtrado por umbrales y transformación con ufuncs

**Contexto técnico:** En una etapa de depuración de datos, debe filtrar mediciones de un acelerómetro, eliminando valores espurios y transformando los restantes para análisis de señales.

**Datos/entradas:** Genere `acc = np.linspace(-5, 5, num=21)`.

**Requerimientos:**
1. Crear un *máscara booleana* que conserve valores en el rango [-3, 3].
2. A los valores conservados aplicar `np.abs` y `np.sqrt` (en ese orden).
3. Calcular media y desviación estándar de los valores transformados.

**Criterios de aceptación:**
- Se imprime el vector filtrado, y luego el transformado.
- Se imprimen media y desviación estándar.

**Pistas:**
- Use operaciones booleanas vectorizadas: `(acc >= -3) & (acc <= 3)`.
- Recuerde que `np.sqrt` actúa elemento a elemento.


In [None]:
# Solución Ejercicio 2
import numpy as np

acc = np.linspace(-5, 5, num=21)
mask = (acc >= -3) & (acc <= 3)
filtrado = acc[mask]

transformado = np.sqrt(np.abs(filtrado))
print("Filtrado:", filtrado)
print("Transformado:", transformado)
print("Media:", np.mean(transformado))
print("Desviación estándar:", np.std(transformado, ddof=0))


## Ejercicio 3 — Broadcasting para ajustar una matriz con sesgo por columna

**Contexto técnico:** Tiene un conjunto de datos tabular donde cada columna presenta un sesgo diferente (offset). Debe corregirlo restando un vector de offsets conocido para estandarizar las mediciones.

**Datos/entradas:** Genere `M = np.arange(20).reshape(4, 5).astype(float)` y `offsets = np.array([0.0, 1.5, -2.0, 0.5, 3.0])`.

**Requerimientos:**
1. Restar el vector `offsets` a cada fila de `M` usando broadcasting (resultado `M_adj`).
2. Verificar con aserciones que `M_adj[0, :]` coincide con `M[0, :] - offsets`.
3. Calcular la media por columna antes y después del ajuste.

**Criterios de aceptación:**
- `M_adj` calculado correctamente mediante broadcasting.
- Aserción de la primera fila satisfecha sin errores.
- Reporte de medias por columna (original/ajustada).

**Pistas:**
- Revise la compatibilidad de formas para broadcasting: `(4, 5)` con `(5,)`.


In [None]:
# Solución Ejercicio 3
import numpy as np

M = np.arange(20).reshape(4, 5).astype(float)
offsets = np.array([0.0, 1.5, -2.0, 0.5, 3.0])

M_adj = M - offsets  # broadcasting (4x5) - (5,) -> (4x5)

# Verificación con aserción
assert np.allclose(M_adj[0, :], M[0, :] - offsets)

print("Medias por columna (original):", M.mean(axis=1 if False else 0))
print("Medias por columna (ajustada):", M_adj.mean(axis=0))


## Ejercicio 4 — Benchmark simple: listas vs NumPy y validación de exactitud

**Contexto técnico:** Antes de migrar un flujo ETL, desea justificar el uso de NumPy con evidencia de rendimiento y sin perder exactitud en los resultados.

**Datos/entradas:** Defina `N = 500_000` (o un valor que su equipo pueda ejecutar).

**Requerimientos:**
1. Calcular el vector de cuadrados con listas y con NumPy, registrando tiempo.
2. Repetir el benchmark con la operación `np.sqrt` sobre enteros convertidos a flotantes.
3. Validar exactitud con `np.allclose` entre las versiones de listas y NumPy.

**Criterios de aceptación:**
- Se imprimen tiempos comparativos para ambas operaciones.
- Validación de exactitud positiva en ambos casos.

**Pistas:**
- Use `time.perf_counter()` y `np.array(lista)` para comparar contra arreglos de NumPy.


In [None]:
# Solución Ejercicio 4
import numpy as np
import time

N = 500_000

# 1) Cuadrados
lista = list(range(N))

t0 = time.perf_counter()
cuadrados_lista = [x * x for x in lista]
t1 = time.perf_counter()

arr = np.arange(N, dtype=np.int64)
t2 = time.perf_counter()
cuadrados_np = arr * arr
t3 = time.perf_counter()

print(f"Tiempo listas (cuadrado): {t1 - t0:.6f} s")
print(f"Tiempo NumPy (cuadrado):  {t3 - t2:.6f} s")
print("¿Iguales?", np.array_equal(np.array(cuadrados_lista, dtype=np.int64), cuadrados_np))

# 2) Raíz cuadrada
floats_lista = [float(x) for x in lista]

t4 = time.perf_counter()
sqrt_lista = [x ** 0.5 for x in floats_lista]
t5 = time.perf_counter()

arr_float = arr.astype(np.float64, copy=False)
t6 = time.perf_counter()
sqrt_np = np.sqrt(arr_float)
t7 = time.perf_counter()

print(f"Tiempo listas (sqrt):    {t5 - t4:.6f} s")
print(f"Tiempo NumPy (sqrt):     {t7 - t6:.6f} s")
print("¿Allclose?", np.allclose(np.array(sqrt_lista), sqrt_np))
