# Día 5: Vectorización con NumPy

## Descripción General

La vectorización es una de las técnicas más poderosas para optimizar el rendimiento en Python cuando trabajamos con datos numéricos. En lugar de usar bucles explícitos de Python (que son lentos), NumPy permite realizar operaciones sobre arrays completos de una sola vez, ejecutando código altamente optimizado en C.

En este notebook aprenderás cómo aprovechar la vectorización de NumPy para escribir código más rápido, más limpio y más eficiente. Exploraremos operaciones de arrays, broadcasting, y técnicas de optimización que son fundamentales para el procesamiento de datos y machine learning.

## Objetivos de Aprendizaje

Al finalizar este notebook, serás capaz de:

1. Comprender qué es la vectorización y por qué mejora el rendimiento
2. Aplicar operaciones vectorizadas en lugar de bucles de Python
3. Utilizar broadcasting para operaciones entre arrays de diferentes formas
4. Medir y comparar el rendimiento entre código vectorizado y no vectorizado
5. Identificar oportunidades para vectorizar código existente

## 1. ¿Qué es la Vectorización?

### El Problema que Resuelve

Cuando trabajamos con grandes cantidades de datos numéricos en Python, los bucles tradicionales son extremadamente lentos. Esto se debe a que Python es un lenguaje interpretado y cada iteración del bucle tiene un overhead significativo.

Por ejemplo, si queremos calcular el cuadrado de un millón de números usando un bucle de Python:

```python
# Enfoque lento con bucle de Python
result = []
for x in data:
    result.append(x ** 2)
```

Este código es lento porque:
- Python interpreta cada línea en tiempo de ejecución
- Cada operación requiere verificaciones de tipo
- La gestión de memoria es ineficiente

### La Solución: Vectorización

La vectorización permite realizar operaciones sobre arrays completos sin bucles explícitos. NumPy ejecuta estas operaciones en código C optimizado, logrando mejoras de rendimiento de 10x a 100x o más.

```python
# Enfoque rápido con vectorización
result = data ** 2
```

### Aprendizaje Clave

La vectorización en NumPy ejecuta operaciones sobre arrays completos en código C optimizado, eliminando el overhead de los bucles de Python y mejorando el rendimiento dramáticamente.

**Referencia oficial:** [NumPy Broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html)

In [None]:
import numpy as np
import time

### Ejemplo: Comparación de Rendimiento

In [None]:
# Create a large array
data = np.random.rand(1_000_000)

# BAD: Using Python loop
start = time.time()
result_loop = []
for x in data:
    result_loop.append(x ** 2)
time_loop = time.time() - start

# GOOD: Using vectorization
start = time.time()
result_vectorized = data ** 2
time_vectorized = time.time() - start

print(f"Loop time: {time_loop:.4f} seconds")
print(f"Vectorized time: {time_vectorized:.4f} seconds")
print(f"Speedup: {time_loop / time_vectorized:.1f}x")

### Pregunta de Comprensión

¿Por qué la vectorización de NumPy es más rápida que los bucles de Python?

## 2. Operaciones Vectorizadas Básicas

### Operaciones Aritméticas Element-wise

NumPy permite realizar operaciones aritméticas directamente sobre arrays completos. Estas operaciones se aplican elemento por elemento (element-wise) de forma automática.

In [None]:
# Create sample arrays
a = np.array([1, 2, 3, 4, 5])
b = np.array([10, 20, 30, 40, 50])

# Arithmetic operations
print("Addition:", a + b)
print("Subtraction:", a - b)
print("Multiplication:", a * b)
print("Division:", b / a)
print("Power:", a ** 2)
print("Square root:", np.sqrt(a))

### Funciones Universales (ufuncs)

NumPy proporciona funciones universales (ufuncs) que operan elemento por elemento sobre arrays. Estas funciones están implementadas en C y son extremadamente rápidas.

In [None]:
# Mathematical ufuncs
angles = np.array([0, np.pi/4, np.pi/2, np.pi])

print("Sin:", np.sin(angles))
print("Cos:", np.cos(angles))
print("Exp:", np.exp([1, 2, 3]))
print("Log:", np.log([1, np.e, np.e**2]))

### Operaciones de Comparación

Las comparaciones también se vectorizan, devolviendo arrays booleanos que pueden usarse para indexación.

In [None]:
data = np.array([1, 5, 3, 8, 2, 9, 4])

# Vectorized comparison
mask = data > 4
print("Mask:", mask)
print("Values > 4:", data[mask])

# Multiple conditions
mask_range = (data >= 3) & (data <= 7)
print("Values between 3 and 7:", data[mask_range])

### Aprendizaje Clave

Las operaciones vectorizadas de NumPy (aritméticas, matemáticas, comparaciones) se aplican elemento por elemento sobre arrays completos, eliminando la necesidad de bucles explícitos.

**Referencia oficial:** [NumPy Universal Functions](https://numpy.org/doc/stable/reference/ufuncs.html)

## 3. Broadcasting

### El Problema que Resuelve

A menudo necesitamos realizar operaciones entre arrays de diferentes formas. Por ejemplo, sumar un escalar a cada elemento de un array, o sumar un vector a cada fila de una matriz.

### La Solución: Broadcasting

Broadcasting es el mecanismo de NumPy para realizar operaciones entre arrays de diferentes formas. NumPy "expande" automáticamente el array más pequeño para que coincida con la forma del array más grande.

In [None]:
# Broadcasting with scalar
arr = np.array([1, 2, 3, 4, 5])
print("Array + 10:", arr + 10)

# Broadcasting with 1D array
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])
row = np.array([10, 20, 30])

print("\nMatrix:")
print(matrix)
print("\nMatrix + row:")
print(matrix + row)

### Reglas de Broadcasting

NumPy compara las formas de los arrays elemento por elemento, empezando desde la dimensión más a la derecha:

1. Si las dimensiones son iguales, o
2. Si una de las dimensiones es 1

Entonces los arrays son compatibles para broadcasting.

```
Array A:      (3, 4, 5)
Array B:      (   4, 5)  → Compatible (se expande a 3, 4, 5)

Array A:      (3, 4, 5)
Array B:      (3, 1, 5)  → Compatible (se expande a 3, 4, 5)

Array A:      (3, 4, 5)
Array B:      (   4, 3)  → NO compatible
```

In [None]:
# Broadcasting examples
matrix = np.array([[1, 2, 3],
                   [4, 5, 6]])

# Add column vector (shape: 2, 1)
col = np.array([[10],
                [20]])

print("Matrix shape:", matrix.shape)
print("Column shape:", col.shape)
print("\nMatrix + column:")
print(matrix + col)

### Aprendizaje Clave

Broadcasting permite realizar operaciones entre arrays de diferentes formas sin copiar datos explícitamente, expandiendo automáticamente las dimensiones más pequeñas para que coincidan.

**Referencia oficial:** [NumPy Broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html)

### Pregunta de Comprensión

¿Qué formas de arrays son compatibles para broadcasting con un array de forma (5, 3, 4)?