# Módulo 5: NumPy y Preparación para AIMA/sklearn

**Duración estimada:** 30 minutos

## Objetivos
- Dominar NumPy, la base de computación científica en Python
- Trabajar con arrays multidimensionales
- Entender broadcasting y vectorización
- Prepararse para usar AIMA y sklearn efectivamente
- Conceptos básicos de álgebra lineal en Python

## 5.1 Introducción a NumPy

**NumPy** (Numerical Python) es la biblioteca fundamental para computación científica en Python.

### ¿Por qué NumPy?
- **Velocidad**: Arrays de NumPy son 10-100x más rápidos que listas de Python
- **Memoria eficiente**: Almacenamiento contiguo y tipado
- **Broadcasting**: Operaciones elemento a elemento automáticas
- **Álgebra lineal**: Base para ML y Deep Learning
- **sklearn y casi todas las bibliotecas de ML lo usan**

In [7]:
import numpy as np

# Comparación: Lista vs NumPy Array
lista_python = [1, 2, 3, 4, 5]
array_numpy = np.array([1, 2, 3, 4, 5])

print(f"Lista Python: {lista_python}, tipo: {type(lista_python)}")
print(f"NumPy Array: {array_numpy}, tipo: {type(array_numpy)}")
print(f"Dtype del array: {array_numpy.dtype}")

Lista Python: [1, 2, 3, 4, 5], tipo: <class 'list'>
NumPy Array: [1 2 3 4 5], tipo: <class 'numpy.ndarray'>
Dtype del array: int64


### Creación de Arrays

In [8]:
# Desde listas
arr1d = np.array([1, 2, 3, 4, 5])
print(f"Array 1D: {arr1d}")
print(f"Shape: {arr1d.shape}, Dimensiones: {arr1d.ndim}")

# Array 2D (matriz)
arr2d = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])
print(f"\nArray 2D:\n{arr2d}")
print(f"Shape: {arr2d.shape}, Dimensiones: {arr2d.ndim}")

# Array 3D
arr3d = np.array([[[1, 2], [3, 4]],
                  [[5, 6], [7, 8]]])
print(f"\nArray 3D shape: {arr3d.shape}")

Array 1D: [1 2 3 4 5]
Shape: (5,), Dimensiones: 1

Array 2D:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
Shape: (3, 3), Dimensiones: 2

Array 3D shape: (2, 2, 2)


In [9]:
# Funciones de creación especiales
zeros = np.zeros((3, 4))           # Matriz de ceros
ones = np.ones((2, 3))             # Matriz de unos
eye = np.eye(4)                    # Matriz identidad
arange = np.arange(0, 10, 2)       # Similar a range()
linspace = np.linspace(0, 1, 5)    # 5 números equiespaciados entre 0 y 1

print(f"Zeros (3x4):\n{zeros}")
print(f"\nIdentidad (4x4):\n{eye}")
print(f"\nArange: {arange}")
print(f"Linspace: {linspace}")

Zeros (3x4):
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

Identidad (4x4):
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

Arange: [0 2 4 6 8]
Linspace: [0.   0.25 0.5  0.75 1.  ]


In [10]:
# Arrays aleatorios (muy importante para ML)
np.random.seed(42)  # Para reproducibilidad

random_uniforme = np.random.rand(3, 3)        # Uniforme [0, 1)
random_normal = np.random.randn(3, 3)         # Normal estándar (media=0, std=1)
random_enteros = np.random.randint(0, 10, (3, 3))  # Enteros aleatorios

print(f"Uniforme [0,1):\n{random_uniforme}")
print(f"\nNormal estándar:\n{random_normal}")
print(f"\nEnteros [0,10):\n{random_enteros}")

Uniforme [0,1):
[[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]
 [0.05808361 0.86617615 0.60111501]]

Normal estándar:
[[-0.58087813 -0.52516981 -0.57138017]
 [-0.92408284 -2.61254901  0.95036968]
 [ 0.81644508 -1.523876   -0.42804606]]

Enteros [0,10):
[[2 6 3]
 [8 2 4]
 [2 6 4]]


## 5.2 Indexación y Slicing

**Similar a listas de Python, pero más potente**

In [17]:
arr = np.array([[1, 2, 3, 4],
                [5, 6, 7, 8],
                [9, 10, 11, 12]])

print(f"Array completo:\n{arr}")
print(f"\nElemento [0,0]: {arr[0, 0]}")
print(f"Elemento [2,3]: {arr[2, 3]}")

# Slicing
print(f"\nPrimera fila: {arr[0, :]}")
print(f"Primera columna: {arr[:, 0]}")
print(f"Submatriz 2x2:\n{arr[0:2:, 1:3]}")

# Indexación fancy (con listas/arrays)
print(f"\nFilas 0 y 2: \n{arr[[0, 2], :]}")

Array completo:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

Elemento [0,0]: 1
Elemento [2,3]: 12

Primera fila: [1 2 3 4]
Primera columna: [1 5 9]
Submatriz 2x2:
[[2 3]
 [6 7]]

Filas 0 y 2: 
[[ 1  2  3  4]
 [ 9 10 11 12]]


In [18]:
# Indexación booleana (muy útil en ML)
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# Crear máscara booleana
mascara = arr > 5
print(f"Array: {arr}")
print(f"Máscara (>5): {mascara}")
print(f"Elementos >5: {arr[mascara]}")

# En una línea
print(f"\nPares: {arr[arr % 2 == 0]}")
print(f"Entre 3 y 7: {arr[(arr >= 3) & (arr <= 7)]}")

Array: [ 1  2  3  4  5  6  7  8  9 10]
Máscara (>5): [False False False False False  True  True  True  True  True]
Elementos >5: [ 6  7  8  9 10]

Pares: [ 2  4  6  8 10]
Entre 3 y 7: [3 4 5 6 7]


## 5.3 Operaciones con Arrays

### Operaciones Elemento a Elemento (Vectorizadas)

In [None]:
# Las operaciones son elemento a elemento por defecto
a = np.array([1, 2, 3, 4])
b = np.array([10, 20, 30, 40])

print(f"a = {a}")
print(f"b = {b}")
print(f"\na + b = {a + b}")
print(f"a * b = {a * b}")
print(f"a ** 2 = {a ** 2}")
print(f"b / 10 = {b / 10}")

# Comparación: Lista vs NumPy
lista_a = [1, 2, 3, 4]
lista_b = [10, 20, 30, 40]
# lista_a + lista_b  # Concatena, no suma!

# Con NumPy es mucho más natural
print(f"\nCon NumPy: {a + b}")

In [None]:
# Funciones universales (ufuncs)
arr = np.array([0, np.pi/6, np.pi/4, np.pi/2])

print(f"Array: {arr}")
print(f"sin(arr): {np.sin(arr)}")
print(f"cos(arr): {np.cos(arr)}")
print(f"exp(arr): {np.exp(arr)}")
print(f"sqrt(arr): {np.sqrt(arr)}")
print(f"log(arr+1): {np.log(arr + 1)}")

### Agregaciones

In [None]:
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

print(f"Array:\n{arr}")
print(f"\nSuma total: {arr.sum()}")
print(f"Media: {arr.mean()}")
print(f"Mediana: {np.median(arr)}")
print(f"Desviación estándar: {arr.std()}")
print(f"Mínimo: {arr.min()}, Máximo: {arr.max()}")

# Agregaciones por eje
print(f"\nSuma por columnas (axis=0): {arr.sum(axis=0)}")
print(f"Suma por filas (axis=1): {arr.sum(axis=1)}")
print(f"Media por columnas: {arr.mean(axis=0)}")

### EJERCICIO 1: Normalización de Datos

Una tarea común en ML es normalizar datos. Implementa:

1. **Min-Max Normalization**: Escalar datos al rango [0, 1]
   - Fórmula: `(X - X_min) / (X_max - X_min)`

2. **Z-score Normalization**: Estandarizar a media 0 y desviación 1
   - Fórmula: `(X - X_mean) / X_std`

Hazlo para cada columna de una matriz (cada feature por separado)

In [20]:
# Datos de ejemplo (features: altura, peso, edad)
datos = np.array([
    [170, 65, 25],
    [180, 80, 30],
    [165, 55, 22],
    [175, 70, 28],
    [190, 90, 35]
])

def min_max_normalizacion(X):
    """Normaliza cada columna al rango [0, 1]"""
    min = np.min(X)
    max = np.max(X)
    return (X - min) / (max - min)

def z_score_normalizacion(X):
    """Estandariza cada columna (media=0, std=1)"""
    mean = np.mean(X)
    std = np.std(X)
    return (X - mean) / std

print("Datos originales:")
print(datos)

print("\nMin-Max normalizado:")
print(min_max_normalizacion(datos))

print("\nZ-score normalizado:")
z_norm = z_score_normalizacion(datos)
print(z_norm)
print(f"\nVerificación - Media por columna: {z_norm.mean(axis=0)}")
print(f"Std por columna: {z_norm.std(axis=0)}")

Datos originales:
[[170  65  25]
 [180  80  30]
 [165  55  22]
 [175  70  28]
 [190  90  35]]

Min-Max normalizado:
[[0.88095238 0.25595238 0.01785714]
 [0.94047619 0.3452381  0.04761905]
 [0.85119048 0.19642857 0.        ]
 [0.91071429 0.28571429 0.03571429]
 [1.         0.4047619  0.07738095]]

Z-score normalizado:
[[ 1.24413888 -0.43066346 -1.06868339]
 [ 1.40364386 -0.19140598 -0.9889309 ]
 [ 1.16438638 -0.59016844 -1.11653489]
 [ 1.32389137 -0.35091097 -1.0208319 ]
 [ 1.56314884 -0.031901   -0.90917841]]

Verificación - Media por columna: [ 1.33984187 -0.31900997 -1.0208319 ]
Std por columna: [0.13721138 0.19273061 0.07061587]


## Resumen del Módulo 5

**Has aprendido:**
- Arrays de NumPy y sus ventajas
- Creación de arrays (zeros, ones, random, linspace)
- Indexación y slicing avanzado
- Agregaciones y estadísticas
