### NumPy Array

**Nombre:** David L. Mejía<br>
**Fecha:** 30/09/2025<br>
**Git:** https://github.com/mcdavidleonardo/MachineLearning2/blob/master/NumPy_Array.ipynb<br>

# NumPy ndarray
- Representación estándar para datos numéricos en Python
- Facilita la implementación eficiente de cálculos numéricos
- Colección uniforme y multidimensional de elementos
- Un array se define por el tipo de elementos que contiene (data type) y su forma (shape)

In [33]:
# Importar librería
import numpy as np

### Declarar un array y puntero a memoria

In [34]:
# Array 1D
mi_array_1d = np.array([10, 20, 30, 40, 50])
# Se imprime el contenido del array
print("Array 1D:", mi_array_1d)
# Se imprime el tipo de dato
print("Tipo:", type(mi_array_1d))
# Número de bytes que se debe saltar en memoria para pasar al siguiente elemento
print("Strides:", mi_array_1d.strides)

# Array 2D
mi_array_2d = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
print("\nArray 2D:\n", mi_array_2d)
print("Tipo:", type(mi_array_2d))
print("Strides:", mi_array_2d.strides)

# Al asignar un array a una variable se pasa la dirección de memoria
y = mi_array_1d
print("Array Y:", y)

y[0] = 100
print("Array Y:", y)
print("Array 1D:", mi_array_1d)

Array 1D: [10 20 30 40 50]
Tipo: <class 'numpy.ndarray'>
Strides: (8,)

Array 2D:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
Tipo: <class 'numpy.ndarray'>
Strides: (24, 8)
Array Y: [10 20 30 40 50]
Array Y: [100  20  30  40  50]
Array 1D: [100  20  30  40  50]


In [35]:
# Transponer array con T
x = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
print("Array X:", x)
xT = x.T
print("Array xT:", xT)

Array X: [[1 2 3]
 [4 5 6]
 [7 8 9]]
Array xT: [[1 4 7]
 [2 5 8]
 [3 6 9]]


### Vectorización y Broadcasting

- Se usa para eliminar bucles explícitos como for o while en el código
- Las operaciones vectorizadas se ejecutan mucho más rápido que los bucles de Python
- Broadcasting es el mecanismo que permite a NumPy realizar operaciones aritméticas en arrays de diferentes dimensiones, siempre que sus formas sean compatibles. El array más pequeño se "estira" mentalmente para que coincida con la forma del array más grande, sin duplicar realmente los datos (lo que ahorra memoria y tiempo).

### Operaciones con Arrays

In [36]:
array1 = np.array([2, 4, 6])
array2 = np.array([3, 6, 9])

# Suma
array_suma = array1 + array2
print("Array Suma:", array_suma)

# Resta
array_resta = array1 - array2
print("Array Resta:", array_resta)

# Multiplicación
array_mult = array1 * 3
print("Array Mult:", array_mult)

# División
array_div = array2 / 3
print("Array Div:", array_div)


Array Suma: [ 5 10 15]
Array Resta: [-1 -2 -3]
Array Mult: [ 6 12 18]
Array Div: [1. 2. 3.]


### Broadcasting

- Dos arrays son compatibles si, al mirar sus dimensiones de derecha a izquierda:
- Las dimensiones son iguales
- Una de las dimensiones es 1

In [37]:
# Matriz M (Forma: 2, 3)
M = np.array([[1, 1, 1],
              [0, 0, 0]])   
print("Tipo M:", M.shape)

# Vector V (Forma: 2,)
V = np.array([10, 20])      
print("Tipo V:", V.shape)

# Para que las formas sean compatibles, V necesita ser expandido a (2, 1)
# Se agrega una nueva dimensión:
# V_columna (Forma: 2, 1) -> [[10], [20]]
V_columna = V[:, np.newaxis]
print("Nuevo tipo V:", V_columna.shape)

# M (2, 3) + V_columna (2, 1)
# El 10 se suma a toda la primera fila.
# El 20 se suma a toda la segunda fila.
suma = M + V_columna
print("\nVector V_columna (Forma 2, 1):\n", V_columna)
print("\nResultado Broadcast (M + V_columna):\n", suma)


Tipo M: (2, 3)
Tipo V: (2,)
Nuevo tipo V: (2, 1)

Vector V_columna (Forma 2, 1):
 [[10]
 [20]]

Resultado Broadcast (M + V_columna):
 [[11 11 11]
 [20 20 20]]


In [38]:
# Ejemplo para visualizar rendimiento entre bucle y vectorización
# Sumar los elementos de dos arrays de un millón de elementos cada uno.
import time

size = 1000000 
array_a = np.arange(size)
array_b = np.arange(size)

# Se convierte los arrays a listas estándar de Python para la comparación con bucles.
lista_a = array_a.tolist()
lista_b = array_b.tolist()

# Suma usando Numpy
print("Inicio Numpy...")
tiempo_inicio_np = time.time()
resultado_np = array_a + array_b
tiempo_fin_np = time.time()
tiempo_total_np = tiempo_fin_np - tiempo_inicio_np
print(f"Tiempo de ejecución NumPy: {tiempo_total_np:.6f} segundos")

# Suma usando bucles
print("\nInicio Bucle...")
tiempo_inicio_bucle = time.time()
resultado_bucle = []
for i in range(size):
    resultado_bucle.append(lista_a[i] + lista_b[i])
tiempo_fin_bucle = time.time()
tiempo_total_bucle = tiempo_fin_bucle - tiempo_inicio_bucle
print(f"Tiempo de ejecución Bucle: {tiempo_total_bucle:.6f} segundos")


Inicio Numpy...
Tiempo de ejecución NumPy: 0.003482 segundos

Inicio Bucle...
Tiempo de ejecución Bucle: 0.150157 segundos


In [39]:
# Ejemplo para visualizar consumo de memoria (Broadcasting)
# Sumar un vector de 10,000 elementos a cada una de las 10,000 columnas de una matriz.
# M = Matriz(10000 x 10000) + V = Vector(10000 x 1)

# Si no se usa broadcasting, se tendría que crear una matriz temporal del mismo tamaño que M donde el vector V 
# se ha copiado 10,000 veces.

import sys

# Tamaño
size = 5000
# 8 bytes por elemento
tipo_dato = np.float64

# Generamos la matriz M (size x size)
M = np.ones((size, size), dtype=tipo_dato) 
# Generamos el vector columna V_columna (size x 1)
V_columna = np.arange(size, dtype=tipo_dato)[:, np.newaxis] 

print(f"Dimensiones de la Matriz M: {M.shape}")
print(f"Dimensiones del Vector V_columna: {V_columna.shape}")

# No broadcasting
# Se crea una nueva matriz del tamaño de M, repitiendo el vector V size veces
# Vector Fila de unos (1x5000)
V_fila_unos = np.ones((1, size), dtype=tipo_dato) 
# Se multiplica el vector columna (5000x1) por el vector fila de unos (1x5000)
matriz_temporal_grande = V_columna @ V_fila_unos 
# Suma (M + matriz_temporal_grande)
resultado_sin_broadcast = M + matriz_temporal_grande
memoria_copia = sys.getsizeof(matriz_temporal_grande)
print("\n-- No broadcasting --")
print(f"Memoria consumida por la Matriz Temporal: {memoria_copia / (1024*1024):.2f} MB")
print(f"Memoria consumida por el Resultado: {sys.getsizeof(resultado_sin_broadcast) / (1024*1024):.2f} MB")
# Liberamos la memoria del array temporal grande
del matriz_temporal_grande 
del resultado_sin_broadcast

# Broadcasting
# El vector V_columna (size x 1) se difunde automáticamente sobre M (size x size)
resultado_con_broadcast = M + V_columna
memoria_vector = sys.getsizeof(V_columna)
print("\n-- Broadcasting --")
print(f"Memoria total de M y V_columna: {(memoria_vector) / (1024*1024):.2f} MB")
print(f"Memoria consumida por el Resultado: {sys.getsizeof(resultado_con_broadcast) / (1024*1024):.2f} MB")


Dimensiones de la Matriz M: (5000, 5000)
Dimensiones del Vector V_columna: (5000, 1)

-- No broadcasting --
Memoria consumida por la Matriz Temporal: 190.73 MB
Memoria consumida por el Resultado: 190.73 MB

-- Broadcasting --
Memoria total de M y V_columna: 0.00 MB
Memoria consumida por el Resultado: 190.73 MB


### Memory Mapping

- Es una forma de vincular un array de NumPy a un archivo binario en disco. En lugar de cargar todo el archivo a la RAM, el sistema operativo mapea una sección del archivo directamente al espacio de direcciones de memoria del proceso de Python.
- NumPy no lee el archivo completo. Crea un objeto memmap que actúa como un array normal.
- Cuando se intenta acceder a un elemento específico del array (por ejemplo, mi_array[1000]), el sistema operativo lee solo esa pequeña porción del archivo desde el disco a la RAM.
- Es eficiente para trabajar con datasets gigantes.

In [46]:
# Se crea un archivo grande en disco para el ejemplo
import os

nombre_archivo = 'datos_gigantes.dat'
size = 10**7
tipo_dato = np.float64

# El archivo ocupará unos 80 MB (10^7 * 8 bytes)
# Se crea array temporal y se guarda en el disco
print(f"Creando archivo ({nombre_archivo})...")
datos_originales = np.arange(size, dtype=tipo_dato)
datos_originales.tofile(nombre_archivo)
print(f"Tamaño del archivo en disco: {os.path.getsize(nombre_archivo) / (1024**2):.2f} MB")

Creando archivo (datos_gigantes.dat)...
Tamaño del archivo en disco: 76.29 MB


In [47]:
# Se usa np.memmap para acceder al archivo. No se carga datos a la RAM.
m_array = np.memmap(
    nombre_archivo, 
    dtype=tipo_dato, 
    mode='r+',         # Permite lectura y escritura
    shape=(size,)
)

print(f"\nArray Mapeado: {m_array.shape}")
print(f"Primeros 5 elementos antes del cambio: {m_array[:5]}")


Array Mapeado: (10000000,)
Primeros 5 elementos antes del cambio: [0. 1. 2. 3. 4.]


In [48]:
# Se puede acceder y modificar el memmap como si fuera un array de NumPy normal.
# Acceder a un elemento en el medio (índice 5,000,000)
indice_medio = size // 2 
valor_medio = m_array[indice_medio]
print(f"Valor en el índice {indice_medio}: {valor_medio}")

Valor en el índice 5000000: 5000000.0


In [49]:
# Asignar un nuevo valor escribe directamente en el archivo del disco.
print("Cambiando el primer elemento a 9999.0...")
m_array[0] = 9999.0 

# Para asegurar que el cambio se escriba inmediatamente en el disco (útil en modo 'w+' o 'r+')
m_array.flush() 

print(f"Primeros 5 elementos DESPUÉS del cambio: {m_array[:5]}")

Cambiando el primer elemento a 9999.0...
Primeros 5 elementos DESPUÉS del cambio: [9.999e+03 1.000e+00 2.000e+00 3.000e+00 4.000e+00]


In [50]:
# Cerrar explícitamente memmap (Obligatorio)
# Cierra la conexión y libera el objeto.
del m_array
m_array_verificacion = np.memmap(nombre_archivo, dtype=tipo_dato, mode='r', shape=(size,))
# Limpieza del archivo
del m_array_verificacion
os.remove(nombre_archivo)

### Conclusiones

Numpy proporciona varias ventajas:

- La Vectorización brinda un rendimiento superior.
- Mejor eficiencia en el uso de memoria.
- Su código es transparente, fácil de entender y de mantener.