# Optimización y escalabilidad en NumPy

** Hoy en día, los conjuntos de datos crecen a un ritmo exponencial, y las empresas necesitan procesar grandes volúmenes de datos de manera eficiente. Como analista o científico de datos, es esencial aprender a manejar y optimizar el uso de arrays grandes para garantizar un buen rendimiento. **

- En esta clase, aprenderás estrategias clave para manejar arrays grandes, optimizar el uso de memoria y realizar operaciones paralelas utilizando múltiples núcleos.

### Dividir y Conquistar
- Una estrategia eficaz para manejar grandes volúmenes de datos es dividir los arrays en bloques más pequeños. Esto reduce la carga de memoria y facilita el procesamiento.

- Imagina que estás trabajando con el histórico de ventas de una tienda. Procesar toda la información de una vez puede ser impráctico, pero dividir los datos en bloques más pequeños puede hacer una gran diferencia.

In [2]:
import numpy as np

print('Crear un array grande de un millón de elementos aleatorios')
large_array = np.random.rand(1000000)
print(large_array)
print('Dividir en bloques más pequeños')
block_size = 100000
for i in range(0, len(large_array), block_size):
    block = large_array[i:i+block_size]
    print('Realizar operaciones en el bloque')
    print(f"Procesando bloque {i//block_size + 1}")

Crear un array grande de un millón de elementos aleatorios
[0.92439182 0.01013722 0.84671365 ... 0.19254298 0.13228076 0.91548535]
Dividir en bloques más pequeños
Realizar operaciones en el bloque
Procesando bloque 1
Realizar operaciones en el bloque
Procesando bloque 2
Realizar operaciones en el bloque
Procesando bloque 3
Realizar operaciones en el bloque
Procesando bloque 4
Realizar operaciones en el bloque
Procesando bloque 5
Realizar operaciones en el bloque
Procesando bloque 6
Realizar operaciones en el bloque
Procesando bloque 7
Realizar operaciones en el bloque
Procesando bloque 8
Realizar operaciones en el bloque
Procesando bloque 9
Realizar operaciones en el bloque
Procesando bloque 10


- Este código divide un array grande en bloques de 100,000 elementos para procesarlos por partes, evitando agotar la memoria del sistema. Esta técnica es fundamental para manejar grandes volúmenes de datos de manera eficiente.

## Uso de Memoria y Optimización
- Optimizar el uso de memoria es crucial cuando se trabaja con grandes volúmenes de datos.

### Aquí te comparto dos estrategias efectivas:

### Tipos de Datos Eficientes
< Utilizar tipos de datos más eficientes puede reducir significativamente el uso de memoria. Por ejemplo, cambiar de float64 a float32 puede reducir el tamaño del array a la mitad, lo que es crucial cuando se trabaja con grandes volúmenes de datos >

In [3]:
print('Array con tipo de dato float64')
array_float64 = np.array([1.0, 2.0, 3.0], dtype=np.float64)
print("Uso de memoria float64:", array_float64.nbytes)

print('Array con tipo de dato float32')
array_float32 = np.array([1.0, 2.0, 3.0], dtype=np.float32)
print("Uso de memoria float32:", array_float32.nbytes)

Array con tipo de dato float64
Uso de memoria float64: 24
Array con tipo de dato float32
Uso de memoria float32: 12


- En este ejemplo, se crean dos arrays: uno de tipo float64 y otro de tipo float32. Usar float32 en lugar de float64 puede reducir el uso de memoria a la mitad, lo que es esencial para eficientar el manejo de grandes datasets.

## Operaciones In-place
- Realizar operaciones in-place puede reducir el uso de memoria al evitar la creación de arrays temporales. Esto es especialmente útil cuando se necesita actualizar los valores de un array sin duplicarlo en la memoria.

In [4]:
array = np.array([1, 2, 3, 4, 5])
array += 1  # Operación in-place
print("Array después de operación in-place:", array)

Array después de operación in-place: [2 3 4 5 6]


- Con +=1 realizamos una operación in-place sobre un array, incrementando cada elemento en 1. Las operaciones in-place modifican el array original sin crear uno nuevo, lo que ahorra memoria.

## Operaciones Paralelas y Uso de Múltiples Núcleos
- Además de optimizar el uso de memoria, es fundamental acelerar el procesamiento de grandes arrays. Para ello, es esencial utilizar operaciones paralelas y múltiples núcleos.

## Uso de numexpr para Operaciones Paralelas
- numexpr es una biblioteca que permite realizar operaciones numéricas de manera más eficiente utilizando múltiples núcleos. Esto puede acelerar significativamente el procesamiento de grandes arrays.

In [9]:
import numexpr
print(numexpr.__version__) 
import numpy as np

# Crear dos arrays grandes
a = np.random.rand(1000000)
b = np.random.rand(1000000)

# Usando numexpr para operación paralela
result = ne.evaluate('a + b')

print("Operación paralela completada con numexpr")
print(result)

2.10.1
Operación paralela completada con numexpr
[1.42286476 0.88215053 0.62658693 ... 0.6882158  1.00449549 1.29191589]


- Este código compara el tiempo de ejecución de una operación de suma en arrays grandes utilizando numexpr para realizar la operación en paralelo y sin numexpr.

- Usar numexpr puede acelerar significativamente el procesamiento, lo que es crucial para manejar grandes volúmenes de datos de manera eficiente.



## Uso de joblib para Paralelización
- joblib f facilita la paralelización de tareas, permitiendo distribuir el trabajo entre múltiples núcleos del procesador. Esto es útil para tareas que pueden dividirse en partes independientes, como el procesamiento de grandes arrays.

In [13]:
from joblib import Parallel, delayed

def process_block(block):
    return np.sum(block)

large_array = np.random.rand(1000000)
block_size = 100000
blocks = [large_array[i:i+block_size] for i in range(0, len(large_array), block_size)]
results = Parallel(n_jobs=-1)(delayed(process_block)(block) for block in blocks)
print("\nResultados de la paralelización:", results)
print('\nResultados block_size' ,block_size)
print('\nResultados Blocks', blocks)


Resultados de la paralelización: [np.float64(50059.43547996441), np.float64(50017.91900940519), np.float64(50078.95277319463), np.float64(49880.44696716075), np.float64(50036.402467660475), np.float64(49983.59815786938), np.float64(49930.330993503514), np.float64(49797.08371100296), np.float64(49887.85173457208), np.float64(49943.289461673216)]

Resultados block_size 100000

Resultados Blocks [array([0.6973004 , 0.00975337, 0.62331281, ..., 0.79817132, 0.74830958,
       0.71111353]), array([0.91588597, 0.27991975, 0.65574862, ..., 0.19826763, 0.79367015,
       0.02048214]), array([0.73166512, 0.08719355, 0.41713654, ..., 0.1214011 , 0.81654867,
       0.33649461]), array([0.84532869, 0.56297695, 0.26881863, ..., 0.2517778 , 0.69239014,
       0.84343008]), array([0.74247566, 0.02710402, 0.1319845 , ..., 0.0722165 , 0.1381691 ,
       0.82031859]), array([0.14399665, 0.86114645, 0.79068814, ..., 0.1400996 , 0.89122641,
       0.9410229 ]), array([0.31481184, 0.07713921, 0.47016697, .

- Utilizamos joblibpara paralelizar el procesamiento de un array grande dividido en bloques. Cada bloque se suma de forma paralela en múltiples núcleos del procesador, mejorando la eficiencia del procesamiento.

- Manejar y optimizar arrays grandes es crucial en el análisis de datos para garantizar un rendimiento eficiente. Estrategias como dividir arrays en bloques, utilizar tipos de datos eficientes y realizar operaciones paralelas pueden mejorar significativamente la velocidad y eficiencia del procesamiento de datos. Estas técnicas son esenciales en diversos campos, desde la bioinformática hasta el análisis financiero, permitiendo el manejo eficaz de grandes volúmenes de datos.

- Estas herramientas y estrategias te permitirán manejar datos de manera más eficiente, lo cual es fundamental en el mundo de la ciencia de datos. Practicar estos conceptos y técnicas puede convertirte en un experto en la optimización y escalabilidad con NumPy.