<a href="https://colab.research.google.com/github/iecgerman/python-numpy-pandas/blob/master/clase12.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Optimización y escalabilidad en NumPy

"""Dividir y Conquistar
Una estrategia eficaz para manejar grandes volúmenes de datos es dividir los arrays en bloques más pequeños. Esto reduce la carga de memoria y facilita el procesamiento.

Imagina que estás trabajando con el histórico de ventas de una tienda. Procesar toda la información de una vez puede ser impráctico, pero dividir los datos en bloques más pequeños puede hacer una gran diferencia.
"""

import numpy as np

# Crear un array grande de 1 millon de elementos aleatorios
large_array = np.random.rand(1000000)
# print(large_array)

# Dividir en bloques mas peque;os

block_size = 100000

for i in range(0, len(large_array), block_size):
  block = large_array[i:i+block_size]
  # Realizar operacion en el bloque
  print(f"Procesando bloque {i//block_size + 1}")

  """Este código divide un array grande en bloques de 100,000 elementos para procesarlos por partes, evitando agotar la memoria del sistema. Esta técnica es fundamental para manejar grandes volúmenes de datos de manera eficiente.
  """

Procesando bloque 1
Procesando bloque 2
Procesando bloque 3
Procesando bloque 4
Procesando bloque 5
Procesando bloque 6
Procesando bloque 7
Procesando bloque 8
Procesando bloque 9
Procesando bloque 10


In [None]:
"""Uso de Memoria y Optimización

Optimizar el uso de memoria es crucial cuando se trabaja con grandes volúmenes de datos.

Aquí te comparto dos estrategias efectivas:

Tipos de Datos Eficientes

Utilizar tipos de datos más eficientes puede reducir significativamente el uso de memoria. Por ejemplo, cambiar de float64 a float32 puede reducir el tamaño del array a la mitad, lo que es crucial cuando se trabaja con grandes volúmenes de datos
"""

# Array con tipo de dato float64
array_float64 = np.array([1.0, 2.0, 3.0], dtype=np.float64)
print("Uso de memoria float64:", array_float64.nbytes)

print(array_float64)

"""En este ejemplo, se crean dos arrays: uno de tipo float64 y otro de tipo float32. Usar float32 en lugar de float64 puede reducir el uso de memoria a la mitad, lo que es esencial para eficientar el manejo de grandes datasets.
"""

# Array con tipo de dato float32
array_float32 = np.array([1.0, 2.0, 3.0], dtype=np.float32)
print("Uso de memoria float32:", array_float32.nbytes)

print(array_float32)

Uso de memoria float64: 24
[1. 2. 3.]
Uso de memoria float32: 12
[1. 2. 3.]


In [None]:
"""
Operaciones In-place

Realizar operaciones in-place puede reducir el uso de memoria al evitar la creación de arrays temporales. Esto es especialmente útil cuando se necesita actualizar los valores de un array sin duplicarlo en la memoria.
"""

array = np.array([1, 2, 3, 4, 5])
array += 1  # Operación in-place
print("Array después de operación in-place:", array)


# Con +=1 realizamos una operación in-place sobre un array, incrementando cada elemento en 1. Las operaciones in-place modifican el array original sin crear uno nuevo, lo que ahorra memoria.


Array después de operación in-place: [2 3 4 5 6]


In [None]:
# Operaciones Paralelas y Uso de Múltiples Núcleos

# Además de optimizar el uso de memoria, es fundamental acelerar el procesamiento de grandes arrays. Para ello, es esencial utilizar operaciones paralelas y múltiples núcleos.

# Uso de numexpr para Operaciones Paralelas

# numexpr es una biblioteca que permite realizar operaciones numéricas de manera más eficiente utilizando múltiples núcleos. Esto puede acelerar significativamente el procesamiento de grandes arrays.

import numexpr as ne
import numpy as np

# Crear dos arrays grandes

a = np.random.rand(1000000)
b = np.random.rand(1000000)

# Usando numexpr para operación paralela

result = ne.evaluate("a + b")

print(result)

print("Operacion paralela completada con numexpr")

# Este código compara el tiempo de ejecución de una operación de suma en arrays grandes utilizando numexpr para realizar la operación en paralelo y sin numexpr.

# Usar numexpr puede acelerar significativamente el procesamiento, lo que es crucial para manejar grandes volúmenes de datos de manera eficiente.




[1.5853982  0.41182467 0.8594233  ... 1.79209837 0.4363096  1.37500662]
Operacion paralela completada con numexpr


In [None]:
# Uso de joblib para Paralelización

# joblib facilita la paralelización de tareas, permitiendo distribuir el trabajo entre múltiples núcleos del procesador. Esto es útil para tareas que pueden dividirse en partes independientes, como el procesamiento de grandes arrays.

from joblib import Parallel, delayed

def process_block(block):
  return np.sum(block)

large_array = np.random.rand(1000000)
block_size = 100000
blocks = [large_array[i:i+block_size] for i in range (0, len(large_array), block_size)]

results = Parallel(n_jobs=-1)(delayed(process_block)(block) for block in blocks)
print("Resultados de la paralelización:", results)

# Utilizamos joblibpara paralelizar el procesamiento de un array grande dividido en bloques. Cada bloque se suma de forma paralela en múltiples núcleos del procesador, mejorando la eficiencia del procesamiento.

# Manejar y optimizar arrays grandes es crucial en el análisis de datos para garantizar un rendimiento eficiente. Estrategias como dividir arrays en bloques, utilizar tipos de datos eficientes y realizar operaciones paralelas pueden mejorar significativamente la velocidad y eficiencia del procesamiento de datos. Estas técnicas son esenciales en diversos campos, desde la bioinformática hasta el análisis financiero, permitiendo el manejo eficaz de grandes volúmenes de datos.

# Estas herramientas y estrategias te permitirán manejar datos de manera más eficiente, lo cual es fundamental en el mundo de la ciencia de datos. Practicar estos conceptos y técnicas puede convertirte en un experto en la optimización y escalabilidad con NumPy.

Resultados de la paralelización: [49938.391033099055, 50006.46431281321, 49990.44049430368, 49939.055408452325, 50018.124481618484, 49970.095366122216, 49994.6382751885, 50008.53651054885, 49934.198387664655, 49862.18887691926]
