In [62]:
import numpy as np 
import time

# Introducción Numpy Broadcasting

Generalmente arrays de diferentes tamaños no pueden ser usadas a la hora de realizar operaciones aritméticas entre ellas. Una forma de superar esta limitación es duplicar la array de menor tamaño para que su tamaño sea como el de la array mayor. Esto es conocido en Python como **array broadcasting** y está disponible en Python cuando hacemos operaciones aritméticas con arrays, esto nos va a permitir simplificar enormemento nuestro código.

# Limitaciones aritméticas con Arrays

En Python podemos realizar operaciones aritméticas con Numpy arrays, tales como suma o resta de forma directa.

In [3]:
#Nos generamos dos arrays
a = np.array([1,2,3])
b = np.array([1,2,3])

#Hacemos la suma
print(a+b)

[2 4 6]


Hablando desde un punto de vista aritmético, dos arrays solo pueden ser sumadas o restadas si ambas tienen las mismas dimensiones. Esto puede llegar a sur una limitación, Numpy proporciona una solución para permitir la realización de operaciones aritméticas entre arrays de diferente tamaño.

# Array Broadcasting

**Broadcasting** es el nombre que recibe el método que usa Numpy y que le permite realizar operaciones aritméticas entre arrays de diferente dimensión o tamaño. Aunque esta técnica fue desarrollada para Numpy, también ha sido adoptada por otras librerías como Theano, TensorFlow y Octave. Broadcasting resuelve el problema de operaciones aritméticas entre arrays de diferentes tamaños replicando la array más pequeña a lo largo de la dimensión no coincidente.

## Operación Broadcasting entre un escalar y un array de una dimensión

Supongamos que tenemos un array a con los elementos [a1, a2, a3] y tenemos un escalar b = b1, podemos realizar la operación artimética entre ambos elementos para esto python lo que hará es duplicar este valor sobre nuestro array de la siguiente forma [a1+b1, a2+b1, a3+b1].

In [5]:
#Nos definimos un array
a = np.array([1,2,3])
b = 2

#Vemos la suma
print(a+b)

[3 4 5]


## Operación Broadcasting entre un escalar y una array de dos dimensiones

In [7]:
#Generamos un array
a = np.array([[1,2], [3,4], [4,5]])
b = 5

#Vemos la resta
print(a-b)

[[-4 -3]
 [-2 -1]
 [-1  0]]


## Operación Broadcasting entre arrays y reglas de Broadcasting

Los ejemplos vistos hasta ahora son bastante sencillos aunque podemos ver casos bastante más complicados, donde nos puede llegar a extrañar los resultados en caso de no conocer bien como trabaja el broadcasting es por esto que es bastante importante conocer las reglas. Veamos un ejemplo un tanto más complicado.

In [13]:
#Nos generamos dos arrays
a = np.arange(3)
b = np.arange(3)[:, np.newaxis]

#Hacemos la suma
print(b+a)

[[0 1 2]
 [1 2 3]
 [2 3 4]]


Para poder entender este resultado es necesario conocer las reglas que subyacen al broadcasting, estas reglas son las siguientes:

* **Regla 1:** si dos arrays difieren en sus dimensiones, aquella que es menor es padeada con unos hacia la izquierda.


* **Regla 2:** si dos arrays no coinciden en ninguna de sus dimensiones, entonces la dimensión 1 se estira hasta que coincida.


* **Regla 3:** si tras aplicar las reglas 1 y 2, alguna de las dimensiones no coincide y niguno es igual 1, entonces la operación aritméticas entre estas arrays no es posible

Para entender bien la operación de broadcasting, podemos pensar que lo que se hace es replicar el array, sin embargo esto a nivel de memoria no es cierto.

# Ejemplo

Supogamos que dispones de un array de 100K filas y 3 columna, cada calumna representa el valor de cotización en dolares, libras y yenes de determinadas empresas en un determinado histórico. Con el fin de pasar esto a euros debemos de multiplicar cada una de nuestras columnas por el factor que aplique.

In [60]:
#Generamos nuestra array de cotizaciones
data = np.random.uniform(low=0.5, high=13.3, size=(1000000,3))

#Generamos nuestro factor de cambio
factor_cambio = np.array([1.13, 0.90, 128.29])

A la hora de realizar esto tenemos varias formas de hacerlo, una primera forma sería acceder a cada una de las filas y realizar el producto, para esto es necesario hacer uso de un bucle

In [63]:
#Nos generamos un array de ceros donde guardaremos los resultados
start_time = time.time()
result = np.zeros_like(data)
for i in range(data.shape[0]):
    result[i, :] = data[i,:].astype('float') * factor_cambio
print("--- %s seconds ---" % (time.time() - start_time))

--- 2.249614715576172 seconds ---


La otra opción es la de generar un array para factor cambio de igual dimensión que nuestra array de datos

In [67]:
#Nos generamos nuestra array de igual dimensión que data
start_time = time.time()
factor_cambio_aux = np.tile(factor_cambio, (data.shape[0], 1))
result = data * factor_cambio_aux
print("--- %s seconds ---" % (time.time() - start_time))

--- 0.021977663040161133 seconds ---


Finalmente podemos hacer uso de las propiedades de broadcasting de Numpy, puesto que nuestro array factor_cambio cumple con las reglas de broadcasting, podemos hacer el producto de forma directa

In [68]:
start_time = time.time()
result = data * factor_cambio
print("--- %s seconds ---" % (time.time() - start_time))

--- 0.01363372802734375 seconds ---


Podemos ver como las operaciones de Broadcasting, nos permiten realizar operaciones de forma mucho más eficiente.