# Operaciones de NumPy

El cálculo en matrices NumPy puede ser muy rápido o muy lento. La clave para hacerlo rápido es usar operaciones vectorizadas, generalmente implementadas a través de las funciones universales de NumPy (`UFuncs`), que hace que los cálculos repetidos en los elementos de la matriz sean mucho más eficientes.

### `UFuncs`

La implementación predeterminada de Python realiza algunas operaciones muy lentamente. Esto se debe en parte a la naturaleza dinámica e interpretada del lenguaje: el hecho de que los tipos sean dinámicos, hace que las secuencias de operaciones no se pueden compilar en un código de máquina eficiente como en lenguajes como C y Fortran. Esta ineficiencia de Python generalmente se manifiesta en situaciones en las que se repiten muchas operaciones pequeñas, por ejemplo, recorriendo matrices para operar en cada elemento.

In [1]:
import numpy as np

In [2]:
np.random.seed(0)

In [8]:
# Función que calcula recíprocos de un arreglo
def compute_reciprocals(values):
  # Inicializa el arreglo de salida del tamaño del arreglo de entrada
  output = np.empty(len(values))
  for i in range(len(values)):
    # Guarda en el arreglo de salida el recíproco del valor de entrada
    output[i] = 1.0 / values[i]
  return output

In [18]:
# Declara un arreglo (long_array) de enteros aleatorios en el intervalo [1, 10) de tamaño 5
short_array = np.random.randint(1, 10, size=5)
print(short_array)
print(compute_reciprocals(short_array))

[1 2 3 5 3]
[1.         0.5        0.33333333 0.2        0.33333333]


In [17]:
# Calcula el tiempo que toma ejecutar la función compute_reciprocals en arreglo short_array
%timeit compute_reciprocals(values)

The slowest run took 9.14 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 5: 101 µs per loop


In [23]:
# Declara arreglo (long_array) de enteros aleatorios en el intervalo [0, 100)
long_array = np.random.randint(1, 100, size=1000000)
print(long_array)
print(compute_reciprocals(long_array))

[73 92 34 ... 14 29 10]
[0.01369863 0.01086957 0.02941176 ... 0.07142857 0.03448276 0.1       ]


In [24]:
# Calcula el tiempo que toma ejecutar la función compute_reciprocals en arreglo long_array
%timeit compute_reciprocals(long_array)

1 loop, best of 5: 2.04 s per loop


En el ejemplo anterior, el cuello de botella no son las operaciones en sí, sino la verificación de tipos y las funciones que CPython debe ejecutar en cada ciclo del bucle. Cada vez que se calcula el recíproco, Python primero examina el tipo de objeto y realiza una búsqueda dinámica de la función correcta que se utilizará para ese tipo. Si estuviéramos trabajando en código compilado, esta especificación de tipo se conocería antes de que se ejecute el código y el resultado podría calcularse de manera mucho más eficiente.

Para muchos tipos de operaciones, NumPy proporciona una interfaz conveniente, compilada y tipificada estáticamente para este tipo de rutina. Esto se conoce como operación vectorizada. Esto se puede lograr simplemente realizando una operación en la matriz, que luego se aplicará a cada elemento. Este enfoque vectorizado está diseñado para insertar el bucle en la capa compilada que subyace a NumPy, lo que lleva a una ejecución mucho más rápida.

In [26]:
# Calcula el tiempo que toma ejecutar una operación vectorizada en arreglo long_array
%timeit (1.0 / long_array)

1000 loops, best of 5: 1.94 ms per loop


Las operaciones vectorizadas en NumPy se implementan a través de ufuncs, cuyo objetivo principal es ejecutar rápidamente operaciones repetidas en valores en matrices NumPy. `UFuncs` son extremadamente flexibles.

In [30]:
# Divide arreglo con secuencia linear en el intervalo [0, 5) entre arreglo con secuencia linear en el intervalo [1, 6)
np.arange(5) / np.arange(1, 6)

array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ])

In [34]:
# Declara matriz 3x3 (m) con una secuencia linear en el intervalo [0, 9)
m = np.arange(9).reshape((3, 3))

# Imprime matriz m
m

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [36]:
# Calcula la potencia de 2 a la x, donde x es cada valor de la matriz m
2 ** m

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]])

#### Explorando las `UFuncs`

In [159]:
# Delcara arreglo (x) de enteros aleatorios en el intervalo [1, 4) 
x = np.arange(4)

# Imprime arreglo x
x

array([0, 1, 2, 3])

Algunas de las `UFuncs` aritméticas más relevantes son las siguientes:

In [65]:
print("Suma           ", "np.add(x)          ó      x + 5  =", x + 5)
print("Resta          ", "np.subtract(x)     ó      x - 5  =", x - 5) 
print("Multiplicación ", "np.multiply(x)     ó      x * 2  =", x * 2) 
print("División       ", "np.divide(x)       ó      x / 2  =", x / 2) 
print("División floor ", "np.floor_divide(x) ó      x // 2 =", x // 2)
print("Negativo       ", "np.negative(x)     ó      -x     =", -x)
print("Exponencial    ", "np.power(x)        ó      x ** 2 =", x ** 2)
print("Módulo         ", "np.module(x)       ó      x % 2  =", x % 2)
print("Valor absoluto ", "np.abs(x)                        =", np.abs(-x))

Suma            np.add(x)          ó      x + 5  = [5 6 7 8]
Resta           np.subtract(x)     ó      x - 5  = [-5 -4 -3 -2]
Multiplicación  np.multiply(x)     ó      x * 2  = [0 2 4 6]
División        np.divide(x)       ó      x / 2  = [0.  0.5 1.  1.5]
División floor  np.floor_divide(x) ó      x // 2 = [0 0 1 1]
Negativo        np.negative(x)     ó      -x     = [ 0 -1 -2 -3]
Exponencial     np.power(x)        ó      x ** 2 = [0 1 4 9]
Módulo          np.module(x)       ó      x % 2  = [0 1 0 1]
Valor absoluto  np.abs(x)                        = [0 1 2 3]


Las `UFuncs` aritméticas pueden ser utilizadas en conjunto respetando el orden estándar de operaciones (PEMDAS).

In [160]:
-(0.5*x + 1) ** 2

array([-1.  , -2.25, -4.  , -6.25])

La `UFunc` de valor absoluto también acepta números complejos, y en dado caso, regresará la magnitud. 

In [94]:
np.abs(3-4j)

5.0

In [87]:
# import math
# math.sqrt(3**2 + 4**2)

También, existen `UFuncs` trigonométricas...

In [102]:
# Declara arreglo (x) de 3 valores espaciados uniformemente en el intervalo [0, pi]
x = np.linspace(0, np.pi, 3)

# Imprime arreglo x
x

array([0.        , 1.57079633, 3.14159265])

In [104]:
print("x      = ", x)
print("sin(x) = ", np.sin(x))
print("cos(x) = ", np.cos(x))
print("tan(x) = ", np.tan(x))

x      =  [0.         1.57079633 3.14159265]
sin(x) =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(x) =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(x) =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


Y `UFuncs` exponenciales y logarítmicas...

In [110]:
# Declara arreglo x
x = [1, 2, 3]

In [108]:
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))

x     = [1, 2, 3]
e^x   = [ 2.71828183  7.3890561  20.08553692]
2^x   = [2. 4. 8.]
3^x   = [ 3  9 27]


In [112]:
# Declara arreglo x
x = [1, 2, 4, 10]

In [113]:
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

x        = [1, 2, 4, 10]
ln(x)    = [0.         0.69314718 1.38629436 2.30258509]
log2(x)  = [0.         1.         2.         3.32192809]
log10(x) = [0.         0.30103    0.60205999 1.        ]


Para `UFuncs` binarias, hay funciones agregadoras que se pueden calcular directamente desde el objeto. Por ejemplo, si quisiéramos reducir una matriz con una operación en particular, podemos usar `reduce` de cualquier `UFunc`. Una reducción aplica repetidamente una operación determinada a los elementos de una matriz hasta que solo queda un único resultado.

In [123]:
# Declara arreglo (x) de enteros aleatorios en el intervalo [1, 6) 
x = np.arange(1, 6)

# Imprime arreglo x
x

array([1, 2, 3, 4, 5])

In [124]:
# Suma todos los valores del arreglo x
np.add.reduce(x)

15

In [117]:
# Multiplica todos los valores del arreglo x
np.multiply.reduce(x)

120

Si quisiéramos almacenar todos los resultados intermedios del cálculo, podemos utilizar `acumulate`.

In [118]:
# Suma acumulativamente todos los valores del arreglo x
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15])

In [120]:
# Multiplica acumulativamente todos los valores del arreglo x
np.multiply.accumulate(x)

array([  1,   2,   6,  24, 120])

### Funciones de agregación

A menudo, cuando nos enfrentamos a una gran cantidad de datos, el primer paso es calcular estadísticas de resumen para los datos en cuestión. Quizás las estadísticas de resumen más comunes son la media y la desviación estándar, que  permiten resumir los valores "típicos" en un conjunto de datos, pero también son útiles otros agregados (la suma, el producto, la mediana, el mínimo y el máximo, los cuantiles, etc.). NumPy cuenta con funciones de agregación integradas para trabajar sobre arreglos. 

Para la mayoría de las funciones de agregación, la sintaxis en NumPy es bastante similar a la de la función de suma de base Python y el resultado es el mismo en el caso más simple, pero la ejecución con la función de NumPy es mucho más eficiente. 

In [133]:
# Declara arreglo (long_array) de un millón de números aleatorios
long_array = np.random.rand(1000000)

In [143]:
# Calcula el tiempo que toma ejecutar una suma estándar en arreglo long_array
%timeit sum(long_array)

10 loops, best of 5: 84.1 ms per loop


In [144]:
# Calcula el tiempo que toma ejecutar una suma vectorizada en arreglo long_array
%timeit np.sum(long_array)

1000 loops, best of 5: 350 µs per loop


In [148]:
# Devuelve el valor mínimo y el valor máximo del arreglo long_array
print(np.min(big_array), np.max(big_array))
print(big_array.min(), big_array.max())

7.166647984280239e-06 0.9999986906665383
7.166647984280239e-06 0.9999986906665383


In [156]:
# Declara matriz 3x4 (m) de números aleatorios
m = np.random.random((3, 4))

# Imprime matriz m
m

array([[0.06655822, 0.76950176, 0.47196795, 0.12061265],
       [0.58818414, 0.33038948, 0.20738446, 0.34713616],
       [0.0923966 , 0.65215616, 0.01549655, 0.30582348]])

In [157]:
# Devuelve el valor mínimo por columna de matriz m
m.min(axis=0)

array([0.06655822, 0.33038948, 0.01549655, 0.12061265])

In [158]:
# Devuelve el valor mínimo por fila de matriz m
m.min(axis=1)

array([0.06655822, 0.20738446, 0.01549655])

Otras funciones de agregación relevantes son las siguientes:

In [161]:
# Declara arreglo (x) de enteros aleatorios en el intervalo [1, 6) 
x = np.arange(1, 6)

# Imprime arreglo x
x

array([1, 2, 3, 4, 5])

In [166]:
print("np.prod()        =", np.prod(x))
print("np.mean()        =", np.mean(x))
print("np.median()      =", np.median(x))
print("np.percentile()  =", np.percentile(x, 50))
print("np.std()         =", np.std(x))
print("np.var()         =", np.var(x))
print("np.argmin()      =", np.argmin(x))
print("np.argmax()      =", np.argmax(x))

np.prod()        = 120
np.mean()        = 3.0
np.median()      = 3.0
np.percentile()  = 3.0
np.std()         = 1.4142135623730951
np.var()         = 2.0
np.argmin()      = 0
np.argmax()      = 4


## Lógica booleanda y máscaras (Ejercicio)

Siguiendo la lógica de vectorización de NumPy, resuelve los siguientes ejercicios.

1. Declara arreglo (x) de enteros aleatorios en el intervalo [1, 6).
2. Imprime los valores x menores a 3.
3. Imprime los valores de x mayores a 4.
4. Imprime los valores de x igual o menores a 3. 
5. Imprime los valores de x igual o mayores a 4. 
6. Imprime los valores de x distintos a 3. 
7. Imprime los valores de x iguales a 3. 
8. Imprime los valores de x donde 2*n y n**2 del el mismo resultado, donde n es cada valor del arreglo. 