# Cuaderno 9: Módulo NumPy

NumPy es un módulo para el manejo eficiente de arreglos numéricos multidimensionales en Python. Contiene estructuras de datos y funciones optimizadas para el manejo de operaciones numéricas vectorizadas. Es la base de otras bibliotecas especializadas como `SciPy` y `pandas`. En este cuaderno, revisaremos algunas características fundamentales.

La flexibilidad de los tipos de datos como lista o tupla tiene un costo: su baja eficiencia computacional.

In [None]:
import time
from random import randint
# crear dos vectores con n enteros aleatorios entre 1 y 5000 y calcular su suma
n = 10000000
# medir el tiempo requerido para construir los vectores y sumarlos
t1 = time.time()
x = [randint(1,5000) for i in range(n)]
y = [randint(1,5000) for i in range(n)]
z = [x[i]+y[i] for i in range(n)]
t2 = time.time()
#print("x = {}".format(x))
#print("y = {}".format(y))
#print("z = {}".format(z))
print("Tiempo transcurrido: {}".format(t2-t1))


NumPy implementa un tipo especializado para almacenar arreglos numéricos, conjuntamente con funciones para el cálculo eficiente de operaciones matemáticas:

In [None]:
import time
import numpy as np
# crear dos vectores con n enteros aleatorios entre 1 y 5000 y calcular su suma
n = 10000000
# medir el tiempo requerido para construir los vectores y sumarlos
t1 = time.time()
x = np.random.randint(1, 5000, n)
y = np.random.randint(1, 5000, n)
z = x + y
t2 = time.time()
# print("x = {}".format(x))
# print("y = {}".format(y))
# print("z = {}".format(z))
print("Tiempo transcurrido: {}".format(t2-t1))


## Aspectos básicos

Para utilizar la biblioteca NumPy debe importarse el módulo `numpy`. Es común usar el alias `np` para referirse a este módulo:

In [1]:
import numpy as np

NumPy define la clase `ndarray` para almacenar arreglos de elementos numéricos de un mismo tipo. Pueden construirse objetos de esta clase llamando a la función `array`:

In [None]:
x = np.array([3, 4, -1, 5, 10])
y = np.array([[1, 2, -1], [1 , -1, 10]])
z = np.array([[[1,2], [-5, 4], [3, 9]], [[3,5], [10, 4], [3, 0]]])
print(x)
print(y)
print(z)
print(type(x))
print(type(y))
print(type(z))

Cada elemento de un `ndarray` está indexado por una tupla de enteros no negativos. La longitud de esta tupla es la *dimensión* del arreglo y se almacena en el atributo `ndim`. Así, los vectores son arreglos unidimensionales, las matrices son arreglos bidimensionales, y los arreglos con dimensiones superiores a 2 pueden utilizarse para representar tensores y objetos similares.

In [None]:
print(x.ndim)
print(y.ndim)
print(z.ndim)
print(x[0])
print(y[1,2])
print(z[1,2,1])

Cada una de las "dimensiones" de un arreglo se conoce como eje (*axis*, pl. *axes*). La *forma* de un arreglo está dada por una tupla que indica el tamaño de cada uno de sus ejes. Esta tupla puede consultarse en el atributo `shape`. 

In [None]:
print(x.shape)
print(y.shape)
print(z.shape)

Un arreglo es una estructura regular: si su forma está dada por la tupla $(a_1, \ldots, a_n)$, significa que el arreglo debe contener todos los elementos con índices $(i_1, \ldots, i_n)$, para $i_k \in \{0, \ldots, a_k -1\}$, con $k \in \{1, \ldots, n\}$.

Además, todos los elementos del arreglo deber ser números de un mismo tipo. Este tipo puede consultarse en el atributo `dtype`:

In [None]:
print(x.dtype)
print(y.dtype)
print(z.dtype)


El tamaño de un arreglo es el número de elementos que contiene y está dado por el producto de todas las componentes de la tupla que indica su forma. Puede consultarse en el atributo `size`:

In [None]:
print(x.size)
print(y.size)
print(z.size)


## Creación de arreglos

La forma más común de crear un arreglo es llamando a la función `array`. Esta función recibe como parámetro una lista, posiblemente con sublistas, que representa el arreglo de acuerdo a su forma: 

In [None]:
# arreglo unidimensional de 5 elementos:
a = np.array([1, 2, 3, 4, 5])
print(a)
print(a.shape)

# arreglo bidimensional de forma (2, 4)
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
print(b)
print(b.shape)

Es importante notar que la función `array` debe recibir como parámetro una **lista**. Si se pasan los elementos individuales se obtiene un error:

In [None]:
 a = np.array(1, 2, 3, 4, 5)

Es posible también definir el arreglo como unidimensional y especificar luego la forma llamando a la función `reshape`:

In [None]:
# arreglo unidimensional de 8 elementos:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8])
print(a)

# lo transformamos ahora en una matriz de (2, 4)
a = a.reshape(2, 4)
print(a)

# y ahora en un arreglo tridimensional de forma (2, 2, 2)
a = a.reshape(2, 2, 2)
print(a)

# las formas deben ser compatibles con el tamaño
a = a.reshape(2, 2, 3)
print(a)


El tipo del arreglo se ajusta automáticamente al tipo más general de los elementos especificados:

In [None]:
# arreglo unidimensional de 5 enteros:
a = np.array([1, 2, 3, 4, 5])
print(a)
print(a.dtype)

# arreglo unidimensional de 5 decimales:
a = np.array([1, 2, 3.1, 4, 5])
print(a)
print(a.dtype)


La función `arange` permite construir un arreglo unidimensional con los elementos de una progresión aritmética. Su sintaxis es similar a la de la función `range` de Python:

In [None]:
# arreglo unidimensional con los números pares del -8 al 8
a = np.arange(-8, 9, 2)
print(a)

# el mismo arreglo, pero como una matriz de forma (3, 3)
b = np.arange(-8, 9, 2).reshape(3,3)
print(b)


Para arreglos de números decimales, suele ser más útil emplear la función `linspace(a, b, n)` que construye un arreglo con $n$ valores distribuidos uniformemente en el intervalo $[a; b]$:

In [None]:
# arreglo con 5 valores entre 0 y 360
a = np.linspace(0, 360, 5)
print(a)
print(a.dtype)

Las funciones `zeros` y `ones` permiten crear arreglos con todos los elementos iguales a 0's y 1's, respectivamente. Ambas funciones reciben como parámetros una tupla con la forma del arreglo. Adicionalmente, es posible especificar un parámetro `dtype` con el tipo de datos de los elementos:

In [None]:
# vector con 5 elementos iguales a cero
a = np.zeros(5)
print(a)
print(a.dtype)

# matriz con (2,3) elementos iguales a uno y de tipo entero
b = np.ones((2,3), dtype='int64')
print(b)
print(b.dtype)


El módulo `np.random` contiene funciones para crear arreglos con valores aleatorios de acuerdo a distintas distribuciones de probabilidad. Puede ser considerado como el equivalente del módulo `random` de Python.

Por ejemplo, la función `random` crea un arreglo de la forma especificada, cuyos elementos son valores aleatorios decimales generados con la distribución uniforme en el intervalo $[0;1]$:

In [None]:
# vector de 8 componentes con elementos aleatorios en [0;1]
a = np.random.random(8)
print(a)

# arreglo de forma (2, 4, 3) con elementos aleatorios en [0;1]
print(np.random.random((2, 4, 3)))

La función `randint` genera arreglos con números enteros aleatorios uniformemente distribuidos dentro de un cierto intervalo.

In [None]:
# Un vector de tamaño 8 con enteros aletaorios entre -10 y 10
print(np.random.randint(-10, 10, 8))

# Una matriz de forma (3,5) con enteros aleatorios entre 0 y 100
print(np.random.randint(0, 100, (3, 5)))

Cuando un arreglo es muy grande, el comando `print` se salta la parte intermedia y escribe solamente los bordes:

In [None]:
print(np.random.randint(0, 100, (1000, 1000)))

## Operaciones básicas

Las operaciones aritméticas básicas pueden aplicarse sobre arreglos y se interpretan elemento a elemento. Adicionalmente, el módulo `numpy` contiene implementaciones de varias funciones reales que pueden aplicarse sobre arreglos de esta manera. Estas versiones para arreglos de las funciones escalares se conocen como *funciones universales*.

In [3]:
a = np.arange(0, 30).reshape(5, 6)
b = np.ones((5, 6))
print(a)
# el operador + crea un nuevo arreglo con la suma de a y b, elemento por elemento 
print(a + b)
# el operador * es el producto elemento a elemento
print(a * b)
# cada elemento de a+b elevado a la 3
print((a+b)**3)
# producto por escalar
print(2*a)
# aplicar la función universal exp a cada elemento del arreglo
print(np.exp(a))

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]]
[[ 1.  2.  3.  4.  5.  6.]
 [ 7.  8.  9. 10. 11. 12.]
 [13. 14. 15. 16. 17. 18.]
 [19. 20. 21. 22. 23. 24.]
 [25. 26. 27. 28. 29. 30.]]
[[ 0.  1.  2.  3.  4.  5.]
 [ 6.  7.  8.  9. 10. 11.]
 [12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23.]
 [24. 25. 26. 27. 28. 29.]]
[[1.0000e+00 8.0000e+00 2.7000e+01 6.4000e+01 1.2500e+02 2.1600e+02]
 [3.4300e+02 5.1200e+02 7.2900e+02 1.0000e+03 1.3310e+03 1.7280e+03]
 [2.1970e+03 2.7440e+03 3.3750e+03 4.0960e+03 4.9130e+03 5.8320e+03]
 [6.8590e+03 8.0000e+03 9.2610e+03 1.0648e+04 1.2167e+04 1.3824e+04]
 [1.5625e+04 1.7576e+04 1.9683e+04 2.1952e+04 2.4389e+04 2.7000e+04]]
[[ 0  2  4  6  8 10]
 [12 14 16 18 20 22]
 [24 26 28 30 32 34]
 [36 38 40 42 44 46]
 [48 50 52 54 56 58]]
[[1.00000000e+00 2.71828183e+00 7.38905610e+00 2.00855369e+01
  5.45981500e+01 1.48413159e+02]
 [4.03428793e+02 1.09663316e+03 2.98095799e+03 8.10308393e+03
  2.20264658e

Los operadores `*=` y `+=` modifican un arreglo existente en lugar de crear uno nuevo:

In [None]:
b += a
print(b)
b +=1
print(b)
b *= 2
print(b)

Si se realizan operaciones aritméticas entre arreglos con elementos de distintos tipos de números, automáticamente todos se convierten al tipo más general. Si esto no es posible, se genera un error:

In [None]:
a = np.random.random((4,3))
print(a)
print(a.dtype)
b = np.random.randint(0, 10, (4,3))
print(b)
print(b.dtype)
# se crea un nuevo arreglo con elementos decimales
c = a + b
print(c)
print(c.dtype)
# el arreglo b se suma al arreglo a
a += b
print(a)
print(a.dtype)
# esto genera un error, a no puede sumarse a b, porque no puede convertirse a int64
b +=a

Los operadores pueden también ser operadores de comparación, en cuyo caso generan un resultado booleano por cada elemento del arreglo:

In [4]:
a = np.random.randint(0, 10, (4, 3))
print(a)
print(a < 5)

[[8 8 8]
 [8 1 6]
 [0 5 6]
 [7 0 4]]
[[False False False]
 [False  True False]
 [ True False False]
 [False  True  True]]


El operador `*` denota el producto entre arreglos, elemento a elemento. Cuando se tienen matrices compatibles, puede calcularse el producto matricial empleando el operador `@` o el método `dot` de la clase `ndarray`:

In [2]:
a = np.ones((3,2))
b = np.arange(6).reshape((2,3))
print(a)
print(b)
print(a@b)
print(b.dot(a))

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[0 1 2]
 [3 4 5]]
[[3. 5. 7.]
 [3. 5. 7.]
 [3. 5. 7.]]
[[ 3.  3.]
 [12. 12.]]


Existen métodos que implementan funciones útiles de agregación. Los más comunes son `min`, `max`, `sum` y `mean`. Si estos métodos se llaman sin parámetros, operan sobre todos los elementos del arreglo y retornan un valor escalar:

In [9]:
a = np.arange(6).reshape((2,3))
print(a)
print(a.sum())
print(a.max())
print(a.min())
print(a.mean())

[[0 1 2]
 [3 4 5]]
15
5
0
2.5


Estos métodos permiten también especificar un parámetro `axis` y operan en ese caso solamente sobre un eje del arreglo:

In [12]:
# suma por filas
print(a.sum(axis=0))
# suma por columnas
print(a.sum(axis=1))
# promedios por filas
print(a.mean(axis=0))
# máximos por columnas
print(a.max(axis=1))
print('---')
a = np.arange(24).reshape((2,3,4))
print(a)
print('---')
print(a.sum(axis=2))

[[12 14 16 18]
 [20 22 24 26]
 [28 30 32 34]]
[[12 15 18 21]
 [48 51 54 57]]
[[ 6.  7.  8.  9.]
 [10. 11. 12. 13.]
 [14. 15. 16. 17.]]
[[ 8  9 10 11]
 [20 21 22 23]]
---
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
---
[[ 6 22 38]
 [54 70 86]]


## Indexación, *slicing* e iteración:

Los arreglos unidimensionales pueden indexarse, tanto para lectura como para escritura, en la misma manera en que se indexan las listas. Esto incluye el uso de todas las técnicas disponibles de *slicing*:

In [5]:
a = np.arange(0,19,2)
print(a)
# segundo elemento
print(a[1])
# último elemento
print(a[-1])
# slice con elementos 1,..,4
print(a[1:5])
# slice con elementos 3,5,7
print(a[3:8:2])
# slice con los elementos desde el cuarto en adelante
print(a[3:])
# slice con los últimos 3 elementos
print(a[-3:])


[ 0  2  4  6  8 10 12 14 16 18]
2
18
[2 4 6 8]
[ 6 10 14]
[ 6  8 10 12 14 16 18]
[14 16 18]


Los arreglos multidimensionales se indexan por tuplas de la dimensión adecuada. Cada componente de la tupla puede ser sustuida por un *slice*:

In [6]:
a = np.arange(1, 21).reshape(4, 5)
print(a)
# elemento en la primera fila, primera columna
print(a[0,0])
# elemento en la segunda fila, última columna
print(a[1,-1])
# penúltima columna
print(a[:,-2])
# segunda y tercera filas
print(a[1:3,:])
# submatriz con la tercera y cuarta filas, y las dos útlimas columnas
print(a[2:4,-2:])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
1
10
[ 4  9 14 19]
[[ 6  7  8  9 10]
 [11 12 13 14 15]]
[[14 15]
 [19 20]]


Es importante recordar que al indexar un arreglo se crean *vistas* del mismo, es decir, referencias en la memoria a sus datos. Por lo tanto, cualquier cambio realizado sobre un elemento o un *slice* afecta al arreglo original:

In [7]:
a = np.arange(1, 21).reshape(4, 5)
print(a)
b = a[0,:]
print(b)
# hacer ceros al 2do y 3er elementos de b
b[1:3] =np.zeros(2)
# hacer cero el último elemento de b
b[-1] = 0
# los cambios afectan a a
print(a)
# esto no afecta al arreglo a:
b = np.ones(5)
print(a)
# pero esto sí lo hace:
b = a[0,:]
b[:] = np.ones(5)
print(a)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[1 2 3 4 5]
[[ 1  0  0  4  0]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[[ 1  0  0  4  0]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[[ 1  1  1  1  1]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


### Indexación por expresiones de comparación

Recordemos que el resultado de aplicar un operador de comparación entre un arreglo `a` y un valor escalar es un arreglo de elementos booleanos (`True` o `False`) que corresponden a la aplicación del operador de comparación sobre cada uno de los elementos de `a`. Esta idea puede utilizarse para *filtrar* los elementos de un arreglo, al utilizar como índice una expresión de comparación:

In [9]:
# crear a como un arreglo unidimensional de 10 enteros aleatorios entre 11 y 100
a = np.random.randint(11, 100, (10))
print(a)
# crear un arreglo booleano que indique cuáles elementos de a son menores a 50
print(a < 50)
# construir un arreglo con los elementos de a menores a 50
print(a[a < 50])


[27 28 34 86 71 53 94 82 35 13]
[ True  True  True False False False False False  True  True]
[27 28 34 35 13]


La técnica anterior puede utilizarse sobre arreglos multidimensionales, pero el resultado es un arreglo unidimensional:

In [11]:
# crear a como un arreglo unidimensional de 10 enteros aleatorios entre 11 y 100
a = np.random.random((4, 3))
print(a)
# crear un arreglo booleano que indique cuáles elementos de a son menores a 50
print(a < 0.5)
# construir un arreglo con los elementos de a menores a 50
print(a[a < 0.5])


[[0.83829413 0.70974969 0.91014397]
 [0.07381328 0.42691312 0.22006931]
 [0.84928809 0.3642653  0.91592122]
 [0.13741933 0.5331343  0.15612074]]
[[False False False]
 [ True  True  True]
 [False  True False]
 [ True False  True]]
[0.07381328 0.42691312 0.22006931 0.3642653  0.13741933 0.15612074]


### Iteración
Los arreglos son tipos iterables. Al iterar sobre un arreglo, se itera sobre su primer eje:

In [13]:
a = np.arange(1, 21).reshape(4, 5)
print(a)
print("Iterando sobre filas de a:")
for fila in a:
    print(fila)
    print('---')
a = np.arange(1, 21).reshape(2, 2, 5)
print(a)
print("Iterando sobre el primer eje de a:")
for m in a:
    print(m)
    print('---')


[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
Iterando sobre filas de a:
[1 2 3 4 5]
---
[ 6  7  8  9 10]
---
[11 12 13 14 15]
---
[16 17 18 19 20]
---
[[[ 1  2  3  4  5]
  [ 6  7  8  9 10]]

 [[11 12 13 14 15]
  [16 17 18 19 20]]]
Iterando sobre el primer eje de a:
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
---
[[11 12 13 14 15]
 [16 17 18 19 20]]
---


Para iterar sobre cada uno de los elementos de un arreglo sin importar su forma, puede usarse el método `flat` que proyecta el arreglo a un sola dimensión:

In [14]:
a = np.arange(1, 21).reshape(2, 2, 5)
print(a)
for m in a.flat:
    print(m)


[[[ 1  2  3  4  5]
  [ 6  7  8  9 10]]

 [[11 12 13 14 15]
  [16 17 18 19 20]]]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20


## Más información

Para información más detallada acerca de la biblioteca NumPy, incluyendo una guía del usuario y una guía de referencia del API, puede consultarse el sitio web <https://numpy.org/devdocs/user/quickstart.html>.