# **Librería NumPy**

Aunque Python tiene varios tipos de datos estructurados, en la práctica no son nada adecuados para cálculo numérico. Veamos un ejemplo de un cálculo numérico básico empleando listas:

In [1]:
lista = list(range(5))    # Lista de numeros de 0 a 4

In [2]:
print(lista)

[0, 1, 2, 3, 4]


In [3]:
print(lista*2)

[0, 1, 2, 3, 4, 0, 1, 2, 3, 4]


In [4]:
print(lista*2.5)

TypeError: can't multiply sequence by non-int of type 'float'

En el ejemplo anterior vemos cómo al multiplicar una lista por un número entero, el resultado es concatenar la lista original tantas veces como indica el número, en lugar de multiplicar cada uno de sus elementos por este número, que es lo a veces cabría esperar. Es más, al multiplicarlo por un número no entero da un error, al no poder crear una fracción de una lista. Si quisiéramos hacer esto, se podría resolver iterando cada uno de los elementos de la lista con un bucle for, por ejemplo:

In [5]:
lista_nueva = [i*2.5 for i in lista]
print(lista_nueva)

[0.0, 2.5, 5.0, 7.5, 10.0]


aunque esta técnica es ineficiente y lenta, sobre todo cuando queremos evaluar funciones, polinomios o cualquier otra operación matemática que aparece en cualquier problema científico.

Cuando realmente queremos hacer cálculos con listas de números, debemos usar los arrays. El módulo numpy nos da acceso a los arrays y a una gran cantidad de métodos y funciones aplicables a los mismos. Naturalmente, numpy incluye funciones matemáticas básicas similares al módulo math, las completa con otras más elaboradas y además incluye algunas utilidades de números aleatorios, ajuste lineal de funciones y muchas otras.

Para trabajar con numpy y los arrays, importamos el módulos de alguna manera:

In [2]:
import numpy              # Cargar el modulo numpy, o bien
import numpy as np        # cargar el modulo numpy, llamándolo np, o bien
from numpy import *       # cargar todas funciones de numpy

Si cargamos el módulo solamente, accederemos a las funciones como numpy.array() o np.array(), según cómo importemos el módulo; si en lugar de eso importamos todas las funciones, accederemos a ellas directamente (e.g. array()). Por comodidad usaremos por ahora esta última opción, aunque muy a menudo veremos que usa la notación np.array(), especialmente cuando trabajamos con varios módulos distintos.

Un array se puede crear explícitamente o a partir de una lista de la forma siguiente:

In [7]:
x = array([2.0, 4.6, 9.3, 1.2])      # Creacion de un array directamente
notas = [ 9.8, 7.8, 9.9, 8.4, 6.7]  # Crear un lista
notas = array(notas)                # y convertir la lista a array

Existen métodos para crear arrays automáticamente:

In [8]:
numeros = arange(10.)               # Array de numeros (floats) de 0 a 9
print(numeros)

[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]


In [9]:
lista_ceros = zeros(10)             # Array de 10 ceros (floats)
print(lista_ceros)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [10]:
lista_unos = ones(10)                # Array de 10 unos (floats)
print(lista_unos)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [11]:
otra_lista = linspace(0, 30, 8)       # Array de 8 números, de 0 a 30 ambos incluidos
print(otra_lista)

[ 0.          4.28571429  8.57142857 12.85714286 17.14285714 21.42857143
 25.71428571 30.        ]


Los arrays se indexan prácticamente igual que las listas y las cadenas de texto; aquí hay algunos ejemplos:

In [12]:
print(numeros[3:8])           # Elementos desde el tercero al septimo

[3. 4. 5. 6. 7.]


In [13]:
print(numeros[:4])            # Elementos desde el primero al cuarto

[0. 1. 2. 3.]


In [14]:
print(numeros[5:])            # Elementos desde el quinto al final

[5. 6. 7. 8. 9.]


In [15]:
print(numeros[-3])            # El antepenúltimo elemento (devuelve un elemento, no un array)

7.0


In [16]:
print(numeros[:])             # Todo el array, equivalente a print(numeros)

[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]


In [17]:
print(numeros[2:8:2])         # Elementos del segundo al septimo, pero saltando de dos en dos

[2. 4. 6.]


Al igual que las listas, podemos ver el tamaño de un array unidimensional con len(), aunque la manera correcta de conocer la forma de un array es usando el método shape():

In [18]:
print(len(numeros))

print(numeros.shape)

10
(10,)


Nótese que el resultado del método shape() es una tupla, en este caso con un solo elemento ya que el array números es unidimensional.

Si creamos un array con np.arange() usando un número entero, el array que se creará será de enteros. Es posible cambiar todo el array a otro tipo de dato (como a float) usando el método astype():

In [19]:
enteros = arange(6)

In [20]:
print(enteros)

[0 1 2 3 4 5]


In [21]:
type(enteros)

numpy.ndarray

In [22]:
type(enteros[2])

numpy.int32

In [23]:
decimales = enteros.astype('float')

In [24]:
type(decimales)

numpy.ndarray

In [25]:
type(decimales[4])

numpy.float64

In [26]:
print(decimales)

[0. 1. 2. 3. 4. 5.]


In [27]:
print(decimales.shape)   # Forma o tamaño del array

(6,)


## Operaciones con arrays

Los arrays permiten hacer operaciones aritméticas básicas entre ellos en la forma que uno esperaría que se hicieran, es decir, haciéndolo elemento a elemento; para ello ambos arrays deben tener siempre la misma longitud, por ejemplo:

In [28]:
x = array([5.6, 7.3, 7.7, 2.3, 4.2, 9.2])

In [29]:
print(x+decimales)

[ 5.6  8.3  9.7  5.3  8.2 14.2]


In [30]:
print(x*decimales)

[ 0.   7.3 15.4  6.9 16.8 46. ]


In [31]:
print(x/decimales)

[       inf 7.3        3.85       0.76666667 1.05       1.84      ]


  print(x/decimales)


Como podemos ver las operaciones se hacen elemento a elemento, por lo que ambas deben tener la misma forma (shape()). Fíjense que en la división el resultado del primer elemento es indefinido/infinito (Inf) debido a la división por cero.

Las operaciones entre un arreglo y un valor simple funcionan aplicando la operación a todos los elementos del arreglo, usando el valor simple como operando todas las veces:

In [32]:
a = array([55, 21, 19, 11,  9])
# multiplicar por 0.1 todos los elementos
0.1 * a

array([5.5, 2.1, 1.9, 1.1, 0.9])

In [33]:
# restar 9.0 a todos los elementos
a - 9.0

array([46., 12., 10.,  2.,  0.])

Note que si quisiéramos hacer estas operaciones usando listas, necesitaríamos usar un ciclo para hacer las operaciones elemento a elemento.

Las operaciones relacionales también se aplican elemento a elemento, y retornan un arreglo de valores booleanos:

In [34]:
a = array([5.1, 2.4, 3.8, 3.9])
b = array([4.2, 8.7, 3.9, 0.3])
c = array([5, 2, 4, 4]) + array([1, 4, -2, -1]) / 10.0

In [35]:
c

array([5.1, 2.4, 3.8, 3.9])

In [36]:
a < b

array([False,  True,  True, False])

In [37]:
a == c

array([ True,  True,  True,  True])

Varios arrays se pueden unir con el método np.concatenate(), que también se puede usar para añadir elementos nuevos:

In [38]:
x

array([5.6, 7.3, 7.7, 2.3, 4.2, 9.2])

In [39]:
decimales

array([0., 1., 2., 3., 4., 5.])

In [40]:
z = concatenate((x, decimales))

In [41]:
print(z)

[5.6 7.3 7.7 2.3 4.2 9.2 0.  1.  2.  3.  4.  5. ]


In [42]:
decimales[:1]

array([0.])

In [43]:
z = concatenate((x[:2], decimales[:1]))

In [44]:
print(z)

[5.6 7.3 0. ]


Es importante fijarse que los arrays o listas a unir deben darse como un iterable (tupla, lista, array) como por ejemplo (x, [7]), (x, [2,4,7]) o (x, array([2,4,7])).

Para añadir elementos, numpy tiene las funciones insert() y append(), que funcionan de manera similar a sus equivalentes en listas, pero en este caso son funciones y no métodos que se aplican a un array, si no que el array en cuestión hay que darlo como parámetro:

In [45]:
# Añadimos el elemento 100 al array z, al final
z = append(z, 100)

In [46]:
print(z)

[  5.6   7.3   0.  100. ]


In [47]:
 # Añadimos el elemento 200 al array z, en el tercer puesto (índice 2)
z = insert(z, 0, 200)
print(z)

[200.    5.6   7.3   0.  100. ]


In [48]:
z = select([z == 0.], [2], z)

In [49]:
z

array([200. ,   5.6,   7.3,   2. , 100. ])

In [50]:
z = select([z == 200.,z==5.6], [0,2], z)

In [51]:
z

array([  0. ,   2. ,   7.3,   2. , 100. ])

Como se ve, a diferencia de las listas, el primer parámetro es el array y luego el elemento que se quiere añadir, en el caso de append() y el array, la posición y luego elemento a añadir en el caso de append(). Esto se debe a que estas funciones devuelven una copia del array sin modificar el original como hacen los métodos de listas correspondientes. Si en lugar de un elemento a insertar se da una lista y otro array, añade todos los elementos de la lista (a append() habría que dar también una lista de posiciones, como segundo parámetro).

In [52]:
# Creamos un nuevo array anhadiendo al array z,
# los elementos -10, -20, -30 en las posiciones con indices 2, 4, -1, respectivamente
y = np.insert(z, [2, 4, -1], [-10, -20, -30])
print(y)

[  0.    2.  -10.    7.3   2.  -20.  -30.  100. ]


Además de las operaciones aritméticas básicas, los arrays de numpy tienen métodos o funciones específicas para ellas más avanzadas. Algunas de ellas son las siguientes:

In [53]:
z

array([  0. ,   2. ,   7.3,   2. , 100. ])

In [54]:
z.max()   # Valor máximo de los elementos del array

100.0

In [55]:
z.min()   # Valor mínimo de los elementos del array

0.0

In [56]:
z.argmin() # la posición del mínimo

0

In [57]:
z.argmax() # la posición del máximo

4

In [58]:
z.mean()  # Valor medio de los elementos del array

22.259999999999998

In [59]:
z.std()   # Desviación típica de los elementos del array

38.94547984041281

In [60]:
z.sum()   # Suma de todos los elementos del array

111.3

In [61]:
mean(z) # Mediana de los elementos del array

22.259999999999998

In [62]:
median(z)

2.0

Los métodos, que se operan de la forma z.sum() también pueden usarse como funciones de tipo sum(z), etc. Consultar el manual de numpy para conocer otras propiedades y métodos de los arrays o simplemente ver la “ayuda” de las funciones que quieran utilizar.

Una gran utilidad de los arrays es la posibilidad de usarlos con datos booleanos (True o False) y operar entre ellos o incluso usarlos con arrays con números. Veamos algunos ejemplos:

In [63]:
A = array([True, False, True])
B = array([False, False, True])

In [64]:
A*B

array([False, False,  True])

In [65]:
C = array([1, 2, 3])

In [66]:
A*C

array([1, 0, 3])

In [67]:
B*C

array([0, 0, 3])

En este ejemplo vemos cómo al multiplicar dos arrays booleanos es resultado es otro array booleano con el resultado que corresponda, pero al multiplicar los arrays booleanos con arrays numéricos, el resultado es un array numérico con los mismos elementos, pero con los elementos que fueron multiplicados por False iguales a cero.

Tambíén es posible usar los arrays como índices de otro array y como índices se pueden usar arrays numéricos o booleanos. El resultado será en este caso un array con los elementos que se indique en el array de índices numérico o los elementos correspondientes a True en caso de usar un array de índices booleano. Veámoslo con un ejemplo:

In [68]:
# Array con enteros de 0 a 9
mi_array = arange(0, 100, 10)
print(mi_array)

[ 0 10 20 30 40 50 60 70 80 90]


In [69]:
# Array de índices numericos con numeros de 0-9 de 2 en 2
indices1 = np.arange(0, 10, 2)
print(indices1)

[0 2 4 6 8]


In [70]:
# Array de índices booleanos
indices2 = np.array([False, True, True, False, False, True, False, False, True, True])

In [71]:
print(mi_array)

print(mi_array[indices1])

print(mi_array[indices2])

[ 0 10 20 30 40 50 60 70 80 90]
[ 0 20 40 60 80]
[10 20 50 80 90]


También es muy sencillo y más práctico crear arrays booleanos usando operadores lógicos y luego usalos como índices, por ejemplo:

In [72]:
print(mi_array)

[ 0 10 20 30 40 50 60 70 80 90]


In [73]:
# Creamos un array usando un operador booleano
mayores50 = mi_array > 80

In [74]:
print(mayores50)

[False False False False False False False False False  True]


In [75]:
# Lo utilizamos como índices para seleccionar los que cumplen esa condición
print(mi_array[mayores50])

[90]


## Arrays multidimensionales

Hasta ahora sólo hemos trabajado con arrays con una sola dimensión, pero numpy permite trabajar con arrays de más dimensiones. Un array de dos dimensiones podría ser por ejemplo un array que tuviera como elementos un sistema de ecuaciones o una imagen. Para crearlos podemos hacerlo declarándolos directamente o mediante funciones como np.zeros() o np.ones() dando como parámetro una tupla con la forma del array final que queramos; o también usando np.arange() y crear un array unidimensional y luego cambiar su forma. Veamos algunos ejemplos:

In [76]:
# Array de 3 filas y tres columnas, creado implícitamente
arr0 = array([[10,20,30],[9, 99, 999],[0, 2, 3]])
print(arr0)

[[ 10  20  30]
 [  9  99 999]
 [  0   2   3]]


In [77]:
# Array de ceros con 2 filas y 3 columnas
arr1 = zeros((2,3))
print(arr1)

[[0. 0. 0.]
 [0. 0. 0.]]


In [78]:
# Array de unos con 4 filas y una columna
arr2 = ones((4,1))
print(arr2)

[[1.]
 [1.]
 [1.]
 [1.]]


In [79]:
arange(9)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [80]:
# Array unidimensional de 9 elementos y cambio su forma a 3x3
arr3 = arange(9).reshape((3, 3))
print(arr3)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [81]:
arr1.shape

(2, 3)

In [82]:
len(arr1)

2

Como vemos en la última línea, la forma o shape() de los arrays se sigue dando como una tupla, con la dimensión de cada eje separado por comas; en ese caso la primera dimensión son las cuatro filas y la segunda dimensión o eje es una columna. Es por eso que al usar las funciones zeros(), ones(), reshape(), etc. hay que asegurarse que el parámetro de entrada es una tupla con la longitud de cada eje. Cuando usamos la función len() en un array bidimensional, el resultado es la longitud del primer eje o dimensión, es decir, len(arr2) es 4.

El acceso a los elementos es el habitual, pero ahora hay que tener en cuenta el eje al que nos referimos; además podemos utilizar ”:” como comodín para referirnos a todo el eje. Por ejemplo:

In [83]:
arr0

array([[ 10,  20,  30],
       [  9,  99, 999],
       [  0,   2,   3]])

In [84]:
# Primer elemento de la primera fila y primera columna (0,0)
arr0[0,0]

10

In [85]:
# Primera columna
arr0[:,0]

array([10,  9,  0])

In [86]:
# Primera fila
arr0[0,:]

array([10, 20, 30])

In [87]:
# Elementos 0 y 1 de la primera fila
arr0[0,:2]

array([10, 20])

Igualmente podemos modificar un array bidimensional usando sus índices:

In [88]:
# Asignamos el primer elemento a 88
arr0[0, 0] = 88
arr0

array([[ 88,  20,  30],
       [  9,  99, 999],
       [  0,   2,   3]])

In [89]:
# Asignamos elementos 0 y 1 de la segunda fila
arr0[1, :2] = [50,60]
arr0

array([[ 88,  20,  30],
       [ 50,  60, 999],
       [  0,   2,   3]])

In [90]:
# Multiplicamos por 10 la última fila
arr0[-1, :] = arr0[-1, :]*10

In [91]:
print(arr0)

[[ 88  20  30]
 [ 50  60 999]
 [  0  20  30]]


In [92]:
arre=array([0.,1.,3.,4.])
arre

array([0., 1., 3., 4.])

In [93]:
arre[1]=25
arre

array([ 0., 25.,  3.,  4.])

## Cambiando el tamaño de arrays

Hemos visto que es fácil quitar y poner elementos nuevos en un array unidimensional. Pero con dos o más dimensiones es algo más complicado porque estamos limitados a la estructura y número de elementos del array. Podemos cambiar la forma (shape) de un array a otra que tenga el mismo número de elementos fácilmente usado reshape():

In [94]:
numeros = arange(10000)  # Array unidimensional de 10000 numeros
numeros_2D = numeros.reshape((100, 100))
numeros_2D

array([[   0,    1,    2, ...,   97,   98,   99],
       [ 100,  101,  102, ...,  197,  198,  199],
       [ 200,  201,  202, ...,  297,  298,  299],
       ...,
       [9700, 9701, 9702, ..., 9797, 9798, 9799],
       [9800, 9801, 9802, ..., 9897, 9898, 9899],
       [9900, 9901, 9902, ..., 9997, 9998, 9999]])

In [95]:
numeros_3D = numeros.reshape((100, 10, 10))
numeros_3D

array([[[   0,    1,    2, ...,    7,    8,    9],
        [  10,   11,   12, ...,   17,   18,   19],
        [  20,   21,   22, ...,   27,   28,   29],
        ...,
        [  70,   71,   72, ...,   77,   78,   79],
        [  80,   81,   82, ...,   87,   88,   89],
        [  90,   91,   92, ...,   97,   98,   99]],

       [[ 100,  101,  102, ...,  107,  108,  109],
        [ 110,  111,  112, ...,  117,  118,  119],
        [ 120,  121,  122, ...,  127,  128,  129],
        ...,
        [ 170,  171,  172, ...,  177,  178,  179],
        [ 180,  181,  182, ...,  187,  188,  189],
        [ 190,  191,  192, ...,  197,  198,  199]],

       [[ 200,  201,  202, ...,  207,  208,  209],
        [ 210,  211,  212, ...,  217,  218,  219],
        [ 220,  221,  222, ...,  227,  228,  229],
        ...,
        [ 270,  271,  272, ...,  277,  278,  279],
        [ 280,  281,  282, ...,  287,  288,  289],
        [ 290,  291,  292, ...,  297,  298,  299]],

       ...,

       [[9700, 9701, 970

In [96]:
numeros.shape

(10000,)

In [97]:
numeros_2D.shape

(100, 100)

In [98]:
numeros_3D.shape

(100, 10, 10)

Para añadir más filas o columnas a un array, la forma más efectiva en crear un array nuevo con la forma deseada y luego añadir las filas o columnas, por ejemplo:

In [99]:
A = arange(0, 10)

B = arange(100, 1100, 100)
A

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [100]:
B

array([ 100,  200,  300,  400,  500,  600,  700,  800,  900, 1000])

In [101]:
C = zeros((len(A), 2))  # 10 filas, dos columnas
C

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [102]:
C[:,0] = A
C

array([[0., 0.],
       [1., 0.],
       [2., 0.],
       [3., 0.],
       [4., 0.],
       [5., 0.],
       [6., 0.],
       [7., 0.],
       [8., 0.],
       [9., 0.]])

In [103]:
C[:,1] = B
C

array([[   0.,  100.],
       [   1.,  200.],
       [   2.,  300.],
       [   3.,  400.],
       [   4.,  500.],
       [   5.,  600.],
       [   6.,  700.],
       [   7.,  800.],
       [   8.,  900.],
       [   9., 1000.]])

In [104]:
C

array([[   0.,  100.],
       [   1.,  200.],
       [   2.,  300.],
       [   3.,  400.],
       [   4.,  500.],
       [   5.,  600.],
       [   6.,  700.],
       [   7.,  800.],
       [   8.,  900.],
       [   9., 1000.]])

Existen otros métodos de manipulación de la forma de los arrays como hstack(), vstack() o tile() entre otras.

## Filtros y máscaras de arrays. Arrays enmascarado

Una de las mejores utilidades de numpy es trabajar con índices y máscaras de datos para limitar o seleccionar parte de los datos. Supongamos que tenemos un array de datos, pero que solo nos interesa los positivos, que queremos manipular después. Hay varias formas de seleccionarlos definiendo un array máscara con la condición que nos interesa:

In [105]:
datos = array([3, 7, -2, 6, 7, -8, 11, -1, -2, 8])

In [106]:
datos

array([ 3,  7, -2,  6,  7, -8, 11, -1, -2,  8])

In [107]:
mask = datos >= 0

In [108]:
mask

array([ True,  True, False,  True,  True, False,  True, False, False,
        True])

In [109]:
datos*mask

array([ 3,  7,  0,  6,  7,  0, 11,  0,  0,  8])

In [110]:
datos[mask]

array([ 3,  7,  6,  7, 11,  8])

Usando un array mask de booleanos, podemos operar con el el array de datos, cuando un valor se multiplica por True es equivalente a multiplicarse por 1 y si es con False, a multiplicarse por 0. Por eso el resultado es un array del mismo tamaño, pero los elementos que no cumplen la condición se hacen 0.

Si por el contrario usarmos usamos mask como un array de índices, el resultado es un array con los elementos cuyo índice corresponda con True, ignorando los de índice False. Usaremos uno u otro según lo que queramos hacer, el truco consiste es crear de manera correcta la máscara de datos.

Veamos el caso de un array 2D con dos columnas, pero queremos limitar todos los datos en criterios en las dos columnas. Primero creamos una máscara como producto de las dos condiciones, y luego la usamos como array de índices en el array original:

In [111]:
from numpy import random

datos2 = random.randint(-10, 20, (10,2))

In [112]:
datos2

array([[-1, 16],
       [10,  2],
       [ 2, -4],
       [-5, 13],
       [13, 17],
       [ 9, 15],
       [ 3,  2],
       [-2, 19],
       [-6, -5],
       [-9, -3]])

In [113]:
# Solo queremos los datos que el la columna 0 sean mayores
# que 0 pero menores que 10 en la columna 1
condicion1 = datos2[:,0] > 0
condicion1

array([False,  True,  True, False,  True,  True,  True, False, False,
       False])

In [114]:
condicion2 = datos2[:,1] < 10
condicion2

array([False,  True,  True, False, False, False,  True, False,  True,
        True])

In [115]:
mask_col0 = condicion1+condicion2

In [116]:
mask_col0

array([False,  True,  True, False,  True,  True,  True, False,  True,
        True])

In [117]:
datos2[mask_col0]

array([[10,  2],
       [ 2, -4],
       [13, 17],
       [ 9, 15],
       [ 3,  2],
       [-6, -5],
       [-9, -3]])

In [3]:
datos2*mask_col0

NameError: name 'datos2' is not defined

Como se ve, el resultado en un array de dos columna, donde en la primera columna son todos positivos y en la segunda menores que +10. ¿Y si queremos que al menos se cumpla una condición? Simplemente tenermos que sumar las dos máscaras (las de cada columna) en lugar de multiplicarla, básicamente es como multiplicar o sumar unos o ceros (True o False).

Como este tipo de operaciones tienen mucho potencial y pueden llegar a se complejas. numpy tiene un módulo que puede ayudar en estos casos, que es el de arrays enmascarados (numpy.ma). Se trata de un tipo de datos que permite ignorar algunos elementos de un array según ciertas condiciones. Vemos un ejemplo:

In [4]:
import numpy.ma as ma
x = np.array([1, 2, 3, -1, 5])

In [5]:
# Enmascaramos en cuarto elemento
mx = ma.masked_array(x, mask=[0, 0, 0, 1, 0])

In [6]:
print(mx.mean())

2.75


In [7]:
print(x.mean())

2.0


Como se ve, el array enmascarado ha ignorado el valor que se enmascara con True dando un resultado distinto en la media, pero no lo ha eliminado del array.

In [8]:
x.view(ma.MaskedArray)

masked_array(data=[ 1,  2,  3, -1,  5],
             mask=False,
       fill_value=999999)

In [9]:
mx.view(ma.MaskedArray)

masked_array(data=[1, 2, 3, --, 5],
             mask=[False, False, False,  True, False],
       fill_value=999999)

Podemos usar algunas funciones de ma para crear las máscaras, como masked_greater(), masked_inside(), masked_where(), etc.

In [10]:
a = arange(4)
print(a)

[0 1 2 3]


In [122]:
ma.masked_where(a <= 2, a)

masked_array(data=[5.1, 2.4, 3.8, 3.9],
             mask=False,
       fill_value=1e+20)

## Arrays estructurados

Aunque los arrays pueden contener cualquier tipo de dato, los arrays normales sólo pueden ser de un único tipo. Para esto extiste una variante de arrays para contenidos complejos o estructurados, llamado structured arrays, que permiten tratar arrays por estructuras o por campos de estruturas. Además de poder contener distintos tipos de datos, facilitan el acceso por columnas. Vemos un ejemplo con un array con distintos tipos de datos:

In [123]:
# Array estucturado de 5 elementos, vacio
galaxies = zeros(5, dtype = {'names': ('name', 'order', 'type', 'magnitude'),
                          'formats': ('U16', 'i4', 'U10', 'f4')})

In [124]:
# Listas de datos para contruir el array estructurado
names = ["M 81", "NGC 253", "M 51", "NGC 4676", "M 106"]
types = ["SA(s)b", "SAB(s)c", "Sc", "Irr", "SAB(s)bc"]
magnitudes = [6.93, 7.1, 8.4, 14.7, 9.1]
order = list(range(5))

In [125]:
# Añadimos valores a los campos (columnas)
galaxies['name'] = names
galaxies['type'] = types
galaxies['magnitude'] = magnitudes
galaxies['order'] = order

In [126]:
galaxies

array([('M 81', 0, 'SA(s)b',  6.93), ('NGC 253', 1, 'SAB(s)c',  7.1 ),
       ('M 51', 2, 'Sc',  8.4 ), ('NGC 4676', 3, 'Irr', 14.7 ),
       ('M 106', 4, 'SAB(s)bc',  9.1 )],
      dtype=[('name', '<U16'), ('order', '<i4'), ('type', '<U10'), ('magnitude', '<f4')])

Se trata de un array con cinco entradas (o records) y cada una de ellas posee cuatro campos de distinto tipo, indicados con la propiedad dtype. En este caso son un string unicode de longitud máxima 16 (U16), un entero 4 bytes (i.e. 32 bit) (i4), string unicode de longitud máxima 16 (U16) y un float de 4 bytes (i.e. 64 bit). El dtype de numpy describe cómo interpretar cada elemento en bytes de bloques de memoria fijos. No sólo se trata de si son float, int, etc., el dtype describe lo siguiente:

    Tipo de dato (int, float, objeto Python, etc.)

    Tamaño del dato (cuantos bytes puede ocupar)

    Orden de bytes de datos (little-endian o big-endian)

    Si son datos estructurado (por ejemplo mezcla de tipos de dato), también:

            Nombre de los campos

            Tipo de dato de cada campo

            Qué parte del bloque de memoria ocupa cada campo

            Si en dato es un sub-array, su forma y tipo de dato

De manera resumida, para definir el tipo de cada elemento podemos usar una de las siguientes cadenas:

b1, i1, i2, i4, i8, u1, u2, u4, u8, f2, f4, f8, c8, c16, a<n>

que representan, respectivamente, bytes, ints, unsigned ints, floats, complex y strings de longitud fija. También se pueden usar los tipos de datos estándar de Python equivalentes (int, float, etc.)

Teniendo un array estructurado como el anterior, podemos ver cada elemento haciendo el indexado habitual y también por campos (columnas):

In [127]:
print(galaxies)

[('M 81', 0, 'SA(s)b',  6.93) ('NGC 253', 1, 'SAB(s)c',  7.1 )
 ('M 51', 2, 'Sc',  8.4 ) ('NGC 4676', 3, 'Irr', 14.7 )
 ('M 106', 4, 'SAB(s)bc',  9.1 )]


In [128]:
# Columna 'name' del array
galaxies['name']

array(['M 81', 'NGC 253', 'M 51', 'NGC 4676', 'M 106'], dtype='<U16')

In [129]:
# Primer elemento del array, con todos los campos (columnas)
galaxies[0]

('M 81', 0, 'SA(s)b', 6.93)

In [130]:
# Nombres de galaxias más brillantes que magnitud 9
galaxies[galaxies['magnitude'] < 9]['name']

array(['M 81', 'NGC 253', 'M 51'], dtype='<U16')



Adicionalmente, numpy tiene una subclase de array estructurado llamado record array que básicamente es idéntico a los arrays estructurados pero permite el acceso a los campos como métodos además de como índice. Se declaran igual que los estructurados usando np.rec.array(), pero podemos convertir el anterior de la siguiente forma:

In [131]:
# Array estructurado a record array
galaxies_ra = galaxies.view(np.recarray)

In [132]:
# Acceso al campo name como un método, en lugar de galaxies_ra['name']
galaxies_ra.name

array(['M 81', 'NGC 253', 'M 51', 'NGC 4676', 'M 106'], dtype='<U16')

In [133]:
galaxies_ra.magnitude

array([ 6.93,  7.1 ,  8.4 , 14.7 ,  9.1 ], dtype=float32)

## Lectura y escritura de datos con numpy

numpy posee algunos métodos de lectura de ficheros de texto que nos pueden facilitar la vida si son relativamente sencillos. En más básico es np.loadtxt(); si todos las columnas del fichero son numéricas, basta con indicar el delimitador de columnas si es distinto de espacios:

In [134]:
# Leo un fichero de datos con campos delimitados por ";"
data = loadtxt("test.txt", delimiter=";")

In [135]:
data.shape

(40, 2)

Si hay más de una columna como en este ejemplo, np.loadtxt() devuelve un array bidimiensional en el que primera dimensión o eje son las filas y el segundo las columnas, de maneras que el fichero que acabamos de leer tiene 40 filas y dos columnas. Quizás sea más práctico poner la columnas por separado, para lo que podemos hacer:

In [136]:
tiempo = data[:, 0]  # tiempo, la primera columna
masa = data[:, 1]    # masa, la segunda columna

In [137]:
tiempo, masa = loadtxt("test.txt", delimiter=";", unpack=True)

In [138]:
masa

array([200., 200., 200., 200., 200., 200., 200., 200., 200., 200., 200.,
       200., 200., 200., 200., 200., 200., 200., 200., 200., 200., 200.,
       200., 200., 200., 200., 200., 200., 200., 200., 200., 200., 200.,
       200., 200., 200., 200., 200., 200., 200.])

Si el fichero a leer tiene distintos tipos datos (string y float), hay que indicar con el parámetro dtype la lista de tipos de dato que tienen las columnas que queremos leer. En este caso es más práctico usar el método np.genfromtxt(), que similar a loadtxt() pero más flexible para leer columnas de distinto tipo. Si usamos np.genfromtxt() con el parámetro dtype, que puede ser una lista con tuplas nombre-tipo, podemos indicar el nombre de la columna y el tipo dato que contiene, creando un array estructurado como vimos antes:

In [139]:
dtypes = [('tiempo', 'float'), ('masa', 'int')]
data = genfromtxt('test.txt', dtype=dtypes,delimiter=";")

In [140]:
data['masa']

array([200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200,
       200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200,
       200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200,
       200])

En este caso ya no hay que usar el desempaquetado, porque tenemos un array estructurado con columnas con nombre data['tiempo'] y data['masa'].

De manera similar, podemos usar np.savetxt() para guardar un fichero de datos por columnas:

In [141]:
# Guardamos un array datos en un fichero de texto, con los campos
# delimitados por tabulador (\t) en formato float con dos decimales
# y le damos una cabecera
savetxt('datos.txt', data, delimiter='\t', fmt='%.1f', header="tiempo\t masa")

En este ejemplo delimitamos las columnas por tabuladores (\t), escribimos los números como floats con dos decimales (%.2f, por defecto es notación científica) y añadimos un string que hace de cabecera.