## NumPy ndarray

In [1]:
import numpy as np

In [2]:
data = np.random.rand(2, 3)
data

array([[0.46872136, 0.57626428, 0.30311731],
       [0.99837095, 0.03706662, 0.84955639]])

In [3]:
data * 10

array([[4.68721359, 5.76264278, 3.03117309],
       [9.98370953, 0.37066623, 8.49556393]])

In [4]:
data + data

array([[0.93744272, 1.15252856, 0.60623462],
       [1.99674191, 0.07413325, 1.69911279]])

Todos los elementos de un ndarray son del **mismo tipo**, es decir, se trata de un contenedor multidimensional totalmente homogéneo. El método shape indica los elementos y el tipo de dato que contiene.

In [7]:
data.shape  # muestra el tamaño de cada dimensión

(2, 3)

In [8]:
data.dtype  # muestra el tipo de dato que contiene el ndarray

dtype('float64')

#### Creando ndarrays

In [14]:
data1 = [1, 2, 3, 4, 5]
array1 = np.array(data1)  # creación a raíz de una lista
array1

array([1, 2, 3, 4, 5])

In [19]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
array2 = np.array(data2)  # creación a raíz de una lista de listas
array2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [23]:
print(array1.shape)
print(array2.ndim)
print(array2.shape)

(5,)
2
(2, 4)


In [28]:
print(np.zeros(10))  # ndarray de una dimensión con diez elementos '0'
print(np.zeros((5, 10)))  # ndarray de cinco dimensiones con 10 elementos '0' en cada dimensión

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]


In [31]:
np.arange(10)  # ndarray de una dimensión con diez elementos (versión del método range() nativo de Python)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

#### Tipos de datos en los ndarrays

El método astype() permite convertir (o realizar un cast) un ndarray de un tipo a otro.

In [8]:
array1 = np.array([1, 2, 3, 4, 5])  # int ndarray
print(array1)
print(array1.dtype)
array1 = array1.astype(np.float)  # cast to float
print(array1)
print(array1.dtype)
array1 = array1.astype(np.str)  # cast to str
print(array1)
print(array1.dtype)

[1 2 3 4 5]
int64
[1. 2. 3. 4. 5.]
float64
['1.0' '2.0' '3.0' '4.0' '5.0']
<U32


Es posible realizar un cast sobre un ndarray usando el tipo de dato de otro ndarray.

In [13]:
array_str = np.array(['one', 'two', 'three'], dtype=np.str)  # ndarray of str type
array_int = np.array([1, 2, 3])  # ndarray of int type
new_array_int_str = array_int.astype(array_str.dtype)  # cast using data type of another ndarray
print(new_array_int_str.dtype)

<U5


#### Operaciones aritméticas

En operaciones entre ndarrays del mismo tamaño, se aplicará la operación elemento por elemento.

In [14]:
array1 = np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8]
])

In [15]:
array1 + array1

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16]])

In [16]:
array1 - array1

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

In [17]:
1 / array1

array([[1.        , 0.5       , 0.33333333, 0.25      ],
       [0.2       , 0.16666667, 0.14285714, 0.125     ]])

In [22]:
array1 ** .5

array([[1.        , 1.41421356, 1.73205081, 2.        ],
       [2.23606798, 2.44948974, 2.64575131, 2.82842712]])

La comparación entre dos ndarrays del mismo tamaño devolverá un ndarray booleano, siendo cada elemento el resultado de comparar cada uno de los elemenos.

In [26]:
array2 = np.array([
    [1, 3, 2, 4],
    [8, 6, 7, 5]
])

In [27]:
array1 == array2

array([[ True, False, False,  True],
       [False,  True,  True, False]])

In [28]:
array1 > array2

array([[False, False,  True, False],
       [False, False, False,  True]])

#### Indexado y "slicing"

Los ndarray unidimensionales se tratan de manera similar a Python.

In [30]:
array1 = np.arange(10)
array1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
array1[3]

3

In [32]:
array1[0:4]

array([0, 1, 2, 3])

In [34]:
array1[8:] = 0
array1

array([0, 1, 2, 3, 4, 5, 6, 7, 0, 0])

A diferencia que ocurre con las listas en Python, los trozos de ndarray extraídos son vistas del ndarray original, es decir, cualquier modificación sobre estos trozos se verá reflejado también en el ndarray original.

In [38]:
array1 = np.array([1, 2, 3, 4, 5, 6, 7, 8], dtype=np.float)
my_slice = array1[0:3]
print(array1)
print(my_slice)

[1. 2. 3. 4. 5. 6. 7. 8.]
[1. 2. 3.]


In [39]:
my_slice[1] = .5
print(my_slice)
print(array1)

[1.  0.5 3. ]
[1.  0.5 3.  4.  5.  6.  7.  8. ]


Para hacer una copia de un trozo del ndarray, habría que indicarlo explícitamente con el método copy().

In [40]:
my_slice2 = array1[2:].copy()
my_slice2[:] = 100
print(my_slice2)
print(array1)

[100. 100. 100. 100. 100. 100.]
[1.  0.5 3.  4.  5.  6.  7.  8. ]


Para acceder a los elementos de un ndarray multidimensional, hay que hacer referencia a la posición de cada una de las posiciones para acceder al valor o trozo deseado.

In [41]:
multi_array = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [43]:
multi_array[1][2]

6

In [44]:
multi_array[1, 2]

6

In [45]:
multi_array = np.array([
    [
        [1, 2, 3],
        [4, 5, 6]
    ],
    [
        [-1, -2, -3],
        [-4, -5, -6]
    ]
])

In [46]:
multi_array[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [47]:
multi_array[0, 0, 0]

1

In [48]:
multi_array[1][0][2]

-3

In [49]:
multi_array[1] = 0
multi_array

array([[[1, 2, 3],
        [4, 5, 6]],

       [[0, 0, 0],
        [0, 0, 0]]])

El acceso a un trozo de un ndarray es exactamente igual que se haría con las listas en Python.

In [15]:
array1 = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(array1[0:5])  # acceso desde la primera posición hasta la quinta (no incluida)
print(array1[:])  # acceso a todos los elementos
print(array1[2:])  # acceso desde la tercera posición al resto de elementos

[0 1 2 3 4]
[0 1 2 3 4 5 6 7 8 9]
[2 3 4 5 6 7 8 9]


El acceso a un ndarray de dos dimensiones es algo diferente.

In [18]:
array2 = np.array([
    ['a', 'b', 'c'],
    [0, 1, 2],
    [True, True, False],
])
array2

array([['a', 'b', 'c'],
       ['0', '1', '2'],
       ['True', 'True', 'False']], dtype='<U5')

In [23]:
array2[:2]  # acceso desde la primera posición hasta la tercera (no incluida)

array([['a', 'b', 'c'],
       ['0', '1', '2']], dtype='<U5')

In [24]:
array2[1:, 1:]  # acceso a la segunda y tercera posición del eje x, más a la segunda y tercera posición del eje y

array([['1', '2'],
       ['True', 'False']], dtype='<U5')

In [25]:
array2[1:, 1]  # acceso a la segunda y tercera posición del eje x, más a la segunda posción del eje y

array(['1', 'True'], dtype='<U5')

#### Indexado booleano

In [30]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.rand(names.size, 4)
print(names)
print(data)

['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe']
[[0.6936535  0.71997502 0.4579283  0.87959751]
 [0.37327271 0.46814792 0.43346026 0.77205155]
 [0.89699408 0.70440997 0.15106999 0.40816807]
 [0.12975788 0.21962762 0.96262535 0.95154926]
 [0.35863092 0.08857637 0.56021677 0.70941754]
 [0.72689597 0.32227316 0.20505372 0.02326815]
 [0.92883907 0.64921984 0.29760878 0.52331159]]


In [27]:
names == 'Joe'

array([False,  True, False, False, False,  True,  True])

In [31]:
data[names == 'Joe']  # se obtienen los elementos cuya condición haya devuelto True

array([[0.37327271, 0.46814792, 0.43346026, 0.77205155],
       [0.72689597, 0.32227316, 0.20505372, 0.02326815],
       [0.92883907, 0.64921984, 0.29760878, 0.52331159]])

In [32]:
data[names == 'Joe', -1]  # además también es posible filtrar por la segunda dimensión

array([0.77205155, 0.02326815, 0.52331159])

In [36]:
# En ambos casos se está accediendo a los mismos elementos, aquellos que el nombre sea diferente a 'Joe'
# El símbolo '~' permite la negación, de igual manera que sucede con la palabra clave 'not' en Python
print(data[names != 'Joe'])
print(data[~(names == 'Joe')])

[[0.6936535  0.71997502 0.4579283  0.87959751]
 [0.89699408 0.70440997 0.15106999 0.40816807]
 [0.12975788 0.21962762 0.96262535 0.95154926]
 [0.35863092 0.08857637 0.56021677 0.70941754]]
[[0.6936535  0.71997502 0.4579283  0.87959751]
 [0.89699408 0.70440997 0.15106999 0.40816807]
 [0.12975788 0.21962762 0.96262535 0.95154926]
 [0.35863092 0.08857637 0.56021677 0.70941754]]


**Importante**: las palabras clave 'and' y 'not' para concatenar condiciones no funcionan con los ndarray, en su lugar se debe usar '&' y '|' respectivamente.

In [38]:
mask = (names == 'Joe') | (names == 'Bob')
data[mask]

array([[0.6936535 , 0.71997502, 0.4579283 , 0.87959751],
       [0.37327271, 0.46814792, 0.43346026, 0.77205155],
       [0.12975788, 0.21962762, 0.96262535, 0.95154926],
       [0.72689597, 0.32227316, 0.20505372, 0.02326815],
       [0.92883907, 0.64921984, 0.29760878, 0.52331159]])

De igual manera que se puede usar el indexado booleano para acceder a los valores, también es posible establecer valores en función de la condición del indexado

In [44]:
data

array([[0.6936535 , 0.71997502, 0.4579283 , 0.87959751],
       [0.37327271, 0.46814792, 0.43346026, 0.77205155],
       [0.89699408, 0.70440997, 0.15106999, 0.40816807],
       [0.12975788, 0.21962762, 0.96262535, 0.95154926],
       [0.35863092, 0.08857637, 0.56021677, 0.70941754],
       [0.72689597, 0.32227316, 0.20505372, 0.02326815],
       [0.92883907, 0.64921984, 0.29760878, 0.52331159]])

In [52]:
data[data < 0.5] = 0  # asignación de valores en función de un ndarray booleano de la misma dimesión
data

array([[0.6936535 , 0.71997502, 0.        , 0.87959751],
       [1.        , 1.        , 1.        , 1.        ],
       [0.89699408, 0.70440997, 0.        , 0.        ],
       [0.        , 0.        , 0.96262535, 0.95154926],
       [0.        , 0.        , 0.56021677, 0.70941754],
       [1.        , 1.        , 1.        , 1.        ],
       [1.        , 1.        , 1.        , 1.        ]])

In [53]:
data[names == 'Joe'] = 1  # asignación de valores en función de un ndarray booleano de una dimensión
data

array([[0.6936535 , 0.71997502, 0.        , 0.87959751],
       [1.        , 1.        , 1.        , 1.        ],
       [0.89699408, 0.70440997, 0.        , 0.        ],
       [0.        , 0.        , 0.96262535, 0.95154926],
       [0.        , 0.        , 0.56021677, 0.70941754],
       [1.        , 1.        , 1.        , 1.        ],
       [1.        , 1.        , 1.        , 1.        ]])

#### Indexación elegante

In [55]:
array1 = np.empty((8, 4))

In [56]:
for i in range(8):
    array1[i] = i
array1

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

Es posible acceder a cada una de las filas en un orden concreto usando una lista, siendo cada elemento de la lista un índice de la fila a obtener

In [58]:
array1[[4, 0, 7]]

array([[4., 4., 4., 4.],
       [0., 0., 0., 0.],
       [7., 7., 7., 7.]])

In [62]:
array1[[-1, -6, 6, -2]]  # siendo también posible usar los índices negativos

array([[7., 7., 7., 7.],
       [2., 2., 2., 2.],
       [6., 6., 6., 6.],
       [6., 6., 6., 6.]])

In [66]:
array1 = np.arange(32).reshape((8, 4))
array1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [71]:
array1[[7, 2, 6], [2, -1, 0]]  # la primera lista se ubica en la fila del ndarray, y la segunda obtiene la columna

array([30, 11, 24])

#### Transponer arrays e intercambio de ejes

In [73]:
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [78]:
arr.T  #  con el método T se consigue cambiar la estructura del ndarray, en este caso pasa de 3x5 a 5x3
       #  pasando a ser cada una de las columnas a una fila (intercambio de ejes)

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])