Básico de NumPy: arrays e processamento vetorizado

 - ndarray (tipos de dados, aritmética, indexação, transposição) e funções universais

In [2]:
import numpy as np

my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [3]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: total: 31.2 ms
Wall time: 30.1 ms


In [4]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: total: 391 ms
Wall time: 694 ms


Os algoritmos baseados no NumPy geralmente são de 10 a 100 vezes mais rápidos (ou mais) do que suas contrapartidas em Python puro, além de utilizarem significativamente menos memória.

`ndarray`: array n-dimensional do NumPy, que é um contâiner rápido e flexível para conjuntos de dados grandes em Python; os arrays permitem que operações sejam realizadas com sintaxe semelhante a operações entre elementos escalares.

In [5]:
data = np.random.randn(2, 3)
data

array([[ 0.4662819 , -0.04383256, -0.09454841],
       [-0.12983548,  0.34086398, -3.01932939]])

In [6]:
data * 10 # todos os elementos são multiplicados por 10

array([[  4.66281901,  -0.43832562,  -0.94548412],
       [ -1.29835482,   3.40863982, -30.19329391]])

In [7]:
data + 4 # somamos 4 aos valores do array

array([[4.4662819 , 3.95616744, 3.90545159],
       [3.87016452, 4.34086398, 0.98067061]])

ndarray é um contâiner genérico multidimensional para dados homogêneos (elementos devem ser do mesmo tipo).

todo array tem um `shape` que indica o tamanho de cada dimensão (quantas linhas e colunas o array tem).

In [8]:
print(data.shape) # (2, 3)
print(data.dtype) # float64

(2, 3)
float64


para criar um array, podemos usar a função `array()`; ela aceita qualquer sequência e gera um novo array NumPy contendo os dados recebidos.

In [9]:
list1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(list1)
arr1 # array([6. , 7.5, 8. , 0. , 1. ])

array([6. , 7.5, 8. , 0. , 1. ])

sequências aninhadas, como uma lista de listas, serão convertidas em um array multidimensional.

podemos conferir que `arr2` tem duas dimensões e seu formato usando `ndim` e `shape`.

In [10]:
list2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(list2)
print(arr2) # [[1 2 3 4]
            #  [5 6 7 8]]
print(arr2.ndim) # 2
print(arr2.shape) # (2, 4)

[[1 2 3 4]
 [5 6 7 8]]
2
(2, 4)


a menos que seja especificado, np.array definirá um bom tipo de dado para o array que ele criar.

In [11]:
print(arr1.dtype) # float64
print(arr2.dtype) # int32

float64
int32


Além de `np.array`, há uma série de outras funções para criar novos arrays como `zeros` e `ones`.

In [12]:
print(np.zeros(5))
print()
print(np.zeros((3, 6)))
print()
print(np.ones(5))

[0. 0. 0. 0. 0.]

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]

[1. 1. 1. 1. 1.]


`empty` cria um array sem inicializar valores com qualquer número em particular (e geralmente gera arrays com valores do 'lixo de memória').

In [13]:
print(np.empty((2, 3, 2)))

[[[1.03115398e-311 3.16202013e-322]
  [0.00000000e+000 0.00000000e+000]
  [1.18831764e-312 3.12000657e-033]]

 [[3.92576224e+179 7.18832004e-067]
  [2.95130805e+179 6.29544643e-066]
  [3.69536355e-057 4.50291154e-033]]]


`arange` é uma versão da função do Python `range` com valor de array.

In [14]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

tipos de dados para ndarrays

o tipo de dados ou `dtype` é um objeto com metadados que o ndarray precisa para interpretar uma porção de memória como um tipo de dado particular

In [15]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [16]:
arr1.dtype

dtype('float64')

In [17]:
arr2.dtype

dtype('int32')

podemos converter um array para outro dtype usando o método `astype` de ndarray

In [18]:
arr = np.array([1, 2, 3, 4, 5])
print(arr.dtype)
print(arr)

int32
[1 2 3 4 5]


In [19]:
float_arr = arr.astype(np.float64)
print(float_arr.dtype)
print(float_arr)

float64
[1. 2. 3. 4. 5.]


aritmética com arrays NumPy: eles permitem expressar operações em lotes de dados sem que seja necessário o uso de um laço for (e chamamos isso de vetorização).

In [20]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [21]:
 arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [22]:
 arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

Operações com escalares fazem o argumento escalar ser propagado para todos os elementos do array.

In [23]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [24]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

comparações entre arrays de mesmo tamanho resultam em arrays booleanos.

In [25]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [26]:
print(arr2 > arr)
print((arr2 > arr).dtype)

[[False  True False]
 [ True False  True]]
bool


indexação e fatiamento

há várias formas de selecionarmos um subconjunto dos seus dados ou elementos individuais; arrays unidimensionais são simples e semelhantes às listas do Python.

In [27]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
arr[5:8]

array([5, 6, 7])

In [29]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

quando atribuímos um valor escalar a uma fatia, o valor é propagado para toda a seleção.

fatias de arrays são visualizações do array original; então, os dados não são copiados e qualquer alteração realizada na fatia do array irá afetar também o array original.

In [30]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [31]:
arr_slice[0] = 34
arr_slice[1] = 35
arr

array([ 0,  1,  2,  3,  4, 34, 35, 12,  8,  9])

a fatia 'nua' [:] fará uma atribuição a todos os elementos do array.

In [32]:
arr_slice[:] = 61
arr_slice

array([61, 61, 61])

e se quisermos uma cópia da fatia do array, usamos `copy`.

In [33]:
arr_copy = arr[5:8].copy()

em arrays bidimensionais os elementos de cada índice são arrays unidimensinais.

In [34]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[0]

array([1, 2, 3])

então, para acessar um elemento único:

In [35]:
print(arr2d[0][0]) # ou
print(arr2d[0, 2])

1
3


In [36]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [37]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [38]:
old_values = arr3d[0].copy()
arr3d[0] = 42
print(arr3d[0])
print()
print(arr3d)

[[42 42 42]
 [42 42 42]]

[[[42 42 42]
  [42 42 42]]

 [[ 7  8  9]
  [10 11 12]]]


In [39]:
arr3d[0] = old_values
print(arr3d[0])
print()
print(arr3d)

[[1 2 3]
 [4 5 6]]

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [40]:
# arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr3d[1, 0])
print(arr3d[1, 1])
print(arr3d[1, 1, 2])

[7 8 9]
[10 11 12]
12


indexação booleana

vamos ter que cada nome corresponde a uma linha em `data`.

In [41]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
data

array([[ 0.46192984,  0.75722426, -0.43339794, -0.20229202],
       [ 0.41204905, -1.53936094, -0.26689183, -0.02940082],
       [ 0.02958352,  0.11577934, -0.0573836 , -0.51691442],
       [ 0.48808911, -0.3050325 ,  0.19503421,  0.84057738],
       [-0.59438036,  0.29521719,  0.16212215, -0.39853778],
       [-0.05298078, -1.33798376,  0.18786423,  1.1970881 ],
       [ 1.19585993, -0.20705374, -0.8253601 , -0.62771481]])

In [42]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [43]:
data[names == 'Bob']

array([[ 0.46192984,  0.75722426, -0.43339794, -0.20229202],
       [ 0.48808911, -0.3050325 ,  0.19503421,  0.84057738]])

para selecionar tudo exceto 'Bob':

In [44]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [45]:
data[names != 'Bob']

array([[ 0.41204905, -1.53936094, -0.26689183, -0.02940082],
       [ 0.02958352,  0.11577934, -0.0573836 , -0.51691442],
       [-0.59438036,  0.29521719,  0.16212215, -0.39853778],
       [-0.05298078, -1.33798376,  0.18786423,  1.1970881 ],
       [ 1.19585993, -0.20705374, -0.8253601 , -0.62771481]])

In [46]:
data[~(names == 'Bob')] # equivalente a 'data[names != 'Bob']'

array([[ 0.41204905, -1.53936094, -0.26689183, -0.02940082],
       [ 0.02958352,  0.11577934, -0.0573836 , -0.51691442],
       [-0.59438036,  0.29521719,  0.16212215, -0.39853778],
       [-0.05298078, -1.33798376,  0.18786423,  1.1970881 ],
       [ 1.19585993, -0.20705374, -0.8253601 , -0.62771481]])

In [47]:
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [48]:
data[mask]

array([[ 0.46192984,  0.75722426, -0.43339794, -0.20229202],
       [ 0.02958352,  0.11577934, -0.0573836 , -0.51691442],
       [ 0.48808911, -0.3050325 ,  0.19503421,  0.84057738],
       [-0.59438036,  0.29521719,  0.16212215, -0.39853778]])

para definir todos os valores negativos em `data` com 0, basta fazer o seguinte:

In [49]:
data[data < 0] = 0
data

array([[0.46192984, 0.75722426, 0.        , 0.        ],
       [0.41204905, 0.        , 0.        , 0.        ],
       [0.02958352, 0.11577934, 0.        , 0.        ],
       [0.48808911, 0.        , 0.19503421, 0.84057738],
       [0.        , 0.29521719, 0.16212215, 0.        ],
       [0.        , 0.        , 0.18786423, 1.1970881 ],
       [1.19585993, 0.        , 0.        , 0.        ]])

In [50]:
data[names != 'Joe'] = 7
data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.41204905, 0.        , 0.        , 0.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 0.18786423, 1.1970881 ],
       [1.19585993, 0.        , 0.        , 0.        ]])

indexação sofisticada é a indexação usando arrays de inteiros.

In [51]:
arr = np.empty((8, 4))
for i in range(8):
  arr[i] = i

arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [52]:
print(arr[1], end='\n\n')       # [1. 1. 1. 1.]    !=
print(arr[1, 1], end='\n\n')    # 1.0              !=
print(arr[[1, 1]], end='\n')    # [[1. 1. 1. 1.]
                                #  [1. 1. 1. 1.]]

[1. 1. 1. 1.]

1.0

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]


selecionamos um subconjunto de linhas em uma ordem em particular e passamos uma lista ou ndarray de inteiros especificando a ordem desejada.

In [53]:
arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [54]:
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

passar vários índices de array faz algo diferente: selecionamos um array unidimensional de elementos correspondentes a cada tupla de índices.

In [55]:
arr = np.arange(32)
print(arr, end='\n\n')
arr = arr.reshape((8, 4))
print(arr)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


In [56]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

nesse caso, os elementos (1, 0), (5, 3), (7, 1) e (2, 2) foram selecionados.

a indexação sofisticada, diferentemente do fatiamento (slicing) sempre irá copiar um novo array.

transposição de arrays e mudança de eixos.

A transposição é uma reformatação que devolve uma visualização dos dados subjacentes, sem copiar nada. Os arrays têm o método `transpose`, além do atributo especial `T`.

In [57]:
arr = np.arange(15).reshape(3, 5)
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [58]:
arr.T # linha vira coluna e coluna vira linha

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

Esse recurso pode ser muito utilizado na hora de calcular o produto da matriz interna, por exemplo, usando `np.dot`.

In [59]:
arr = np.random.randn(6, 3)
arr

array([[-0.52233905, -0.43768538,  0.05012319],
       [-0.45058422,  0.16302612, -1.15849278],
       [ 0.19783634,  1.51010707,  1.3856706 ],
       [-1.50052497, -0.96740205, -0.39510178],
       [ 0.38043285,  0.52010148,  1.37387358],
       [ 1.73329306,  0.87609222, -0.43482981]])

In [60]:
np.dot(arr.T, arr)

array([[5.91561262, 3.62191642, 1.1317925 ],
       [3.62191642, 4.47247923, 2.59753315],
       [1.1317925 , 2.59753315, 5.49741186]])

o método `swapaxes` aceita um par de números de eixos e troca os eixos indicados para reorganizar os dados.

`swapaxes` devolve uma visualização dos dados, sem criar uma cópia.

In [61]:
arr = np.arange(16).reshape(2, 2, 4)
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [62]:
arr.swapaxes(1, 2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

funções universais (ufunc) são funções rápidas de arrays pra todos os elementos, ou seja, uma operação é realizada em todo o conjunto de elementos do array e todos eles são alterados pela operação determinada.

In [67]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [68]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [69]:
np.exp(arr) # e ** x (Euler)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

essas são ufuncs unárias (que têm como parâmetro apenas um array); `add` e `maximum` aceitam dois arrays (portanto, binárias) e devolvem um único array como resultado.

In [73]:
x = np.random.randn(8)
y = np.random.randn(8)
print('X: ', x)
print('Y: ', y)
np.maximum(x, y) # calcula o máximo entre os elementos de x e y

X:  [ 0.47301586  1.10977778  0.55015197 -0.83792295 -1.05069546  0.00586222
 -0.20022604  1.02790985]
Y:  [-0.95876887  0.71245806 -0.60585942  1.00373665 -0.71015539  0.77045184
  0.53826399  0.63864524]


array([ 0.47301586,  1.10977778,  0.55015197,  1.00373665, -0.71015539,
        0.77045184,  0.53826399,  1.02790985])

uma ufunc pode devolver vários arrays; `modf` é uma versão vetorizada da função `divmod` de Python e devolve as partes fracionária e inteira de um array de ponto flutuante.

In [74]:
arr = np.random.randn(7) * 5
arr

array([ 5.86487258,  1.61558384, -1.59273754, -0.14681229, -3.81681712,
       -5.02409588, -0.42631244])

In [75]:
parte_frac, parte_int = np.modf(arr)
print('parte fracionária: ', parte_frac)
print('parte inteira: ', parte_int)

parte fracionária:  [ 0.86487258  0.61558384 -0.59273754 -0.14681229 -0.81681712 -0.02409588
 -0.42631244]
parte inteira:  [ 5.  1. -1. -0. -3. -5. -0.]


ufuncs aceitam um argumento opcional out que lhes permite atuar in-place nos arrays.

In [76]:
arr

array([ 5.86487258,  1.61558384, -1.59273754, -0.14681229, -3.81681712,
       -5.02409588, -0.42631244])

In [77]:
np.sqrt(arr)

  np.sqrt(arr)


array([2.4217499 , 1.27105619,        nan,        nan,        nan,
              nan,        nan])

In [79]:
np.sqrt(arr, arr)
print(arr)

[1.55619726 1.12741128        nan        nan        nan        nan
        nan]
