Básico de NumPy: arrays e processamento vetorizado

In [183]:
import numpy as np

my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [184]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: total: 0 ns
Wall time: 20.2 ms


In [185]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: total: 62.5 ms
Wall time: 727 ms


Os algoritmos baseados no NumPy geralmente são de 10 a 100 vezes mais rápidos (ou mais) do que suas contrapartidas em Python puro, além de utilizarem significativamente menos memória.

`ndarray`: array n-dimensional do NumPy, que é um contâiner rápido e flexível para conjuntos de dados grandes em Python; os arrays permitem que operações sejam realizadas com sintaxe semelhante a operações entre elementos escalares.

In [186]:
data = np.random.randn(2, 3)
data

array([[-0.19162838,  1.13993761, -0.42419401],
       [-0.42907682,  1.60823892,  0.0207786 ]])

In [187]:
data * 10 # todos os elementos são multiplicados por 10

array([[-1.91628382, 11.39937608, -4.24194013],
       [-4.29076824, 16.08238915,  0.20778596]])

In [188]:
data + 4 # somamos 4 aos valores do array

array([[3.80837162, 5.13993761, 3.57580599],
       [3.57092318, 5.60823892, 4.0207786 ]])

ndarray é um contâiner genérico multidimensional para dados homogêneos (elementos devem ser do mesmo tipo).

todo array tem um `shape` que indica o tamanho de cada dimensão (quantas linhas e colunas o array tem).

In [189]:
print(data.shape) # (2, 3)
print(data.dtype) # float64

(2, 3)
float64


para criar um array, podemos usar a função `array()`; ela aceita qualquer sequência e gera um novo array NumPy contendo os dados recebidos.

In [190]:
list1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(list1)
arr1 # array([6. , 7.5, 8. , 0. , 1. ])

array([6. , 7.5, 8. , 0. , 1. ])

sequências aninhadas, como uma lista de listas, serão convertidas em um array multidimensional.

podemos conferir que `arr2` tem duas dimensões e seu formato usando `ndim` e `shape`.

In [191]:
list2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(list2)
print(arr2) # [[1 2 3 4]
            #  [5 6 7 8]]
print(arr2.ndim) # 2
print(arr2.shape) # (2, 4)

[[1 2 3 4]
 [5 6 7 8]]
2
(2, 4)


a menos que seja especificado, np.array definirá um bom tipo de dado para o array que ele criar.

In [192]:
print(arr1.dtype) # float64
print(arr2.dtype) # int32

float64
int32


Além de `np.array`, há uma série de outras funções para criar novos arrays como `zeros` e `ones`.

In [193]:
print(np.zeros(5))
print()
print(np.zeros((3, 6)))
print()
print(np.ones(5))

[0. 0. 0. 0. 0.]

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]

[1. 1. 1. 1. 1.]


`empty` cria um array sem inicializar valores com qualquer número em particular (e geralmente gera arrays com valores do 'lixo de memória').

In [194]:
print(np.empty((2, 3, 2)))

[[[1.01855798e-312 1.10343781e-312]
  [1.01855798e-312 9.54898106e-313]
  [1.10343781e-312 1.03977794e-312]]

 [[1.23075756e-312 1.14587773e-312]
  [1.10343781e-312 9.76118064e-313]
  [1.16709769e-312 1.90979621e-312]]]


`arange` é uma versão da função do Python `range` com valor de array.

In [195]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

tipos de dados para ndarrays

o tipo de dados ou `dtype` é um objeto com metadados que o ndarray precisa para interpretar uma porção de memória como um tipo de dado particular

In [196]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [197]:
arr1.dtype

dtype('float64')

In [198]:
arr2.dtype

dtype('int32')

podemos converter um array para outro dtype usando o método `astype` de ndarray

In [199]:
arr = np.array([1, 2, 3, 4, 5])
print(arr.dtype)
print(arr)

int32
[1 2 3 4 5]


In [200]:
float_arr = arr.astype(np.float64)
print(float_arr.dtype)
print(float_arr)

float64
[1. 2. 3. 4. 5.]


aritmética com arrays NumPy: eles permitem expressar operações em lotes de dados sem que seja necessário o uso de um laço for (e chamamos isso de vetorização).

In [201]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [202]:
 arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [203]:
 arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

Operações com escalares fazem o argumento escalar ser propagado para todos os elementos do array.

In [204]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [205]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

comparações entre arrays de mesmo tamanho resultam em arrays booleanos.

In [206]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [207]:
print(arr2 > arr)
print((arr2 > arr).dtype)

[[False  True False]
 [ True False  True]]
bool


indexação e fatiamento

há várias formas de selecionarmos um subconjunto dos seus dados ou elementos individuais; arrays unidimensionais são simples e semelhantes às listas do Python.

In [208]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [209]:
arr[5:8]

array([5, 6, 7])

In [210]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

quando atribuímos um valor escalar a uma fatia, o valor é propagado para toda a seleção.

fatias de arrays são visualizações do array original; então, os dados não são copiados e qualquer alteração realizada na fatia do array irá afetar também o array original.

In [211]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [212]:
arr_slice[0] = 34
arr_slice[1] = 35
arr

array([ 0,  1,  2,  3,  4, 34, 35, 12,  8,  9])

a fatia 'nua' [:] fará uma atribuição a todos os elementos do array.

In [213]:
arr_slice[:] = 61
arr_slice

array([61, 61, 61])

e se quisermos uma cópia da fatia do array, usamos `copy`.

In [214]:
arr_copy = arr[5:8].copy()

em arrays bidimensionais os elementos de cada índice são arrays unidimensinais.

In [215]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[0]

array([1, 2, 3])

então, para acessar um elemento único:

In [216]:
print(arr2d[0][0]) # ou
print(arr2d[0, 2])

1
3


In [217]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [218]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [219]:
old_values = arr3d[0].copy()
arr3d[0] = 42
print(arr3d[0])
print()
print(arr3d)

[[42 42 42]
 [42 42 42]]

[[[42 42 42]
  [42 42 42]]

 [[ 7  8  9]
  [10 11 12]]]


In [220]:
arr3d[0] = old_values
print(arr3d[0])
print()
print(arr3d)

[[1 2 3]
 [4 5 6]]

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [227]:
# arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr3d[1, 0])
print(arr3d[1, 1])
print(arr3d[1, 1, 2])

[7 8 9]
[10 11 12]
12


indexação booleana

vamos ter que cada nome corresponde a uma linha em `data`.

In [228]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
data

array([[-1.15222876,  1.04663863,  0.63944636, -1.10324031],
       [-0.44688669, -1.29808464,  0.62828144, -0.31840546],
       [-0.1214998 , -1.5691751 ,  0.32373204,  0.49465945],
       [ 0.44099097,  0.17557026,  0.9402758 ,  0.29061802],
       [ 2.02913854, -0.27074921, -0.62148738, -1.27778932],
       [ 0.99404546,  0.45850985,  1.86548289,  0.26517952],
       [ 0.06662169, -1.88590041, -0.26412366,  1.79340936]])

In [234]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [230]:
data[names == 'Bob']

array([[-1.15222876,  1.04663863,  0.63944636, -1.10324031],
       [ 0.44099097,  0.17557026,  0.9402758 ,  0.29061802]])

para selecionar tudo exceto 'Bob':

In [235]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [236]:
data[names != 'Bob']

array([[-0.44688669, -1.29808464,  0.62828144, -0.31840546],
       [-0.1214998 , -1.5691751 ,  0.32373204,  0.49465945],
       [ 2.02913854, -0.27074921, -0.62148738, -1.27778932],
       [ 0.99404546,  0.45850985,  1.86548289,  0.26517952],
       [ 0.06662169, -1.88590041, -0.26412366,  1.79340936]])

In [237]:
data[~(names == 'Bob')] # equivalente a 'data[names != 'Bob']'

array([[-0.44688669, -1.29808464,  0.62828144, -0.31840546],
       [-0.1214998 , -1.5691751 ,  0.32373204,  0.49465945],
       [ 2.02913854, -0.27074921, -0.62148738, -1.27778932],
       [ 0.99404546,  0.45850985,  1.86548289,  0.26517952],
       [ 0.06662169, -1.88590041, -0.26412366,  1.79340936]])

In [239]:
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [241]:
data[mask]

array([[-1.15222876,  1.04663863,  0.63944636, -1.10324031],
       [-0.1214998 , -1.5691751 ,  0.32373204,  0.49465945],
       [ 0.44099097,  0.17557026,  0.9402758 ,  0.29061802],
       [ 2.02913854, -0.27074921, -0.62148738, -1.27778932]])

para definir todos os valores negativos em `data` com 0, basta fazer o seguinte:

In [242]:
data[data < 0] = 0
data

array([[0.        , 1.04663863, 0.63944636, 0.        ],
       [0.        , 0.        , 0.62828144, 0.        ],
       [0.        , 0.        , 0.32373204, 0.49465945],
       [0.44099097, 0.17557026, 0.9402758 , 0.29061802],
       [2.02913854, 0.        , 0.        , 0.        ],
       [0.99404546, 0.45850985, 1.86548289, 0.26517952],
       [0.06662169, 0.        , 0.        , 1.79340936]])