# Indexação booleana e Indexação sofisticada

In [1]:
import numpy as np

### Indexação booleana

INdexação usando condições booleanas como índices.


In [3]:
# Supondo o array de nomes:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [4]:
data = np.random.randn(7,4)
data

array([[ 0.73947345,  0.98724169,  1.13123217, -1.02949062],
       [-1.20723366,  0.35896087,  2.02415174,  0.65009898],
       [-0.17158577,  1.48976441, -0.05629828,  1.77056266],
       [ 0.2420822 , -0.09953787,  0.29808304,  0.87867541],
       [ 1.16223677,  0.26236136, -3.36980631,  0.80714514],
       [-0.17769952, -1.48462945, -0.09217776,  1.12729677],
       [ 1.22227662,  0.71531318,  0.71351552,  1.84824873]])

In [6]:
# Ao escrever uma expresssão usando uma expressão que retorna um booleano(verdadeiro ou falso), 
# o Numpy lerá da seguinte forma:
names== 'Bob'

array([ True, False, False,  True, False, False, False])

In [23]:
# Esse array booleano pode ser passado como index no array original ou em outros com
# o mesmo número de elementos
bobs = names[names== 'Bob']
d_bobs = data[names=='Bob']

print(bobs, end='\n')
print(d_bobs)

# Caso para um número de index diferente:
cond = names == 'Bob' # salvando o array booleano em uma variável

coisa = np.arange(10)
print(coisa[cond])

['Bob' 'Bob']
[[ 0.73947345  0.98724169  1.13123217 -1.02949062]
 [ 0.2420822  -0.09953787  0.29808304  0.87867541]]


IndexError: boolean index did not match indexed array along dimension 0; dimension is 10 but corresponding boolean dimension is 7

In [28]:
# Podemos indexar colunas também junto com a condição

third_column_d_bob = data[names== 'Bob', 3]
third_column_d_bob

array([-1.02949062,  0.87867541])

In [29]:
two_columns_d_bob = data[names== 'Bob', 2:]
two_columns_d_bob

array([[ 1.13123217, -1.02949062],
       [ 0.29808304,  0.87867541]])

In [31]:
# Para negar a condição names == 'Bob' sem usar o operador !=, podemos usar ~
no_bobs = names[~(names == 'Bob')]
no_bobs

array(['Joe', 'Will', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [32]:
# Mais organizado salvar essa condição numa variável, apesar de opcional
no_bobs = names[~cond]
no_bobs

array(['Joe', 'Will', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [33]:
data[~cond]

array([[-1.20723366,  0.35896087,  2.02415174,  0.65009898],
       [-0.17158577,  1.48976441, -0.05629828,  1.77056266],
       [ 1.16223677,  0.26236136, -3.36980631,  0.80714514],
       [-0.17769952, -1.48462945, -0.09217776,  1.12729677],
       [ 1.22227662,  0.71531318,  0.71351552,  1.84824873]])

In [38]:
# Operadores and (&) e or (|) também funcionam:
cond = (names == 'Bob') | (names == 'Will')
names[cond]

array(['Bob', 'Will', 'Bob', 'Will'], dtype='<U4')

In [39]:
# Operadores > e <:
# Válido ressaltar que a indexação booleana e o fancy index sempre geram cópias dos dados do array original
data

array([[ 0.73947345,  0.98724169,  1.13123217, -1.02949062],
       [-1.20723366,  0.35896087,  2.02415174,  0.65009898],
       [-0.17158577,  1.48976441, -0.05629828,  1.77056266],
       [ 0.2420822 , -0.09953787,  0.29808304,  0.87867541],
       [ 1.16223677,  0.26236136, -3.36980631,  0.80714514],
       [-0.17769952, -1.48462945, -0.09217776,  1.12729677],
       [ 1.22227662,  0.71531318,  0.71351552,  1.84824873]])

In [42]:
data[data<0] = 0
data

array([[0.73947345, 0.98724169, 1.13123217, 0.        ],
       [0.        , 0.35896087, 2.02415174, 0.65009898],
       [0.        , 1.48976441, 0.        , 1.77056266],
       [0.2420822 , 0.        , 0.29808304, 0.87867541],
       [1.16223677, 0.26236136, 0.        , 0.80714514],
       [0.        , 0.        , 0.        , 1.12729677],
       [1.22227662, 0.71531318, 0.71351552, 1.84824873]])

In [43]:
data[names != 'Joe'] = 7

data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.35896087, 2.02415174, 0.65009898],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 0.        , 1.12729677],
       [1.22227662, 0.71531318, 0.71351552, 1.84824873]])

### Indexação sofisticada (Fancy indexing)
Trata-se da indexação usando arrays de inteiros como índices.

In [48]:
arr = np.empty((8,4)) # Empty cria arrays vazios com números que estão na memória
for i in range(len(arr)):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [49]:
# Para selecionar um subconjunto em uma ordem particular, podemos apenas passar uma lista ou np.array
# como índice.

arr[[4, 3, 0, 5]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [5., 5., 5., 5.]])

In [53]:
# Note que a lista está no primeiro parâmetro mexendo no segundo para selecionar 
# apenas a primeira e a segunda coluna:
arr[[4, 3, 0, 5], :2]

array([[4., 4.],
       [3., 3.],
       [0., 0.],
       [5., 5.]])

In [55]:
# Podemos usar índices negativos como nas listas:
arr[[-3, -5, -8]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.]])

In [None]:
# Para o próximo exemplo, criaremos uma 