# Indexando arrays

Já vimos como indexar elementos individuais de um array especificando os índices correpondentes, como, por exemplo, em ```a[0, 2, 5]``` para um array de 3 dimensões.

Vimos também como usar slices para criar subarrays a partir de um array, como, por exemplo, ```a[0:3, 2:, :5]```.

Existem métodos mais avançados que veremos agora.  Antes, entretanto, devemos entender o conceito de _broadcasting_.

# Broadcast

Em numpy, broadcast é uma operação usada para trabalhar com arrays de formas diferentes, desde que estas sejam compatíveis.

Suponha que queiramos somar dois arrays, um com o formato `(1, 2)` e o outro com o formato `(2, 1)`.  Como os formatos são distintos, em princípio não poderíamos somá-los.  Com a operação broadcast, entretanto, numpy estende ambos os arrays para o mesmo formato, permitindo então a soma (ou qualquer outra operação).  As regras para se fazer esta extensão serão vistas agora.

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

In [44]:
# Uma forma bem simples de broadcasting é a multiplicação de um array
# por um escalar
x = np.random.rand(1, 2)
print("x = ", x)
y = 3*x
print("y = ", y)

# A operação acima tem o mesmo resultado que o seguinte:
y = np.array([[3, 3]])*x
print("y = ", y)

x =  [[0.95793755 0.18906063]]
y =  [[2.87381264 0.56718188]]
y =  [[2.87381264 0.56718188]]


In [46]:
x = np.array([[1, 2]])
y = np.array([[3], [4]])

print("Formato de x = ", x.shape)
print("Formato de y = ", y.shape)
print("x = ", x)
print("y = \n", y)
print("x + y =\n", x + y)

Formato de x =  (1, 2)
Formato de y =  (2, 1)
x =  [[1 2]]
y = 
 [[3]
 [4]]
x + y =
 [[4 5]
 [5 6]]


As regras de broadcasting são simples. Numpy compara as tuplas definindo os formatos de cada array começando dos elementos mais à direita (equivalente a começar com o índice -1).  Uma dimensão dos arrays (um elemento da tupla do formato) são ditos serem equivalentes se:

1. Ambos forem iguais
2. Um deles tiver o valor 1.

Caso as dimensões sejam equivalentes, as dimensões que forem 1 são aumentadas para o valor da dimensão que **não** é 1, e o (único) elemento na dimensão original é copiado.

Observe que o tamanho final dos arrays estendidos é o máximo em cada dimensão.

In [41]:
# arrays com mesmo número de dimensões
a = np.arange(3).reshape((1, 1, 3))
b = np.arange(4).reshape((1, 4, 1))
c = np.arange(5).reshape((5, 1, 1))
d = a + b + c
print("Formato de a = ", a.shape)
print("Formato de b = ", b.shape)
print("Formato de c = ", c.shape)
print("Formato de d = ", d.shape)

Formato de a =  (1, 1, 3)
Formato de b =  (1, 4, 1)
Formato de c =  (5, 1, 1)
Formato de d =  (5, 4, 3)


Se as tuplas dos formatos não tiverem o mesmo comprimento, a menor tupla é estendida *em direção ao índice zero* adicionando dimensões com valor 1.

In [47]:
# arrays com mesmo número de dimensões
a = np.arange(3).reshape((3,))
b = np.arange(4).reshape((4, 1))
c = np.arange(5).reshape((5, 1, 1))
d = a + b + c
print("Formato de a = ", a.shape)
print("Formato de b = ", b.shape)
print("Formato de c = ", c.shape)
print("Formato de d = ", d.shape)

Formato de a =  (3,)
Formato de b =  (4, 1)
Formato de c =  (5, 1, 1)
Formato de d =  (5, 4, 3)


In [48]:
# Um outro exemplo mais complexo
a = np.arange(48).reshape((8, 1, 6, 1))
b = np.arange(35).reshape((7, 1, 5))
c = a + b
print("Formato de a = ", a.shape)
print("Formato de b = ", b.shape)
print("Formato de c = ", c.shape)

Formato de a =  (8, 1, 6, 1)
Formato de b =  (7, 1, 5)
Formato de c =  (8, 7, 6, 5)


# Acessando elementos de um array

In [49]:
# Numpy define um modo de acessar os elementos de um array com N
# dimensões indexando-o usando N arrays ou listas, Este tipo de
# indexação é chamado de indexação avançada.  A indexação é feita pelo
# equivalente de um zip nos arrays, e o resultado é usado para indexar
# o array original
x = np.arange(20).reshape((4, 5))
print("Matrix x:\n", x)
rows, cols = [0, 0, 3, 3], [0, 4, 0, 4]
print("Vetor com as quinas de x:\n", x[rows, cols])
print("Construção equivalente:\n", np.array([x[idx] for idx in zip(rows, cols)]))
rows = list(range(4))
print("Vetor com a diagonal de x:\n", x[rows, rows])

Matrix x:
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
Vetor com as quinas de x:
 [ 0  4 15 19]
Construção equivalente:
 [ 0  4 15 19]
Vetor com a diagonal de x:
 [ 0  6 12 18]


In [50]:
# O resultado da indexação terá o mesmo formato que os arrays usados
# como índices.
x = np.arange(20).reshape((4, 5))
print("Matrix x:\n", x)
rows, cols = [[0, 0], [3, 3]], [[0, 4], [0, 4]]
print("Vetor com as quinas de x:\n", x[rows, cols])

Matrix x:
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
Vetor com as quinas de x:
 [[ 0  4]
 [15 19]]


In [None]:
# Devido à simetria dos arrays rows e cols acima, o mesmo efeito pode
# ser obtido deixando Numpy fazer broadcast
x = np.arange(20).reshape((4, 5))
print("Matrix x:\n", x)
rows, cols = [[0], [3]], [0, 4]
print("Matriz com as quinas de x:\n", x[rows, cols])

In [None]:
# Uma outra forma de obter o mesmo efeito é usando a função ix_(), que
# aceita N arrays 1-D e retorna um array N-D com o mesmo formato do
# que fizemos acima
x = np.arange(20).reshape((4, 5))
print("Matrix x:\n", x)
rows, cols = [0, 3], [0, 4]
idx = np.ix_(rows, cols)
print("Array com as quinas de x:\n", x[idx])

In [None]:
# A função np.ix_() fica mais útil a medida que N cresce
x = np.arange(27).reshape((3, 3, 3))
print("Matrix x:\n", x)
rows, cols, depth = [0, 2], [1], [1, 2]
idx = np.ix_(rows, cols, depth)
print("Array 2x2 com os índices:\n", idx)
print("Vetor com as quinas de x:\n", x[idx])

In [None]:
# Podemos indexar um array usando um array ou lista de booleanos.
# Isto retornará um array 1-D com os elementos do array original cujos
# índices correspondem a valores True no array de indexação
x = np.array([1., -1., -2., 3]).reshape((2, 2))
idx = x < 0
print("Valor de x:\n", x)
print("Array de índices:\n", idx)
print("Valores negativos:\n", x[idx])
x[idx] += 20
print("Novo valor de x:\n", x)

In [None]:
# Se misturarmos arrays de booleanos e outros métodos, devemos tomar
# cuidado com a quantidade de índices
x = np.random.randn(10, 20000)
rowsum = x.sum(-1)
print("Soma dos elementos de cada linha:\n", rowsum)
print("Linhas de x com soma menor do que o valor esperado:\n", x[rowsum < 0, :5])