## manipulando arrays
---

#### splicing e indexing
---

In [1]:
import numpy as np

v0 = np.random.randint(0, 10, 5)
v1 = np.random.randint(0, 10, (4, 3, 4))
v2 = np.random.randint(0, 10, (2, 3))

os vetores e matrizes de numpy podem ser indexados e cortados de forma semelhante às listas em python:

sabendo que o vetor `v0` é:

In [2]:
v0

array([3, 3, 7, 1, 4])

pode-se, então, 

In [3]:
v0[3]

1

In [4]:
v0[:3]

array([3, 3, 7])

In [5]:
v0[3:]

array([1, 4])

In [6]:
v0[-1]

4

In [7]:
v0[-2]

1

In [8]:
v0[::-1]

array([4, 1, 7, 3, 3])

só para mostrar alguns exemplos.

Pode mudar quando a dimensão for maior, pois, diferente das listas em python que recebem duas chaves, os arrays em numpy continuam recebendo apenas uma chave sendo os valores separados por vírgula:

por exemplo, veja que `v2` é:

In [9]:
v2

array([[9, 4, 9],
       [2, 4, 1]])

então,

In [10]:
v2[1, 1]

4

mas, também funciona

In [11]:
v2[1][2]

1

com matrizes de dimensões maiores que 2, a ideia é a mesma:

In [12]:
v1

array([[[0, 1, 7, 1],
        [5, 6, 5, 7],
        [1, 5, 1, 8]],

       [[0, 9, 1, 4],
        [3, 6, 3, 7],
        [0, 4, 1, 8]],

       [[9, 3, 9, 8],
        [3, 1, 7, 5],
        [1, 4, 2, 3]],

       [[2, 4, 9, 3],
        [9, 0, 9, 7],
        [8, 0, 4, 3]]])

In [13]:
v1[2]

array([[9, 3, 9, 8],
       [3, 1, 7, 5],
       [1, 4, 2, 3]])

In [14]:
v1[2, 1] # ou v1[2][1]

array([3, 1, 7, 5])

In [15]:
v1[2, 1, 0] # ou v1[2][1][0]

3

observe que, também é possível, mudar um valor usando indexing e splicing:

In [16]:
v0[0] = 1
v0

array([1, 3, 7, 1, 4])

é importante observar que cada valor index dentro das chaves podem servir como splicing, também:

In [17]:
v1[:3, ::2]

array([[[0, 1, 7, 1],
        [1, 5, 1, 8]],

       [[0, 9, 1, 4],
        [0, 4, 1, 8]],

       [[9, 3, 9, 8],
        [1, 4, 2, 3]]])

In [18]:
v2[-1, ::-1]

array([1, 4, 2])

#### cópias e visualizações
---

diferente de python, quando um array passa pelo processo de splicing ou de index, o que o numpy mostra é só um visualizador, observe:

In [19]:
v0

array([1, 3, 7, 1, 4])

In [20]:
v0_ = v0[1:3]
v0_

array([3, 7])

se for feito alguma mudança em qualquer um desses vetores, o outro também será influenciado:

In [21]:
v0_[0] = 0
v0_

array([0, 7])

In [22]:
v0

array([1, 0, 7, 1, 4])

para, de fato, copiar um array é necessário usar o método `.copy()`

In [23]:
v0_ = v0[1:3].copy()
v0_

array([0, 7])

assim,

In [24]:
v0_[0] = 3
v0_

array([3, 7])

In [25]:
v0

array([1, 0, 7, 1, 4])

#### concatenação e divisão
---

aqui, são processo diferentes da matemática, pois o que se deseja não é a divisão de um array por outro ou a soma de um array por outro, mas a divisão de um array em vários ou a junção de dois ou mais arrays separados.

como usar *+* faz a soma, é necessário usar o método `.concatenate()`

In [26]:
ar1 = np.array([1, 2, 3, 4])
ar2 = np.array([5, 6, 7, 8])

ar1 + ar2

array([ 6,  8, 10, 12])

porém,

In [27]:
np.concatenate([ar1, ar2])

array([1, 2, 3, 4, 5, 6, 7, 8])

observe que a ordem importa:

In [28]:
np.concatenate([ar2, ar1])

array([5, 6, 7, 8, 1, 2, 3, 4])

isto serve para arrays com mais de uma dimensão, bem como pode ser feito com mais de duas arrays.

quando trabalha-se com arrays de diferentes dimensões, é melhor usar os métodos `.vstack()` e `.hstack()`, servindo para forma uma array vertical ou horizontal, respectivamente.

In [29]:
ar1 = np.array([[1, 2, 3], [3, 2, 1]])
ar2 = np.array([4, 5, 6])

np.vstack([ar1, ar2])

array([[1, 2, 3],
       [3, 2, 1],
       [4, 5, 6]])

In [30]:
ar3 = np.array([[0], [1]])

np.hstack([ar3, ar1])

array([[0, 1, 2, 3],
       [1, 3, 2, 1]])

o método `.dstack()` funciona com a terceira coordenada.

já, para separar um array em outras arrays, usa-se os métodos `.split()`, `.hsplit()` e `.vsplit()`:

estas funções devem receber como parâmetro a array original seguido, em uma tupla, os pontos que a divisão deverá ocorrer:

In [31]:
div = np.arange(16)
div

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15])

In [32]:
d1, d2, d3, d4, d5, d6 = np.split(div, [2, 5, 8, 11, 14])

In [33]:
d1

array([0, 1])

In [34]:
d2

array([2, 3, 4])

In [35]:
d3

array([5, 6, 7])

In [36]:
d4

array([ 8,  9, 10])

In [37]:
d5

array([11, 12, 13])

In [38]:
d6

array([14, 15])

é importante observar que para n pontos de divisão, são formadas n+1 novas arrays.

os demais métodos funcionam da forma semelhante:

In [39]:
v1, v2 = np.hsplit(div, [7])

In [40]:
v1

array([0, 1, 2, 3, 4, 5, 6])

In [41]:
v2

array([ 7,  8,  9, 10, 11, 12, 13, 14, 15])

In [42]:
div2 = np.array([[0, 15], [2, 5]])
div2

array([[ 0, 15],
       [ 2,  5]])

In [43]:
h1, h2 = np.vsplit(div2, [1])

In [44]:
h1

array([[ 0, 15]])

In [45]:
h2

array([[2, 5]])

é importante lembrar que `.vsplit()` só funciona com arrays de dimensões maiores ou iguais a 2.

#### sorting
---

há duas formas: a primiera, usando `<vetor>.sort()` que não retorna nada, mas reorganiza o vetor original.

In [46]:
vtr = np.array([4, 6, 2, 6, 2, 6, 8, 4, 2, 3, 5, 7, 8])
std = vtr.sort()
print(std)

None


In [47]:
print(vtr)

[2 2 2 3 4 4 5 6 6 6 7 8 8]


a outra forma, de fato, constrói um novo vetor, `np.sort(<vetor>)`, enquanto que o vetor original permanece inalterado.

In [63]:
vtr = np.array([4, 6, 2, 6, 2, 6, 8, 4, 3, 5, 7, 8])
std = np.sort(vtr)
std

array([2, 2, 3, 4, 4, 5, 6, 6, 6, 7, 8, 8])

nesta última forma, é, ainda, possível passar como parâmetro, `kind=`, que interfere diretamente na velocidade do programa.

usando `axis` como parâmetro de `np.sort()` é possível organizar a matriz em relação às linhas, usando `axis=0`, ou em relação às colunas, usando `axis=1`

In [64]:
mtz = vtr.reshape(4, 3)
np.sort(mtz, axis=1)

array([[2, 4, 6],
       [2, 6, 6],
       [3, 4, 8],
       [5, 7, 8]])

In [65]:
mtz = vtr.reshape(4, 3)
np.sort(mtz, axis=0)

array([[4, 2, 2],
       [5, 4, 3],
       [6, 6, 6],
       [8, 7, 8]])

a função `.argsort()` recebe um array e retorna um outro array mostrando os índices do array original posicionados nos seus novos locais:

In [49]:
i = np.argsort(vtr)
i

array([ 2,  4,  8,  9,  0,  7, 10,  1,  3,  5, 11,  6, 12])

#### partition
---

é uma forma de, não necessariamente organizar o array como o sorting, mas particioná-lo, por exemplo, se desejar saber todos os valores do array que são menores que determinado número, a função `partition()` irá organisar este array com tais valores no lado esquerdo e os demais, no direito:

In [66]:
x = np.array([7, 2, 3, 1, 6, 5, 4])
np.partition(x, 3)

array([2, 1, 3, 4, 6, 5, 7])

o parâmetro `axis` também funciona aqui:

In [67]:
np.partition(mtz, 3, axis=0)

array([[4, 4, 3],
       [5, 2, 2],
       [6, 6, 6],
       [8, 7, 8]])

In [70]:
np.partition(mtz, 2, axis=1)

array([[2, 4, 6],
       [2, 6, 6],
       [3, 4, 8],
       [5, 7, 8]])

a função `.argpartition()` mostra os índices originais: onde eles foram parar.

In [73]:
np.argpartition(mtz, 2, axis=1)

array([[2, 0, 1],
       [1, 0, 2],
       [2, 1, 0],
       [0, 1, 2]])

#### fancy indexing
---

é o uso de um array para indexar vários elementos de outro array de uma vez só:

In [50]:
lst = [3, 5, 7]
vtr[lst]

array([6, 6, 4])

o resultado deste indexamento reflete o formato do array que é usado no indexing. então, mesmo se o array é apenas um vetor (unidimensional), se o array index for uma matriz (multidimensional), assim também será o retorno:

In [51]:
lst = [[2, 4], [6, 8]]
vtr[lst]

array([[2, 2],
       [8, 2]])

para usar em matrizes, é necessário ter dois valores para cada resultado: um indicando a linha e outro, a coluna.

In [52]:
nvrt = np.random.random(12).reshape(3, 4)
nvrt

array([[0.82649107, 0.90605413, 0.34853676, 0.07727414],
       [0.87152522, 0.03501532, 0.07008956, 0.7216208 ],
       [0.2978712 , 0.78846922, 0.9664158 , 0.82632224]])

In [53]:
l1 = [0, 1, 2]
l2 = [2, 1, 3]
nvrt[l1, l2]

array([0.34853676, 0.03501532, 0.82632224])

observe que todas as operações de broadcasting funcionam aqui.

é, também, possível combinar fancy indexing com indexagem normal:

In [54]:
nvrt[2, l1]

array([0.2978712 , 0.78846922, 0.9664158 ])

como, também, é possível combinar fancy indexing com slicing:

In [55]:
nvrt[1:, [2, 3, 0]]

array([[0.07008956, 0.7216208 , 0.87152522],
       [0.9664158 , 0.82632224, 0.2978712 ]])

ou, combinar fancy indexing com busca booleana (masking):

In [56]:
nvrt[[0, 2, 1], True]

array([[0.82649107, 0.90605413, 0.34853676, 0.07727414],
       [0.2978712 , 0.78846922, 0.9664158 , 0.82632224],
       [0.87152522, 0.03501532, 0.07008956, 0.7216208 ]])

 fancy indexing pode ser usado modificar valores de um array:

In [57]:
nvrt[[2, 0], [1, 3]] = 0
nvrt

array([[0.82649107, 0.90605413, 0.34853676, 0.        ],
       [0.87152522, 0.03501532, 0.07008956, 0.7216208 ],
       [0.2978712 , 0.        , 0.9664158 , 0.82632224]])

ou, ainda,

In [58]:
nvrt[[2, 0], [1, 3]] = [-1, 1]
nvrt

array([[ 0.82649107,  0.90605413,  0.34853676,  1.        ],
       [ 0.87152522,  0.03501532,  0.07008956,  0.7216208 ],
       [ 0.2978712 , -1.        ,  0.9664158 ,  0.82632224]])

agora, observe a situação:

In [59]:
x = np.array([0.08064271, 0.89231438, 0.83275888, 0.7712335 , 0.1229183 ,0.78625759, 0.10916164, 0.66906475, 0.12576102, 0.02976726])

In [60]:
y = x.copy()
i = [0, 2, 2, 4, 2, 6]
y[i] += 1
y

array([1.08064271, 0.89231438, 1.83275888, 0.7712335 , 1.1229183 ,
       0.78625759, 1.10916164, 0.66906475, 0.12576102, 0.02976726])

observe que, no índice 2, o valor não é somando por um três vezes, como é pedido através da lista `i`, só contando a partir da última vez em que o dois aparece.

se, de fato, quiser que o índice 2 tenha seu valor somado por um três vezes, é necessário usar o ufunc `add.at()`

In [61]:
y = x.copy()
i = [0, 2, 2, 4, 2, 6]
np.add.at(y, i, 1)
y

array([1.08064271, 0.89231438, 3.83275888, 0.7712335 , 1.1229183 ,
       0.78625759, 1.10916164, 0.66906475, 0.12576102, 0.02976726])

observe que `add.at()` recebe primeiro a matriz daqual será modificada, depois a lista de índices e, por  último, o valor de modificação.