# NumPy: Manipulando Arrays
Neste tópico, propomos o estudo do pacote `NumPy`, cujo objetivo é fornecer suporte para arrays multidimensionais, que possuem implementações prontas para operações básicas e funções de algebra linear extremamente úteis. Este pacote é a base de grande parte dos pacotes do Python que serão futuramente estudados. A implementação deste pacote é feita através de C, logo, ele é extremamente otimizado (devido a tipagém estática e uso de memória contigua), sendo ótimo para carregar, armazenear, e manipular dados dentro de memória no Python.

## Atributos de um Array
Antes de iniciar a etapa de manipulação de um array, é necessário conhecer seus atributos, que determinam o seu tamanho, formato, consumo de memória e tipo de dados. Todos os arrays possuem alguns atributos principais: 
* `ndim` - Numero de dimensões; 
* `shape` - O tamanho de cada dimensão; 
* `size` - Numero de elementos que existem no array; 
* `dtype` - tipo de dado armazenado no array; 
* `itemsize` - Tamanho em bytes que cada elemento no array ocupa em memória;
* `nbytes` - Tamanho total que o array ocupa em memória.

In [357]:
import numpy as np

x = np.eye(3)
print("Dimensões: " + str(x.ndim))
print("Tamanho Dimensões: " + str(x.shape))
print("# Elementos: " + str(x.size))
print("Tipo de dado: " + str(x.dtype))
print("Tamanho de elemento (bytes): " + str(x.shape))
print("Tamanho de array (bytes): " + str(x.nbytes))

Dimensões: 2
Tamanho Dimensões: (3, 3)
# Elementos: 9
Tipo de dado: float64
Tamanho de elemento (bytes): (3, 3)
Tamanho de array (bytes): 72


## Indexação de Arrays
A indexação de arrays é o mecânismo que permite acessar determinadas partes (incluindo elementos indivíduais) de um array. Ela é semelhante a indexação para listas/tuplas. A Indexação de arrays unidimensionais ocorre através da especificação da posição (primeiro item é 0) entre colchetes (`[]`).

In [358]:
x = np.arange(5)
x[0]

0

A indexação negativa para acessar elementos a partir do fim é permitida, começando de -1 para o ultimo item até `-array.size` para acessar o primeiro indice do array.

In [359]:
print(x[-1], x[-x.size])

4 0


Para a indexação de arrays multidimensionais, deve se utilizar a vírgula entre o colchetes para indicar a posiçã de cada dimensão.

In [360]:
x = np.random.default_rng()
x = x.random((2,3))
x

array([[0.03695969, 0.02318178, 0.22482343],
       [0.85603274, 0.78215444, 0.43724958]])

In [361]:
x[0,0]

0.036959693927003046

In [362]:
x[-1]

array([0.85603274, 0.78215444, 0.43724958])

Utilizando a notação anterior, é possível atualizar os valores dos indíces.

In [363]:
x[0,0] = 2
x

array([[2.        , 0.02318178, 0.22482343],
       [0.85603274, 0.78215444, 0.43724958]])

## Fatiamento de arrays
Novamente, temos um comportamento semelhante ao de listas para realizar o fateamento. O fateamento de arrays consiste em selecionar um subconjunto de valores utilizando o operador `:`. Este deve ser utilizado entre colchetes para obter um array da seguinte maneira `array[inicio:fim]` ou `array[inicio:fim:passo]`, com os valores ausentes indicando 0, ultimo e 1 respectivamente como demonstrado abaixo.

In [364]:
x[0,:]

array([2.        , 0.02318178, 0.22482343])

Note que no exemplo acima, fixamos o valor 0 para obter a primeira linha, e realizamos o fatiamento para conter todos os itens desta primeira linha. De forma semelhante, poderiamos especificar um passo maior para saltor o valor do meio.

In [365]:
x[0,::2]

array([2.        , 0.22482343])

E de forma bastante intuitiva, podemos fixar para obter a primeira coluna, e todas as linhas, obtendo assim todos valores da primeira coluna.

In [366]:
x[:,0]

array([2.        , 0.85603274])

É muito importante destacar que o fatiamento de arrays em Python retorna views para os arrays, e não copias. Logo, ao alterar um valor em uma view, o array original também será atualizado.

In [367]:
y = x[0,:]
print(y)

[2.         0.02318178 0.22482343]


In [368]:
y[0] = 1
print(x)

[[1.         0.02318178 0.22482343]
 [0.85603274 0.78215444 0.43724958]]


Pode ser que muitas vezes se deseja apenas criar uma cópia de um array, então para isso, existe o método copy. Ele evita que alterações em consultas modifiquem o array original.

In [369]:
y = x[0,:].copy()
y[0] = 5
print(x)

[[1.         0.02318178 0.22482343]
 [0.85603274 0.78215444 0.43724958]]


## Remodelagem de Arrays
A remodelagem de arrays é a tarefa de reorganizar a redistribuição dos valores do array entre dimensões. Por exemplo, utilizando o método `reshape()` de um array, podemos definir um novo shape para reorganizar os elementos do array através da passagem de uma tupla. É necessário que o novo shape permita mapear todos os valores do shape antigo para o novo, logo, ambos devem ter a mesma quantidade de elementos.

In [370]:
x = np.arange(16)
x.reshape((4,4))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [371]:
x.reshape((2,8))

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15]])

Outra forma de remodelar um array é através da utilização da palavra reservada `newaxis`, que pode ser utilizado para indicar a adição de uma nova dimensão no array existente.

In [372]:
x = np.arange(4)
x[:,np.newaxis]

array([[0],
       [1],
       [2],
       [3]])

In [373]:
x = np.arange(4)
x[np.newaxis,:]

array([[0, 1, 2, 3]])

## Concatenação e Cisão de Arrays
Estas duas tarefas involvem trabalhar com mais de um array, sendo possível unir dois arrays para criar um único, ou dividir um array em dois arrays distintos. 


### Concatenação
As funções `concatenate()` e `stack()` permitem realizar a concatenação de alguma forma. Primeiro, exemplificamos a forma mais simples, que é a concatenação de dois arrays. Para isso, é necessário passar os arrays como paramêtro dentro de uma lista. O segundo paramêtro (`axis`) é opcional, e indica em qual dimensão os arrays serão concatenados. 

In [374]:
x =  np.arange(5)
y = np.arange(5,10)
np.concatenate([x,y])

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

As funções `stack()`; `vstack()` e `hstack()` permitem adicionar uma nova dimensão (axis) para concatenar o array. As duas ultimas são extremamente úteis para para trabalhar com arrays de duas dimensões. 

A função `stack()` recebe dois paramêtros sendo uma lista de arrays o primeiro e o segundo em qual dimensão deve ocorrer a concatenação. 

In [375]:
z1 = np.stack([x,y],0)
z1

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [376]:
z2 = np.stack([x,y],1)
z2

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

In [377]:
np.vstack([z1,[10,11,12,13,14]])

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [378]:
np.hstack([z1,[[10],[11]]])

array([[ 0,  1,  2,  3,  4, 10],
       [ 5,  6,  7,  8,  9, 11]])

### Cisão de Arrays
A cisão é o oposto da concatenação, onde ocorre a transformação de um array em dois ou mais arrays de saída, retornando uma lista de arrays. Aqui destacamos principalmente as funções `split()`; `vsplit()` e `hsplit()`.

Para a função `split()`, o primeiro paramêtro a ser informado deve ser o array a ser dividido. Caso o segundo paramêtro for um valor inteiro, ele é o numero de subarrays resultantes, e o terceiro deve ser a dimensão em que ocorre a cisão.

In [379]:
np.split(z1,2,0)

[array([[0, 1, 2, 3, 4]]), array([[5, 6, 7, 8, 9]])]

Ainda, para a função `split()`, se o segundo paramêtro for um array unidimensional de inteiros ordenados, então, ele indica em quais posições ocorre a cisão do array. Por exemplo, ao definir que o segundo e quarto elemento devem ser posições de cisão ao longo da dimensão vertical, definimos que o resultado será 3 arrays.

In [380]:
np.split(z1,[2,4],1)

[array([[0, 1],
        [5, 6]]),
 array([[2, 3],
        [7, 8]]),
 array([[4],
        [9]])]

Para trabalhar com arrays de duas dimensões, pode ser mais intuitivo trabalhar com as funções `vsplit()` e `hsplit()`. O `vsplit()` é indentico ao `split()` com o axis = 0, enquanto o `hsplit()` é equivalente ao `split()` com axis = 1.

Ao utilizar o `hsplit()`, o resultado é os lados esquerdo e direito já que a cisão ocorre paralela a linha horizontal.

In [381]:
np.hsplit(z1,[3])

[array([[0, 1, 2],
        [5, 6, 7]]),
 array([[3, 4],
        [8, 9]])]

Ao utilizado o `vsplit()`, o resultado é a parte superior e inferno do array. já que a cisão o corre paralela a linha vertical.

In [382]:
np.vsplit(z1,[1])

[array([[0, 1, 2, 3, 4]]), array([[5, 6, 7, 8, 9]])]