# NumPy

[NumPy](https://numpy.org/) é uma das principais bibliotecas para computação científica em Python. 

Elas nos provê objetos **arrays multidimensionais** de elevada perfomance e também diversas ferramentas para trabalharmos com eles.

## Arrays

Um array NumPy é uma grid de valores, todos do mesmo tipo e indexados por uma tupla de inteiros não-negativos. O número de dimensões é o rank do array. A forma do array é uma tupla de inteiros que nos traz o tamanho do array ao longo de cada dimensão.

Podemos inicializar os arrays NumPy através de listas Python, e para acessar os seus elementos utilizamos os colchetes.

Iniciamos então importando a biblioteca NumPy:

In [2]:
import numpy as np

Começamos criando um array **a** de rank 1 (1 Dimensão).

Perceba que ao utilizarmos o método **type()** no array **a**, ele nos retorna um objeto `<class 'numpy.ndarray'>`:

In [3]:
a = np.array([1,2,3])
print(a)
print(type(a))

[1 2 3]
<class 'numpy.ndarray'>


O atributo **shape** nos retorna a forma do array, neste caso, 1 linha e 3 colunas:

In [4]:
print(a.shape) 

(3,)


A seguir, através do do acesso aos índices por colchetes, imprimimos cada um dos elementos do array **a**:

In [5]:
print(a[0],a[1],a[2]) 

1 2 3


Observe que podemos alterar os elementos do array, neste caso, alteramos o segundo elemento:

In [6]:
a[1] = 7 
print(a)

[1 7 3]


A seguir, criamos um array **b** de rank 2 (2 Dimensões):

In [7]:
b = np.array([[1,2,3],[4,5,6]])
print(b)

[[1 2 3]
 [4 5 6]]


Como vimos anteriormente, o atributo **shape** nos retorna a forma do array, neste caso, 2 linhas e 3 colunas:

In [8]:
print(b.shape) 

(2, 3)


A seguir, acessamos alguns elementos:

- Elemento da primeira linha e primeira coluna
- Elemento da segunda linha e segunda coluna
- Elemento da segunda linha e terceira coluna

In [9]:
print(b[0,0], b[1,1], b[1,2]) 

1 5 6


NumPy também nos traz diversas funções para criarmos arrays.

**zeros()** cria um array somente de zeros:

In [10]:
c = np.zeros((2,2)) 
print(c) 

[[0. 0.]
 [0. 0.]]


**ones()** cria um array somente preenchido com o número um:

In [11]:
d = np.ones((2,1)) 
print(d)

[[1.]
 [1.]]


**full()** cria um array com um valor constante, neste caso, escolhemos o número 8:

In [12]:
e = np.full((2,3),8) 
print(e)

[[8 8 8]
 [8 8 8]]


**eye()** cria uma matriz identidade de dimensão especificada por nós:

In [13]:
f = np.eye(3) 
print(f)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


**random()** nos permite criar um array preenchido com números aleatórios:

In [14]:
g = np.random.random((2,2)) 
print(g)

[[0.3003789  0.4546386 ]
 [0.51795574 0.0866629 ]]


## Indexando Arrays

NumPy nos oferece diversas maneiras de indexarmos os arrays.

**Slicing:** Similar às listas de Python, os arrays de NumPy podem ser 'fatiados'. 

Uma vez que arrays podem ser multidimensionais, é necessário que se especifique uma 'fatia' para cada dimensão do array.

Começamos criando o array **a** de rank 2 com forma (3,4):

In [15]:
a = np.array([[1,3,4,6],[2,7,8,11],[12,9,10,5]])
print(a)
print(a.shape)

[[ 1  3  4  6]
 [ 2  7  8 11]
 [12  9 10  5]]
(3, 4)


Vamos utilizar a técnica de slicing para obtermos um subarray de apenas as duas primeiras linhas (`:2`) e colunas 2 e 3 (`1:3`).

In [16]:
b = a[:2, 1:3]
print(b)
print(b.shape)

[[3 4]
 [7 8]]
(2, 2)


Uma 'fatia' de um array é uma visualização dos mesmos dados, então modificando ela, modificará o array original.

Observe no exemplo a seguir, que nosso array **a** é alterado ao alterarmos o valor de **b**.

In [17]:
print(a[0,1])
b[0,0] = 13
print(a[0,1]) 

3
13


Nós também podemos misturar a **indexação de inteiros** com a indexação **slicing**. 

Entretanto, fazer dessa maneira nos produzirá um array de rank menor do que a versão original.

Começamos criando o array **a** de rank 2 com forma (3,4):

In [18]:
a = np.array([[12,11,10,9],[8,7,6,5],[4,3,2,1]])
print(a) 

[[12 11 10  9]
 [ 8  7  6  5]
 [ 4  3  2  1]]


Duas maneiras de acessarmos os dados da linha do meio do array:

- Misturando indexação de inteiros com a indexação slicing produzirá um array de rank menor
- Se usarmos apenas slicing, produzirá produzirá um array do mesmo rank do original

Visualização Rank 1 da segunda linha do array **a**:

In [19]:
linha_l1 = a[1, :]
print(linha_l1, linha_l1.shape)

[8 7 6 5] (4,)


Visualização Rank 2 da segunda linha do array **a**:

In [20]:
linha_l2 = a[1:2, :]
print(linha_l2, linha_l2.shape)

[[8 7 6 5]] (1, 4)


A mesma distinção pode se aplicar quando acessarmos as colunas do array.

Visualização Rank 1 da segunda coluna do array **a**:

In [21]:
col_c1 = a[:, 1]
print(col_c1, col_c1.shape)

[11  7  3] (3,)


Visualização Rank 2 da segunda coluna do array **a**:

In [22]:
col_c2 = a[:, 1:2]
print(col_c2, col_c2.shape)

[[11]
 [ 7]
 [ 3]] (3, 1)


**Indexação de Arrays por Inteiros:** Quando nós indexamos os arrays NumPy utilizando o método de **slicing** o array resultante será um subarray do original. Em contraste, indexação de array por inteiros nos permite construir arrays arbitrários utilizando dados de outros arrays.

Para entender a ideia, vamos criar um novo array **a**:

In [24]:
a = np.array([[1,2], [3, 4], [5, 6]])
print(a)

[[1 2]
 [3 4]
 [5 6]]


Um exemplo de indexação de arrays por inteiros, o array retornado terá a forma (3,):

In [25]:
print(a[[0, 1, 2], [0, 1, 0]])

[1 4 5]


O exemplo a seguir é equivalente ao de cima:

In [26]:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

[1 4 5]


Quando utilizamos a indexação de arrays por inteiros, podemos reutilizar o mesmo elemento do array principal:

In [27]:
print(a[[0, 0], [1, 1]]) 

[2 2]


O exemplo a seguir é equivalente ao de cima:

In [28]:
print(np.array([a[0, 1], a[0, 1]]))

[2 2]


Uma técnica muito interessante em relação à **indexação de arrays por inteiros** é a seleção ou mutação de um elemento para cada linha do array.

Novamente vamos criar um array **a** no qual selecionaremos elementos:

In [29]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a) 

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


Em seguida, criamos um array **b** de índices:

In [30]:
b = np.array([0, 2, 0, 1])

Selecionamos um elemento de cada linha de **a** utilizando os índices de **b**:

In [31]:
print(a[np.arange(4), b]) 

[ 1  6  7 11]


Mutamos um elemento para cada linha de **a** utilizando os índices de **b**:

In [32]:
a[np.arange(4), b] += 10
print(a)

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


**Indexação de arrays Booleana:** Indexação de arrays booleana nos permite escolher elementos arbitrários de um array. Frequentemente esse tipo de indexação é utilizada para selecionar os elementos de um array que satisfaça determinada condição. 

Veja um exemplo com o array **a** que vamos criar:

In [33]:
a = np.array([[1,2], [3, 4], [5, 6]])
print(a)

[[1 2]
 [3 4]
 [5 6]]


O índice booleano a seguir busca os elementos de **a** que são maiores que **2** e nos retorna um array NumPy de booleanos da mesma forma de **a**, onde cada slot de **bool_idx** nos diz se aquele elemento de **a** é maior do que **2**.

In [34]:
bool_idx = (a > 2)
print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


Utilizamos a indexação de arrays booelana para construir um array de rank 1 que consiste dos elementos correspondentes aos valores **True** de **bool_idx**:

In [35]:
print(a[bool_idx]) 

[3 4 5 6]


Nós também podemos fazer tudo que foi feito acima em um única e concisa declaração:

In [36]:
print(a[a > 2]) 

[3 4 5 6]


## Tipos de Dados

Todo array NumPy é uma grid de elementos do mesmo tipo. 

NumPy oferece um grande conjunto de tipos de dados numéricos que nós podemos utilizar para construir arrays. 

NumPy tenta adivinhar o tipo de dados quando criamos o array, porém funções que constroem arrays normalmente também incluem um argumento opcional que define explicitamente o tipo de dados. 

A seguir, criamos um array e deixamos NumPy inferir o tipo de dados dele:

In [37]:
x = np.array([1, 2])   
print(x.dtype)     

int64


Novamente, criamos outros array e deixamos NumPy inferir:

In [38]:
x = np.array([1.0, 2.0])  
print(x.dtype)  

float64


Também podemos 'forçar' um tipo de dados particular de nossa escolha:

In [39]:
x = np.array([1, 2], dtype=np.int64)  
print(x.dtype)   

int64


## Matemática com Arrays

Funções matemáticas básicas operam em cada elemento do array e estão disponíveis como sobrecarga de operador e como funções no módulo NumPy.

Vamos definir dois arrays: **x** e **y** e realizaremos algumas operações com eles:

In [43]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print(x)
print(y)

[[1. 2.]
 [3. 4.]]
[[5. 6.]
 [7. 8.]]


Existem duas formas de realizar a soma de cada elemento dos arrays:

In [44]:
print(x + y)

[[ 6.  8.]
 [10. 12.]]


In [45]:
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]


Existem duas formas de realizar a subtração de cada elemento dos arrays:

In [46]:
print(x - y)

[[-4. -4.]
 [-4. -4.]]


In [47]:
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]


Existem duas formas de realizar a multiplicação de cada elemento dos arrays:

In [48]:
print(x * y)

[[ 5. 12.]
 [21. 32.]]


In [49]:
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]


Existem duas formas de realizar a divisão de cada elemento dos arrays:

In [50]:
print(x / y)

[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [51]:
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]


Podemos também extrair a raiz quadrada de cada elemento de **x**:

In [52]:
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


É importante destacarmos que diferente do MATLAB, `*` é uma multiplicação de cada elemento, não uma multiplicação de matriz. 

Em vez disso, usamos a função **dot** para computarmos o produto escalar dos vetores por uma matriz, e também para multiplicarmos matrizes. 

**dot** está disponível como uma função no módulo NumPy e como uma método instância dos objetos array.

Vamos criar duas matrizes **x** e **y** e dois vetores **v** e **w** para este exemplo:

In [54]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])
print(x)
print(y)

[[1 2]
 [3 4]]
[[5 6]
 [7 8]]


In [55]:
v = np.array([9,10])
w = np.array([11, 12])
print(v,w)

[ 9 10] [11 12]


Produto escalar dos vetores, equivalentes:

In [56]:
print(v.dot(w))
print(np.dot(v, w))

219
219


Produto escalar matriz e vetor, equivalentes:

In [57]:
print(x.dot(v))
print(np.dot(x, v))

[29 67]
[29 67]


Produto escalar matriz e matriz, equivalentes:

In [58]:
print(x.dot(y))
print(np.dot(x, y))

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


NumPy nos provê diversas funções úteis para executarmos computações em arrays: uma das mais úteis é **sum**, capaz de computar a soma dos elementos do array de várias maneiras diferentes.

Vamos definir um array **x** experimental para compreendermos o funcionamento de **sum**:

In [59]:
x = np.array([[1,2],[3,4]])
print(x)

[[1 2]
 [3 4]]


A seguir, computamos a soma de todos os elementos:

In [60]:
print(np.sum(x))

10


A seguir, computamos a soma de cada coluna:

In [61]:
print(np.sum(x, axis=0))

[4 6]


A seguir, computamos a soma de cada linha:

In [62]:
print(np.sum(x, axis=1)) 

[3 7]


Além de computar funções matemáticas utilizando arrays, nós frequentemente necessitamos alterar a forma ou então manipular os dados nos arrays.

O exemplo mais simples desse tipo de operação é a transposição de uma matriz; para transpor uma matriz, simplesmente utilizamos o atributo **T** de um objeto array.

Novamente, definimos dois novos arrays **x** e **v** para o exemplo.

In [63]:
x = np.array([[1,2], [3,4]])
print(x) 

[[1 2]
 [3 4]]


Fazemos a transposição de **x**:

In [64]:
print(x.T) 

[[1 3]
 [2 4]]


Definimos o vetor **v**:

In [65]:
v = np.array([1,2,3])
print(v) 

[1 2 3]


Perceba agora que ao transpor um array **v** de rank 1 não ocorre nada:

In [66]:
print(v.T) 

[1 2 3]


## Broadcasting

**Broadcasting** é um mecanismo poderoso que permite NumPy trabalhar com arrays de diferentes formas quando estiver realizando operações aritméticas. 

Frequentemente nós temos um array menor e um array maior e nós desejamos usar o array menor múltiplas vezes para realizarmos algumas operações no array maior.

Por exemplo, vamos supor que nós desejamos adicionar um vetor constante para cada linha da matriz. 

Podemos fazer da seguinte maneira.

Nós vamos adicionar o vetor **v** para cada linha da matriz **x**, guardando o resultado na matriz **y**:

In [71]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(x)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [72]:
v = np.array([1, 0, 1])
print(v)

[1 0 1]


O método **empty_like** cria uma matriz vazia da mesma forma de **x**:

In [73]:
y = np.empty_like(x)  
print(y)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


Em seguida, adicionamos o vetor **v** para cada linha da matriz **x** com um loop explícito:

In [74]:
for i in range(4):
    y[i, :] = x[i, :] + v

print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Perceba que funciona como esperado, entretanto quando a matriz **x** é muito grande, computar um loop explícito em Python pode se tornar um processo lento. 

Perceba que adicionar o vetor **v** para cada linha da matriz **x** é equivalente a formar uma matriz **vv** empilhando múltiplas cópias de **v** verticalmente e então executando a soma de cada elemento de **x** e **vv**. 

Nós podemos implementar essa abordagem da seguinte forma.

Nós adicionaremos o vetor **v** para cada linha da matriz **x** guardando o resultado na matriz **y**:

In [75]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
print(x)
print(v)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[1 0 1]


O método **tile** empilha 4 cópias do vetor **v**:

In [76]:
vv = np.tile(v, (4, 1)) 
print(vv)

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]


E então adicionamos cada elemento de **x** e **vv**:

In [77]:
y = x + vv
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


**Broadcasting** em NumPy nos permite realizar essa computação sem a necessidade de criarmos múltiplas cópías de **v**. 

Considere essa versão, utilizando o conceito de **broadcasting**.

Nós iremos adicionar o vetor **v** para cada linha da matriz **x**, guardando o resultado na matriz **y**.

In [78]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
print(x)
print(v)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[1 0 1]


A seguir, adicionamos **v** para cada linha de **x** usando broadcasting:

In [79]:
y = x + v
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


A linha **y = x + v** funciona apesar de **x** ter a forma **(4, 3)** e **v** ter a forma **(3,)**, isso por causa do broadcasting; essa linha funciona como se **v** tivesse a forma **(4,3)**, onde cada linha é uma cópia de **v** e a soma é realizada para cada elemento.

Broadcasting de dois arrays juntos segue as seguintes regras:

1. Se os arrays não tiverem o mesmo rank, pré-acrescenta-se a forma do array de rank menor com 1's até que ambas as formas tenham a mesma extensão.
2. Os dois arrays são ditos compatíveis em uma dimensão se eles tiverem o mesmo tamanho na dimensão, ou se algum dos arrays tiver tamanho 1 naquela dimensão.
3. O broadcast pode ser feito nos arrays juntos se eles forem compatíveis em todas as dimensões.
4. Depois do broadcast, cada array se comporta como se ele tivesse sua forma igual ao máximo de formas de cada elemento dos dois arrays de input.
5. Em cada dimensão onde um array tem o tamanho 1 e o outro array tem o tamanho maior do que 1, o primeiro array se comporta como se ele tivesse sido copiado juntamente àquela dimensão.

Vejamos algumas aplicações práticas do broadcasting.

Computando o produto exterior dos vetores **v** e **w**:

In [81]:
v = np.array([1,2,3])
w = np.array([4,5])
print(v)
print(w)

[1 2 3]
[4 5]


Para computarmos o produto exterior, primeiro alteramos a forma de **v** para ser uma coluna, ou seja, um vetor de forma (3, 1); nós então podemos fazer o broadcast em **w** para produzir um output de forma (3, 2), no qual é o produto exterior de **v** e **w**:

In [82]:
print(np.reshape(v, (3, 1)) * w)

[[ 4  5]
 [ 8 10]
 [12 15]]


Adicionando um vetor para cada linha da matriz **x**:

In [88]:
x = np.array([[1,2,3], [4,5,6]])
print(x)

[[1 2 3]
 [4 5 6]]


**x** tem a forma (2, 3) e **v** tem a forma (3,) então o broadcast fica (2, 3):

In [84]:
print(x + v)

[[2 4 6]
 [5 7 9]]


Adicionando um vetor para cada coluna da matriz **x**.

**x** tem a forma (2, 3) e **w** tem a forma (2,).

Se nós transpormos **x** então ele terá a forma (3,2) e pode ser feito o broadcast em **w** para produzir o resultado de forma (3,2), transpondo esse resultado produz a forma final de (2,3) no qual é a matriz **x** com o vetor **w** adicionado para cada coluna, resultando a seguinte matriz:

In [85]:
print((x.T + w).T)

[[ 5  6  7]
 [ 9 10 11]]


Outra solução é alterar a forma de **w** para ser um vetor de colunas de forma (2,1).

Nós então podemos fazer o broadcast dele diretamente contra **x** para o produzir o mesmo output:

In [86]:
print(x + np.reshape(w, (2, 1)))

[[ 5  6  7]
 [ 9 10 11]]


Multiplicar uma matriz por uma constante:

**x** tem a forma (2,3). NumPy trata escalares como arrays de forma (); estes podem ser feito o broadcast juntos para formar (2,3), produzindo o seguinte array:

In [87]:
print(x * 2)

[[ 2  4  6]
 [ 8 10 12]]
