# NumPy

Numpy é a principal biblioteca para computação científica em Python. Elas nos provê objetos **arrays multidimensionais** de elevada perfomance e também diversas ferramentas para trabalharmos com eles.

## Arrays

Um array numpy é uma grid de valores, todos do mesmo tipo e indexados por uma tupla de inteiros não-negativos. O número de dimensões é o rank do array; A forma do array é uma tupla de inteiros que nos traz o tamanho do array ao longo de cada dimensão.

Podemos inicializar os arrays numpy através de listas Python aninhadas, e para acessar os seus elementos utilizamos os colchetes.

Começamos importando a biblioteca numpy

In [2]:
import numpy as np

Começamos criando um array de rank 1

In [2]:
a = np.array([1,2,3])
print(type(a))

<class 'numpy.ndarray'>


Perceba que ao utilizarmos o método **type()** no array **a** ele nos retorna um objeto <class 'numpy.ndarray'>

In [4]:
print(a.shape) # Nos retorna a forma do array, neste caso 1 linha e 3 colunas

(3,)


In [6]:
print(a[0],a[1],a[2]) # Imprime cada um dos elementos do array

1 2 3


In [8]:
a[1] = 7 # Veja que podemos alterar os elementos do array, neste caso alteramos o segundo elemento
print(a)

[1 7 3]


In [10]:
# Criando um array de rank 2
b = np.array([[1,2,3],[4,5,6]])

In [11]:
print(b.shape) # Nos retorna a forma do array, neste caso 2 linhas e 3 colunas

(2, 3)


In [15]:
print(b[0,0], b[1,1], b[1,2]) # Imprime elementos determinados por nós

1 5 6


Numpy também nos traz diversas funções para criarmos arrays

In [17]:
c = np.zeros((2,2)) # Cria um array somente de zeros
print(c) # Imprime o array

[[0. 0.]
 [0. 0.]]


In [20]:
d = np.ones((2,1)) # Cria um array de número 1
print(d)

[[1.]
 [1.]]


In [22]:
e = np.full((2,3),8) # Cria um array constante
print(e)

[[8 8 8]
 [8 8 8]]


In [24]:
f = np.eye(3) # Cria uma matriz identidade 3x3
print(f)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [3]:
g = np.random.random((2,2)) # Cria um array preenchido com números aleatórios
print(g)

[[0.16703001 0.94829856]
 [0.92805719 0.01429271]]


## Indexando arrays

Numpy nos oferece diversas maneiras de indexarmos os arrays.

**Slicing:** Similar às listas de Python, os arrays de NumPy podem ser 'fatiados'. Uma vez que arrays podem ser multidimensionais, é necessário que se especifique uma 'fatia' para cada dimensão do array

In [41]:
import numpy as np

# Começamos criando o array de rank 2 com forma (3,4)
# [[ 1  3  4  6]
#  [ 2  7  8  11]
#  [ 12 9 10 5]]
a = np.array([[1,3,4,6],[2,7,8,11],[12,9,10,5]])
print(a.shape) # Imprime a forma do array a
print()

# Vamos utilizar a técnica de slicing para obtermos um subarray de apenas as duas primeiras linhas -> :2
# E colunas 1 e 2 -> 1:3
# b se torna o seguinte array de forma (2,2)
# [[3 4]
#  [7 8]]
b = a[:2, 1:3]
print(b)

(3, 4)

[[3 4]
 [7 8]]


In [42]:
# Uma 'fatia' de um array é uma visualização dos mesmos dados, então modificando ela, modificará o array original
print(a[0,1])
b[0,0] = 13
print(a[0,1]) # Observe que nosso array a é alterado ao alterarmos o valor de b

3
13


Nós também podemos misturar a **indexação de inteiros** com a indexação **Slicing**. Entretanto, fazer dessa maneira nos produzirá um array de rank menor do que a versão original.

In [52]:
import numpy as np

# Começamos criando o array de rank 2 com forma (3,4)
# [[ 12  11 10  9]
#  [ 8   7  6   5]
#  [ 4   3   2  1]]

a = np.array([[12,11,10,9],[8,7,6,5],[4,3,2,1]])
print(a) 
print()

# Duas maneiras de acessarmos os dados da linha do meio do array
# Misturando indexação de inteiros com a indexação Slicing produzirá um array de rank menor
# Se usarmos apenas Slicing, produzirá produzirá um array do mesmo rank do original

linha_l1 = a[1, :] # Visualização Rank 1 da segunda linha do array a
linha_l2 = a[1:2, :] # Visualização Rank 2 da segunda linha do array a
print(linha_l1, linha_l1.shape) # Imprime [8 7 6 5] (4,)
print(linha_l2, linha_l2.shape) # Imprime [[8 7 6 5]] (1, 4)
print()

# A mesma distinção pode se aplicar quando acessarmos as colunas do array
col_c1 = a[:, 1]
col_c2 = a[:, 1:2]
print(col_c1, col_c1.shape)
print(col_c2, col_c2.shape)

[[12 11 10  9]
 [ 8  7  6  5]
 [ 4  3  2  1]]

[8 7 6 5] (4,)
[[8 7 6 5]] (1, 4)

[11  7  3] (3,)
[[11]
 [ 7]
 [ 3]] (3, 1)


**Indexação de arrays por inteiros:** Quando nós indexamos os arrays numpy utilizando o método de **Slicing**, o array resultante será um subarray do original. Em contraste, indexação de array por inteiros nos permite construir arrays arbitrários utilizando dados de outros arrays. Veja o exemplo

In [54]:
import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

# Um exemplo de indexação de arrays por inteiros.
# O array retornado terá a forma (3,) 
print(a[[0, 1, 2], [0, 1, 0]])  # Imprime "[1 4 5]"

# O exemplo acima é equivalente a esse
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))  # Imprime "[1 4 5]"

# Quando utilizamos a indexação de arrays por inteiros, podemos reutilizar o mesmo elemento do array principal
print(a[[0, 0], [1, 1]])  # Imprime "[2 2]"

# Equivalente ao exemplo acima
print(np.array([a[0, 1], a[0, 1]]))  # Imprime "[2 2]"

[1 4 5]
[1 4 5]
[2 2]
[2 2]


Uma técnica muito interessante em relação à **indexação de arrays por inteiros** é a seleção ou mutação de um elemento para cada linha da matriz

In [57]:
import numpy as np

# Começamos por criar um array no qual selecionaremos elementos
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])

print(a)  # Imprime "array([[ 1,  2,  3],
print()   #                [ 4,  5,  6],
          #                [ 7,  8,  9],
          #                [10, 11, 12]])"


# Criamos um array de índices
b = np.array([0, 2, 0, 1])

# Selecionamos um elemento de cada linha de a utilizando os índices de b
print(a[np.arange(4), b])  # Imprime "[ 1  6  7 11]"
print()

# Mutamos um elemento para cada linha de a utilizando os índices de b
a[np.arange(4), b] += 10

print(a)  # Imprime "array([[11,  2,  3],
          #                [ 4,  5, 16],
          #                [17,  8,  9],
          #                [10, 21, 12]])

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]

[ 1  6  7 11]

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


**Indexação de arrays booleana:** Indexação de arrays booleana nos permite escolher elementos arbitrários de um array. Frequentemente esse tipo de indexação é utilizada para selecionar os elementos de um array que satisfaça determinada condição. Veja um exemplo

In [60]:
import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)   # Busca os elementos de a que são maiores que 2
                     # nos retorna um array numpy de booleanos da mesma forma de a
                     # onde cada espaço de bool_idx nos diz se aquele elemento de a é maior do que 2

print(bool_idx)      # Imprime "[[False False]
print()              #          [ True  True]
                     #          [ True  True]]"

# Utilizamos a indexação de arrays booelana para construir um array de rank 1
# que consiste dos elementos correspondentes ao valores True de bool_idx

print(a[bool_idx])  # Imprime "[3 4 5 6]"
print()

# Nós podemos fazer tudo que foi feito acima em um única e concisa declaração
print(a[a > 2])     # Imprime "[3 4 5 6]"

[[False False]
 [ True  True]
 [ True  True]]

[3 4 5 6]

[3 4 5 6]


## Tipos de Dados

Todo array numpy é uma grid de elementos do mesmo tipo. Numpy provê um grande conjunto de tipos de dados numéricos que nós podemos utilizar para construir arrays. Numpy tenta adivinhar o tipo de dado quando criamos o array, porém funções que constroem arrays normalmente também incluem um argumento opcional que define explicitamente o tipo de dado. Veja um exemplo

In [62]:
import numpy as np

x = np.array([1, 2])   # Deixando numpy escolher o tipo de dado
print(x.dtype)         # Imprime "int64"

x = np.array([1.0, 2.0])   # Deixando numpy escolher o tipo de dado
print(x.dtype)             # Imprime "float64"

x = np.array([1, 2], dtype=np.int64)   # Força um tipo de dado particular
print(x.dtype)                         # Imprime "int64"

int64
float64
int64


## Matemática com arrays

Funções matemáticas básicas operam em cada elemento do array e estão disponíveis como sobrecarga de operador e como funções no módulo numpy

In [65]:
import numpy as np

x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Soma de cada elemento; ambas produzem o array:
# [[ 6.0  8.0]
#  [10.0 12.0]]
print(x + y)
print(np.add(x, y))
print()

# Diferença de cada elemento; ambas produzem o array:
# [[-4.0 -4.0]
#  [-4.0 -4.0]]
print(x - y)
print(np.subtract(x, y))
print()

# Produto de cada elemento; ambas produzem o array:
# [[ 5.0 12.0]
#  [21.0 32.0]]
print(x * y)
print(np.multiply(x, y))
print()

# Divisão de cada elemento; ambas produzem o array:
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))
print()

# Raiz quadrada de cada elemento; ambas produzem o array:
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]

[[1.         1.41421356]
 [1.73205081 2.        ]]


É importante destacarmos que diferente do MATLAB, * é uma multiplicação de cada elemento, não uma multiplicação de matriz. Em vez disso, usamos a função **dot** para computarmos o produto escalar dos vetores por uma matriz, e para multiplicarmos matrizes. **dot** está disponível como uma função no módulo numpy e como uma método instância dos objetos array.

In [68]:
import numpy as np

x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

# Produto escalar dos vetores; ambos produzem 219
print(v.dot(w))
print(np.dot(v, w))
print()

# Produto matriz / vetor; ambos produzem o array [29 67] de rank 1
print(x.dot(v))
print(np.dot(x, v))
print()

# Produto matriz / matriz; ambos produzem o array de rank 2
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

219
219

[29 67]
[29 67]

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


Numpy nos provê diversas funções úteis para executarmos computações em arrays; uma das mais úteis é **sum**:

In [69]:
import numpy as np

x = np.array([[1,2],[3,4]])

print(np.sum(x))  # Computa a soma de todos os elementos; Imprime "10"
print(np.sum(x, axis=0))  # Computa a soma de cada coluna; Imprime "[4 6]"
print(np.sum(x, axis=1))  # Computa a soma de cada linha; Imprime "[3 7]"

10
[4 6]
[3 7]


Além de computar funções matemáticas utilizando arrays, nós frequentemente necessitamento alterar a forma ou então manipular os dados nos arrays. O exemplo mais simples desse tipo de operação é a transposição de uma matriz; para transpor uma matriz, simplesmente utilizamos o atributo **T** de um objeto array

In [71]:
import numpy as np

x = np.array([[1,2], [3,4]])
print(x)    # Imprime "[[1 2]
            #          [3 4]]"
print(x.T)  # Imprime "[[1 3]
            #          [2 4]]"
print()
# Perceba que ao transpor um array de rank 1 não ocorre nada
v = np.array([1,2,3])
print(v)    # Imprime "[1 2 3]"
print(v.T)  # Imprime "[1 2 3]"

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]

[1 2 3]
[1 2 3]


## Broadcasting

Broadcasting é um mecanismo poderoso que permite numpy trabalhar com arrays de diferentes formas quando estiver realizando operações aritméticas. Frequentemente nós temos um array menor e um array maior e nós desejamos usar o array menor múltiplas vezes para realizarmos algumas operações no array maior.

Por exemplo, vamos supor que nós desejamos adicionar um vetor constante para cada linha da matriz. Podemos fazer da seguinte maneira

In [73]:
import numpy as np

# Nós vamos adicionar o vetor v para cada linha da matriz x,
# guardando o resultado na matriz y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(x)
print()
v = np.array([1, 0, 1])
y = np.empty_like(x)   # Cria uma matriz vazia da mesma forma de x

# Adiciona o vetorv para cada linha da matriz x com um loop explícito
for i in range(4):
    y[i, :] = x[i, :] + v

# Agora y ficará:

# [[ 2  2  4]
#  [ 5  5  7]
#  [ 8  8 10]
#  [11 11 13]]
print(y)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Veja que funciona, entretanto quando a matriz **x** é muito grande, computar um loop explícito em Python pode se tornar um processo lento. 

Perceba que adicionar o vetor **v** para cada linha da matriz x é equivalente a formar uma matriz vv empilhando múltiplas cópias de v verticalmente e então executando a soma de cada elemento de x e vv, nós podemos implementar essa abordagem da seguinte forma

In [75]:
import numpy as np

# Nós adicionaremos o vetor v para cada linha da matriz x
# guardando o resultado na matriz y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
vv = np.tile(v, (4, 1))   # Empilha 4 cópias do vetor v
print(vv)                 # Imprime "[[1 0 1]
print()                   #          [1 0 1]
                          #          [1 0 1]
                          #          [1 0 1]]"
y = x + vv  # Adiciona cada elemento de x e vv
print(y)  # Imprime "[[ 2  2  4
          #          [ 5  5  7]
          #          [ 8  8 10]
          #          [11 11 13]]"

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


**Broadcasting** em numpy nos permite realizar essa computação sem a necessidade de criarmos múltiplas cópías de **v**. Considere essa versão, utilizando broadcasting

In [76]:
import numpy as np

# Nós iremos adicionar o vetor v para cada linha da matriz x,
# guardando o resultado na matriz y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # Adiciona v para cada linha de x usando broadcasting
print(y)  # Imprime "[[ 2  2  4]
          #          [ 5  5  7]
          #          [ 8  8 10]
          #          [11 11 13]]"

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


A linha **y = x + v** funciona apesar de x ter a forma **(4, 3)** e v ter a forma **(3,)**, isso por causa do broadcasting; essa linha funciona como se v tivesse a forma **(4,3)**, onde cada linha é uma cópia de v e a soma é realizada para cada elemento.

Broadcasting dois arrays juntos segue as seguintes regras:

1. Se os arrays não tiverem o mesmo rank, pré-acrescenta-se a forma do array de rank menor com 1s até que ambas as formas tenham a mesma extensão
2. Os dois arrays são ditos compatíveis em uma dimensão se eles tiverem o mesmo tamanho na dimensão, ou se algum dos arrays tiver tamanho 1 naquela dimensão
3. O broadcast pode ser feito nos arrays juntos se eles forem compatíveis em todas as dimensões
4. Depois do broadcast, cada array se comporta como se ele tivesse sua forma igual ao máximo de formas de cada elemento dos dois arrays de input
5. Em cada dimensão onde um array tem o tamanho 1 e o outro array tem o tamanho maior do que 1, o primeiro array se comporta como se ele tivesse sido copiado juntamente àquela dimensão

Veja algumas aplicações do broadcasting

In [78]:
import numpy as np

# Computa o produto exterior dos vetores
v = np.array([1,2,3])  # v tem a forma (3,)
w = np.array([4,5])    # w tem a forma (2,)
# Para computarmos o produto exterior, primeiro alteramos a forma de v para ser uma coluna
# vetor de forma (3, 1); nós então podemos fazer o broadcast em w para produzir
# um output de forma (3, 2), no qual é o produto exterior de v e w:
# [[ 4  5]
#  [ 8 10]
#  [12 15]]
print(np.reshape(v, (3, 1)) * w)
print()
# Adiciona um vetor para cada linha da matriz
x = np.array([[1,2,3], [4,5,6]])
# x tem a forma (2, 3) e v tem a forma (3,) então o broadcast fica (2, 3),
# retornando a seguinte matriz:
# [[2 4 6]
#  [5 7 9]]
print(x + v)
print()
# Adiciona um vetor para cada coluna da matriz
# x tem a forma (2, 3) e w tem a forma (2,).
# Se nós transpormos x então ele terá a forma (3,2) e pode ser feito o broadcast
# em w para produzir o resultado de forma (3,2), transpondo esse resultado
# produz a forma final de (2,3) no qual é a matriz x com
# o vetor w adicionado para cada coluna, resultando a seguinte matriz:
# [[ 5  6  7]
#  [ 9 10 11]]
print((x.T + w).T)
print()
# Outra solução é alterar a forma de w para ser um vetor de colunas de forma (2,1)
# Nós então podemos fazer o broadcast dele diretamente contra x para o produzir o mesmo output
print(x + np.reshape(w, (2, 1)))
print()
# Multiplicar uma matriz por uma constante:
# x tem a forma (2,3). Numpy trata escalares como arrays de forma ();
# estes podem ser feito o broadcast juntos para formar (2,3), produzindo o seguinte array:
# [[ 2  4  6]
#  [ 8 10 12]]
print(x * 2)

[[ 4  5]
 [ 8 10]
 [12 15]]

[[2 4 6]
 [5 7 9]]

[[ 5  6  7]
 [ 9 10 11]]

[[ 5  6  7]
 [ 9 10 11]]

[[ 2  4  6]
 [ 8 10 12]]
