<a href="https://colab.research.google.com/github/rodrigocan/made-with-ml/blob/main/notebooks/03_NumPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NumPy
Nesta aula, vamos aprender o básico de análise numérica utilizando a biblioteca NumPy.

# Configuração

In [2]:
import numpy as np

In [3]:
# Definir um seed para que seja possível reproduzir os resultados em outro ambiente
np.random.seed(seed = 1234)

# Básico

Vejamos como criar tensores com o NumPy.

* **Tensor**: coleção de valores

![tensor](https://camo.githubusercontent.com/645b33d9abed9a01a3bf0aabdce26afacc4d7ad7ef58d8f29017b56e81e16416/68747470733a2f2f6d616465776974686d6c2e636f6d2f7374617469632f696d616765732f666f756e646174696f6e732f6e756d70792f74656e736f72732e706e67)

In [4]:
# Escalar
x = np.array(6)
print ("x: ", x)
print ("x ndim: ", x.ndim) # número de dimensões
print("x shape:", x.shape) # dimensões
print("x size:", x.size) # tamanho dos elementos
print("x dtype: ", x.dtype) # tipo de dado

x:  6
x ndim:  0
x shape: ()
x size: 1
x dtype:  int64


In [5]:
# Vetor
x = np.array([1.3, 2.2, 1.7])
print("x: ", x)
print("x ndim:", x.ndim)
print("x shape:", x.shape)
print("x size:", x.size)
print("x dtype:", x.dtype) # perceba o tipo float

x:  [1.3 2.2 1.7]
x ndim: 1
x shape: (3,)
x size: 3
x dtype: float64


In [6]:
# Matriz
x = np.array([[1, 2], [3, 4]])
print("x:\n", x)
print("x ndim", x.ndim)
print("x shape", x.shape)
print("x size", x.size)
print("x dtype", x.dtype)

x:
 [[1 2]
 [3 4]]
x ndim 2
x shape (2, 2)
x size 4
x dtype int64


In [12]:
# Tensor 3D
x = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print("x:\n", x)
print("x ndim:\n", x.ndim)
print("x shape:\n", x.shape)
print("x size:\n", x.size)
print("x dtype:\n", x.dtype)

x:
 [[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
x ndim:
 3
x shape:
 (2, 2, 2)
x size:
 8
x dtype:
 int64


O NumPy também vem com uma série de funções que permitem criar tensores rapidamente.

In [None]:
# Funções
print("np.zeros((2, 2)):\n", np.zeros((2, 2)))
print("np.ones((2, 2)):\n", np.ones((2, 2)))
print("np.eye((2)):\n", np.eye((2))) # matriz identidade
print("np.random.random((2, 2)):\n", np.random.random((2, 2)))

np.zeros((2, 2)):
 [[0. 0.]
 [0. 0.]]
np.ones((2, 2)):
 [[1. 1.]
 [1. 1.]]
np.eye((2)):
 [[1. 0.]
 [0. 1.]]
np.random.random((2, 2)):
 [[0.19151945 0.62210877]
 [0.43772774 0.78535858]]


# *Indexing*

Podemos extrair valores específicos dos tensores usando os índices.

> Tenha em mente que os índices das linhas e colunas começam em 0. Como nas listas, podemos utilizar índices negativos (onde -1 corresponde ao último item).

![indexing](https://camo.githubusercontent.com/22f0f6308f67ecbb0d520f6a33d6c1400d4358b8e510d25dea7aa8b2634a38c0/68747470733a2f2f6d616465776974686d6c2e636f6d2f7374617469632f696d616765732f666f756e646174696f6e732f6e756d70792f696e646578696e672e706e67)

In [15]:
# Indexing
x = np.array([1, 2, 3])
print("x: ", x)
print("x[0]: ", x[0])
x[0] = 0
print("x: ", x)

x:  [1 2 3]
x[0]:  1
x:  [0 2 3]


In [20]:
# Slicing
x = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(x)
print("x column 1: ", x[:, 1])
print("x row 0: ", x[0, :])
print("x rows 0, 1 & cols 1, 2: \n", x[0:2, 1:3])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
x column 1:  [ 2  6 10]
x row 0:  [1 2 3 4]
x rows 0, 1 & cols 1, 2: 
 [[2 3]
 [6 7]]


In [24]:
# Indexing com array de inteiros
print(x)
rows_to_get = np.array([0, 1, 2])
print("rows_to_get: ", rows_to_get)
cols_to_get = np.array([0, 2, 1])
print("cols_to_get: ", cols_to_get)
# Combinando as sequências acima para pegar os valores
print("indexed values: ", x[rows_to_get, cols_to_get])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
rows_to_get:  [0 1 2]
cols_to_get:  [0 2 1]
indexed values:  [ 1  7 10]


In [27]:
# Indexing com array de booleanos
x = np.array([[1, 2], [3, 4], [5, 6]])
print("x:\n", x)
print("x > 2:\n", x > 2)
print("x[x > 2]:\n", x[x > 2])

x:
 [[1 2]
 [3 4]
 [5 6]]
x > 2:
 [[False False]
 [ True  True]
 [ True  True]]
x[x > 2]:
 [3 4 5 6]


# Aritmética

In [30]:
# Matemática básica
x = np.array([[1, 2], [3, 4]], dtype = np.float64)
y = np.array([[1, 2], [3, 4]], dtype = np.float64)
print("x + y:\n", np.add(x, y)) # ou x + y
print("x - y:\n", np.subtract(x, y)) # ou x - y
print("x * y:\n", np.multiply(x, y)) # ou x * y

x + y:
 [[2. 4.]
 [6. 8.]]
x - y:
 [[0. 0.]
 [0. 0.]]
x * y:
 [[ 1.  4.]
 [ 9. 16.]]


## Produto escalar

Uma das operações mais comuns no NumPy, que vamos utilizar para aprendizado de máquina, é a multiplicação de matrizes utilizando o produto escalar. Na ilustração seguinte, o número de linhas da primeira matriz (2) e o número de colunas da segunda (2) determinam a forma da matriz resultante (2 x 2). O único requisito para o produto escalar é que o número de colunas da primeira matriz seja igual ao número de linhas da segunda matriz:

![produto_escalar_matrizes](https://camo.githubusercontent.com/85f721b74a7d14674b941a4c6bd9dd2d209001eb70eec5365b85ade7513490fb/68747470733a2f2f6d616465776974686d6c2e636f6d2f7374617469632f696d616765732f666f756e646174696f6e732f6e756d70792f646f742e676966)

In [32]:
# Produto escalar
a = np.array([[1, 2, 3], [4, 5, 6]], dtype = np.float64) # podemos especificar o dtype
b = np.array([[7, 8], [9, 10], [11, 12]])
c = a.dot(b)
print(f"{a.shape} . {b.shape} = {c.shape}")
print(c)

(2, 3) . (3, 2) = (2, 2)
[[ 58.  64.]
 [139. 154.]]


## Operações no eixo

Podemos realizar operações ao longo de eixos específicos:

![operacoes_eixos](https://camo.githubusercontent.com/869a8b07835ea2e50abdd5b08b4a604de09b52acda3b19154df333593288a885/68747470733a2f2f6d616465776974686d6c2e636f6d2f7374617469632f696d616765732f666f756e646174696f6e732f6e756d70792f617869732e676966)

In [38]:
# Soma em uma dimensão
x = np.array([[1, 2], [3, 4]])
print(x)
print("sum all: ", np.sum(x)) # soma de todos os elementos
print("sum axis=0: ", np.sum(x, axis = 0)) # soma de cada coluna
print("sum axis=1: ", np.sum(x, axis = 1)) # soma de cada linha

[[1 2]
 [3 4]]
sum all:  10
sum axis=0:  [4 6]
sum axis=1:  [3 7]


In [45]:
# Min/max
x = np.array([[1, 2, 3], [4, 5, 6]])
print(x)
print("min: ", x.min())
print("max: ", x.max())
print("min axis=0: ", x.min(axis = 0)) # mínimo de cada coluna
print("min axis=1: ", x.min(axis = 1)) # mínimo de cada linha

[[1 2 3]
 [4 5 6]]
min:  1
max:  6
min axis=0:  [1 2 3]
min axis=1:  [1 4]


## Transmissão

Aqui, nós vamos somar um vetor com um escalar. As dimensões não são compatíveis, mas como o NumPy ainda nos dá o resultado correto. É aqui que entra o transmissão. O escalar é transmitido através do vetor para que tenham formas compatíveis.

In [46]:
# Transmissão
x = np.array([1, 2]) # vetor
y = np.array(3) # escalar
z = x + y
print("z\n", z)

z
 [4 5]


## Transposição

Muitas vezes precisamos mudar as dimensões dos nossos tensores para operações como o produto escalar. Neste caso, podemos transpor o tensor.

In [50]:
# Transposição
x = np.array([[1, 2, 3], [4, 5, 6]])
print("x\n", x)
print("x.shape: ", x.shape)
y = np.transpose(x, (1, 0)) # inverte as dimensões entre linhas e colunas
print("y:\n", y)
print("y.shape: ", y.shape)

x
 [[1 2 3]
 [4 5 6]]
x.shape:  (2, 3)
y:
 [[1 4]
 [2 5]
 [3 6]]
y.shape:  (3, 2)


## *Reshape*

Algumas vezes precisamos alterar as dimensões de uma matriz. O reshape nos permite transformar um tensor para outras formas possíveis - nosso tensor transformado terá a mesma quantidade de valores do tensor original (1 x 6 = 2 x 3). Podemos usar o `-1` em uma dimensão e o NumPy vai inferir a dimensão baseada no tensor de entrada.

A forma como o reshape funciona é olhando para cada dimensão do novo tensor e separando nosso tensor original em tantas unidades quanto necessário para manter a mesma quantidade de valores. Aqui, a dimensão no índice 0 do novo tensor é 2, então dividimos nosso tensor original em 2 unidades. Logo, cada uma delas terá 3 valores:


![reshape](https://camo.githubusercontent.com/03d0018355b2567740f3d1d18a16f45dd055d6bd928c5a086ec390b17096b606/68747470733a2f2f6d616465776974686d6c2e636f6d2f7374617469632f696d616765732f666f756e646174696f6e732f6e756d70792f726573686170652e706e67)

In [55]:
# Reshaping
x = np.array([[1, 2, 3, 4, 5, 6]])
print(x)
print("x.shape ", x.shape)
y = np.reshape(x, (2, 3))
print("y: \n", y)
print("y.shape: ", y.shape)
z = np.reshape(x, (2, -1))
print("z: \n", z)
print("z.shape: ", z.shape)

[[1 2 3 4 5 6]]
x.shape  (1, 6)
y: 
 [[1 2 3]
 [4 5 6]]
y.shape:  (2, 3)
z: 
 [[1 2 3]
 [4 5 6]]
z.shape:  (2, 3)


### Reshape não desejado

Embora o reshape seja muito conveniente para manipular tensores, devemos ter cuidado com suas armadilhas. Vejamos o exemplo abaixo. Suponha que temos o tensor x, com a forma [2 x 3 x 4]:

In [62]:
x = np.array([[[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], [[10, 10, 10, 10], [20, 20, 20, 20], [30, 30, 30, 30]]])
print("x\n", x)
print("x.shape: ", x.shape)

x
 [[[ 1  1  1  1]
  [ 2  2  2  2]
  [ 3  3  3  3]]

 [[10 10 10 10]
  [20 20 20 20]
  [30 30 30 30]]]
x.shape:  (2, 3, 4)


Queremos mudar a forma de x para `[3 x 8]` movendo a dimensão no índice 0 para ser a dimensão no índice 1 e então combinando as 2 outras dimensões. Mas quando fizermos isso, queremos que a nossa saída

seja como: ✅

In [63]:
# Reshape desejado
y = np.transpose(x, (1, 0, 2))
print("y:\n", y)
print("y.shape: ", y.shape)
z_correct = np.reshape(y, (y.shape[0], -1))
print("z_correct:\n", z_correct)
print("z_correct.shape: ", z_correct.shape)

y:
 [[[ 1  1  1  1]
  [10 10 10 10]]

 [[ 2  2  2  2]
  [20 20 20 20]]

 [[ 3  3  3  3]
  [30 30 30 30]]]
y.shape:  (3, 2, 4)
z_correct:
 [[ 1  1  1  1 10 10 10 10]
 [ 2  2  2  2 20 20 20 20]
 [ 3  3  3  3 30 30 30 30]]
z_correct.shape:  (3, 8)


e não como: ❌

In [65]:
# Reshape não desejado
z_incorrect = np.reshape(x, (x.shape[1], -1))
print("z_incorrect:\n", z_incorrect)
print("z_incorrect.shape: ", z_incorrect.shape)

z_incorrect:
 [[ 1  1  1  1  2  2  2  2]
 [ 3  3  3  3 10 10 10 10]
 [20 20 20 20 30 30 30 30]]
z_incorrect.shape:  (3, 8)


Mesmo que ambos tenham a mesma forma [3 x 8].

Devemos prestar atenção ao fazer o reshape, pois podemos obter o novo tensão com a forma desejada, mas com os valores incorretos.

![reshape_errado](https://camo.githubusercontent.com/b40621fdef6f3375270d5f4e0c9489785aa73fe47056937f71bfd554ba729f33/68747470733a2f2f6d616465776974686d6c2e636f6d2f7374617469632f696d616765732f666f756e646174696f6e732f6e756d70792f726573686170655f77726f6e672e706e67)

Ao invés disso, se transpormos o tensor original e então fizermos o reshape, obtemos o tensor desejado. A transposição nos permite colocar os dois vetores que queremos combinar juntos e então nós usamos o reshape para juntá-los:

> Sempre crie um exemplo fictício como este quando não tiver certeza sobre o reshape. Indo cegamente pela forma do tensor pode levar a muitos problemas.

![exemplo_reshape](https://camo.githubusercontent.com/3f31bd1df89b91fe6f735b4a57aeaf4c511b0275a56a97b43e92f600eb3c7a27/68747470733a2f2f6d616465776974686d6c2e636f6d2f7374617469632f696d616765732f666f756e646174696f6e732f6e756d70792f726573686170655f72696768742e706e67)

## Expandindo / reduzindo

Podemos facilmente adicionar e remover dimensões para os nossos tensores. Desejaremos fazer isso para tornar nossos tensores compatíveis para certas operações.

In [69]:
# Adicionando dimensões
x = np.array([[1, 2, 3], [4, 5, 6]])
print("x:\n", x)
print("x.shape: ", x.shape)
y = np.expand_dims(x, 1) # expande a dimensão 1
print("y: \n", y)
print("y.shape: ", y.shape)

x:
 [[1 2 3]
 [4 5 6]]
x.shape:  (2, 3)
y: 
 [[[1 2 3]]

 [[4 5 6]]]
y.shape:  (2, 1, 3)


In [73]:
# Removendo dimensões
x = np.array([[[1, 2, 3]], [[4, 5, 6]]])
print("x:\n", x)
print("x.shape: ", x.shape)
y = np.squeeze(x, 1) # comprime a dimensão 1
print("y: \n", y)
print("y.shape: ", y.shape) # note que os colchetes extras sumiram

x:
 [[[1 2 3]]

 [[4 5 6]]]
x.shape:  (2, 1, 3)
y: 
 [[1 2 3]
 [4 5 6]]
y.shape:  (2, 3)
