# Numpy
OBJETIVO: O objetivo deste notebook é explicar como a biblioteca numpy funciona e as principais operações com arrays

### Bibliotecas

In [1]:
# Libs
import os
import numpy as np
import pandas as pd
from pathlib import Path

%config Completer.use_jedi = False

### Criando Array e Matriz

In [2]:
# Array
array = np.array([1, 2, 3, 4, 5])
array

array([1, 2, 3, 4, 5])

In [3]:
# Matriz
matriz = np.array([[1, 2, 3], [4, 5, 6]])
matriz

array([[1, 2, 3],
       [4, 5, 6]])

Dados isso é fácil perceber que um array tem as seguintes características que podem ser acessadas na forma de atributos deste objeto:

- dtype: O tipo de dados do array
- shape: O tamanho do array em linhas e colunas
- size: O tamanho do array em quantidade de elementos
- itemsize: O consumo de memória de cada elemento do array (em bytes)
- strides: Uma distancia em bytes entre os elementos armazenados na memória

In [4]:
# Informações 
print(
    f"array: dtype={array.dtype} | shape={array.shape}| size={array.size} "
    f"| itemsize={array.itemsize} | strides={array.strides}"
)

print(
    f"matriz: dtype={matriz.dtype} | shape={matriz.shape} | size={matriz.size} "
    f"| itemsize={matriz.itemsize} | strides={matriz.strides}"
)

array: dtype=int32 | shape=(5,)| size=5 | itemsize=4 | strides=(4,)
matriz: dtype=int32 | shape=(2, 3) | size=6 | itemsize=4 | strides=(12, 4)


In [5]:
# np.zeros -> Cria um array preenchido com zeros
np.zeros(shape=(3, 2))

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [6]:
# np.ones -> Cria um array preenchido com um's
np.ones(shape=(3, ))

array([1., 1., 1.])

In [7]:
# np.eye -> Cria a matriz identidade com o tamanho especificado
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [8]:
# np.arange -> Mesma coisa que a função range, só que para arrays
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

In [9]:
# np.linspace -> Cria um array entre dois números espaçados linearmente
np.linspace(5, 10, num=5)

array([ 5.  ,  6.25,  7.5 ,  8.75, 10.  ])

In [10]:
# np.logspace -> Cria um array entre dois números espaçados logaritimicamente
np.logspace(0, 1, 3)

array([ 1.        ,  3.16227766, 10.        ])

In [11]:
# np.random.int -> Cria um array de valores aleatórios entre um valor menor e maior (exclusivo)
np.random.randint(0, 10, size=(5, 5))

array([[9, 6, 2, 1, 0],
       [9, 4, 8, 2, 3],
       [7, 3, 5, 2, 7],
       [8, 5, 0, 1, 6],
       [9, 2, 8, 5, 1]])

In [12]:
# np.random.normal -> Cria um array aleatório com valores baseados em uma distribuição normal
np.random.normal(1, 2, 10)

array([-0.65647835, -0.24523822,  1.89002808,  0.58234533, -3.88698495,
        1.78571699, -1.18458349, -1.25737687,  0.07852845,  2.47611893])

É interessante notar que algumas dessas funções não permitem passar o tamanho do array (como np.arange), por isso muitas vezes é comum combina-las com o método reshape

In [13]:
# Usando reshape
a = np.arange(12)
a = a.reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

### Tipagem
Uma das diferenças mais gritantes entre arrays e listas é sua tipagem. Enquanto listas podem conter múltiplos tipos de dados (inteiros, strings, floats, etc) arrays tendem a possuir tipagem fixa e tal tipagem pode ser modificada utilizando o método astype

In [14]:
arr = np.array([1, 2, 3])
print(arr.dtype, arr)

int32 [1 2 3]


In [15]:
arr = np.array([1, 2, 3])
arr = arr.astype("float")
print(arr.dtype, arr)

float64 [1. 2. 3.]


In [16]:
arr = np.array([1, 2, 3], dtype=np.uint8)
print(arr.dtype, arr)

uint8 [1 2 3]


In [17]:
arr = np.array(["ola", 2.1, [2, 3, 4]], dtype="object")
arr

array(['ola', 2.1, list([2, 3, 4])], dtype=object)

In [18]:
arr.shape

(3,)

### Indexação
Tal como listas arrays são objetos indexáveis de maneira similar, de forma que a sintaxe de chaves e os slices funcionam normalmente

In [19]:
array = np.arange(1, 10)
matriz = np.random.normal(1, 2, (3, 3))

array, matriz

(array([1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([[ 0.34357161, -0.12427021,  4.20361414],
        [-0.03624006,  1.39647144,  0.59860271],
        [-4.08755839, -1.52110819,  3.10063661]]))

In [20]:
array[0]

1

In [21]:
matriz[2][-1]

3.1006366064597755

In [22]:
matriz[1]

array([-0.03624006,  1.39647144,  0.59860271])

In [23]:
array[::-2]

array([9, 7, 5, 3, 1])

Entretanto o numpy oferece uma maneira adicional de indexar elementos selecionando múltiplos indices por meio de uma lista

In [24]:
array[1:3]

array([2, 3])

In [25]:
array[[1, 2]]

array([2, 3])

Por fim, numpy nos oferece a flexibilidade, especialmente com matrizes, de selecionar os elementos de linhas e colunas em conjunto por meio da sintaxe de ",", na qual fornecemos dois slices, o primeiro selecionando linhas e o segundo selecionado colunas

In [26]:
matriz[:, 1]

array([-0.12427021,  1.39647144, -1.52110819])

In [27]:
matriz[1, 2]

0.5986027054875297

In [28]:
matriz[:, [1, 2]]

array([[-0.12427021,  4.20361414],
       [ 1.39647144,  0.59860271],
       [-1.52110819,  3.10063661]])

### Mutabilidade
Diferente de listas arrays são objetos imutáveis em tamanho e tipo (como você viu mais acima, para mudar o tipo de array nós criamos um novo)

In [29]:
arr = np.array([1, 2, 3])
# arr.append(4) Vai dar erro
# Entretanto, diferente de tuplas, arrays são mutáveis em conteúdo
arr[2] = 5
arr

array([1, 2, 5])

In [30]:
# Ao tentar mudar o valor de um elemento o numpy o converterá para a tipagem adequada quando possível
arr[1] = 1.7234
arr

array([1, 1, 5])

In [31]:
arr[1] = '3'
arr
# arr[1] = '3.2' tambem vai dar erro
# arr

array([1, 3, 5])

É interessante notar como funciona a alocação de memória para transformações particulares do array que podem afetar sua mutabilidade. Por exemplo, suponhamos que temos os array a, b e c todos criados a partir de transformações do vetor a

In [32]:
a = np.arange(12, dtype='int64')
b = a.reshape(3, 4)
c = a[::2]
print(a)
print(b)
print(c)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  2  4  6  8 10]


In [33]:
# O que acontece, neste caso, se eu alterar o vetor a?
a[0] = -1
print(a)
print(b)
print(c)

[-1  1  2  3  4  5  6  7  8  9 10 11]
[[-1  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[-1  2  4  6  8 10]


In [34]:
print(f"a: dtype={a.dtype} | shape={a.shape} | size={a.size} | itemsize={a.itemsize} | strides={a.strides}")
print(f"b: dtype={b.dtype} | shape={b.shape} | size={b.size} | itemsize={b.itemsize} | strides={b.strides}")

a: dtype=int64 | shape=(12,) | size=12 | itemsize=8 | strides=(8,)
b: dtype=int64 | shape=(3, 4) | size=12 | itemsize=8 | strides=(32, 8)


In [35]:
print(f"a: dtype={a.dtype} | shape={a.shape} | size={a.size} | itemsize={a.itemsize} | strides={a.strides}")
print(f"c: dtype={c.dtype} | shape={c.shape} | size={c.size} | itemsize={c.itemsize} | strides={c.strides}")

a: dtype=int64 | shape=(12,) | size=12 | itemsize=8 | strides=(8,)
c: dtype=int64 | shape=(6,) | size=6 | itemsize=8 | strides=(16,)


Por fim é importante lembrar que tal como listas e dicionário, arrays são passados como referência em função, de forma que qualquer alteração no array feito dentro de uma função será carregada para fora da mesma

In [36]:
def muda_a(a):
    a[1] = 12890

print(a)
muda_a(a)
print(a)
print(b)
print(c)

[-1  1  2  3  4  5  6  7  8  9 10 11]
[   -1 12890     2     3     4     5     6     7     8     9    10    11]
[[   -1 12890     2     3]
 [    4     5     6     7]
 [    8     9    10    11]]
[-1  2  4  6  8 10]
