# Numpy

Hoje, vamos começara ver a biblioteca matemática mais importante pro ecossistema 
científico do Python: O Numpy.

Vamos relembrar alguns conceitos

In [1]:
lista = ["a", 2, 2.4, True, [1, 3], {"a": 1}]

In [2]:
lista.append("Olá")

In [3]:
lista

['a', 2, 2.4, True, [1, 3], {'a': 1}, 'Olá']

In [4]:
a = 42.5

In [5]:
a = 'aaaaa'

In [6]:
a

'aaaaa'

A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [1]:
# A gente importa o numpy sempre chamando ele de "np"
import numpy as np

In [8]:
# Vamos fazer uma comparação com uma lista de Python
py_array = [[1,   2,  3]]

print(py_array)
print(type(py_array))

[[1, 2, 3]]
<class 'list'>


In [9]:
# Uma lista com 2 dimensões é uma lista de listas
print(type(py_array[0]))

<class 'list'>


In [12]:
# Nota como o tipo da variável muda para "ndarray"
np_array = np.array(py_array)

print(np_array)
print(type(np_array))
print(np_array.dtype)

[[1 2 3]]
<class 'numpy.ndarray'>
int32


In [11]:
py_array_string = [['a', 2,  3]]
np_array_string = np.array(py_array_string)

print(np_array_string)
print(type(np_array_string))
print(np_array_string.dtype) 

[['a' '2' '3']]
<class 'numpy.ndarray'>
<U11


In [13]:
# Mas no  numpy, um ndarray continua sendo formado de ndarrays.
print(type(np_array[0]))

<class 'numpy.ndarray'>


In [14]:
# 3 atributos básicos pra um ndarray
print(np_array.shape)   # O formato dele
print(np_array.ndim)    # Quantas dimensões ele tem
print(np_array.dtype)   # O "dtype", que é o tipo dos elementos (número, letra, ...) dele

(1, 3)
2
int32


In [15]:
x = np.array([1, 2, 3]) # Um vetor também é um ndarray
print(type(x))
print(x.dtype)

<class 'numpy.ndarray'>
int32


In [16]:
# O dtype de um array do numpy pode ser controlado na hora que a gente cria.
py_array = [1, 2, 3]

array_int = np.array(py_array, dtype=np.float64)

In [17]:
print(array_int)
print(array_int.dtype)

[1. 2. 3.]
float64


In [18]:
# Mas quando a gente não define, ele infere a partir dos nossos dados.
py_array_2 = [1.0,   2,  3.0]

array_float = np.array(py_array_2)

print(array_float)
print(array_float.dtype)

[1. 2. 3.]


In [19]:
# Para selecionar um elemento de uma tabela no Python e no Numpy, tem uma ligeira diferença.
print((array_float[2])) # Python: Pega a primeira linha. Dela, pega o primeiro elemento.

3.0


**Revisando**

In [20]:
# No Python, existe o conceito de "indexing", que é pegar elementos pelo seu índice (a sua posição) 
lista = [1, 2, 3, 4, 5, 6, 7, 8, 9]
print(lista[0])
print(lista[3])
print(lista[-1]) # Aqui a gente também pode indexar negativamente. Aí o Python conta de trás pra frente.
print(lista[-3]) # -3 vai ser o terceiro elemento, de trás pra frente

# OBS: Lembre-se que as "posições" no Python sempre começam a contar do zero!!!

1
4
9
7


In [21]:
print(lista[0] == lista[-9]) # Nota que o primeiro elemento é o -9, pois é o nono de trás pra frente.

True


In [22]:
# Também existe uma forma de pegar um subconjunto da lista.
# A gente chama isso de "slicing". Nota que o último elemento não entra!
lista = [1, 2, 3, 4, 5, 6, 7, 8, 9]
print(lista[:])
print(lista[2:3])
print(lista[:-3]) # A gente pode usar nossa indexação negativa aqui.

[1, 2, 3, 4, 5, 6, 7, 8, 9]
[3]
[1, 2, 3, 4, 5, 6]


In [23]:
# Podemos definir um início também pro slicing.
# Quando não colocamos nada, ele assume que o início é 0.
# No caso do fim, se não colocamos nada, ele assume que o fim é o último elemento.
print(lista[2:])
print(lista[2:3])
print(lista[2:-3]) # A gente pode usar nossa indexação negativa aqui.

[3, 4, 5, 6, 7, 8, 9]
[3]
[3, 4, 5, 6]


In [24]:
# O poder do slicing é que a gente pode definir diferentes tamanhos de passo.
lista = [1, 2, 3, 4, 5, 6, 7, 8, 9]
print(lista[0:9:2])
print(lista[::-1]) # Agora ele anda de trás pra frente!
print(lista[1:5:-1]) # Se eu for subtraindo 1, é impossível ir de 1 até 5. Logo, gera uma lista vazia.

[1, 3, 5, 7, 9]
[9, 8, 7, 6, 5, 4, 3, 2, 1]
[]


Também podemos aplicar o conceito do slicing no numpy

In [25]:
print(array_int)
print(array_int[2]) # Pegando o terceiro elemento
print(array_int[:1])
print(array_int[-1:-5:-2]) # Invertendo o array

[1. 2. 3.]
3.0
[1.]
[3. 1.]


**Funções numpy**  
O numpy também tem diversas funções para facilitar criação de arrays.

In [26]:
print(np.zeros(10), end='\n\n') # O "end" muda o que o Python encaixa no fim do que ele mostra pra gente.
print(np.ones(5), end='\n\n') # \n é pular linha, e é o default. \n\n pula 2 linhas.
# Alguns spoilers
print(np.identity(4), end='\n\n')
print(np.eye(4, 3), end='\n\n')

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

[1. 1. 1. 1. 1.]

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 0.]]



In [27]:
# Relembrando a função range
list(range(2, 10, 2))

[2, 4, 6, 8]

In [28]:
# Também podemos fazer listas de números.
print(np.arange(10, 30, 2)) # Lista de números inteiros pulando de 2 em 2. Mas até aqui, seria igual a Python.
print('')
print(np.arange(10.5, 30.5, 2))  # Lista de números de ponto flutuant, pulando de 2 em 2.
print('')
print(np.linspace(10, 30, 10)) # Lista de 10 números, igualmente espaçados entre 10 e 30.

[10 12 14 16 18 20 22 24 26 28]

[10.5 12.5 14.5 16.5 18.5 20.5 22.5 24.5 26.5 28.5]

[10.         12.22222222 14.44444444 16.66666667 18.88888889 21.11111111
 23.33333333 25.55555556 27.77777778 30.        ]


# Operações Básicas

In [37]:
# Se a força do numpy é ter tudo operando como vetores, 
# então ele tem que ter operações de vetores.
vec1 = np.arange(0, 10, 1)
vec2 = np.arange(0, 20, 2)
vec3 = np.arange(0, 300, 100)

print(vec1)
print(vec2)
# print(vec3)

[0 1 2 3 4 5 6 7 8 9]
[ 0  2  4  6  8 10 12 14 16 18]


In [41]:
# Soma por elemento
print(vec1 + vec2)

[ 0  3  6  9 12 15 18 21 24 27]


In [39]:
# Multiplicação elemento por elemento
print(vec1 * vec2)

[  0   2   8  18  32  50  72  98 128 162]


In [42]:
# produto de matrizes (neste caso, produto escalar)
# Isso é multiplicar elemento por elemento, e depois somar
print(vec1 @ vec2)
print((vec1 * vec2).sum()) # Todo ndarray tem um método "sum" pra somar seus elementos

# produto de matrizes (neste caso, produto escalar)
# Outra forma de escrever a mesma coisa
print(vec1.dot(vec2))

570
570
570


## Bora praticar!

Fonte: https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises.ipynb


1) Inverta um vetor (o primeiro elemento vira o último). Para testar crie um vetor a partir da seguinte lista [0, 5, 1, 9, 9, 87]

In [43]:
lista = [0, 5, 1, 9, 9, 87]
vetor = np.array(lista)
vetor = vetor[::-1]
print(vetor)

[87  9  9  1  5  0]


In [44]:
array = np.array([0,5,1,9,9,87])
array_inv = np.flip(array)
print(array)
print(array_inv)

[ 0  5  1  9  9 87]
[87  9  9  1  5  0]


2) Crie um vetor com valores que vão de 1 até 21 de dois em dois, a partir da função arange

In [45]:
vec1 = np.arange(1, 22, 2)
print(vec1)

[ 1  3  5  7  9 11 13 15 17 19 21]


3) Ache os índices dos elementos não-zero a partir do array [1,2,0,0,4,0]

In [47]:
vetor_3 = np.array([1, 2, 0, 0, 4, 0])
np.nonzero(vetor_3)

(array([0, 1, 4], dtype=int64),)

In [46]:
array = np.array([1, 2, 0, 0, 4, 0])
non_null = np.where(array != 0)

print(f'Índices: {non_null}')

Índices: (array([0, 1, 4], dtype=int64),)


E se a gente quisesse pegar os elementos diferentes de zero?

In [50]:
vetor_3[np.nonzero(vetor_3)]

array([1, 2, 4])

In [49]:
vetor_3[vetor_3 != 0]

array([1, 2, 4])

In [51]:
vetor_2 = np.array([1,2,0,0,4,0])
lista_elementos = []

for elemento in vetor_2:
    if(elemento != 0):
        lista_elementos.append(elemento)
    else:
        pass

print(lista_elementos)

[1, 2, 4]


4) Crie uma matriz identidade 3x3

In [54]:
vec1 =np.identity(3)
print(vec1)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [53]:
I = np.identity(3)
I

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

5) Crie um array de 10 com valores aleatórios. 

6) Crie um array 100 com valores aleatórios e ache os valores máximo e mínimo

In [2]:
saida = np.random.randint(1, 10_000, 100)

print(saida)
print(f'Min: {np.min(saida)}, Max: {np.max(saida)}')

[8055 9616 2010 3327  241 1539 4993 4967 2854 8560 1868 9736 2353 9370
 3437 7935 5755 3594 9988 2554 2463 1766 3620 2990 6877 3963 1992 4197
 7952 4857 4120 4323 7992 8293 8252 4926 8941 3048 5731 8437 3263 9240
 2390 1514 9004 3207 5093 4730 5709 1383 6230 6350 9416 6916 9050 2831
 9762 7683 7120 2653 2955 7538 8705 3481 1651 7631 3854 9238 6247 5830
 8227 7931 1968 9958 3599 4690 7309 1582 4343 7125 7815 6483 9718 7357
 6023 9338 5752 8267 2464  422 7515 3008  913  622 7321 5218 4215 1978
 8662 4778]
Min: 241, Max: 9988


In [3]:
vetor_4 = np.random.randint(0,1000,100)
print(vetor_4)
print(vetor_4.max())
print(vetor_4.min())

[615 432 233 812 508 222 855  28 405 603 315 426   0 416 113 231  53 800
 533 514  11 518 135 649 401 841 575 437 529 190 692   5 713 660  40 153
 458 683 296 887 929 589 561 978 684 255 951 655 609 178 454 840 533  14
 909 599 215 632 131 151 425 497 678 293  11 358 748 842 635 666 907 155
 298  47 718 161 471 482 980 964 495 228 436 592 609 220 761 383 582 745
 726 848 571 582 556 327  85   1 897 608]
980
0


7) Crie um array 2D (bidimensional) com 1 na borda e 0 dentro

```
[[1 1 1]
 [1 0 1]
 [1 1 1]]
 ```

In [4]:
dim = int(input('Digite o formato do array: '))
zeros = np.ones((dim, dim))
zeros[1:-1, 1:-1] = 0
print(zeros)

Digite o formato do array: 5
[[1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 1.]
 [1. 0. 0. 0. 1.]
 [1. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1.]]


In [5]:
x = np.zeros((2,2))
np.pad(x,1,constant_values = 1)

array([[1., 1., 1., 1.],
       [1., 0., 0., 1.],
       [1., 0., 0., 1.],
       [1., 1., 1., 1.]])

In [6]:
vetor_5 = np.zeros((3, 3))
vetor_6 = np.pad(vetor_5, 1,'constant', constant_values=1)
print(vetor_6)

[[1. 1. 1. 1. 1.]
 [1. 0. 0. 0. 1.]
 [1. 0. 0. 0. 1.]
 [1. 0. 0. 0. 1.]
 [1. 1. 1. 1. 1.]]


In [7]:
vetor_7=[[1,1,1],[1,0,1],[1,1,1]]
vetor_7 = np.array(vetor_7)
print(vetor_7)

[[1 1 1]
 [1 0 1]
 [1 1 1]]


8) Como adicionar uma borda de 0's ao redor de um array existente?

A gente consegue usar uma lógica semelhante à de cima.

In [8]:
x = np.array([[1,2],[3,4]])
np.pad(x, 1, constant_values = 0)

array([[0, 0, 0, 0],
       [0, 1, 2, 0],
       [0, 3, 4, 0],
       [0, 0, 0, 0]])

In [9]:
zeros = np.array([[0, 1, 2, 3, 4],
         [6, 7, 8, 9, 10],
         [1, 2, 3, 4, 5],
         [5, 6, 7, 8, 9],
         [2, 3, 4, 5, 6]])
zeros[::4] = 0
zeros[:, ::4] = 0
print(zeros)

[[0 0 0 0 0]
 [0 7 8 9 0]
 [0 2 3 4 0]
 [0 6 7 8 0]
 [0 0 0 0 0]]


9) Crie uma matriz 5x5 com valores 1, 2, 3, 4 logo abaixo da diagonal
  
Exemplo
  
```
[[0, 0, 0, 0, 0],
[1, 0, 0, 0, 0],
[0, 2, 0, 0, 0],
[0, 0, 3, 0, 0],
[0, 0, 0, 4, 0]]
```

In [10]:
x = [1, 2, 3, 4]
np.diag(x, -1)

array([[0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [0, 2, 0, 0, 0],
       [0, 0, 3, 0, 0],
       [0, 0, 0, 4, 0]])