# NumPy

## **Problema gerador**: como fazer facilmente operações em listas, elemento a elemento?

Eu tenho duas listas e gostaria de somar os seus elementos em uma nova lista.

In [1]:
lista1 = [1, 2, 3, 4]
lista2 = [5, 6, 7, 8]

In [3]:
lista3 = lista1 + lista2
lista3

[1, 2, 3, 4, 5, 6, 7, 8]

In [4]:
lista3 = []

for i in range(len(lista1)):
    lista3.append(lista1[i] + lista2[i])

lista3

[6, 8, 10, 12]

## A biblioteca **NumPy**

A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que já conhecemos, além de várias outras bibliotecas importantes pra ciência de dados!

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, ou, de forma mais genérica, **tensores**.

<img src="https://predictivehacks.com/wp-content/uploads/2020/08/numpy_arrays-1024x572.png" width=500>

### Criando arrays

In [5]:
import numpy as np

Para criar arrays **a partir de uma lista**, basta utilizar a função ```np.array()```.

In [6]:
lista1

[1, 2, 3, 4]

In [9]:
arr = np.array(lista1)

arr

array([1, 2, 3, 4])

In [10]:
print(arr)

[1 2 3 4]


Outras formas de inicializar arrays...

In [11]:
# Array de zeros com np.zeros(n)

np.zeros(5)

array([0., 0., 0., 0., 0.])

In [12]:
# Array de uns com np.ones(n)

np.ones(5)

array([1., 1., 1., 1., 1.])

In [13]:
# Array de números em sequência com np.arange()

np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [15]:
np.arange(10, 20, 3) # Parte de 10 e vai até 20, com passo 3.

array([10, 13, 16, 19])

Diferente do ```range()```, ```np.arange()``` permite que tenhamos um passo do tipo ```float```:

In [16]:
np.arange(10, 20, 0.5)

array([10. , 10.5, 11. , 11.5, 12. , 12.5, 13. , 13.5, 14. , 14.5, 15. ,
       15.5, 16. , 16.5, 17. , 17.5, 18. , 18.5, 19. , 19.5])

```np.linspace()``` para criar um array com **sequência de valores igualmente espaçados**.

Primeiro argumento: início do intervalo (incluso na sequência);

Segundo argumento: fim do intervalo (incluso na sequência);

Terceiro argumento: quantidade de elementos.

In [17]:
np.linspace(10, 20, 5)

array([10. , 12.5, 15. , 17.5, 20. ])

```np.random.rand()``` para criar um array com **valores aleatórios de uma distribuição uniforme entre 0 e 1**.

In [18]:
np.random.rand(10)

array([0.43606319, 0.26299976, 0.64016345, 0.27064182, 0.67146204,
       0.92905432, 0.19306905, 0.12730415, 0.26317352, 0.59773328])

Para fixarmos a aleatoriedade e a deixarmos mais controlada tendo em vista uma reprodutividade (**números aleatórios reprodutíveis**), basta plantarmos uma semente específica utilizando ```np.random.seed()```.

In [21]:
np.random.seed(42)
np.random.rand(10)

array([0.37454012, 0.95071431, 0.73199394, 0.59865848, 0.15601864,
       0.15599452, 0.05808361, 0.86617615, 0.60111501, 0.70807258])

```np.random.randint()``` para criar um array com **números inteiros aleatórios** dentro de um intervalo (**com reposição**).

Argumentos: início do intervalo, fim do intervalo (exclusivo) e quantidade de números.

In [22]:
np.random.randint(10, 100, 20)

array([31, 62, 11, 97, 39, 47, 11, 73, 69, 30, 42, 85, 67, 31, 98, 58, 68,
       51, 69, 89])

```np.random.choice()``` para criar um array de **números inteiros aleatórios** entre 10 e 100 **sem reposição**:

In [25]:
np.random.choice(np.arange(10, 101), 20, replace=False)

array([49, 17, 92, 40, 19, 16, 27, 34, 23, 24, 99, 65, 43, 62, 22, 47, 55,
       83, 80, 30])

```np.random.normal()``` para criar um array com **números aleatórios de uma distribuição normal**.

Argumentos: média, desvio padrão e quantidade de números.

In [24]:
np.random.normal(0, 1, 20)

array([-2.04442302,  1.06948089, -0.93376284,  0.78420819, -0.61487576,
        0.33289244, -1.38071702, -0.28080629, -0.05981726,  0.96117377,
        1.79428084,  0.58068954,  0.29765045, -1.02811577, -1.41859646,
        0.19033698,  0.13575383,  0.60808966,  0.70498131,  0.36092338])

### Indexação

É possível acessar elementos individuais dos arrays pelos índices, da mesma forma que fazemos com listas.

In [27]:
arr = np.arange(2, 50, 3)

arr

array([ 2,  5,  8, 11, 14, 17, 20, 23, 26, 29, 32, 35, 38, 41, 44, 47])

In [28]:
arr[3]

11

In [29]:
arr[-3]

41

In [30]:
arr[:4]

array([ 2,  5,  8, 11])

In [31]:
arr[-5:]

array([35, 38, 41, 44, 47])

In [32]:
arr[3:5]

array([11, 14])

### Operações

É possível fazer operações matemáticas elemento a elemento.

In [33]:
arr1 = np.random.randint(10, 50, 7)
arr2 = np.linspace(1, 10, 7)

print(arr1)
print(arr2)

[42 49 48 27 49 10 20]
[ 1.   2.5  4.   5.5  7.   8.5 10. ]


In [34]:
arr1 + arr2

array([43. , 51.5, 52. , 32.5, 56. , 18.5, 30. ])

In [35]:
arr1

array([42, 49, 48, 27, 49, 10, 20])

In [37]:
arr1 + 2 # Somará 2 a cada um dos elementos

array([44, 51, 50, 29, 51, 12, 22])

In [39]:
arr1 * 2 # Multiplicará cada elemento por 2

array([84, 98, 96, 54, 98, 20, 40])

Para **transformar um array em uma lista** utilizamos ```tolist()```:

In [41]:
arr1.tolist()

[42, 49, 48, 27, 49, 10, 20]

Revisando para somar 2 a cada elemento de uma lista:

In [42]:
[elemento + 2 for elemento in lista1]

[44, 51, 50, 29, 51, 12, 22]

Para criar um **array de cincos**:

In [43]:
np.ones(10) * 5

array([5., 5., 5., 5., 5., 5., 5., 5., 5., 5.])

### Métodos

In [45]:
np.random.seed(42)

arr = np.random.randint(0, 500, 50)

arr

array([102, 435, 348, 270, 106,  71, 188,  20, 102, 121, 466, 214, 330,
       458,  87, 372,  99, 359, 151, 130, 149, 308, 257, 343, 491, 413,
       293, 385, 191, 443, 276, 160, 459, 313,  21, 252, 235, 344,  48,
       474,  58, 169, 475, 187, 463, 270, 189, 445, 174, 445])

**Maior valor do array**:

In [46]:
arr.max()

491

**Índice do elemento máximo**:

In [47]:
arr.argmax()

24

**Menor valor do array**:

In [48]:
arr.min()

20

**Índice do elemento mínimo**:

In [49]:
arr.argmin()

7

**Soma de todos os elementos**:

In [50]:
arr.sum()

13159

**Média de todos os elementos**:

In [51]:
arr.mean()

263.18

**Desvio padrão**:

In [52]:
arr.std()

142.08654968011575

**Trocando o tipo dos dados nas listas com o ```.astype()```**:

In [53]:
arr.dtype

dtype('int32')

In [54]:
arr.astype(float)

array([102., 435., 348., 270., 106.,  71., 188.,  20., 102., 121., 466.,
       214., 330., 458.,  87., 372.,  99., 359., 151., 130., 149., 308.,
       257., 343., 491., 413., 293., 385., 191., 443., 276., 160., 459.,
       313.,  21., 252., 235., 344.,  48., 474.,  58., 169., 475., 187.,
       463., 270., 189., 445., 174., 445.])

### Matrizes

In [55]:
matriz = [[1, 2, 3],
          [4, 5, 6]]

matriz[1][1]

5

In [58]:
print(matriz)

[[1, 2, 3], [4, 5, 6]]


In [57]:
matriz_arr = np.array(matriz)

print(matriz_arr)

[[1 2 3]
 [4 5 6]]


**Array unidimensional (com o arrange)**

In [59]:
arr = np.arange(10)

arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Atributo ```.shape``` mostra a dimensão do array.

Notação: (número de linhas, número de colunas)

In [60]:
arr.shape

(10,)

Uma **matriz** é um **array bidimensional**.

Vamos começar criando matrizes a partir do ```reshape()``` de vetores: (é garantir que o número de elementos seja o mesmo)

In [65]:
matriz2 = arr.reshape((5, 2))

matriz2

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [62]:
arr.reshape((2, 5))

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

Também é possível indexar matrizes. Há duas formas de **indexação**:

- Elemento[3][1] - quarta linha e segunda coluna:

In [66]:
matriz2[3][1]

7

- Elemento[3, 1] - quarta linha e segunda coluna:

In [67]:
matriz2[3, 1]

7

**Fatiamento de matriz**

In [68]:
matriz2

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [69]:
matriz2[:2,:2]

array([[0, 1],
       [2, 3]])

**Matriz identidade** utilizando o método ```np.eye()```:

In [70]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

Também é possível inicializar matrizes diretamente, sempre que for possível especificar o argumento ```shape``` ou ```size``` em uma função.

In [71]:
np.arange(10).reshape((5,2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [72]:
np.random.randint(100, 200, (3, 3))

array([[150, 154, 163],
       [102, 150, 106],
       [120, 172, 138]])

In [73]:
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

**Filtros (máscaras)**

In [74]:
arr = np.random.randint(0, 100, 20)

In [75]:
arr

array([17,  3, 88, 59, 13,  8, 89, 52,  1, 83, 91, 59, 70, 43,  7, 46, 34,
       77, 80, 35])

In [76]:
arr > 50

array([False, False,  True,  True, False, False,  True,  True, False,
        True,  True,  True,  True, False, False, False, False,  True,
        True, False])

In [77]:
arr[arr > 50]

array([88, 59, 89, 52, 83, 91, 59, 70, 77, 80])

In [78]:
arr[arr < 50]

array([17,  3, 13,  8,  1, 43,  7, 46, 34, 35])

- Números pares:

In [79]:
arr % 2 == 0

array([False, False,  True, False, False,  True, False,  True, False,
       False, False, False,  True, False, False,  True,  True, False,
        True, False])

In [80]:
arr[arr % 2 == 0]

array([88,  8, 52, 70, 46, 34, 80])

- Números pares maiores que 50:

In [81]:
arr[(arr % 2 == 0) & (arr > 50)]

array([88, 52, 70, 80])