# Numpy

Quando falamos em computação científica, uma das bibliotecas mais importantes é o Numpy. Basicamente, Numpy é uma biblioteca python que permite a criação do que conhecemos como *ndarrays*, que são vetores que permitem realizar operações com alta perfomance e, em geral, sem loops explícitos. Devido a sua velocidade é muito utilizada no mundo de Data Science.

## Mas por qual motivo os *ndarrays* são mais rápidos que as listas em python?

Para isso, vamos entender como a lista armazena seus elementos:

**Lista**

![img1.png](attachment:image-2.png)

**ndarray**

![img2.png](attachment:image-3.png)

Ou seja, no *ndarray* salvamos diretamente o elemento e não uma referência dele. Dessa forma, sabendo o tipo de *ndarray* que estamos usando (inteiros, float, etc) sabemos exatamente quanto de espaço precisamos e além disso não precisamos ficar verificando o tipo do elemento, como na lista, onde sabemos apenas a referência do elemento e precisamos verificar de que tipo ele é, o que é um procedimento mais custoso que no numpy.

Além disso, o Numpy é escrito na linguagem C, que é uma linguagem bem mais performática.

Esses fatores em conjunto fazem com que ele seja uma opção extremamente rápida para efetuar operações vetoriais e matriciais.

## 1. Instalação

Instalar o numpy, assim como outras bibliotecas, é algo muito simples em Python. Para fazer isso temos duas opções, mas antes, abra seu terminal!

- ```conda install numpy```

OU

- ```pip install numpy```

In [3]:
import numpy as np

## 2. O que é um array?

![img3.png](attachment:image.png)

## 3. Criando um array

As formas mais comuns de se criar um array são:

- Convertendo outras estruturas do python, como lista ou tuplas, para um array;
- Usando função do Numpy que nos retornam arrays (arange, ones, zeros, etc);
- Juntando, copiando ou alterando um array que já existe;
- Lendo arrays diretamente do disco;

Sendo que as três primeiras serão a que mais vamos ver e são as mais usadas no mundo de data science.

### 3.1. Convertendo outras estruturas do python

In [4]:
lista = [1,2,3,4,5,6]
meu_array = np.array(lista)
meu_array

array([1, 2, 3, 4, 5, 6])

In [8]:
lista = [1,2,3,4,5,6]
meu_array = np.array(lista, dtype=float)
meu_array

array([1., 2., 3., 4., 5., 6.])

In [9]:
lista_de_listas = [[1,2,3], [4,5,6], [7,8,9]]
meu_array = np.array(lista_de_listas)
meu_array

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### 3.2 Usando funções prontas

In [11]:
# Funciona como o range que conhecemos
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
np.zeros(4)

array([0., 0., 0., 0.])

In [13]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [15]:
# apenas aloca memória para nos. Os elementos que aparecem eh o que ja estavam na memoria
np.empty(3)

array([2.00000047e+00, 5.12000123e+02, 8.19200197e+03])

In [17]:
# Quero 5 elementos de 0 ate 10 (incluso)
np.linspace(0, 10, num=5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [51]:
#np.full(shape, valor)
np.full(2, 3)

array([3, 3])

### 3.3. Criando array a partir de um arquivo

In [72]:
np.loadtxt('array.txt', delimiter = ',') 

array([[0., 1., 2., 3., 4., 5., 6.],
       [3., 4., 5., 6., 7., 8., 9.]])

## 4. Informações do array

In [20]:
lista = [1,2,3,4,5,6]
array_1 = np.array(lista, dtype=float)

lista_de_listas = [[1,2,3], [4,5,6], [7,8,9]]
array_2 = np.array(lista_de_listas)

In [25]:
array_1

array([1., 2., 3., 4., 5., 6.])

In [26]:
array_2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [28]:
print(f"Numero de dimensoes do array_1: {array_1.ndim}")
print(f"Numero de dimensoes do array_2: {array_2.ndim}")

Numero de dimensoes do array_1: 1
Numero de dimensoes do array_2: 2


In [27]:
print(f"Numero total de elementos do array_1: {array_1.size}")
print(f"Numero total de elementos do array_2: {array_2.size}")

Numero total de elementos do array_1: 6
Numero total de elementos do array_2: 9


In [29]:
print(f"Numero de elementos por dimensao do array_1: {array_1.shape}")
print(f"Numero de elementos por dimensao do array_2: {array_2.shape}")

Numero de elementos por dimensao do array_1: (6,)
Numero de elementos por dimensao do array_2: (3, 3)


## 5. Indexação e fatiamento

In [33]:
lista = [1,2,3,4,5,6]
array_1 = np.array(lista)
array_1

array([1, 2, 3, 4, 5, 6])

In [34]:
# Pegar elemento 0
array_1[0]

1

In [35]:
# Pegar ate o quarto elemento
array_1[:4]

array([1, 2, 3, 4])

![img4.png](attachment:image.png)

In [36]:
# Tambem podemos filtrar os elementos e trazer aqueles que atendem nossa condicao
array_1 < 5

array([ True,  True,  True,  True, False, False])

In [37]:
array_1[array_1 < 5]

array([1, 2, 3, 4])

In [38]:
array_1[np.array([True, False, True, False, False, False])]

array([1, 3])

In [41]:
array_1

array([1, 2, 3, 4, 5, 6])

In [40]:
# E se eu quiser saber os indices dos elementos que atendem minha condicao?
np.nonzero(array_1 % 2 == 0)

(array([1, 3, 5], dtype=int64),)

## 6. Operações básicas

O Numpy nos permite fazer operações entre arrays e entre array e escalar! Tudo isso de um jeito muito direto e sem necessitar de loops.

In [42]:
array_1 = np.array([0, 1, 2, 3, 4, 5])
array_1 * 3

array([ 0,  3,  6,  9, 12, 15])

In [43]:
array_1

array([0, 1, 2, 3, 4, 5])

In [44]:
array_1 = array_1 * 3
array_1

array([ 0,  3,  6,  9, 12, 15])

In [45]:
array_1 = np.array([0, 1, 2, 3, 4, 5])
array_1 + 4

array([4, 5, 6, 7, 8, 9])

In [46]:
array_1 - 6

array([-6, -5, -4, -3, -2, -1])

Essas operações entre arrays e escalares o numpy chama de *Broadcasting*.

![img5.png](attachment:image.png)

In [47]:
# Operacoes entre array

array_1 = np.array([0, 1, 2, 3, 4, 5])
array_2 = np.array([5, 4, 3, 2, 1, 0])

array_1 + array_2

array([5, 5, 5, 5, 5, 5])

In [48]:
array_1 * array_2

array([0, 4, 6, 6, 4, 0])

In [52]:
array_3 = np.full(6, 20)
array_3

array([20, 20, 20, 20, 20, 20])

In [53]:
array_1 / array_3

array([0.  , 0.05, 0.1 , 0.15, 0.2 , 0.25])

## 7. Funções úteis

In [59]:
array_1 = np.array([0, 1, 2, 3, 5, 4])

In [60]:
array_1.sum()

15

In [61]:
array_1.max()

5

In [62]:
array_1.min()

0

In [67]:
# Retorna o indice do maximo elemento
array_1.argmax()

4

In [68]:
array_1.mean()

2.5

In [69]:
array_1.cumsum()

array([ 0,  1,  3,  6, 11, 15], dtype=int32)

## Comparando array com lista

In [2]:
import random

minha_lista = [random.randint(0, 100) for i in range(10000000)]
meu_array = np.random.randint(0, 100, 10000000)

In [3]:
len(minha_lista), meu_array.shape

(10000000, (10000000,))

In [4]:
%%timeit
soma = 0
for el in minha_lista:
    soma += el

477 ms ± 20 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [6]:
%%timeit
sum(minha_lista)

69.4 ms ± 2.58 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [5]:
%%timeit
meu_array.sum()

4.44 ms ± 316 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
