# NumPy

- https://numpy.org/
- O nome NumPy vem de Numerical Python
    - Biblioteca de computação numérica
    - Otimizada para cálculos pesados
<br><br>
- No NumPy vamos trabalhar com **arrays**, que são mais rápidos e mais performáticos que listas
    - Arrays são estruturas de dados que guardam itens **do mesmo tipo** (diferente das listas)
        - **["As operações matemáticas que devem ser executadas em arrays seriam extremamente ineficientes se os arrays não fossem homogêneos."](https://numpy.org/doc/stable/user/absolute_beginners.html#whats-the-difference-between-a-python-list-and-a-numpy-array)** 
    - Assim como **listas**, são um conjunto de **elementos ordenados que são mutáveis e de comprimento variável**
    - Além disso, **podemos fazer várias operações com arrays (como multiplicação e soma) que não podem ser feitas com listas** mas são fundamentais para o nosso processo de Ciência de dados
    - Obs: listas são estrutudas de dados do Python e arrays não, **array é uma estrutura de dados própria do numpy**

In [1]:
import numpy as np

- **A importância do NumPy**
    - Vamos supor que temos a venda e comissão (em percentual) de 5 vendedores e queremos saber qual vai ser o salário de cada um deles (para isso precisamos multiplicar a venda pela comissão dividida por 100)

In [8]:
# Venda e comissão
venda_valor = [150000,230000,82000,143000,184000]
comissao = [5,8,8,5,12]

In [9]:
type(venda_valor)
type(comissao)

list

In [None]:
# Ao tentar fazer essa operação com listas, teremos um erro

- **Podemos transformar uma lista em um array**
    - https://numpy.org/doc/stable/user/basics.creation.html#converting-python-sequences-to-numpy-arrays

In [13]:
venda_valor_array = np.array(venda_valor)
comissao_array = np.array(comissao)

In [14]:
# Agora vamos conseguir fazer sendo um array
(comissao_array*venda_valor_array)/100

array([ 7500., 18400.,  6560.,  7150., 22080.])

- **Agora que vimos a importância do array, podemos falar um pouco mais sobre ele**
    - https://numpy.org/doc/stable/user/quickstart.html

In [19]:
# Copiando o exemplo
a = np.arange(15).reshape(3,5) # cria uma matriz de 15 numeros de 3 linha e 5 colunas


In [20]:
# Verificando a dimensão desse array
a.ndim

2

In [21]:
# Verificando a forma do array
a.shape

(3, 5)

In [22]:
# Verificando o tipo dos dados
a.dtype

dtype('int32')

- Primeiro tente responder o tipo de dado dos 3 arrays abaixo e depois escreva o código para o numpy retornar essa informação

In [31]:
# Considerando os 3 arrays abaixo
array1 = np.array([1,2,3,4,5])
array2 = np.array([1,2,3,4.5,5])
array3 = np.array([1,2,3,'4',5])

In [32]:
# Verificando o tipo de dado do primeiro array e retornando esse array
array1.dtype

dtype('int32')

In [33]:
# Fazendo a mesma coisa para o array2
array2.dtype

dtype('float64')

In [34]:
# E para o array3
array3.dtype

dtype('<U11')

- **Criando o nosso próprio array**

In [36]:
# Criando um array qualquer de números inteiros

a = np.array([1,2,3,4,5])
a

array([1, 2, 3, 4, 5])

In [37]:
# Criando um segundo array com valores decimais

b = np.array([1.5,3,4.5,6])
b

array([1.5, 3. , 4.5, 6. ])

In [42]:
# Criando um array apenas de valores zero
np.zeros(8).reshape(4,2)

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [44]:
# Criando um array com uma lista de valores
np.arange(101)

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100])

In [45]:
# Adicionando um intervalo para o array

np.arange(15,26)

array([15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25])

In [46]:
# Adicionando um "passo" para o array
np.arange(5, 26, 5)

array([ 5, 10, 15, 20, 25])

In [49]:
# Criando um novo array com os valores igualmente espaçados (utilizando o linspace)
np.linspace(5, 10, 10)

array([ 5.        ,  5.55555556,  6.11111111,  6.66666667,  7.22222222,
        7.77777778,  8.33333333,  8.88888889,  9.44444444, 10.        ])

- O array de uma dimensão é o que chamamos de vetor e o de duas dimensões de matriz

In [50]:
# Vamos considerar esses dados abaixo
dados_venda = np.array([[150000,230000,82000,143000,184000],[5,8,8,5,12]])

In [51]:
# Verificando a forma do array
dados_venda.shape

(2, 5)

In [52]:
# Verificando o tipo dos dados
dados_venda.dtype

dtype('int32')

In [53]:
# Agora considerando esses novos dados
dados_venda = np.array([['Lucas','Bia','Jean','Gabi','Pedro'],[150000,230000,82000,143000,184000]])

In [54]:
# Verificando a forma do array
dados_venda.shape

(2, 5)

In [55]:
# Verificando o tipo dos dados
dados_venda.dtype

dtype('<U11')

- **Assim como listas, também podemos buscar elementos no array utilizando seus índices**
    - https://numpy.org/doc/stable/user/basics.indexing.html

In [56]:
# Utilizando o mesmo array do exemplo
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [58]:
# Buscando a primeira linha
a[0]

array([0, 1, 2, 3, 4])

In [63]:
# Na primeira linha, buscando o elemento de índice 3
a[0][3]


3

In [64]:
# Buscando os elementos de índice 1 a 3 (incluindo o 3) na primeira linha
a[0][1:4]

array([1, 2, 3])

In [65]:
# Buscando apenas os valores maiores que 5
a[a > 5]

array([ 6,  7,  8,  9, 10, 11, 12, 13, 14])

In [72]:
# Buscando valores maiores que 5 E (&) menores que 11
a[(5 < a) & (a < 11)]

array([ 6,  7,  8,  9, 10])

In [73]:
# Visualizando o array
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

- **Operações com array**
    - https://numpy.org/doc/stable/user/absolute_beginners.html#basic-array-operations

In [76]:
# Considerando o array abaixo
dados = np.arange(6).reshape(2, 3)
dados

array([[0, 1, 2],
       [3, 4, 5]])

In [77]:
# Somando todos os valores
dados.sum()

15

In [78]:
# Somando apenas os valores da linha
dados.sum(axis = 1)

array([ 3, 12])

In [79]:
# Fazendo a soma acumulada desses valores
dados.cumsum(axis = 1)

array([[ 0,  1,  3],
       [ 3,  7, 12]])

In [80]:
# Somando apenas os valores da coluna
dados.sum(axis = 0)

array([3, 5, 7])

In [81]:
# Somando 1 em todos os valores
dados + 1

array([[1, 2, 3],
       [4, 5, 6]])

In [82]:
# Multiplicando 2 em todos os valores do array
dados * 2

array([[ 0,  2,  4],
       [ 6,  8, 10]])

In [83]:
# Verificando o menor valor desse array
dados.min()

0

In [87]:
# E agora o maior valor
dados.max()

2

In [89]:
# Calculando a média da primeira linha
dados[0].mean()

1.0

In [90]:
# E da segunda linha
dados[1].mean()

4.0

In [91]:
# Verificando a mediana
np.median(dados)

2.5

- Inclusive podemos fazer operação entre arrays

In [93]:
# Considerando esses 2 arrays
array1 = np.array([1,2,3,4,5])
array2 = np.array([7,8,9,10,11])

In [94]:
# Somando os arrays
array1 + array2

array([ 8, 10, 12, 14, 16])

In [95]:
# Multiplicando esses arrays
array1*array2

array([ 7, 16, 27, 40, 55])

In [96]:
# Potência
array1**array2

array([       1,      256,    19683,  1048576, 48828125])