# NumPy

- https://numpy.org/
- O nome NumPy vem de Numerical Python
    - Biblioteca de computação numérica
    - Otimizada para cálculos pesados
<br><br>
- No NumPy vamos trabalhar com **arrays**, que são mais rápidos e mais performáticos que listas
    - Arrays são estruturas de dados que guardam itens **do mesmo tipo** (diferente das listas)
        - **["As operações matemáticas que devem ser executadas em arrays seriam extremamente ineficientes se os arrays não fossem homogêneos."](https://numpy.org/doc/stable/user/absolute_beginners.html#whats-the-difference-between-a-python-list-and-a-numpy-array)** 
    - Assim como **listas**, são um conjunto de **elementos ordenados que são mutáveis e de comprimento variável**
    - Além disso, **podemos fazer várias operações com arrays (como multiplicação e soma) que não podem ser feitas com listas** mas são fundamentais para o nosso processo de Ciência de dados
    - Obs: listas são estrutudas de dados do Python e arrays não, **array é uma estrutura de dados própria do numpy**

In [2]:
# Importar o numpy
import numpy as np

- **A importância do NumPy**
    - Vamos supor que temos a venda e comissão (em percentual) de 5 vendedores e queremos saber qual vai ser o salário de cada um deles (para isso precisamos multiplicar a venda pela comissão dividida por 100)

In [2]:
# Venda e comissão
venda_valor = [150000,230000,82000,143000,184000]
comissao = [5,8,8,5,12]

In [10]:
# Qual o tipo desse dado?
type(venda_valor)

list

In [14]:
# Ao tentar fazer essa operação com listas, teremos um erro
venda_valor*(comissao/100)

TypeError: unsupported operand type(s) for /: 'list' and 'int'

- **Podemos transformar uma lista em um array**
    - https://numpy.org/doc/stable/user/basics.creation.html#converting-python-sequences-to-numpy-arrays

In [17]:
# Transformando em um array
venda_valor_array=np.array(venda_valor)
comissao_array=np.array(comissao)

In [20]:
# Agora vamos conseguir fazer sendo um array (salario é uma array tbm)
salario=comissao*(venda_valor_array/100)
print(salario)

[ 7500. 18400.  6560.  7150. 22080.]


- **Agora que vimos a importância do array, podemos falar um pouco mais sobre ele**
    - https://numpy.org/doc/stable/user/quickstart.html

In [9]:
# EXEMPLO 1
# arange = quantidade de dados
# reshape = quantidade de linhas e colunas do array
a1 = np.arange(15).reshape(3,5)
a1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [10]:
# EXEMPLO 2
# arange = quantidade de dados
# parametros do array = (numero inicial, numero final que n vai contar)
a2 = np.arange(2,7)
a2

array([2, 3, 4, 5, 6])

In [11]:
# EXEMPLO 3
# arange = quantidade de dados (Se passar o parametros, ele exclui o ultimo)
# parametros do array = (numero inicial, numero final que n vai contar, pulando)
a3 = np.arange(2,10,2)
a3

array([2, 4, 6, 8])

## VETOR = ARRAY EM UMA DIMENSÃO (UMA LINHA)
## MATRIZ = ARRAY COM MAIS DE UMA DIMENSÃO

In [15]:
# Verificando a dimensão desse array
a1.ndim

2

In [17]:
# Verificando a forma do array
a1.shape

(3, 5)

In [18]:
# Verificando o tipo dos dados
a1.dtype

dtype('int32')

- Primeiro tente responder o tipo de dado dos 3 arrays abaixo e depois escreva o código para o numpy retornar essa informação

In [19]:
# Considerando os 3 arrays abaixo
array1 = np.array([1,2,3,4,5])
array2 = np.array([1,2,3,4.5,5])
array3 = np.array([1,2,3,'4',5])

In [23]:
# Verificando o tipo de dado do primeiro array e retornando esse array
array1.dtype

dtype('int32')

In [24]:
# Fazendo a mesma coisa para o array2
array2.dtype

dtype('float64')

In [25]:
# E para o array3
array3.dtype

dtype('<U11')

- **Criando o nosso próprio array**

In [26]:
# Criando um array qualquer de números inteiros
a = np.array([1,2,3,4,5])
a

array([1, 2, 3, 4, 5])

In [27]:
# Criando um segundo array com valores decimais
b = np.array([1,2,3,4.7,5])
b

array([1. , 2. , 3. , 4.7, 5. ])

In [30]:
# Criando um array apenas de valores zero e transformando em matriz
c = np.zeros(8).reshape(2,4)
c

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [33]:
# Criando um array com uma lista de valores (o ultimo numero n é mostrado)
d = np.arange(101)
d

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100])

In [36]:
# Adicionando um intervalo para o array
e = np.arange(15,26)
e

array([15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25])

In [37]:
# Adicionando um "passo" para o array
f = np.arange(15,26,2)
f

array([15, 17, 19, 21, 23, 25])

In [44]:
# Criando um novo array com os valores igualmente espaçados (utilizando o linspace)
# parametros linspace = (valor inicial, valor final, qtde de valores)
g = np.linspace(5,10,10)
g

array([ 5.        ,  5.55555556,  6.11111111,  6.66666667,  7.22222222,
        7.77777778,  8.33333333,  8.88888889,  9.44444444, 10.        ])

- O array de uma dimensão é o que chamamos de vetor e o de duas dimensões de matriz

In [49]:
# Vamos considerar esses dados abaixo
dados_venda = np.array([[150000,230000,82000,143000,184000],[5,8,8,5,12]])
dados_venda

array([[150000, 230000,  82000, 143000, 184000],
       [     5,      8,      8,      5,     12]])

In [48]:
# Verificando a forma do array
dados_venda.shape

(2, 5)

In [50]:
# Verificando o tipo dos dados
dados_venda.dtype

dtype('int32')

In [52]:
# Agora considerando esses novos dados
dados_venda2 = np.array([['Lucas','Bia','Jean','Gabi','Pedro'],[150000,230000,82000,143000,184000]])
dados_venda2

array([['Lucas', 'Bia', 'Jean', 'Gabi', 'Pedro'],
       ['150000', '230000', '82000', '143000', '184000']], dtype='<U11')

In [53]:
# Verificando a forma do array
dados_venda2.shape

(2, 5)

In [55]:
# Verificando o tipo dos dados
dados_venda2.dtype

dtype('<U11')

- **Assim como listas, também podemos buscar elementos no array utilizando seus índices**
    - https://numpy.org/doc/stable/user/basics.indexing.html

In [3]:
# Utilizando o mesmo array do exemplo
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [10]:
# Buscando a primeira linha
a[0]

array([0, 1, 2, 3, 4])

In [12]:
# Na primeira linha, buscando o elemento de índice 3
a[0][3]

3

In [14]:
# Buscando os elementos de índice 1 a 3 (incluindo o 3) na primeira linha
a[0][1:4]

array([1, 2, 3])

In [17]:
# Buscando apenas os valores maiores que 5
a[a>5]

array([ 6,  7,  8,  9, 10, 11, 12, 13, 14])

In [21]:
# Buscando valores maiores que 5 E (&) menores que 11. OBS: ou é | (barra reta)
novo_array = a[(a>5)&(a<11)]

In [24]:
# Visualizando o array
novo_array

array([ 6,  7,  8,  9, 10])

- **Operações com array**
    - https://numpy.org/doc/stable/user/absolute_beginners.html#basic-array-operations

In [26]:
# Considerando o array abaixo
dados = np.arange(6).reshape(2, 3)
dados

array([[0, 1, 2],
       [3, 4, 5]])

In [27]:
# Somando todos os valores
dados.sum()

15

In [28]:
# Somando apenas os valores da linha
dados.sum(axis=1)

array([ 3, 12])

In [30]:
# Fazendo a soma acumulada desses valores
dados.cumsum(axis=1)

array([[ 0,  1,  3],
       [ 3,  7, 12]], dtype=int32)

In [31]:
# Somando apenas os valores da coluna
dados.sum(axis=0)

array([3, 5, 7])

In [32]:
# Somando 1 em todos os valores
dados+1

array([[1, 2, 3],
       [4, 5, 6]])

In [33]:
# Multiplicando 2 em todos os valores do array
dados*2

array([[ 0,  2,  4],
       [ 6,  8, 10]])

In [36]:
# Verificando o menor valor desse array
dados.min()
# Verificando o menor valor desse array na primeira linha
dados.min(axis=1)

array([0, 3])

In [37]:
# E agora o maior valor
dados.max()
# Verificando o menor valor desse array na primeira linha
dados.max(axis=1)

array([2, 5])

In [40]:
# Calculando a média da primeira linha
dados[0].mean()

1.0

In [41]:
# E da segunda linha
dados[1].mean()

4.0

In [42]:
# Verificando a mediana
np.median(dados)

2.5

- Inclusive podemos fazer operação entre arrays

In [45]:
# Considerando esses 2 arrays
array1 = np.array([1,2,3,4,5])
array2 = np.array([7,8,9,10,11])

In [46]:
# Somando os arrays
array1+array2

array([ 8, 10, 12, 14, 16])

In [47]:
# Multiplicando esses arrays
array1*array2

array([ 7, 16, 27, 40, 55])

In [49]:
# Potência
array1**array2

array([       1,      256,    19683,  1048576, 48828125], dtype=int32)