# NumPy

- https://numpy.org/
- O nome NumPy vem de Numerical Python
    - Biblioteca de computação numérica
    - Otimizada para cálculos pesados
<br><br>
- No NumPy vamos trabalhar com **arrays**, que são mais rápidos e mais performáticos que listas
    - Arrays são estruturas de dados que guardam itens **do mesmo tipo** (diferente das listas)
        - **["As operações matemáticas que devem ser executadas em arrays seriam extremamente ineficientes se os arrays não fossem homogêneos."](https://numpy.org/doc/stable/user/absolute_beginners.html#whats-the-difference-between-a-python-list-and-a-numpy-array)** 
    - Assim como **listas**, são um conjunto de **elementos ordenados que são mutáveis e de comprimento variável**
    - Além disso, **podemos fazer várias operações com arrays (como multiplicação e soma) que não podem ser feitas com listas** mas são fundamentais para o nosso processo de Ciência de dados
    - Obs: listas são estrutudas de dados do Python e arrays não, **array é uma estrutura de dados própria do numpy**

In [1]:
# Importar o numpy
import numpy as np

- **A importância do NumPy**
    - Vamos supor que temos a venda e comissão (em percentual) de 5 vendedores e queremos saber qual vai ser o salário de cada um deles (para isso precisamos multiplicar a venda pela comissão dividida por 100)

In [2]:
# Venda e comissão
venda_valor = [150000,230000,82000,143000,184000]
comissao = [5,8,8,5,12]

In [3]:
# Qual o tipo desse dado?

type(venda_valor)

list

In [4]:
# Ao tentar fazer essa operação com listas, teremos um erro
#venda_valor*comissao

- **Podemos transformar uma lista em um array**
    - https://numpy.org/doc/stable/user/basics.creation.html#converting-python-sequences-to-numpy-arrays

In [5]:
# Transformando em um array
vendaValorArray = np.array(venda_valor)
comissaoArray = np.array(comissao)


In [6]:
# Agora vamos conseguir fazer sendo um array

vendaValorArray*(comissaoArray/100)

array([ 7500., 18400.,  6560.,  7150., 22080.])

- **Agora que vimos a importância do array, podemos falar um pouco mais sobre ele**
    - https://numpy.org/doc/stable/user/quickstart.html

In [7]:
# Copiando o exemplo

a = np.arange(15).reshape(3, 5)

In [8]:
# Verificando a dimensão desse array
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [9]:
# Verificando a forma do array

a.shape


(3, 5)

In [10]:
# Verificando o tipo dos dados

a.dtype

dtype('int32')

- Primeiro tente responder o tipo de dado dos 3 arrays abaixo e depois escreva o código para o numpy retornar essa informação

In [11]:
# Considerando os 3 arrays abaixo
array1 = np.array([1,2,3,4,5])
array2 = np.array([1,2,3,4.5,5])
array3 = np.array([1,2,3,'4',5])

In [12]:
# Verificando o tipo de dado do primeiro array e retornando esse array

array1.dtype



dtype('int32')

In [13]:
# Fazendo a mesma coisa para o array2
array2.dtype

dtype('float64')

In [14]:
# E para o array3
array3.dtype

dtype('<U11')

- **Criando o nosso próprio array**

In [15]:
# Criando um array qualquer de números inteiros

a=np.array([1,2,3,4,5])
a

array([1, 2, 3, 4, 5])

In [16]:
# Criando um segundo array com valores decimais
b =np.array([1.0,2.0,3.0,4.0,5.0])
b.dtype


dtype('float64')

In [17]:
# Criando um array apenas de valores zero
np.zeros(8).reshape(2,4)

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [18]:
# Criando um array com uma lista de valores
np.arange(101)

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100])

In [19]:
# Adicionando um intervalo para o array
np.arange(25,101)

array([ 25,  26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,
        38,  39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,
        51,  52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,
        64,  65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,
        77,  78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,
        90,  91,  92,  93,  94,  95,  96,  97,  98,  99, 100])

In [20]:
# Adicionando um "passo" para o array
np.arange(0,101,2)

array([  0,   2,   4,   6,   8,  10,  12,  14,  16,  18,  20,  22,  24,
        26,  28,  30,  32,  34,  36,  38,  40,  42,  44,  46,  48,  50,
        52,  54,  56,  58,  60,  62,  64,  66,  68,  70,  72,  74,  76,
        78,  80,  82,  84,  86,  88,  90,  92,  94,  96,  98, 100])

In [21]:
# Criando um novo array com os valores igualmente espaçados (utilizando o linspace)

np.linspace(5,20,10)

array([ 5.        ,  6.66666667,  8.33333333, 10.        , 11.66666667,
       13.33333333, 15.        , 16.66666667, 18.33333333, 20.        ])

- O array de uma dimensão é o que chamamos de vetor e o de duas dimensões de matriz

In [22]:
# Vamos considerar esses dados abaixo
dados_venda = np.array([[150000,230000,82000,143000,184000],[5,8,8,5,12]])

In [23]:
# Verificando a forma do array
dados_venda.shape

(2, 5)

In [24]:
# Verificando o tipo dos dados
dados_venda.dtype

dtype('int32')

In [25]:
# Agora considerando esses novos dados
dados_venda = np.array([['Lucas','Bia','Jean','Gabi','Pedro'],[150000,230000,82000,143000,184000]])

In [26]:
# Verificando a forma do array
dados_venda.shape

(2, 5)

In [27]:
# Verificando o tipo dos dados
dados_venda.dtype

dtype('<U11')

- **Assim como listas, também podemos buscar elementos no array utilizando seus índices**
    - https://numpy.org/doc/stable/user/basics.indexing.html

In [28]:
# Utilizando o mesmo array do exemplo
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [29]:
# Buscando a primeira linha
a[0]

array([0, 1, 2, 3, 4])

In [30]:
# Na primeira linha, buscando o elemento de índice 3
a[0][3]

3

In [31]:
# Buscando os elementos de índice 1 a 3 (incluindo o 3) na primeira linha
a[0][1:4]

array([1, 2, 3])

In [32]:
# Buscando apenas os valores maiores que 5
a[a>5]

array([ 6,  7,  8,  9, 10, 11, 12, 13, 14])

In [33]:
# Buscando valores maiores que 5 E (&) menores que 11
novoArray = a[(a>5)&(a<11)]

In [34]:
# Visualizando o array
novoArray

array([ 6,  7,  8,  9, 10])

- **Operações com array**
    - https://numpy.org/doc/stable/user/absolute_beginners.html#basic-array-operations

In [35]:
# Considerando o array abaixo
dados = np.arange(6).reshape(2, 3)

In [51]:
# Somando todos os valores
dados.sum()

15

In [52]:
# Somando apenas os valores da linha
dados.sum(axis=1)

array([ 3, 12])

In [53]:
# Fazendo a soma acumulada desses valores
dados.cumsum(axis=1)

array([[ 0,  1,  3],
       [ 3,  7, 12]])

In [54]:
# Somando apenas os valores da coluna
dados.sum(axis=0)

array([3, 5, 7])

In [55]:
# Somando 1 em todos os valores
dados+1

array([[1, 2, 3],
       [4, 5, 6]])

In [56]:
# Multiplicando 2 em todos os valores do array
dados*2

array([[ 0,  2,  4],
       [ 6,  8, 10]])

In [59]:
# Verificando o menor valor desse array
dados.min()
dados.min(axis=1)



array([0, 3])

In [60]:
# E agora o maior valor
dados.max()

5

In [64]:
# Calculando a média da primeira linha
dados.mean(axis=1)

array([1., 4.])

In [66]:
# E da segunda linha
dados[1].mean()

4.0

In [68]:
# Verificando a mediana
np.median(dados)

2.5

- Inclusive podemos fazer operação entre arrays

In [47]:
# Considerando esses 2 arrays
array1 = np.array([1,2,3,4,5])
array2 = np.array([7,8,9,10,11])

In [69]:
# Somando os arrays
array1+array2

array([ 8, 10, 12, 14, 16])

In [70]:
# Multiplicando esses arrays
array1*array2

array([ 7, 16, 27, 40, 55])

In [72]:
# Potência
array2**array1

array([     7,     64,    729,  10000, 161051])