# NumPy

- https://numpy.org/
- O nome NumPy vem de Numerical Python
    - Biblioteca de computação numérica
    - Otimizada para cálculos pesados
<br><br>
- No NumPy vamos trabalhar com **arrays**, que são mais rápidos e mais performáticos que listas
    - Arrays são estruturas de dados que guardam itens **do mesmo tipo** (diferente das listas)
        - **["As operações matemáticas que devem ser executadas em arrays seriam extremamente ineficientes se os arrays não fossem homogêneos."](https://numpy.org/doc/stable/user/absolute_beginners.html#whats-the-difference-between-a-python-list-and-a-numpy-array)** 
    - Assim como **listas**, são um conjunto de **elementos ordenados que são mutáveis e de comprimento variável**
    - Além disso, **podemos fazer várias operações com arrays (como multiplicação e soma) que não podem ser feitas com listas** mas são fundamentais para o nosso processo de Ciência de dados
    - Obs: listas são estrutudas de dados do Python e arrays não, **array é uma estrutura de dados própria do numpy**

In [2]:
# Importar o numpy
import numpy as np

- **A importância do NumPy**
    - Vamos supor que temos a venda e comissão (em percentual) de 5 vendedores e queremos saber qual vai ser o salário de cada um deles (para isso precisamos multiplicar a venda pela comissão dividida por 100)

In [2]:
# Venda e comissão
venda_valor = [150000,230000,82000,143000,184000]
comissao = [5,8,8,5,12]

In [3]:
# Qual o tipo desse dado?
type(venda_valor)

list

In [4]:
# Ao tentar fazer essa operação com listas, teremos um erro
venda_valor*comissao

TypeError: can't multiply sequence by non-int of type 'list'

- **Podemos transformar uma lista em um array**
    - https://numpy.org/doc/stable/user/basics.creation.html#converting-python-sequences-to-numpy-arrays

In [5]:
# Transformando em um array
venda_valor_array = np.array(venda_valor)
comissao_array = np.array(comissao)

In [6]:
# help(np.array)

In [7]:
# Agora vamos conseguir fazer sendo um array
venda_valor_array*(comissao_array/100)

array([ 7500., 18400.,  6560.,  7150., 22080.])

- **Agora que vimos a importância do array, podemos falar um pouco mais sobre ele**
    - https://numpy.org/doc/stable/user/quickstart.html

In [7]:
# Copiando o exemplo
a = np.arange(20).reshape(4, 5)

In [8]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [9]:
# Verificando a dimensão desse array
a.ndim

2

In [10]:
# Verificando a forma do array
a.shape

(4, 5)

In [11]:
# Verificando o tipo dos dados
a.dtype

dtype('int32')

- Primeiro tente responder o tipo de dado dos 3 arrays abaixo e depois escreva o código para o numpy retornar essa informação

In [31]:
# Considerando os 3 arrays abaixo
array1 = np.array([1,2,3,4,5])
array2 = np.array([1,2,3,4.5,5])
array3 = np.array([1,2,3,'4',5])

In [32]:
# Verificando o tipo de dado do primeiro array e retornando esse array
array1.dtype

dtype('int64')

In [33]:
# Fazendo a mesma coisa para o array2
array2.dtype

dtype('float64')

In [35]:
# E para o array3
array3.dtype

dtype('<U21')

- **Criando o nosso próprio array**

In [12]:
# Criando um array qualquer de números inteiros
a = np.array([1,2,3,4,5])
a

array([1, 2, 3, 4, 5])

In [13]:
# Criando um segundo array com valores decimais
b = np.array([1,2,3,4.5,7,5])
b

array([1. , 2. , 3. , 4.5, 7. , 5. ])

In [14]:
# Criando um array apenas de valores zero
np.ones(8).reshape(2,4)

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [15]:
# Criando um array com uma lista de valores
np.arange(101)

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100])

In [20]:
# Adicionando um intervalo para o array
np.arange(45,156)

array([ 45,  46,  47,  48,  49,  50,  51,  52,  53,  54,  55,  56,  57,
        58,  59,  60,  61,  62,  63,  64,  65,  66,  67,  68,  69,  70,
        71,  72,  73,  74,  75,  76,  77,  78,  79,  80,  81,  82,  83,
        84,  85,  86,  87,  88,  89,  90,  91,  92,  93,  94,  95,  96,
        97,  98,  99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109,
       110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122,
       123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135,
       136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148,
       149, 150, 151, 152, 153, 154, 155])

In [21]:
# Adicionando um "passo" para o array
np.arange(5,80,3)

array([ 5,  8, 11, 14, 17, 20, 23, 26, 29, 32, 35, 38, 41, 44, 47, 50, 53,
       56, 59, 62, 65, 68, 71, 74, 77])

In [24]:
# Criando um novo array com os valores igualmente espaçados (utilizando o linspace)
np.linspace(5,20,30)

array([ 5.        ,  5.51724138,  6.03448276,  6.55172414,  7.06896552,
        7.5862069 ,  8.10344828,  8.62068966,  9.13793103,  9.65517241,
       10.17241379, 10.68965517, 11.20689655, 11.72413793, 12.24137931,
       12.75862069, 13.27586207, 13.79310345, 14.31034483, 14.82758621,
       15.34482759, 15.86206897, 16.37931034, 16.89655172, 17.4137931 ,
       17.93103448, 18.44827586, 18.96551724, 19.48275862, 20.        ])

- O array de uma dimensão é o que chamamos de vetor e o de duas dimensões de matriz

In [26]:
# Vamos considerar esses dados abaixo
dados_venda = np.array([[150000,230000,82000,143000,184000],[5,8,8,5,12]])

In [28]:
# Verificando a forma do array
dados_venda.shape

(2, 5)

In [29]:
# Verificando o tipo dos dados
dados_venda.dtype

dtype('int32')

In [30]:
# Agora considerando esses novos dados
dados_venda = np.array([['Lucas','Bia','Jean','Gabi','Pedro'],[150000,230000,82000,143000,184000]])

In [31]:
# Verificando a forma do array
dados_venda

array([['Lucas', 'Bia', 'Jean', 'Gabi', 'Pedro'],
       ['150000', '230000', '82000', '143000', '184000']], dtype='<U11')

In [32]:
# Verificando o tipo dos dados
dados_venda.shape

(2, 5)

- **Assim como listas, também podemos buscar elementos no array utilizando seus índices**
    - https://numpy.org/doc/stable/user/basics.indexing.html

In [4]:
# Utilizando o mesmo array do exemplo
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [6]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
# Buscando a primeira linha
a[0]

array([0, 1, 2, 3, 4])

In [7]:
# Na primeira linha, buscando o elemento de índice 3
a[0][3]

3

In [9]:
# Buscando os elementos de índice 1 a 3 (incluindo o 3) na primeira linha
a[0][1:4]

array([1, 2, 3])

In [10]:
# Buscando apenas os valores maiores que 5
a>5

array([[False, False, False, False, False],
       [False,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True]])

In [13]:
# Buscando valores maiores que 5 E (&) menores que 11
a[(a>5)&(a<11)]

array([ 6,  7,  8,  9, 10])

In [15]:
# Buscando valores maiores que 5 OU (|) menores que 11
novo_array = a[(a>5)|(a<11)]

In [16]:
# Visualizando o array
novo_array

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

- **Operações com array**
    - https://numpy.org/doc/stable/user/absolute_beginners.html#basic-array-operations

In [None]:
# Considerando o array abaixo
dados = np.arange(6).reshape(2, 3)

In [None]:
# Somando todos os valores

In [None]:
# Somando apenas os valores da linha

In [None]:
# Fazendo a soma acumulada desses valores

In [None]:
# Somando apenas os valores da coluna

In [None]:
# Somando 1 em todos os valores

In [None]:
# Multiplicando 2 em todos os valores do array

In [None]:
# Verificando o menor valor desse array

In [None]:
# E agora o maior valor

In [None]:
# Calculando a média da primeira linha

In [None]:
# E da segunda linha

In [None]:
# Verificando a mediana

- Inclusive podemos fazer operação entre arrays

In [None]:
# Considerando esses 2 arrays
array1 = np.array([1,2,3,4,5])
array2 = np.array([7,8,9,10,11])

In [None]:
# Somando os arrays

In [None]:
# Multiplicando esses arrays

In [None]:
# Potência