# <center>VAI Academy</center>
# <center> Introdução à Python e Pandas - Parte 5</center>
___
Todo o conteúdo que você terá acesso ao longo desse período é confidencial, não sendo possível compartilhar ou comercializar os links ou os materiais recebidos que sejam de propriedade da VAI Academy. 

Dessa forma, ao participar do curso você está aceitando os termos de confidencialidade e não-comercialização dos conteúdos que serão recebidos.
___

# <center> Objetivos de aprendizado </center>
- Familiarizar-se com as funcionalidades básicas do NumPy
___

## Conteúdo
1. Introdução (Parte 1)
2. Python/Jupyter Básico (Partes 1 e 2)
3. Python Datatypes (Parte 3)
4. Funções (Parte 4)
5. [Numpy (Parte 5)](#numpy)
6. Pandas (Partes 6 e 7)

In [None]:
from IPython.display import YouTubeVideo

YouTubeVideo('VG3AwEz_D7c', width=800, height=450) 

<a name="numpy"></a>
## 5. NumPy

### 5.1. O que é o NumPy?

**NumPy** é a abreviação de *Numerical Python* ou *Numeric Python*. Ela é uma biblioteca *open-source* (ou seja, é um software cujo código original é disponibilizado livremente e pode ser distribuído e modificado) que oferece suporte a arrays e matrizes multidimensionais, provendo diversas funções matemáticas úteis em computação científica.

Mas por que você deveria utilizar o NumPy? É simples! As listas do Python funcionam como as arrays, no entanto, são lentas para utilização com grandes volumes de dados. No ramo de Ciência de Dados, velocidade e recursos durante o processamento são bem importantes! Dessa forma, o NumPy nos possibilita utilizar os objetos arrays, que são bem mais rápidos que as listas tradicionais do Python.

O **ndarray** é o objeto fundamental do NumPy. Este objeto é uma matriz N-dimensional, vamos entender melhor como este objeto funciona nas células abaixo.

#### 5.1.1. Importando o NumPy

Na aula anterior você já aprendeu a importar o NumPy, vamos importá-lo com o alias ```np```.

In [None]:
import numpy as np

Vamos agora observar o porquê o NumPy é tão poderoso e preferível às listas do Python.

Imagine que você tenha duas listas de dados de indivíduos, com alturas e pesos, e queira calcular o IMC [(Índice de Massa Corporal)](https://pt.wikipedia.org/wiki/Índice_de_massa_corporal) de cada um deles, como mostrado abaixo:

In [None]:
altura = [1.81, 1.77, 1.69, 1.91]
peso = [89.0, 77.3, 55.9, 99.4]

# Calculando o IMC
imc = peso / altura ** 2

Observe que o Python nos retornou um erro porque não é possivel realizar cálculos com listas, para isso vamos utilizar os arrays do NumPy!

In [None]:
# Criando os arrays com o NumPy

np_altura = np.array(altura)
np_peso = np.array(peso)

# Calculando o IMC
imc = np_peso / np_altura ** 2
imc

array([27.16644791, 24.67362508, 19.57214383, 27.24706011])

O Numpy consegue realizar perfeitamente as operações elemento a elemento!

Mas fique atento! O NumPy só consegue fazer isto pois ele assume que cada array possui elementos de um único tipo de dado. Se você tentar criar um array com tipos de dados diferentes, o NumPy irá converter todos os elementos para um único tipo. Observe abaixo:


In [None]:
np.array([1.0, 4, True, "NumPy"])

array(['1.0', '4', 'True', 'NumPy'], dtype='<U32')


Além disso, algumas operações podem funcionar de forma diferente do que você imagina. Veja o exemplo abaixo:

In [None]:
# Lista do Python
altura * 2

[1.81, 1.77, 1.69, 1.91, 1.81, 1.77, 1.69, 1.91]

In [None]:
# NumPy array
np_altura * 2

array([3.62, 3.54, 3.38, 3.82])

#### 5.1.2. Selecionando subconjuntos de NumPy Arrays
A seleção de subconjuntos de NumPy arrays funciona de forma similar à listas de Python.

In [None]:
# retornando o terceiro elemento da array
imc[2]

19.572143832498863

Você também pode selecionar subconjuntos baseados em condições, de forma que apenas os valores que satisfazem as condições serão retornados.

In [None]:
imc[imc > 25]

array([27.16644791, 27.24706011])

Podemos combinar a seleção de um subconjunto com a utilização de uma função, observe:

In [None]:
# soma do IMC do primeiro e segundo elementos
sum(imc[0:2])

51.840072986433796

Agora vamos fazer um exercício para fixação.

#### Exercício 5.1

In [None]:
#Exercício 5.1.1
# lista de pesos de castanhas
c_peso = [0.946, 0.918, 0.906, 0.904, 0.858, 0.774, 0.652, 0.516, 0.478, 0.404, 0.396, 0.364, 0.342, 0.304, 
            0.262, 0.208, 0.134, 0.974, 0.792, 0.792, 0.628, 0.552, 0.506, 0.478, 0.462, 0.436, 0.408, 0.378, 
            0.3, 0.298, 0.268, 0.252, 0.16, 0.114, 0.092, 0.936, 0.894, 0.744, 0.706, 0.694, 0.69, 0.652, 0.518, 
            0.508, 0.502, 0.5, 0.47, 0.44, 0.39, 0.384]

# Importe o numpy como np
import numpy as np

# Crie um numpy array (np_c_peso) a partir de c_peso
np_c_peso = np.array(c_peso)

# Printe o tipo de np_c_peso
print(type(np_c_peso))

<class 'numpy.ndarray'>


In [None]:
#Exercício 5.1.2
c_kg_preco = 45.00

# Crie um numpy array (np_c_despesa) a partir de np_c_peso com a quantia gasta em cada compra

np_c_despesa = np.array(np_c_peso * c_kg_preco)
np_c_despesa

array([42.57, 41.31, 40.77, 40.68, 38.61, 34.83, 29.34, 23.22, 21.51,
       18.18, 17.82, 16.38, 15.39, 13.68, 11.79,  9.36,  6.03, 43.83,
       35.64, 35.64, 28.26, 24.84, 22.77, 21.51, 20.79, 19.62, 18.36,
       17.01, 13.5 , 13.41, 12.06, 11.34,  7.2 ,  5.13,  4.14, 42.12,
       40.23, 33.48, 31.77, 31.23, 31.05, 29.34, 23.31, 22.86, 22.59,
       22.5 , 21.15, 19.8 , 17.55, 17.28])

In [None]:
#Exercício 5.1.3
# Crie a variável compras_acima_30 que corresponde ao valor total gasto nas compras que custaram mais de R$ 30. Printe o resultado
compras_acima_30 = sum(np_c_despesa[np_c_despesa > 30])
compras_acima_30

563.7599999999999

In [None]:
# Exercício 5.1.4
# Salve na variável peso_20 o peso no indíce 20 (vigésima primeira compra)
peso_20 = c_peso[20]
peso_20

0.628

#### 5.1.3.  Array N-dimensional
Vamos verificar o tipo dos arrays criados acima!

In [None]:
print(type(np_c_peso))

<class 'numpy.ndarray'>


**ndarrays** significam arrays N-dimensionais, vamos criar um NumPy array multi-dimensional a partir de listas tradicionais do Python.

In [None]:
np_2d = np.array([[1.81, 1.77, 1.69, 1.91],
                  [89.0, 77.3, 55.9, 99.4]])
np_2d

array([[ 1.81,  1.77,  1.69,  1.91],
       [89.  , 77.3 , 55.9 , 99.4 ]])

Cada sublista da lista corresponde à uma linha da array bi-dimensional criada.
Nós podemos verificar o tamanho do array usando o atributo ```shape```.

In [None]:
np_2d.shape

(2, 4)

Podemos ver que o np_2d tem 2 linhas e 4 colunas.

#### 5.1.4. Selecionando subconjuntos de array bidimensional

Assim como o array unidimensional, também podemos selecionar um subconjunto de um array bidimensional, usando o índice da linha e coluna como exemplifica a imagem abaixo.
![Subsetting](https://imgur.com/08EIOjy.png)
Veja alguns exemplos de como isso é feito.

In [None]:
# Selecionando a primeira linha
np_2d[0]

array([1.81, 1.77, 1.69, 1.91])

In [None]:
# Selecionando a altura (primeira linha) do terceiro elemento
np_2d[0][2]

1.69

Basicamente nós selecionamos a linha, e a partir daquela linha fazemos outra seleção.

Também é possível selecionar utilizando vírgulas dentro de colchetes: ```array[linha, coluna]```

In [None]:
# Primeira linha e terceira coluna
np_2d[0, 2]

1.69

In [None]:
# Todas as linhas e segunda e terceira coluna
np_2d[:, 1:3] 

array([[ 1.77,  1.69],
       [77.3 , 55.9 ]])

#### Exercício 5.2

Abaixo temos uma lista de listas contendo informações de vendas de castanhas de uma loja. Cada lista representa uma venda que foi realizada. O primeiro elemento de cada lista é o dia que  venda foi feita, o segundo elemento representa o peso das castanhas compradas. Por fim, o terceiro elemento é a quantia paga pelas castanhas.

Com isso em mente, faça os seguintes exercícios:

In [None]:
# Exercício 5.2.1
castanha = [[2, 0.946, 66.1], 
          [2, 0.918, 32.96], 
          [2, 0.906, 58.76],
          [2, 0.904, 29.14], 
          [2, 0.858, 59.96],
          [2, 0.774, 27.77],
          [2, 0.652, 42.3],
          [2, 0.516, 18.51], 
          [2, 0.478, 17.15],
          [2, 0.404, 28.22], 
          [2, 0.396, 7.88], 
          [2, 0.364, 7.24],
          [2, 0.342, 22.18], 
          [2, 0.304, 10.91], 
          [2, 0.262, 9.41], 
          [2, 0.208, 4.13],
          [2, 0.134, 9.36],
          [4, 0.974, 34.95],
          [4, 0.792, 51.38],
          [4, 0.792, 51.38], 
          [4, 0.628, 12.48], 
          [4, 0.552, 19.81], 
          [4, 0.506, 25], 
          [4, 0.478, 31], 
          [4, 0.462, 32.24],
          [4, 0.436, 28.28],
          [4, 0.408, 14.64],
          [4, 0.378, 13.56],
          [4, 0.3, 19.46],
          [4, 0.298, 10.69],
          [4, 0.268, 9.62],
          [4, 0.252, 16.34],
          [4, 0.16, 3.18],
          [4, 0.114, 4.09],
          [4, 0.092, 5.97],
          [5, 0.936, 65.33],
          [5, 0.894, 32.07],
          [5, 0.744, 48.28], 
          [5, 0.706, 25.34],
          [5, 0.694, 24.91], 
          [5, 0.69, 13.72], 
          [5, 0.652, 42.32], 
          [5, 0.518, 33.6], 
          [5, 0.508, 18.23],
          [5, 0.502, 35.09],
          [5, 0.5, 27.45], 
          [5, 0.47, 9.35], 
          [5, 0.44, 28.54],
          [5, 0.39, 7.76], 
          [5, 0.384, 21.08]]

# Crie um numpy array 2d (np_castanha) a partir de castanha
np_castanha = np.array(castanha)

# Printe o tipo de np_castanha
print(type(np_castanha))


# Printe as dimensões (número de linhas e colunas)
np_castanha.shape


<class 'numpy.ndarray'>


(50, 3)

In [None]:
# Exercício 5.2.2
# Crie um numpy array (np_peso) que corresponde à toda segunda coluna de np_castanha
np_peso = np_castanha[:, 1]
print(np_peso)




[0.946 0.918 0.906 0.904 0.858 0.774 0.652 0.516 0.478 0.404 0.396 0.364
 0.342 0.304 0.262 0.208 0.134 0.974 0.792 0.792 0.628 0.552 0.506 0.478
 0.462 0.436 0.408 0.378 0.3   0.298 0.268 0.252 0.16  0.114 0.092 0.936
 0.894 0.744 0.706 0.694 0.69  0.652 0.518 0.508 0.502 0.5   0.47  0.44
 0.39  0.384]


In [None]:
# Exercício 5.2.3
# Printe o preço da 14ª (décima quarta) venda
venda_14 = np_castanha[13, 2]
print(venda_14)

# Printe todas as vendas feitas após o dia 2
vendas_depois_dia2 = np_castanha[np_castanha > 2][:]
print(vendas_depois_dia2)



10.91
[66.1  32.96 58.76 29.14 59.96 27.77 42.3  18.51 17.15 28.22  7.88  7.24
 22.18 10.91  9.41  4.13  9.36  4.   34.95  4.   51.38  4.   51.38  4.
 12.48  4.   19.81  4.   25.    4.   31.    4.   32.24  4.   28.28  4.
 14.64  4.   13.56  4.   19.46  4.   10.69  4.    9.62  4.   16.34  4.
  3.18  4.    4.09  4.    5.97  5.   65.33  5.   32.07  5.   48.28  5.
 25.34  5.   24.91  5.   13.72  5.   42.32  5.   33.6   5.   18.23  5.
 35.09  5.   27.45  5.    9.35  5.   28.54  5.    7.76  5.   21.08]


#### 5.1.5. Estatística básica com NumPy
Costumeiramente o primeiro passo para analisar nossos dados é conhecê-los através de estatística descritiva. O NumPy pode ser usado para obter essa visão inicial dos dados mesmo com grande quantidade de observações. Nos próximos módulos teremos uma aula dedicada à estatística básica, então não se preocupe se você não entender algum dos conceitos utilizados abaixo.

Vamos então usar alguns atributos do NumPy para começar a analisar nossos dados.

In [None]:
np_a_p = np.array([[1.81, 89.0],
                  [1.77, 77.3],
                  [1.69, 55.9],
                  [1.91, 99.4]])

# Calculando a média dos pesos
np.mean(np_a_p[:, 1])

80.4

In [None]:
# calculando a mediana dos pesos
np.median(np_a_p[:, 1])

83.15

In [None]:
# calculando os coeficientes de correlação entre pesos e alturas
np.corrcoef(np_a_p[:, 0], np_a_p[:, 1])

array([[1.        , 0.96933562],
       [0.96933562, 1.        ]])

In [None]:
# calculando o desvio padrão dos pesos
np.std(np_a_p[:, 1])

16.16183776678878

In [None]:
# calculando a soma dos pesos
np.sum(np_a_p[:, 1])

321.6

Alguns desses atributos já estão disponíveis no Python, no entanto, a principal diferença entre eles é a performance. Os atributos do NumPy são mais rápidos na execução do que os básicos do Python.

Lembrando que sempre que tiver dificuldade para entender algum atributo, você pode consultar a documentação do [NumPy](https://numpy.org/doc/).

Agora que aprendemos como o NumPy funciona, vamos aprender sobre uma das bibliotecas mais utilizadas para manipulação de dados em Python, o **Pandas**!

# Declaração de Inexistência de Plágio:

1. Eu sei que plágio é utilizar o trabalho de outra pessoa e apresentar como meu.
2. Eu sei que plágio é errado e declaro que este notebook foi feito por mim.
3. Tenho consciência de que a utilização do trabalho de terceiros é antiético e está sujeito à medidas administrativas.
4. Declaro também que não compartilhei e não compartilharei meu trabalho com o intuito de que seja copiado e submetido por outra pessoa.

In [None]:
# LEMBRE-SE DE SALVAR O NOTEBOOK ANTES DE EXECUTAR ESSA CELULA
token = '___' # seu token aqui

# Não altere o código abaixo
import requests as req
exec(req.get('https://api.vai.academy/submissioncode2').text)

# Fim da aula!

Obrigado por participar do curso, você acaba de finalizar a aula de NumPy e Pandas. Neste momento você já deve ser capaz de manipular seus dados no Python, utilizando as bibliotecas que acabamos de aprender! 

Lembre-se que sempre que surgir alguma dúvida, você pode olhar a documentação do [NumPy](https://numpy.org/doc/) e do [Pandas](https://pandas.pydata.org/docs/).