# Introdução a NumPy e Pandas

O NumPy é ótimo para armazenar e manipular dados numéricos em matrizes.

## NumPy: Exemplo

"Resenha de Filme" é um site de resenhas de filmes onde quatro bons amigos e críticos de filmes: Luísa, Maria, Tony e Kaio assistem a filmes e dão a eles notas em uma escala de 0 a 100.

In [1]:
import numpy as np

Quando toda a turma classifica um filme, podemos armazenar suas classificações em um array NumPy `movie_ratings`:

In [2]:
movie_ratings = np.array([63.0, 54.0, 70.0, 50.0])

Mas eles assistem a mais de um filme, então temos que criar uma matriz bidimensional onde cada linha contém suas classificações para um filme específico.

In [13]:
movie_ratings = np.array([[63.0, 54.0, 70.0, 50.0],
                          [94.0, 85.0, 89.0, 95.0],
                          [64.0, 90.0, 73.0, 85.0]])
movie_ratings

array([[63., 54., 70., 50.],
       [94., 85., 89., 95.],
       [64., 90., 73., 85.]])

Alguns fãs preferem que os filmes sejam classificados em uma escala de cinco estrelas, então podemos usar o NumPy para dividir facilmente cada elemento por 20.

In [5]:
movie_ratings_stars = movie_ratings / 20
movie_ratings_stars

array([[3.15, 2.7 , 3.5 , 2.5 ],
       [4.7 , 4.25, 4.45, 4.75],
       [3.2 , 4.5 , 3.65, 4.25]])

Agora, digamos que as classificações estejam sempre na mesma ordem (Luísa, Maria, Tony, Kaio). Se quiséssemos criar uma matriz que tivesse apenas as classificações de Tony, poderíamos selecioná-las em nossa matriz movie_ratings.

In [6]:
tony_ratings = movie_ratings[:, 2]
tony_ratings

array([70., 89., 73.])

Agora, digamos que descobrimos que temos gostos muito parecidos com os de Maria, então queremos ver apenas filmes aos quais ele dá uma boa classificação. Podemos usar a lógica para selecionar esses filmes.

Vamos selecionar todas as classificações de Maria que são acima de 80:

In [7]:
maria_ratings = movie_ratings[:, 1]
maria_ratings[maria_ratings > 80]

array([85., 90.])

## NumPy: Exercício

Joana está pensando em abrir uma confeitaria e precisará começar a comprar todo o seu leite, ovos, açúcar, farinha e manteiga a granel.

Ajude ela a descobrir quanto precisa comprar usando matrizes NumPy que descrevem suas receitas.

Por exemplo, sua receita de cupcake pede:

Farinha	 - 2 xícaras
Açúcar - 0,75 xícaras	
Ovos - 2 ovos	
Leite - 1 xícaras
Manteiga - 0,5 xícaras

Crie um array NumPy que represente esses dados. Cada elemento deve ser um número (por exemplo, 2 para "2 xícaras"). Salve esse array como `cupcakes`.

In [14]:
# solução
cupcakes = np.array([2, 0.75, 2, 1, 0.5])
cupcakes

array([2.  , 0.75, 2.  , 1.  , 0.5 ])

A assistente de Joana compilou todas as suas receitas em um arquivo csv (comma-separated variable) chamado `recipes.csv`. Carregue esse arquivo em uma variável chamada `recipes`. Cada linha representa uma receita diferente. Cada coluna representa um ingrediente diferente.

In [15]:
# solução
recipes = np.genfromtxt('recipes.csv', delimiter=',')
recipes

array([[2.   , 0.75 , 2.   , 1.   , 0.5  ],
       [1.   , 0.125, 1.   , 1.   , 0.125],
       [2.75 , 1.5  , 1.   , 0.   , 1.   ],
       [4.   , 0.5  , 2.   , 2.   , 0.5  ]])

A 3ª coluna representa o número de ovos que cada receita necessita.

Selecione todos os elementos da 3ª coluna e salve-os na variável `eggs`.

In [16]:
# solução
eggs = recipes[:, 2]
eggs

array([2., 1., 1., 2.])

Quais receitas exigem exatamente 1 ovo? Use uma declaração lógica para obter True ou False para cada valor de `eggs`

In [18]:
# solução
one_egg = eggs[eggs == 1]
one_egg

array([1., 1.])

Joana fará 2 fornadas de cupcakes (1ª fileira) e 1 fornada de biscoitos (3ª fileira).

Você já tem uma variável para `cupcakes`. Crie uma variável `cookies` com os dados da 3ª linha.

In [25]:
# solução
cookies = np.array(recipes[2]) # ou recipes[2] somente
cookies

array([2.75, 1.5 , 1.  , 0.  , 1.  ])

Obtenha o número de ingredientes para uma porção dupla de cupcakes usando multiplicação em `cupcakes`. Salve sua nova variável em `double_batch`.

In [26]:
# solução
double_batch = cupcakes * 2
double_batch

array([4. , 1.5, 4. , 2. , 1. ])

Crie uma nova variável chamada `grocery_list` adicionando `cookies` e `double_batch`.

In [28]:
# solução
# grocery_list = cookies + double_batch
grocery_list = np.array([cookies, double_batch])
grocery_list

array([[2.75, 1.5 , 1.  , 0.  , 1.  ],
       [4.  , 1.5 , 4.  , 2.  , 1.  ]])

## Pandas: Uma breve introdução

O Pandas pode nos fornecer respostas sobre os dados, como por exemplo:

Existe uma correlação entre duas ou mais colunas? Qual é o valor médio? Qual o valor máximo? Qual o valor mínimo? O Pandas também é capaz de excluir linhas que são irrelevantes ou que contêm valores incorretos, como valores vazios ou NULL, deixando os dados limpos. 

Relacionando inicialmente as funções do NumPy com o Pandas, poderíamos gerar uma série com os dados da porção dupla de cupcakes:

In [29]:
import pandas as pd

In [32]:
double_batch_series = pd.Series(double_batch)
double_batch_series

0    4.0
1    1.5
2    4.0
3    2.0
4    1.0
dtype: float64

Podemos gerar um DataFrame a partir de várias Series:

In [33]:
df = pd.DataFrame(recipes)
df

Unnamed: 0,0,1,2,3,4
0,2.0,0.75,2.0,1.0,0.5
1,1.0,0.125,1.0,1.0,0.125
2,2.75,1.5,1.0,0.0,1.0
3,4.0,0.5,2.0,2.0,0.5


Por exemplo, se precisássemos listar as nossas compras do supermercado, teríamos algo semelhante a isso:

In [64]:
df = pd.DataFrame(recipes, columns=['Flour', 'Milk', 'Sugar', 'Butter', 'Eggs'])
df2 = pd.read_csv('recipes.csv', delimiter=',', names=['Flour', 'Milk', 'Sugar', 'Butter', 'Eggs'])
df2

Unnamed: 0,Flour,Milk,Sugar,Butter,Eggs
0,2.0,0.75,2,1,0.5
1,1.0,0.125,1,1,0.125
2,2.75,1.5,1,0,1.0
3,4.0,0.5,2,2,0.5


## Exercícios da aula

In [36]:
# exercício 1

ex_1 = np.random.randint(0, 100, size=(5, 5))
ex_1.dtype

dtype('int32')

In [39]:
# exercício 2

ex_2 = np.random.rand(5,5)
print("mínimo: ", ex_2.min())
print("máximo: ", ex_2.max())
print("média dos valores: ", ex_2.mean())

mínimo:  0.002060519964137919
máximo:  0.9495254466031386
média dos valores:  0.3938405530175562


In [53]:
# exercício 3

ex_3 = np.random.rand(1,10)
ex_3 = ex_3 * 10
ex_3_int = ex_3.astype(int)
# ex_3_int
ex_3_rounded_int = (np.rint(ex_3)).astype(int) # arrendondamento para baixo
# ex_3_rounded_int = (np.ceil(ex_3)).astype(int) # arrendondamento para cima 
ex_3_rounded_int

array([[ 8, 10,  5,  9,  2,  9,  9,  5, 10,  4]])

In [57]:
# exercício 4 

ex_4 = np.random.randint(0, 9, size=(3,3))
ex_4[1, :] = -1
ex_4

array([[ 7,  6,  8],
       [-1, -1, -1],
       [ 7,  4,  6]], dtype=int32)

In [63]:
# exercício 5

feira = np.array([["Banana", "Maça", "Pera"],[7.90, 10.20, 11.80], [12, 3, 4]])
df = pd.DataFrame(feira, columns=["fruta", "preço", "quantidade"])
df

Unnamed: 0,fruta,preço,quantidade
0,Banana,Maça,Pera
1,7.9,10.2,11.8
2,12,-1,4
