# Introdução a NumPy e Pandas

O NumPy é ótimo para armazenar e manipular dados numéricos em matrizes.

## NumPy: Exemplo

"Resenha de Filme" é um site de resenhas de filmes onde quatro bons amigos e críticos de filmes: Luísa, Maria, Tony e Kaio assistem a filmes e dão a eles notas em uma escala de 0 a 100.

In [None]:
import numpy as np

Quando toda a turma classifica um filme, podemos armazenar suas classificações em um array NumPy `movie_ratings`:

In [None]:
movie_ratings = np.array([63.0, 54.0, 70.0, 50.0])

Mas eles assistem a mais de um filme, então temos que criar uma matriz bidimensional onde cada linha contém suas classificações para um filme específico.

In [None]:
movie_ratings = np.array([[63.0, 54.0, 70.0, 50.0],
                          [94.0, 85.0, 89.0, 95.0],
                          [64.0, 90.0, 73.0, 85.0]])

Alguns fãs preferem que os filmes sejam classificados em uma escala de cinco estrelas, então podemos usar o NumPy para dividir facilmente cada elemento por 20.

In [None]:
movie_ratings_stars = movie_ratings / 20
movie_ratings_stars

Agora, digamos que as classificações estejam sempre na mesma ordem (Luísa, Maria, Tony, Kaio). Se quiséssemos criar uma matriz que tivesse apenas as classificações de Tony, poderíamos selecioná-las em nossa matriz movie_ratings.

In [None]:
tony_ratings = movie_ratings[:, 2]
tony_ratings

Agora, digamos que descobrimos que temos gostos muito parecidos com os de Maria, então queremos ver apenas filmes aos quais ele dá uma boa classificação. Podemos usar a lógica para selecionar esses filmes.

Vamos selecionar todas as classificações de Maria que são acima de 80:

In [None]:
maria_ratings = movie_ratings[:, 1]
maria_ratings[maria_ratings > 80]

## NumPy: Exercício

Joana está pensando em abrir uma confeitaria e precisará começar a comprar todo o seu leite, ovos, açúcar, farinha e manteiga a granel.

Ajude ela a descobrir quanto precisa comprar usando matrizes NumPy que descrevem suas receitas.

Por exemplo, sua receita de cupcake pede:

Farinha	 - 2 xícaras
Açúcar - 0,75 xícaras	
Ovos - 2 ovos	
Leite - 1 xícaras
Manteiga - 0,5 xícaras

Crie um array NumPy que represente esses dados. Cada elemento deve ser um número (por exemplo, 2para "2 xícaras"). Salve esse array como `cupcakes`.

In [None]:
# solução

A assistente de Joana compilou todas as suas receitas em um arquivo csv (comma-separated variable) chamado `recipes.csv`. Carregue esse arquivo em uma variável chamada `recipes`. Cada linha representa uma receita diferente. Cada coluna representa um ingrediente diferente.

In [None]:
# solução

A 3ª coluna representa o número de ovos que cada receita necessita.

Selecione todos os elementos da 3ª coluna e salve-os na variável `eggs`.

In [None]:
# solução

Quais receitas exigem exatamente 1 ovo? Use uma declaração lógica para obter True ou False para cada valor de `eggs`

In [None]:
# solução

Joana fará 2 fornadas de cupcakes (1ª fileira) e 1 fornada de biscoitos (3ª fileira).

Você já tem uma variável para `cupcakes`. Crie uma variável `cookies` com os dados da 3ª linha.

In [None]:
# solução

Obtenha o número de ingredientes para uma porção dupla de cupcakes usando multiplicação em `cupcakes`. Salve sua nova variável em `double_batch`.

In [None]:
# solução

Crie uma nova variável chamada `grocery_list` adicionando `cookies` e `double_batch`.

In [None]:
# solução

## Pandas: Uma breve introdução

O Pandas pode nos fornecer respostas sobre os dados, como por exemplo:

Existe uma correlação entre duas ou mais colunas? Qual é o valor médio? Qual o valor máximo? Qual o valor mínimo? O Pandas também é capaz de excluir linhas que são irrelevantes ou que contêm valores incorretos, como valores vazios ou NULL, deixando os dados limpos. 

Relacionando inicialmente as funções do NumPy com o Pandas, poderíamos gerar uma série com os dados da porção dupla de cupcakes:

In [None]:
import pandas as pd

pd.Series(double_batch)

Podemos gerar um DataFrame a partir de várias Series:

In [None]:
df = pd.DataFrame(recipes)
df

Por exemplo, se precisássemos listar as nossas compras do supermercado, teríamos algo semelhante a isso:

In [None]:
df = pd.DataFrame(recipes, columns=['Flour', 'Milk', 'Sugar', 'Butter', 'Eggs'])
df