# Introdução - Pandas

## Primeiro... por que pandas?

No dia-a-dia, mexemos com diferentes planilhas contendo um alto volume de dados. 
Quais são as ferramentas que geralmente são usadas para essas tarefas?

In [20]:
import requests 

In [22]:
res = requests.get('http://localhost:3000/api/ep1')

In [26]:
res_json = res.json()

In [30]:
res_json[3]

{'id': 'l9xcihwbs00qyxs9sb',
 'date': 1579157408.382717,
 'prod_0': 14.545636714798993,
 'prod_2': 8.319817182254852,
 'prod_4': 49.31354050791398,
 'prod_5': 9.556853714046575,
 'prod_6': 39.13126479194862,
 'prod_8': 224.84514120544515,
 'prod_9': 16.16028328840158,
 'prod_11': 555.9687702667047}

Agora imagine que você queira carregar essa base de dados em Python para fazer transformações nos dados, pré-processamento ou qualquer outra análise. Com o conhecimento adquirido até agora, como podemos fazer a leitura deste arquivo?

Nesta aula, aprenderemos a carregar e manipular uma base de dados usando a biblioteca `pandas`. O Pandas (derivado de panel data) é uma biblioteca para Python muito versátil e simples de se utilizar para trabalhar com dados em tabelas (i.e. dados tabulares, ou estruturados).

! Qual é a diferença entre dados estruturados e não-estruturados?

Existem duas estruturas básicas para `pandas`:

- `pandas.DataFrame`

- `pandas.Series`

Nesta aula, falaremos sobre o funcionamento do DataFrame. É importante notar que `pandas` foi desenvolvido em cima da biblioteca `numpy` e, portanto, a maioria das manipulações numéricas destes dados tabulares são feitas com o auxílio de `np.array` e seus métodos. 

### O que é `pandas.DataFrame`

`pandas.DataFrame` é uma estrutura em `pandas` para acomodação de tabelas (i.e. linhas e colunas). 

Usamos o `pd.DataFrame()` para criar a nossa base de dados. 

In [1]:
import pandas as pd 
import numpy as np 

Temos algumas formas para a criação usando `pd.DataFrame`:

- `dict` usando a chave como o *header* da coluna e uma lista como valores para o tal atributo. 

- `np.array` 

- `pd.DataFrame`

- Outros iteráveis. 

Usando dicionário

In [4]:
vals = {'Produto 1':[1,2,3,4], 'Produto 2': [0, 0, 10, 3], 'Produto 3': [0, 5, 7, 10], 'Novo?': ['Não','Sim','Sim','Não']}

In [5]:
df = pd.DataFrame(vals)

In [6]:
df

Unnamed: 0,Produto 1,Produto 2,Produto 3,Novo?
0,1,0,0,Não
1,2,0,5,Sim
2,3,10,7,Sim
3,4,3,10,Não


Os valores de um dicionário não precisam ter **apenas** listas.

In [2]:
teams = {'Ano': np.arange(1950,1955), 'Campeão': ['Time A','Time B','Time C','Time D', 'Time A'], 'Pontos': [80, 77, 65, 50, 29] }

In [3]:
pd.DataFrame(teams)

Unnamed: 0,Ano,Campeão,Pontos
0,1950,Time A,80
1,1951,Time B,77
2,1952,Time C,65
3,1953,Time D,50
4,1954,Time A,29


Usando `np.array`

In [11]:
vals = np.random.random((4,10)) 
df = pd.DataFrame(data=vals)

In [12]:
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0.731628,0.098113,0.703793,0.125316,0.39454,0.003129,0.044994,0.859073,0.484277,0.163656
1,0.2636,0.343844,0.629028,0.711266,0.160526,0.785226,0.66153,0.121663,0.454577,0.315903
2,0.943597,0.970926,0.11764,0.187099,0.386139,0.877292,0.555524,0.080773,0.881353,0.712416
3,0.959602,0.671664,0.88172,0.069193,0.548855,0.688047,0.09536,0.937553,0.676725,0.866636


Qual a diferença entre os dois métodos de criação? 

Outros argumentos para a criação do `pd.DataFrame`:

- `index`: Index para usar para o dataframe gerado.

- `columns`: Nome das colunas para o dataframe, quando não tiver. 

- `dtype`: Tipo de dado esperado para **todos** os elementos do dataframe.

Exercício: como escrever nomes para colunas inserindo data como `np.array`?

Nem sempre precisamos criar um `dataFrame`. Quando quisermos carregar uma tabela já existente, usaremos outros métodos:

- `pd.read_csv` 

- `pd.read_table`

Argumentos importantes no `read_csv` 

- filepath (**obrigatório**): string contendo o caminho para a tabela. 

- `sep`: delimitador usado para separação entre valores. Geralmente é utilizado quando o arquivo usa o separador `;` ao invés de `,`.

- `header`: número de linhas utilizadas para o cabeçalho da tabela. Se a tabela **não** contém header, devemos usar `header = None`.

- `names`: nome das colunas (deve ser feita de forma explícita caso não exista originalmente o header).

## Acessando e manipulando informações de um `pd.DataFrame`

Temos diferentes formas para acessar informações de um DataFrame. 

Neste primeiro momento, iremos falar apenas de uma forma **bem** básica. 

Podemos acessar pela propriedade (i.e. nome da coluna) da tabela. Isso pode ser feito de duas formas:

- `df[column_name]` 

- `df.column_name`

E se eu quiser um valor dentro desta coluna? Acessamos mais um índice 

`df[column_name][i]`

E se quisermos mais de uma coluna? Daí passamos uma lista de nomes para retornar essa visualização. 

`df[list_of_columns]`

In [21]:
list_of_columns = [0, 1]

df[list_of_columns]

Unnamed: 0,0,1
0,0.731628,0.098113
1,0.2636,0.343844
2,0.943597,0.970926
3,0.959602,0.671664


E se quisermos **apenas** os valores após essa primeira "filtragem"? 

Podemos usar o `values`, que retorna um `np.array`.

### Adicionando novas informações

Agora que sabemos criar (ou ler) uma tabela, resta saber como atualizamos o conteúdo da tabela. 

Isto é bem simples. Para isso, usamos o método `append`.

In [1]:
import pandas as pd 

In [4]:
#Exemplo 
df1 = pd.DataFrame({"foo":[1, 2, 3, 4],
                    "bar":[5, 6, 7, 8]})
 
df2 = pd.DataFrame({"foo":[1, 2, 3],
                    "bar":[5, 6, 7]})
 
df1 = df1.append(df2)
df1

  df1 = df1.append(df2)


Unnamed: 0,foo,bar
0,1,5
1,2,6
2,3,7
3,4,8
0,1,5
1,2,6
2,3,7


In [None]:
df2 = pd.DataFrame({"foo":[1, 2, 3],
                    "bar":[5, 6, 7],
                    "c":[1, 5, 4]})


OBS: O método `append` não é mais recomendado pelo Pandas desde a versão 1.4. Ao invés disso, devemos usar o `merge` ou `concat`.

Usamos o `merge` para unir duas tabelas. Para isso, precisamos saber **como** devemos unir esta tabela. O conceito é bem semelhante ao que geralmente é aprendido em SQL.


![exemplo](https://miro.medium.com/max/720/1*0FDsAB9OelxojfmtkcLbgw.png)

In [11]:
#Exemplo 

tabela_1 = pd.DataFrame({
'Nome':['João', 'João', 'Pedro' , 'Caio'], 
'Matéria': ['CS113', 'CS115', 'CS113', 'DS300'], 
'Grupo': ['azul', 'preto', 'verde' , 'amarelo']})

In [15]:
tabela_2 = pd.DataFrame({
'Nome':['João', 'Thiago', 'Pedro' , 'Gabriel'], 
'Matérias': [5, 10, 7, 12]})

In [16]:
pd.merge(tabela_1, tabela_2, how = 'inner', on = 'Nome')

Unnamed: 0,Nome,Matéria,Grupo,Matérias
0,João,CS113,azul,5
1,João,CS115,preto,5
2,Pedro,CS113,verde,7


In [18]:
#Usando o mesmo nome da coluna. 
tabela_2 = pd.DataFrame({
'Nome':['João', 'Thiago', 'Pedro' , 'Gabriel'], 
'Grupo': ['preto','vermelho','verde','amarelo'],
'Matérias': [5, 10, 7, 12]})

In [None]:
pd.merge(tabela_1, tabela_2, how = 'inner', on = 'Nome')

In [19]:
pd.merge(tabela_1, tabela_2, how='inner', on=['Nome','Grupo'])

Unnamed: 0,Nome,Matéria,Grupo,Matérias
0,João,CS115,preto,5
1,Pedro,CS113,verde,7


## Exercícios

1. Neste primeiro exercício, você trabalhará com o armazenamento e atualização de tabelas, com dados fornecidos por um API. Selecione uma tarefa para aquisição de dados por meio de um API (existe uma lista com Free API sem o uso de key, https://apipheny.io/free-api/). Crie um sistema que obtenha as informações de API e armazene em uma tabela. Este sistema deve ser capaz de adicionar novas informações ao realizar futuras requisições na API. Crie também uma função que armazene **apenas** se a informação for válida. 

Em seguida, faça alguma análise que seja pertinente ao problema escolhido. 

OBS: **Não** use o API Jokes neste exercício.

2. Considere agora o API Jokes (https://official-joke-api.appspot.com/random_joke). Adapte o sistema criado no exercício anterior para o uso desta aplicação. Considere que apenas entradas únicas devem ser armazenadas na tabela. Caso o registro seja repetido, sinalize a repetição, ID e o resto de seu conteúdo. 