# Introdução - Pandas

## Primeiro... por que pandas?

No dia-a-dia, mexemos com diferentes planilhas contendo um alto volume de dados. 
Quais são as ferramentas que geralmente são usadas para essas tarefas?

In [None]:
import requests 

In [None]:
res = requests.get('https://api.publicapis.org/entries')

In [None]:
res_json = res.json()

In [None]:
res_json

Agora imagine que você queira carregar essa base de dados em Python para fazer transformações nos dados, pré-processamento ou qualquer outra análise. Com o conhecimento adquirido até agora, como podemos fazer a leitura deste arquivo?

Nesta aula, aprenderemos a carregar e manipular uma base de dados usando a biblioteca `pandas`. O Pandas (derivado de panel data) é uma biblioteca para Python muito versátil e simples de se utilizar para trabalhar com dados em tabelas (i.e. dados tabulares, ou estruturados).

! Qual é a diferença entre dados estruturados e não-estruturados?

Existem duas estruturas básicas para `pandas`:

- `pandas.DataFrame`

- `pandas.Series`

Nesta aula, falaremos sobre o funcionamento do DataFrame. É importante notar que `pandas` foi desenvolvido em cima da biblioteca `numpy` e, portanto, a maioria das manipulações numéricas destes dados tabulares são feitas com o auxílio de `np.array` e seus métodos. 

## O que é `pandas.DataFrame`

`pandas.DataFrame` é uma estrutura em `pandas` para acomodação de tabelas (i.e. linhas e colunas). 

Usamos o `pd.DataFrame()` para criar a nossa base de dados. 

In [None]:
import pandas as pd 
import numpy as np 

Temos algumas formas para a criação usando `pd.DataFrame`:

- `dict` usando a chave como o *header* da coluna e uma lista como valores para o tal atributo. 

- `np.array` 

- `pd.DataFrame`

- Outros iteráveis. 

### Quick recap 

Como funciona um dicionário? 

OBS: usamos uma estrutura basicamente desse tipo quando estamos tratando de requisições usando JSON (comumente usado em API call, por exemplo)

### Voltando para a criação de um `pandas.DataFrame`

#### Usando dicionário

In [None]:
vals = {'Produto 1':[1,2,3,4], 'Produto 2': [0, 0, 10, 3], 'Produto 3': [0, 5, 7, 10], 'Novo?': ['Não','Sim','Sim','Não']}

In [None]:
df = pd.DataFrame(vals)

In [None]:
df

Os valores de um dicionário não precisam ter **apenas** listas.

In [None]:
teams = {'Ano': np.arange(1950,1955), 'Campeão': ['Time A','Time B','Time C','Time D', 'Time A'], 'Pontos': [80, 77, 65, 50, 29] }

In [None]:
pd.DataFrame(teams)

#### Usando `np.array`

In [None]:
vals = np.random.random((4,10)) 
df = pd.DataFrame(data=vals)

In [None]:
df

Qual a diferença entre os dois métodos de criação? 

Outros argumentos para a criação do `pd.DataFrame`:

- `index`: Index para usar para o dataframe gerado.

- `columns`: Nome das colunas para o dataframe, quando não tiver. 

- `dtype`: Tipo de dado esperado para **todos** os elementos do dataframe.

Exercício: como escrever nomes para colunas inserindo data como `np.array`?

Nem sempre precisamos criar um `dataFrame`. Quando quisermos carregar uma tabela já existente, usaremos outros métodos:

- `pd.read_csv` 

- `pd.read_table`

Argumentos importantes no `read_csv` 

- filepath (**obrigatório**): string contendo o caminho para a tabela. 

- `sep`: delimitador usado para separação entre valores. Geralmente é utilizado quando o arquivo usa o separador `;` ao invés de `,`.

- `header`: número de linhas utilizadas para o cabeçalho da tabela. Se a tabela **não** contém header, devemos usar `header = None`.

- `names`: nome das colunas (deve ser feita de forma explícita caso não exista originalmente o header).

## Acessando e manipulando informações de um `pd.DataFrame`

Temos diferentes formas para acessar informações de um DataFrame. 

Neste primeiro momento, iremos falar apenas de uma forma **bem** básica. 

Podemos acessar pela propriedade (i.e. nome da coluna) da tabela. Isso pode ser feito de duas formas:

- `df[column_name]` 

- `df.column_name`

E se eu quiser um valor dentro desta coluna? Acessamos mais um índice 

`df[column_name][i]`

E se quisermos mais de uma coluna? Daí passamos uma lista de nomes para retornar essa visualização. 

`df[list_of_columns]`

In [None]:
list_of_columns = [0, 1]

df[list_of_columns]

E se quisermos **apenas** os valores após essa primeira "filtragem"? 

Podemos usar o `values`, que retorna um `np.array`.

### Adicionando novas informações

Agora que sabemos criar (ou ler) uma tabela, resta saber como atualizamos o conteúdo da tabela. 

Isto é bem simples. Para isso, usamos o método `append`.

In [None]:
import pandas as pd 

In [None]:
#Exemplo 
df1 = pd.DataFrame({"foo":[1, 2, 3, 4],
                    "bar":[5, 6, 7, 8]})
 
df2 = pd.DataFrame({"foo":[1, 2, 3],
                    "bar":[5, 6, 7]})
 
df1 = df1.append(df2)
df1

In [None]:
df2 = pd.DataFrame({"foo":[1, 2, 3],
                    "bar":[5, 6, 7],
                    "c":[1, 5, 4]})


OBS: O método `append` não é mais recomendado pelo Pandas desde a versão 1.4. Ao invés disso, devemos usar o `merge` ou `concat`.

Usamos o `merge` para unir duas tabelas. Para isso, precisamos saber **como** devemos unir esta tabela. O conceito é bem semelhante ao que geralmente é aprendido em SQL.


![exemplo](https://miro.medium.com/max/720/1*0FDsAB9OelxojfmtkcLbgw.png)

In [None]:
#Exemplo 

tabela_1 = pd.DataFrame({
'Nome':['João', 'João', 'Pedro' , 'Caio'], 
'Matéria': ['CS113', 'CS115', 'CS113', 'DS300'], 
'Grupo': ['azul', 'preto', 'verde' , 'amarelo']})

In [None]:
tabela_2 = pd.DataFrame({
'Nome':['João', 'Thiago', 'Pedro' , 'Gabriel'], 
'Matérias': [5, 10, 7, 12]})

In [None]:
pd.merge(tabela_1, tabela_2, how = 'inner', on = 'Nome')

In [None]:
#Usando o mesmo nome da coluna. 
tabela_2 = pd.DataFrame({
'Nome':['João', 'Thiago', 'Pedro' , 'Gabriel'], 
'Grupo': ['preto','vermelho','verde','amarelo'],
'Matérias': [5, 10, 7, 12]})

In [None]:
pd.merge(tabela_1, tabela_2, how = 'inner', on = 'Nome')

In [None]:
pd.merge(tabela_1, tabela_2, how='inner', on=['Nome','Grupo'])

**OBS: Veremos isso também ao longo das próximas aulas, então não se preocupe agora :)** 

## Exercícios

1. Neste primeiro exercício, você trabalhará com o armazenamento e atualização de tabelas, com dados fornecidos por um API. Selecione uma tarefa para aquisição de dados por meio de um API (existe uma lista com Free API sem o uso de key, https://apipheny.io/free-api/). Crie um sistema que obtenha as informações de API e armazene em uma tabela. Este sistema deve ser capaz de adicionar novas informações ao realizar futuras requisições na API. Crie também uma função que armazene **apenas** se a informação for válida. 


Exemplos de API:

- https://www.mercadobitcoin.com.br/api-doc/ 

- https://docs.awesomeapi.com.br/api-de-moedas

- https://www.boredapi.com

- https://datausa.io/about/api/

In [31]:
import requests 
import pandas as pd 
from typing import Dict

def get_json(url) -> Dict:
    '''
    Função para fazer a requisição de uma API. 
    A função requer a URL para fazer a requisição da API.
    Retorna um dicionário (ou uma lista de dicionários, dependendo da resposta da API).
    ''' 
    res = requests.get(url)
    res_json = res.json()
    return res_json 

In [38]:
def append_request(url:str = 'https://www.boredapi.com/api/activity', df = None):
    res = get_json(url)
    # Perceba a sutileza que estamos usando nesse caso abaixo :)
    df_res = pd.DataFrame([res]) 

    if df is None:
        new_df = df_res
    else:
        new_df = pd.concat([df,df_res])
    return new_df

In [39]:
def get_n_activities(n:int=10):
    if n <= 0 or type(n) != int:
        print('Por favor, insira um número inteiro e positivo')
    
    df = append_request()
    for i in range(n-1):
        df = append_request(df=df)
    df.reset_index(inplace=True, drop=True)
    return df

In [40]:
get_n_activities(n=10)

Unnamed: 0,activity,type,participants,price,link,key,accessibility
0,Do a jigsaw puzzle,recreational,1,0.1,https://en.wikipedia.org/wiki/Jigsaw_puzzle,8550768,1.0
1,Write a poem,recreational,1,0.0,,8688620,0.0
2,Learn how to make an Alexa skill,education,1,0.0,https://developer.amazon.com/en-US/docs/alexa/...,1592381,0.1
3,Find a DIY to do,diy,1,0.4,,4981819,0.3
4,Take a caffeine nap,relaxation,1,0.1,,5092652,0.08
5,Start a garden,recreational,1,0.3,,1934228,0.35
6,Do yoga,recreational,1,0.0,,4688012,0.9
7,Start a webinar on a topic of your choice,education,1,0.0,,6826029,0.9
8,Research a topic you're interested in,education,1,0.0,,3561421,0.9
9,Contribute code or a monetary donation to an o...,charity,1,0.1,https://github.com/explore,7687030,0.0


2. Considere agora o API Jokes (https://official-joke-api.appspot.com/random_joke). Adapte o sistema criado no exercício anterior para o uso desta aplicação. Considere que apenas entradas únicas devem ser armazenadas na tabela. Caso o registro seja repetido, sinalize a repetição, ID e o resto de seu conteúdo. 