<a href="https://colab.research.google.com/github/jobdiogenes/data-science-recipes/blob/master/gists/data_science_gist_03_pt.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

[Índice](https://github.com/jobdiogenes/data-science-recipes/blob/master/gists/index.md)
# Série de Receitas para Ciência de Dados
## Episódio 3 - Repositórios: mergulhando nas rotas de dados de um repositório REST
### Introdução
>**Afinal o que são rotas?** bem se você ainda não sabe é porque não foi visitar a documentação do REST API para repositório Fishbase. Se não viu ainda, tudo bem, mas agora você deve ir lá (https://fishbaseapi.readme.io/docs) dar uma olhada e ver as diversas rotas (_route_)  para trazer dados. 

>**Orientações** daqui pra frente os exemplos e os exercícios terão códigos mais extensos. Por isso preste muita atenção  a identação. (dois espaços) para cada nível, que é a forma que o python usa pra definir a abrangência de um código de nível (if, while, for, etc). No terminal, usar o ipython3 é melhor que o python3, pois ele colore o código de acordo com o significado e também possui documentação e autocompleta comandos. 

Por exemplo, no último exemplo do  episódio 2, a variável **r** se referia ao resultado da busca _get_ ao repositório e a  variável **especies** recebe o contaúdo de **r[''data']**, como informado no 1º episódio, tudo em python é um objeto. E no caso do ipyhon e também de editoes de código como Aton, ou VsCode, que possuem suporte pra python, eles oferecem a opção de informar quais métodos estão disponíveis para tal objeto. No caso do ipython3 por exemplo, ao digitar **r.** e pressionar a tecla tab, ele mostrará os métodos disponíveis para o tipo dicionário ex: keys(),items(),values(), e da mesma forma os correspondentes para a variável especie e para função _get_. No Atom e no VsCode, logo ao digitar o **.** (ponto) já é exibido as opções. Esses editores, são muito usados por quem escreve código em diversas linguagens, como **Python**, **R**, **Julia**, **Javascript**, etc, pois além de autocompletar fazem análise do código identificando possíveis erros. :). Por agora, usar no colab, ou por algum dos terminais (no seu computador) or na nuvem, já atende ao propósito de aprendener. Você é livre pra experimentar todas essas opções, python, ipython, Jupyter, Atom, VcCode ou Colab. Qualquer dessas opções você poderá executar o python3 e obter os resultados. 

##Meta

A meta deste episódio é entender e praticar como obter dados de diferentes rotas disponíveis pelo Fishbase API, interligando dados de uma rota com uma ou mais rotas. Com isso você vai entender como é possível, unir dados de diferentes contextos para atender as nossas necessidades. 

## O que iremos ver?
Bem, como se pode entender pelo próprio nome Ciência de Dados se trata de lidar com dados. É fundamental quando se trata de obter dados de repositórios, conhecer a estrutura organizacional (taxonomia) rotas que os dados estão dispostos, o que cada rota oferece de conteúdo e os recurso da API. **Importante** cada respositório possui uma API com recursos e parâmetros diferentes, por isso sempre que for olhar outra base, deve-se pesquisar nele ler a documentação da API. **Spoiler** no próximo episódio terá consultas unindo bases diferentes. 

E neste episódio teremos os seguintes itens:
1. [x] Como estudar as rotas e os dados para realizar nossas pesquisas
1. [x] Interligando rotas e extraindo somente os dados que queremos.

### Item 1 - Estudando as rotas e os dados
A página de  [documentação do Fishase API](https://fishbaseapi.readme.io/docs) traz a lista de todas as rotas e informações básica sobre os parâmetros que podem ser usados. E ao você olhar pela primeira vez, pode achar estranho não haver descrição do que é cada rota. Sim, a maioria tem nomes que iremos entender facilmente, como _taxa_, _species_, _diet_, etc, tem ainda a opção de realizar uma pesquisa ali mesmo e ver o conteúdo que retorna. Isso é muito bom, e nem todos repositórios tem isso. 

E agora, você ira pensar, vou ter de advinhar o que significa? . No caso do Fishbase não!, apesar de não aparecer na descrição quando você clica sobre alguma rota. O fishbase oferece a descrição do conteúdo na rota /docs. Parece estranho isso, afinal você esta ali e gostaria de saber do que se trata. Mas, entenda, APIs são feitas pra usar via consulta por programação e não pelo site, apesar de ser bacana poder testar ali. É um teste limitado, mas já ajuda ver o que retorna de conteúdo. 
>**Como descobrir?** pois é, ler a documentação organizada é a primeira parte, mas pode ser insuficiente. Por isso, em todo tipo de API, a principal atividade inicial é chamar várias rotas pra ver do que realmente se trata. Ai você vê que existe uma rota **/docs**, que remete a documentação, vê outra com o nome **/heartbeat** e se pergunta, "que raio é isso?". Fácil, chame a rota e vê o que retorna. Ou seja, é ao mesmo tempo um processo empírico e metódico, que envolve ler e experimentar.
>** __APIs não são só pra buscar dados__, elas servem também pra enviar e atualizar dados por colaboradores da base que possuem registro e acesso a atualização.  
 
 Vamos aos experimentos:


In [0]:
# essas definições se repetem a cada bloco de código porque eles podem ser 
# executados individualmente, mas se esta executando no terminal, só é 
# preciso quando abre o ipython3 ou o python3

# iniciando
from requests import get
h = "https://fishbase.ropensci.org/"

# chamando a primeira rota
r = get(h+'/heartbeat').json()
print(r,'\n')

# > o que você encontra é uma lista de todas rotas e parâmetros 

# lembram dos parâmetros 'limit' e 'offset' vamos definir para exibir 1 só
# exibir o docs
r = get(h+'/docs',params={'limit':1}).json()
print(r,'\n')

# você observa que não limitou. motivo? tá lá na documentação,
# a rota /docs não recebe esse parâmetro

# você observa também que os dados assim como no taxa estão no array 'data'
# que contém um dicionário

# vamos exibir as chaves para saber os campos 'fields' disponíveis do /doc.
# sim, você pode simplesmente ler um registro todo, mas o conteúdo pode ser 
# extenso e dificultar. 

# exibindo apenas o registro inicial 
print(r['data'][0].keys())

# vamos exibir esse conteúdo de forma mais amigável numa única linha de comando
for doc in get(h+'/docs').json()['data']: print(doc['table'],':',doc['description'],'\n') 

# ficou bem mais fácil de ler não é?

# lendo a doc descobrimos que a rota /country contêm a lista de espécies 
# que ocorrem num país e a rota /countref tem a descrição dos países.

# documentação online também informa que a countref alem dos parâmetros 'limit'
# 'offset' e 'fields' permite usar como filtro todos os campos exibidos.

# vamos ver então quais são para a rota /countref
print('Campos para /countref', '\n', get(h+'/countref',params={'limit':1}).json()['data'][0].keys(),'\n')

# e agora para a /country
print('Campos para /country', '\n', get(h+'/country',params={'limit':1}).json()['data'][0].keys(),'\n')

# se o nome dos campos não é suficiente informativo exibimos então um registro
print('Conteúdo para /countref', '\n', get(h+'/countref',params={'limit':1}).json()['data'][0],'\n')

# agora sabemos que o campo C_Code deve ser o que une country e countref
# e que o nome do país esta em vários campos em vários idiomas

# vamos exibir sobre o Brasil
brasil = get(h+'/countref',params={'PORTUGUESE': 'Brasil'}).json()['data'][0]
print('Conteúdo para Brasil', '\n', brasil,'\n')

# bem agora vamos obter e exibir apenas o nome e o código de todos países do 
# mesmo continente. temos 3 opções. iremos de 'Continent' e com limite 99
# grande para retornar todos países
continente = brasil['Continent']
print(continente,'\n')

print('Países do continente',continente)
print('C_Code,GSI_Name,PORTUGUESE')
for pais in get(h+'/countref',params={'limit':99,'Continent': continente, 'fields' : 'C_Code,GSI_Name,PORTUGUESE'}).json()['data']:
  print(pais['C_Code'],',',pais['GSI_Name'],',',pais['PORTUGUESE'])
print('---------------------------------\n')

# você observou que nem todos GSI_Name e PORTUGUESE contem dados. 
# então devemos ver qual é o campo que sempre tem dados. 
americadosul = get(h+'/countref',params={'limit':99,'Continent': continente, 'fields' : 'C_Code,PAESE,Note,GSI_Name,PORTUGUESE'}).json()['data']
for pais in americadosul: 
  for chave,valor in pais.items():
    print(chave,':',valor,',',end='')
  print()
# observou o end='', o motivo disso é que por padrão o print poe '\n' nova linha
# dessa forma exibe todos os campos numa mesma linha e depois coloca nova linha
# Pelo resultado visual o nome do pais esta garantido no campo 'PAESE'

# e se fosse muitos países como fazer com mais precisão?
# R: contamos usando dicionario
contadores = {'total' : 0}
for pais in americadosul: 
  for chave,valor in pais.items():
     if chave not in contadores.keys():
        contadores[chave] = 0
     if valor is not None:
        contadores[chave] += 1
  contadores['total'] += 1   
print(contadores)

### Item 2 - Interligando os dados e extraindo
Até agora já apresendemos a explorar o conteúdo de uma rota por vez, saber quais são seus campos e saber se estão preencidos. Como podemos observar, as rotas oferecem conteúdos diferentes, mas possuem campos de conexão. No caso de países é o C_Code, no caso de Espécies é o SpecCode

Usando essas informações vamos extrair dados unindo rotas.


In [0]:
# inicio
from requests import get
h = "https://fishbase.ropensci.org"

# 1) Como obter todas as fotos das espécies disponíveis do gênero serrasalmus.
#
# - se você ainda não viu quais os campos de cada rota veja agora das
#   rotas /taxa e /species. olhe acima e repita mudando as rotas
#
# - você verá que a rota /taxa contem a lista de especies 
#   e a rota /species contem o link para imagem.

# pegar de/taxa lista de especies de serrasalmus
lista = get(h+'/taxa',params={'Genus': 'serrasalmus','limit':99}).json()['data']
serrasalmus = []
for peixe in lista:
  especie_codigo = peixe['SpecCode']
  dados = get(h+'/species', params={'SpecCode' : especie_codigo}).json()['data'][0]
  serrasalmus.append({'Código' : dados['SpecCode'],'Espécie' : dados['Species'], 'FotoURL' : dados['image']})

for peixe in serrasalmus: print(peixe)
  
# aqui vocẽ viu que nem todas as espécie possuem foto.
# é uma oportunidade de vocẽ publicar uma e enviar para enviar

# se estiver usando o colab ou jupyter
# o código a seguir irá exibir as fotos

# se NÂO estiver no Colab ou Jupyter 
# comente a linha: display(Image ...
from IPython.display import Image, display

for peixe in serrasalmus: 
  if peixe['FotoURL'] is not None:
     display(Image(url=peixe['FotoURL']))
     print(peixe['FotoURL'])

### Tarefa

Usando os conhecimentos vistos acima liste todas as espécies de Serrasalmus existentes em cada país da america do sul e se é nativa. Dica: a relação pais x espécie esta na rota /country. A resposta você pode ver [aqui](https://github.com/jobdiogenes/data-science-recipes/blob/master/gists/code/answer-e03t01.py). Não veja isso agora. Faça esta tarefa. 

> ***Fique atento grandes novidades para o próximo episódio***