# Visão geral
Esse caderno tem como objetivo pegar os dados da API publica CIVIC (Clinical Interpretation of variants in cancer) e transforma-los em dataframes.
Nossa escola de API possui 4 diferentes URL's das quais teremos que receber os dados, ou seja, repitiremos o mesmo processo para todas as URL's.
## Objetivo do código
Acessar a API CIVIC e coletar os dados fornecidos por ela.

In [None]:
#Importações
import requests
import json
import pandas as pd

Inicialmente, iremos realizar as importações necessárias. Precisaremos da biblioteca requests, que nos permite fazer solicitações em HTTP com os métodos padrões. Usaremos o método GET para todas as URLs.

A biblioteca Json fornece uma maneira fácil de codificar e decodificar dados no formato JSON. Esse formato é comumente utilizado para trocar informações entre diferentes sistemas, sendo amplamente utilizado em serviços web e APIs RESTful.

Por último, usaremos a biblioteca Pandas para análise e manipulação de dados. Essa biblioteca fornece estruturas de dados de alta performance.

# Assertion
https://civic.readthedocs.io/en/latest/api/v1/assertions.html

Começaremos com a URL de Assertions, que possui um total de 48 valores de retorno divididos em 48 páginas. Para realizar a coleta desses valores, definiremos a URL informada pelo site "https://civicdb.org/api/assertions" e mudaremos o parâmetro "count" de 1 (valor padrão) para 48. Dessa forma, receberemos todos os dados em uma única chamada.

Faremos uma solicitação GET para a API com foco em "assertions" com um limite de 10.000 retorno de dados, (porém essa API retorna apenas 48 dados, mas por padrão manterei todas as URL's em 10.000).

Em seguida, solicitaremos o "status_code" para verificar se a solicitação de coleta foi aceita. Os códigos mais comuns são:

200: tudo funcionou como esperado e a validação dos dados foi realizada com sucesso.

400: problemas durante a autenticação.

401: este erro ocorre quando há algum erro na requisição.

500: ocorreu algum erro interno no servidor.

In [None]:
#URL da API
Assertion = requests.get('https://civicdb.org/api/assertions?count=10000')
#Codigo de status 
Assertion.status_code

Json.loads() É um método usado para decodificar uma string JSON em um objeto Python. O objeto Python resultante pode ser uma lista, um dicionário, um valor de string, um número, um valor booleano ou None. 
A função .content é usada para retornar o conteúdo de uma resposta HTTP em formato de bytes.

Converteremos o conteúdo da resposta HTTP, que é originalmente uma string no formato JSON, para um dicionário Python utilizando a função .loads.


In [None]:
#Json.load: Pega um objeto em arquivo e retorna o objeto json; contendo dados na forma de chave/valor;
#contente: Retorna o contéudo da resposta em dicionario.
Assertion_dict=json.loads(Assertion.content)

Utilizando o método pd.DataFrame iremos converter o dicionário Python em um dataframe pandas com os dados retornados pela API.

In [None]:
#Pega apenas uma das chaves que a URL retorna e a transforma em um dataframe.
df_assertion=pd.DataFrame(Assertion_dict["records"])
#Dataframe
df_assertion

Por ultimo nessa URL iremos salvar o Dataframe criado para que ele possa ser usado para posterior análise e manipulação.

In [None]:
#Salva o dataframe criado.
df_assertion.to_csv('Assertions.csv', index=False)

# Evidences
https://civic.readthedocs.io/en/latest/api/v1/evidence.html

Segureimos para Evidences, que possui um total de 8939 valores de retorno divididos em 8939 páginas. Para realizar a coleta desses valores, definiremos a URL informada pelo site "https://civicdb.org/api/evidence_items"
e mudaremos o parâmetro "count" de 1 (valor padrão) para 8939. Dessa forma, receberemos todos os dados em uma única chamada.

In [None]:
#URL da API
Evidences = requests.get('https://civicdb.org/api/evidence_items?count=10000')
#Codigo de status 
Evidences.status_code

In [None]:
#Json.load: Pega um objeto em arquivo e retorna o objeto json; contendo dados na forma de chave/valor;
#contente: Retorna o contéudo da resposta em dicionario.
Evidences_dict=json.loads(Evidences.content)

In [None]:
#Pega apenas uma das chaves que a URL retorna e a transforma em um dataframe.
df_evidences=pd.DataFrame(Evidences_dict["records"])
#Dataframe
df_evidences

In [None]:
#Salva o dataframe criado.
df_evidences.to_csv('Evidence.csv', index=False)

# Variant
https://civic.readthedocs.io/en/latest/api/v1/variants.html

Segureimos para Evidences, que possui um total de 3163 valores de retorno divididos em 3163 páginas. Para realizar a coleta desses valores, definiremos a URL informada pelo site "https://civicdb.org/api/variants"
e mudaremos o parâmetro "count" de 1 (valor padrão) para 3163. Dessa forma, receberemos todos os dados em uma única chamada.

In [None]:
#URL da API
Variant = requests.get('https://civicdb.org/api/variants?count=10000')
#Codigo de status 
Variant.status_code

In [None]:
#Json.load: Pega um objeto em arquivo e retorna o objeto json; contendo dados na forma de chave/valor;
#contente: Retorna o contéudo da resposta em dicionario.
Variant_dict=json.loads(Variant.content)

In [None]:
#Pega apenas uma das chaves que a URL retorna e a transforma em um dataframe.
df_variant=pd.DataFrame(Variant_dict["records"])
#Dataframe
df_variant

In [None]:
#Salva o dataframe criado.
df_variant.to_csv('variants.csv', index=False)

# Gene
https://civic.readthedocs.io/en/latest/api/v1/genes.html

Segureimos para Evidences, que possui um total de 332 valores de retorno divididos em 332 páginas. Para realizar a coleta desses valores, definiremos a URL informada pelo site "https://civicdb.org/api/genes"
e mudaremos o parâmetro "count" de 1 (valor padrão) para 332. Dessa forma, receberemos todos os dados em uma única chamada.

In [None]:
#URL da API
Gene = requests.get('https://civicdb.org/api/genes?count=10000')
#Codigo de status 
Gene.status_code

In [None]:
#Json.load: Pega um objeto em arquivo e retorna o objeto json; contendo dados na forma de chave/valor;
#contente: Retorna o contéudo da resposta em dicionario.
Gene_dict=json.loads(Gene.content)

In [None]:
#Pega apenas uma das chaves que a URL retorna e a transforma em um dataframe.
df_gene=pd.DataFrame(Gene_dict["records"])
#Dataframe
df_gene 

In [None]:
#Salva o dataframe criado.
df_gene.to_csv('genes.csv', index=False)

Em virtude das informações citadas acima, entendemos que esse código busca um grande conjunto de dados em 4 URL's diferentes, Gene, Evidences, Variants, Assertions e os transforma em dataset para que possam ser usados posteriormente.