### Material de apoio {.unnumbered}

1. [Tutorial de uso do da biblioteca requests com explicação de seu funcionamento (em inglês)](https://realpython.com/python-requests/)

# Captando dados a partir de APIs {.unlisted .unnumbered}

Algumas vezes, para franquear o acesso ao público de uma maneira mais eficiente e menos custosa, os órgãos públicos usam APIs ao invés de arquivos processáveis. Nessa aula, vamos aprender a interagir com essas interfaces.

## Caso 1

Na verdade, os dados do [portal de compras do Governo Federal](http://compras.dados.gov.br/docs/home.html), que usamos para aprender alguns conceitos chaves de Pandas, são disponibilizados através de uma API! Vamos enviar algumas requisições para recriar algumas das análises que já fizemos usando essa nova técnica.

### Conceito

APIs, ou Application Programming Interfaces, são ferramentas que podem ser acessadas diretamente por código de computador e que permitem a interação com bases de dados ou funcionalidades implementadas previamente. Todos os serviços que são construídos em cima de uma plataforma comum usam APIs. O Waze, por exemplo, usa uma API do Google Maps para obter os dados de georreferenciamento. Da mesma forma, os jogos do Facebook usam APIs oferecidas pela empresa, assim como as extensões do Chrome, e assim por diante.

OBS: Uma batalha legal bastante relevante vem sendo travada entre a Google e a Oracle a respeito da proteção intelectual das APIs. Ela é tão relevante que tem até [uma página dedicada na wikipedia](https://en.wikipedia.org/wiki/Oracle_America,_Inc._v._Google,_Inc.).

### Fazendo requisições a uma API

A forma como nos comunicamos com uma API é através de requisições. Enviamos a requisição através de uma URL que informa à API tudo que ela precisa fazer. Nesse caso, precisamos informar à base de dados do governo federal quais dados queremos. Um pequeno guia sobre as informações da API está presente [nesta página](http://compras.dados.gov.br/docs/home.html).

Um bom ponto de partida é conseguir as compras sem licitação do governo federal.

Por padrão, essa API só nos retorna os últimos 500 itens

In [1]:
import pandas as pd
import requests

In [7]:
resultado = requests.get("http://compras.dados.gov.br/compraSemLicitacao/v1/compras_slicitacao.csv")

In [8]:
resultado

<Response [200]>

O resultado do request é apenas um código indicando o que aconteceu com a requisição enviada. ([Este site](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status) contém uma lista com todos os códigos possíveis e o seu significado). Para ver o conteúdo da resposta, precisamos acessar o atributo `.content` ou `.text`.

In [9]:
resultado.content[]

b'Org\xc3\xa3o,Org\xc3\xa3o Superior,UASG,C\xc3\xb3digo da modalidade da compra,Descri\xc3\xa7\xc3\xa3o Lei,N\xc3\xbamero Inciso,N\xc3\xbamero processo,Quantidade item,Valor total da compra,N\xc3\xbamero da compra,Descri\xc3\xa7\xc3\xa3o objeto licita\xc3\xa7\xc3\xa3o,Descri\xc3\xa7\xc3\xa3o fundamento legal,Descri\xc3\xa7\xc3\xa3o justificativa,Data de reconhecimento da compra sem licita\xc3\xa7\xc3\xa3o,Nome do respons\xc3\xa1vel pelo reconhecimento,Fun\xc3\xa7\xc3\xa3o do respons\xc3\xa1vel pelo reconhecimento,Data da ratifica\xc3\xa7\xc3\xa3o da compra sem licita\xc3\xa7\xc3\xa3o,Nome respons\xc3\xa1vel ratifica\xc3\xa7\xc3\xa3o,Fun\xc3\xa7\xc3\xa3o do respons\xc3\xa1vel pela ratifica\xc3\xa7\xc3\xa3o,Data da publica\xc3\xa7\xc3\xa3o da compra sem licita\xc3\xa7\xc3\xa3o,Itens > uri\n12000: JUSTICA FEDERAL,12000: JUSTICA FEDERAL,90039: JUSTICA FEDERAL DE 1A. INSTANCIA/RR,6: Dispensa,,02,"4372420224018013 ",,"R$ 13.800,90",,"Objeto: Aquisi\xc3\xa7\xc3\xa3o de material de consumo div

O formato do meu pedido foi ".csv", assim, podemos salva-lo como um arquivo no nosso computador para visualiza-lo de maneira mais adequada.

In [10]:
with open("test.csv", "w") as f:
    f.write(str(resultado.content, encoding='utf-8'))

In [11]:
df = pd.read_csv("test.csv")
df.head()

Unnamed: 0,Orgão,Orgão Superior,UASG,Código da modalidade da compra,Descrição Lei,Número Inciso,Número processo,Quantidade item,Valor total da compra,Número da compra,...,Descrição fundamento legal,Descrição justificativa,Data de reconhecimento da compra sem licitação,Nome do responsável pelo reconhecimento,Função do responsável pelo reconhecimento,Data da ratificação da compra sem licitação,Nome responsável ratificação,Função do responsável pela ratificação,Data da publicação da compra sem licitação,Itens > uri
0,12000: JUSTICA FEDERAL,12000: JUSTICA FEDERAL,90039: JUSTICA FEDERAL DE 1A. INSTANCIA/RR,6: Dispensa,,2,4372420224018013,,"R$ 13.800,90",,...,"Fundamento Legal: Art. 24º, Inciso II da Lei n...",Justificativa: Aquisição de produtos e/ou serv...,12/09/2022,NILTON DALLAGNOL ...,Diretor da Secretaria Administrativa ...,,,,,/compraSemLicitacao/id/item_slicitacao/5187080...
1,97320: ESTADO DE GOIAS,99900: REPUBLICA FEDERATIVA DO BRASIL,926995: SECRETARIA MUNICIPAL DE SAÚDE,6: Dispensa,,2,89365589,,,,...,"Fundamento Legal: Art. 75º, Inciso II da Lei n...",Justificativa: Conforme especificado no termo ...,,DURVAL FERREIRA FONSECA PEDROSO ...,Secretário ...,,,,,/compraSemLicitacao/id/item_slicitacao/5187510...
2,54000: MINISTERIO DO TURISMO,54000: MINISTERIO DO TURISMO,540036: CENTRO TECNICO AUDIOVISUAL,6: Dispensa,,22,72031.006426/2021,,"R$ 1.980.000,00",,...,"Fundamento Legal: Art. 24º, Inciso XXII da Lei...","Justificativa: Art. 24º, Inciso XXII da Lei nº...",29/09/2022,ARMANDO SOUZA DE OLIVEIRA ...,Coordenador Planejamento e Administração ...,29/09/2022,VALQUIRIA SALGADO QUILICI ...,Coordenadora-geral do Centro Técnico do Audiov...,30/09/2022,/compraSemLicitacao/id/item_slicitacao/5187944...
3,36000: MINISTERIO DA SAUDE,36000: MINISTERIO DA SAUDE,257039: DISTRITO SANIT.ESP.INDÍGENA - CUIABA,7: Inexigibilidade,,1,25049000373201469,,"R$ 674.262,11",,...,"Fundamento Legal: Art. 25º, Inciso I da Lei nº...",Justificativa: Inexigibilidade ...,30/09/2022,ALDYLENE MARIA MAZER MARQUES ...,Chefia Selog ...,30/09/2022,AUDIMAR ROCHA SANTOS ...,Coordenador Distrital ...,03/10/2022,/compraSemLicitacao/id/item_slicitacao/5188230...
4,93720: ESTADO DE TOCANTINS,99900: REPUBLICA FEDERATIVA DO BRASIL,928806: ASSOCIAÇAO A.C. DOM ORIONE/TOCANTINOPO...,6: Dispensa,,2,01,,"R$ 2.041,65",,...,"Fundamento Legal: Art. 24º, Inciso II da Lei n...",Justificativa: Tendo em vista que o referido i...,06/10/2022,MAICON JUNIOR MACHADO MIGUEL ...,Presidente ...,,,,,/compraSemLicitacao/id/item_slicitacao/5191167...


Podemos usar a lógica da API pra fazer exatamente a mesma query que fizemos anteriormente: procurar por despesas que contém a palavra "cloroquina".

In [12]:
resultado = requests.get("http://compras.dados.gov.br/compraSemLicitacao/v1/compras_slicitacao.csv?dt_ano_aviso_licitacao=2020&ds_objeto_licitacao=cloroquina")

with open("test.csv", "w") as f:
    f.write(str(resultado.content, encoding='utf-8'))
    
df = pd.read_csv("test.csv")
df.head()

EmptyDataError: No columns to parse from file

O que acontece se quisermos dados ainda mais precisos sobre cada uma dessas compras? A última coluna do dataframe acima ("Itens > uri") contém uma URL incompleta que aponta para as informações detalhadas dos itens envolvidos em cada pedido. Assim, podemos saber, por exemplo, qual foi a quantidade de cloroquina que foi comprada.

In [None]:
#código um pouco mais complexo que cria um dataframe com todas as urls relevantes
todos_itens = pd.DataFrame()

for i, itens in df["Itens > uri"].items():
    
    url = "http://compras.dados.gov.br" + itens
    
    print(url)
    
    resultado = requests.get(url + ".csv")

    with open("raw_items.csv", "w") as f:
        f.write(str(resultado.content, encoding='utf-8'))

    new_df = pd.read_csv("raw_items.csv")
    
    todos_itens = todos_itens.append(new_df)
    
todos_itens.head()

http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/98963106000052020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/16032806000142020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/16032806000172020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/16032806000182020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/16032806000232020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/16032806000242020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/16032806000252020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/16032806000262020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/16032806000272020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/25006106000342020/itens
http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/16032806000392020/itens
http://com

EmptyDataError: No columns to parse from file

Como vimos, esse item não está completo. Precisamos antecipar que isso vai acontecer e escrever um código que seja resiliente com relação a esse problema. A solução está no uso de ferramentas que permitem lidar com erros.

In [17]:
df["Itens > uri"]

0      /compraSemLicitacao/id/item_slicitacao/5187080...
1      /compraSemLicitacao/id/item_slicitacao/5187510...
2      /compraSemLicitacao/id/item_slicitacao/5187944...
3      /compraSemLicitacao/id/item_slicitacao/5188230...
4      /compraSemLicitacao/id/item_slicitacao/5191167...
                             ...                        
495    /compraSemLicitacao/id/item_slicitacao/1480465...
496    /compraSemLicitacao/id/item_slicitacao/4436329...
497    /compraSemLicitacao/id/item_slicitacao/3678622...
498    /compraSemLicitacao/id/item_slicitacao/2516082...
499    /compraSemLicitacao/id/item_slicitacao/4440310...
Name: Itens > uri, Length: 500, dtype: object

In [16]:
#código um pouco mais complexo que cria um dataframe com todas as urls relevantes
todos_itens = pd.DataFrame()

for i, itens in df["Itens > uri"].items():
    
    url = "http://compras.dados.gov.br" + itens
    
    print(url)
    
    resultado = requests.get(url + ".csv")

    with open("raw_items.csv", "w") as f:
        f.write(str(resultado.content, encoding='utf-8'))

    try:
        new_df = pd.read_csv("raw_items.csv")
        new_df["Itens > uri"] = itens
    except:
        print("Ocorreu algum erro... Ignorando este item.")
    
    todos_itens = todos_itens.append(new_df)
    
todos_itens.head()

http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/5187080/itens


KeyboardInterrupt: 

### Joins

Agora, nós temos informações em duas tabelas diferentes sobre as compras de cloroquina sem licitação do Governo Federal ao longo de 2020. Uma tabela contém informações sobre a compra, enquanto a outra contém informações sobre os itens comprados. Se queremos saber, por exemplo, qual foi o custo por comprimido, ou por quilo, precisamos juntar essas duas informações em uma única tabela.

Podemos fazer isso usando o conceito de join.

Para fazer um join, nós precisamos de uma coluna com o mesmo significado em duas tabelas diferentes. Ao informar o Pandas que aquela é a coluna pela qual iremos fazer o join, podemos fazer algumas previsões sobre as dimensões e as características da tabela resultante.

In [43]:
df.shape

(19, 20)

In [44]:
todos_itens.shape

(41, 14)

In [42]:
cloroquina = pd.merge(df, todos_itens, on="Itens > uri")
cloroquina.head()

Unnamed: 0,Orgão,UASG,Código da modalidade da compra,Descrição Lei,Número Inciso,Número processo,Quantidade item,Valor total da compra,Número da compra,Descrição objeto licitação,...,Descrição do item - Material,Descrição detalhada do item,Quantidade do item,Unidade de fornecimento,Valor total,Descrição da marca do item,Tipo do fornecedor,Pessoa Física Contratada,Pessoa Jurídica Contratada,Fornecedor estrangeiro
0,97320: ESTADO DE GOIAS,989631: PREFEITURA MUNICIPAL DE TURVANIA,6: Dispensa,,2,4006/2020,,"R$ 10,740.00",,Objeto: Aquisição de Medicamentos em caráter d...,...,,,20000,Comprimido,,,,,,
1,97320: ESTADO DE GOIAS,989631: PREFEITURA MUNICIPAL DE TURVANIA,6: Dispensa,,2,4006/2020,,"R$ 10,740.00",,Objeto: Aquisição de Medicamentos em caráter d...,...,,,4000,Comprimido,,,,,,
2,97320: ESTADO DE GOIAS,989631: PREFEITURA MUNICIPAL DE TURVANIA,6: Dispensa,,2,4006/2020,,"R$ 10,740.00",,Objeto: Aquisição de Medicamentos em caráter d...,...,,,3000,Comprimido,"R$ 10,740.00",pharlab,Pessoa Jurídica,,Fornecedor 32.364.822/0001-48: 32364822000148,
3,97320: ESTADO DE GOIAS,989631: PREFEITURA MUNICIPAL DE TURVANIA,6: Dispensa,,2,4006/2020,,"R$ 10,740.00",,Objeto: Aquisição de Medicamentos em caráter d...,...,,,6000,Comprimido,,,,,,
4,52121: COMANDO DO EXERCITO,160328: LABORATORIO QUIMICO FARMACEUTICO DO EX...,6: Dispensa,,4,64614001085202060,,"R$ 35,136.00",,Objeto: Aquisição de Cloroquina ...,...,,,72,Quilograma,"R$ 35,136.00",Sulminas,Pessoa Jurídica,,Fornecedor 22.528.133/0001-78: 22528133000178,


In [45]:
cloroquina.shape

(41, 33)

Quando buscamos as informações sobre os itens individualizados, percebemos que uma das URLs não retornou nenhum resultado. Isso significa que aquela compra ficou excluída do dataframe final.

In [46]:
#url que não retorna nada=http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/25444706000622020/itens
cloroquina.query("`Itens > uri` == '/compraSemLicitacao/id/item_slicitacao/25444706000622020/itens'")

Unnamed: 0,Orgão,UASG,Código da modalidade da compra,Descrição Lei,Número Inciso,Número processo,Quantidade item,Valor total da compra,Número da compra,Descrição objeto licitação,...,Descrição do item - Material,Descrição detalhada do item,Quantidade do item,Unidade de fornecimento,Valor total,Descrição da marca do item,Tipo do fornecedor,Pessoa Física Contratada,Pessoa Jurídica Contratada,Fornecedor estrangeiro


#### Diferentes tipos de join

Até agora, falamos em joins como se fossem uma única coisa, mas na verdade podemos unir tabelas de diferentes modos:

<br>
<br>
    <center> 
    <img src=https://miro.medium.com/v2/resize:fit:900/1*yb76Gk03pZsjVDp79n2yKA.jpeg style = "width:50%">
    </center>
    <!-- > fonte: https://medium.com/@rslavanyageetha/joins-in-pandas-6d95a2ba8a74 -->
<br>
<br>

A figura acima usa *diagramas de Venn* para representar os diferentes tipos de join que podem ser realizados.

É mais fácil compreender esses conceitos com exemplos. Imagine que a tabela da direita está incompleta. Imagine, por exemplo, que o STF, em resposta a um pedido, nos fornece uma tabela contendo apenas aquelas ações de controle concentrado onde houve pelo menos uma ausência de ministro na sessão de julgamento.

A tabela da esquerda, nesse caso, poderia ter 10.000 linhas e 4 colunas, enquanto a da direita 5.000 linhas e 3 colunas ([como um grupo, os ministros faltam bastante](https://www.jota.info/opiniao-e-analise/colunas/coluna-do-jota-dados/ao-menos-dois-ministros-estao-ausentes-em-60-das-decisoes-em-plenario-do-stf-16022018 
)).

Um **inner join** retorna apenas a interseção entre as duas tabelas. Assim, as informações que estão em apenas uma das duas tabelas **são descartadas**. Por padrão, o Pandas faz inner joins, o que explica o descarte de uma compra no caso da Cloroquina. No exemplo do STF, o resultado teria 5.000 linhas e 6 colunas.

Por sua vez, a ideia de um **left join** é pegar **todas as colunas e linhas** da tabela da esquerda e juntar a ela apenas as **colunas e linhas** da tabela da direita que encontram alguma correspondência na tabela da esquerda.

No exemplo, se fizermos um **left join**, vamos terminar com uma tabela com 10.000 linhas e 6 colunas (afinal, uma das colunas é a mesma entre as duas tabelas). Para 5.000 das 10.000 linhas, porém, as informações a respeito das faltas não estarão preenchidas. Ou seja, elas estarão cheias de informações que são `Null` (SQL) ou `NaN` (Python/Pandas).

A função `pd.merge()` aceita um argumento opcional chamado `how`, que aceita como opções, dentre outras, o padrão "inner" ou "left". Vamos alterar esse argumento para "left" e ver o que acontece com as dimensões do nosso dataframe.

In [47]:
cloroquina = pd.merge(df, todos_itens, on="Itens > uri", how="left")
cloroquina.shape

(42, 33)

In [48]:
#url que não retorna nada=http://compras.dados.gov.br/compraSemLicitacao/id/item_slicitacao/25444706000622020/itens
cloroquina.query("`Itens > uri` == '/compraSemLicitacao/id/item_slicitacao/25444706000622020/itens'")

Unnamed: 0,Orgão,UASG,Código da modalidade da compra,Descrição Lei,Número Inciso,Número processo,Quantidade item,Valor total da compra,Número da compra,Descrição objeto licitação,...,Descrição do item - Material,Descrição detalhada do item,Quantidade do item,Unidade de fornecimento,Valor total,Descrição da marca do item,Tipo do fornecedor,Pessoa Física Contratada,Pessoa Jurídica Contratada,Fornecedor estrangeiro
22,36201: FUNDACAO OSWALDO CRUZ,254447: MS-INSTITUTO FERNANDES FIGUEIRA/FIOCRU...,6: Dispensa,,2,25384000040202077,,,,Objeto: Aquisição de Hidroxicloroquina. ...,...,,,,,,,,,,


### Preço por quilo

Vamos fazer um dataframe olhando apenas para os valores pagos por quilo para verificar se há variação entre as diferentes compras.

In [50]:
valor_em_numero = []

for index, value in cloroquina["Valor total da compra"].iteritems():
    if type(value) == str:
        valor_em_numero.append(float(value.replace("R$ ", "").replace(",", "")))
    else:
        valor_em_numero.append(value)
        
cloroquina["valor_numerico"] = valor_em_numero

In [51]:
so_quilo = cloroquina.query("`Unidade de fornecimento` == 'Quilograma'").copy()
so_quilo.shape

(10, 34)

In [59]:
import numpy as np

por_quilo = so_quilo.groupby(
    "Número processo").agg(
    {
        "valor_numerico" : np.mean,
        "Quantidade do item" : sum

    }
)

por_quilo

Unnamed: 0_level_0,valor_numerico,Quantidade do item
Número processo,Unnamed: 1_level_1,Unnamed: 2_level_1
64614.001110/2020,9520.0,112.0
64614.001111/2020,680.0,8.0
64614001085202060,33672.0,207.0
64614001104202058,33672.0,207.0
64614001810202008,652000.0,500.0
64614002114202019,652000.0,500.0


In [61]:
por_quilo["Valor por quilo"] = por_quilo.valor_numerico / por_quilo["Quantidade do item"]
por_quilo

Unnamed: 0_level_0,valor_numerico,Quantidade do item,Valor por quilo
Número processo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
64614.001110/2020,9520.0,112.0,85.0
64614.001111/2020,680.0,8.0,85.0
64614001085202060,33672.0,207.0,162.666667
64614001104202058,33672.0,207.0,162.666667
64614001810202008,652000.0,500.0,1304.0
64614002114202019,652000.0,500.0,1304.0


In [63]:
cloroquina.query("`Número processo` == '64614001810202008'")

Unnamed: 0,Orgão,UASG,Código da modalidade da compra,Descrição Lei,Número Inciso,Número processo,Quantidade item,Valor total da compra,Número da compra,Descrição objeto licitação,...,Descrição detalhada do item,Quantidade do item,Unidade de fornecimento,Valor total,Descrição da marca do item,Tipo do fornecedor,Pessoa Física Contratada,Pessoa Jurídica Contratada,Fornecedor estrangeiro,valor_numerico
16,52121: COMANDO DO EXERCITO,160328: LABORATORIO QUIMICO FARMACEUTICO DO EX...,6: Dispensa,,0,64614001810202008,,"R$ 652,000.00",,Objeto: Aquisição de insumo farmacêutico Ativo...,...,,500.0,Quilograma,"R$ 652,000.00",INSUMO,Pessoa Jurídica,,Fornecedor 22.528.133/0001-78: 22528133000178,,652000.0


In [64]:
cloroquina.query("`Número processo` == '64614001104202058'")

Unnamed: 0,Orgão,UASG,Código da modalidade da compra,Descrição Lei,Número Inciso,Número processo,Quantidade item,Valor total da compra,Número da compra,Descrição objeto licitação,...,Descrição detalhada do item,Quantidade do item,Unidade de fornecimento,Valor total,Descrição da marca do item,Tipo do fornecedor,Pessoa Física Contratada,Pessoa Jurídica Contratada,Fornecedor estrangeiro,valor_numerico
7,52121: COMANDO DO EXERCITO,160328: LABORATORIO QUIMICO FARMACEUTICO DO EX...,6: Dispensa,,4,64614001104202058,,"R$ 34,648.00",,Objeto: Aquisição de insumo para a produção de...,...,,71.0,Quilograma,"R$ 34,648.00",CLOROQUINA,Pessoa Jurídica,,Fornecedor 22.528.133/0001-78: 22528133000178,,34648.0
8,52121: COMANDO DO EXERCITO,160328: LABORATORIO QUIMICO FARMACEUTICO DO EX...,6: Dispensa,,4,64614001104202058,,"R$ 34,648.00",,Objeto: Aquisição de insumo para a produção de...,...,,71.0,Quilograma,"R$ 34,648.00",CLOROQUINA,Pessoa Jurídica,,Fornecedor 22.528.133/0001-78: 22528133000178,,34648.0
9,52121: COMANDO DO EXERCITO,160328: LABORATORIO QUIMICO FARMACEUTICO DO EX...,6: Dispensa,,4,64614001104202058,,"R$ 31,720.00",,Objeto: Aquisição de insumo para a produção de...,...,,65.0,Quilograma,"R$ 31,720.00",CLOROQUINA,Pessoa Jurídica,,Fornecedor 22.528.133/0001-78: 22528133000178,,31720.0


### Preço por comprimido

In [66]:
so_comprimido = cloroquina.query("`Unidade de fornecimento` == 'Comprimido'").copy()
so_comprimido.shape

(3, 34)

In [70]:
import numpy as np

por_comprimido = so_comprimido.groupby(
    "Número processo").agg(
    {
        "valor_numerico" : np.mean,
        "Quantidade do item" : sum

    }
)

por_comprimido

Unnamed: 0_level_0,valor_numerico,Quantidade do item
Número processo,Unnamed: 1_level_1,Unnamed: 2_level_1
23537.008217/2020,1740.0,3000.0
33433039792202023,13700.0,10000.0


In [68]:
por_comprimido["Valor por comprimido"] = por_comprimido.valor_numerico / por_comprimido["Quantidade do item"]
por_comprimido

Unnamed: 0_level_0,valor_numerico,Quantidade do item,Valor por comprimido
Número processo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
23537.008217/2020,1740.0,3000.0,0.58
33433039792202023,13700.0,10000.0,1.37


## Caso 2

Vamos supor que um escritório de advocacia especializado em Direito Tributário lhe procura para entender melhor como ele pode acompanhar as alterações legislativas em matéria tributária. Afinal, é difícil acompanhar as mudanças regulatórias no país. Uma estimativa de 2017 coloca [o número de normas editadas no Brasil em 800 por dia desde 1988](https://ibpt.com.br/noticia/2603/Brasil-edita-cerca-de-800-normas-por-dia-somando-5-4-milhoes-desde-a-Constituicao-de-1988). Sabendo que a Câmara dos Deputados [mantém um site de dados abertos](https://dadosabertos.camara.leg.br/), o que podemos fazer?

### API da Câmara dos Deputados

Nosso objetivo é monitorar, de alguma forma, as alterações legislativas envolvendo matéria tributária. Uma das fontes mais relevantes para encontrar dados a esse respeito parece ser o site da Câmara dos Deputados. É interessante, portanto, notar que a própria Câmara [oferece acesso aos seus dados por meio de uma API!](https://dadosabertos.camara.leg.br/swagger/api.html)

Navegando pelo site da Câmara, podemos testar várias coisas. Vimos que existe um dado relativo ao Tema dos processos que parece ser útil para acompanharmos as mudanças feitas no direito tributário. Agora, precisamos acessar esses dados do Python, transformando-os em um `DataFrame`.

In [1]:
import requests

In [6]:
response = requests.get("https://dadosabertos.camara.leg.br/api/v2/proposicoes?ano=2019&itens=100&ordem=DESC&ordenarPor=id")

Como vimos, a comunicação com a API se dá através de requisições HTML. Assim, se queremos alterar os parâmetros da nossa requisição, precisamos alterar a URL que estamos usando. Mais pra frente, vai ser útil fazer isso através de variáveis e strings concatenadas. Ou seja, fará sentido criarmos funções dentro do Python para gerar automaticamente as URLs que queremos. Nesse primeiro momento, porém, isso não é estritamente necessário, sendo possível usar a interface gráfica oferecida pela Câmara para fazer nossas primeiras requisições.

<blockquote>
OBS: Vamos olhar HTTP de uma maneira muito superficial. Para aqueles que desejam se aprofundar um pouco mais, recomendamos <a href = 'https://www.youtube.com/watch?v=PUPDGbnpSjw'> esse vídeo </a>.
</blockquote>

In [7]:
congresso_dict = response.json()

In [8]:
import pandas as pd

congresso_df = pd.DataFrame.from_dict(congresso_dict["dados"])

In [9]:
congresso_df.head()

Unnamed: 0,ano,codTipo,ementa,id,numero,siglaTipo,uri
0,2019,291,"Altera a Lei 13.146, de 6 de julho de 2015, qu...",2236220,917,MPV,https://dadosabertos.camara.leg.br/api/v2/prop...
1,2019,291,Dispõe sobre o valor do salário mínimo a vigor...,2236219,916,MPV,https://dadosabertos.camara.leg.br/api/v2/prop...
2,2019,134,Comunica aos Membros do Congresso Nacional a s...,2236216,746,MSC,https://dadosabertos.camara.leg.br/api/v2/prop...
3,2019,411,Acordo entre o Governo da República Federativa...,2236215,749,MSC,https://dadosabertos.camara.leg.br/api/v2/prop...
4,2019,411,Acordo entre a República Federativa do Brasil ...,2236214,748,MSC,https://dadosabertos.camara.leg.br/api/v2/prop...


Munidos das 100 últimas proposições legislativas, podemos usar o "id" da proposição para buscar novas informações a respeito do tema:

In [10]:
ids_congresso = list(congresso_df["id"])

In [11]:
propostas_temas = pd.DataFrame()

for proposta in ids_congresso:
    response = requests.get("https://dadosabertos.camara.leg.br/api/v2/proposicoes/" + str(proposta) + "/temas")
    if len(response.json()["dados"]) > 0:
        propostas_temas = propostas_temas.append(pd.DataFrame.from_dict(response.json()["dados"]))

In [13]:
propostas_temas.head()

Unnamed: 0,codTema,relevancia,tema
0,35,0,"Arte, Cultura e Religião"
1,44,0,Direitos Humanos e Minorias
0,40,0,Economia
1,58,0,Trabalho e Emprego
0,34,0,Administração Pública


In [14]:
propostas_temas.shape

(83, 3)

In [17]:
propostas_temas.tema.value_counts()

Esporte e Lazer                                28
Economia                                        9
Direitos Humanos e Minorias                     9
Administração Pública                           5
Saúde                                           5
Viação, Transporte e Mobilidade                 4
Finanças Públicas e Orçamento                   3
Indústria, Comércio e Serviços                  3
Direito e Defesa do Consumidor                  3
Defesa e Segurança                              3
Agricultura, Pecuária, Pesca e Extrativismo     2
Trabalho e Emprego                              2
Educação                                        2
Previdência e Assistência Social                1
Política, Partidos e Eleições                   1
Relações Internacionais e Comércio Exterior     1
Processo Legislativo e Atuação Parlamentar      1
Arte, Cultura e Religião                        1
Name: tema, dtype: int64

In [16]:
len(propostas_temas.tema.value_counts())

18

Das últimas 100 proposições legislativas apresentadas em 2019, 18 temas foram detectados. É importante notar o seguinte: **uma proposição legislativa pode ter múltiplos assuntos**. É fácil notar isso olhando para o índice do nosso `DataFrame`: cada vez que o índice volta a 0, isso significa que temos uma nova proposta legislativa. Podemos resolver esse problema adicionando o id como uma variável desse segundo `DataFrame`:

In [18]:
propostas_temas = pd.DataFrame()

for proposta in ids_congresso:
    response = requests.get("https://dadosabertos.camara.leg.br/api/v2/proposicoes/" + str(proposta) + "/temas")
    if len(response.json()["dados"]) > 0:
        essa_proposta = pd.DataFrame.from_dict(response.json()["dados"])
        essa_proposta["id"] = proposta
        propostas_temas = propostas_temas.append(essa_proposta)

In [19]:
propostas_temas.head()

Unnamed: 0,codTema,relevancia,tema,id
0,35,0,"Arte, Cultura e Religião",2236220
1,44,0,Direitos Humanos e Minorias,2236220
0,40,0,Economia,2236219
1,58,0,Trabalho e Emprego,2236219
0,34,0,Administração Pública,2236213


Se assumirmos que o id é sequencial, conseguimos programar um alerta que mostra apenas as novas propostas legislativas do tema escolhido. No caso de "Finanças Públicas e Orçamento", poderíamos fazer isso dessa forma:

In [None]:
def find_new_tributario():
    response = requests.get("https://dadosabertos.camara.leg.br/api/v2/proposicoes?ano=2020&itens=100&ordem=DESC&ordenarPor=id")
    congresso_dict = response.json()
    congresso_df = pd.DataFrame.from_dict(congresso_dict["dados"])
    ids_congresso = list(congresso_df["id"])
    
    propostas_temas = pd.DataFrame()

    for proposta in ids_congresso:
        response = requests.get("https://dadosabertos.camara.leg.br/api/v2/proposicoes/" + str(proposta) + "/temas")
        if len(response.json()["dados"]) > 0:
            essa_proposta = pd.DataFrame.from_dict(response.json()["dados"])
            essa_proposta["id"] = proposta
            propostas_temas = propostas_temas.append(essa_proposta)
    
    novas_propostas = []
    
    propostas_temas.reset_index(inplace = True)
    
    for row, value in propostas_temas["tema"].iteritems():
        if value == "Finanças Públicas e Orçamento":
            novas_propostas.append(propostas_temas.iloc[row]["id"])
    
    print(f"Encontramos {len(novas_propostas)} propostas envolvendo Finanças Públicas e Orçamento dentre as últimas 100 propostas legislativas.")

    for prop in novas_propostas:
        print(prop)

In [None]:
find_new_tributario()

### Exercício

Adapte a função `find_new_tributario()` para que possamos passar um argumento para ela com o assunto que queremos monitorar.

### Obtendo mais dados sobre cada proposta

A API da Câmara dos Deputados oferece muitas outras informações a respeito de cada um dos projetos de lei apresentados. Assim, se quisermos filtrar por outras características (partido do autor do projeto, por exemplo), podemos fazer isso. Do mesmo modo, podemos usar essas informações para fazer pesquisas a respeito da atuação da câmara dos deputados dentro de um tema específico. Por exemplo: quais foram os partidos responsáveis pelos últimos projetos de lei que tratam de Saúde? Essa é uma resposta que pode ser obtida através da interface fornecida pela câmara dos deputados.

### Limitações

Muitas vezes, as APIs possuem certas limitações. Assim, as versões gratuitas das APIs do Google, por exemplo, costumam limitar o volume de informações que você pode utilizar. Da mesma forma, a API da Câmara dos Deputados possui algumas limitações. Uma delas é a imposição de um limite de 100 itens por query. Assim, se quisermos fazer uma análise extensa do histórico dos projetos de lei através da API, temos que ser criativos, criando um script que retorna itera sobre várias páginas de respostas.

Alternativamente, a Câmara fornece csvs anuais com os dados das proposições: https://dadosabertos.camara.leg.br/arquivos/proposicoes/csv/proposicoes-2019.csv

### Uso de APIs

Uma pergunta que pode surgir é: se os dados estão disponíveis em arquivos csv e já sabemos usar essa fonte, por que aprender a usar a API?!?!?!?!

Dica: olhe para o exemplo que usamos na aula.

## Resumo

Nesta aula, aprendemos um pouco sobre APIs:

- APIs são interfaces que permitem que um programa se comunique com uma aplicação;

- Algumas fontes de dados públicos importantes e interessantes estão disponíveis para consulta através de APIs;

- APIs frequentemente apresentam algumas limitações;

- APIs são especialmente úteis quando precisamos usar a funcionalidade de uma aplicação no contexto de algum programa.