**Usando a nova API da Câmara dos Deputados**
---------------------------

Toda a documentação se encontra em [https://dadosabertos.camara.leg.br/swagger/api.html]

Vamos inicialmente mostrar o nome e identificador de cada deputado

In [1]:
import requests
url = 'https://dadosabertos.camara.leg.br/api/v2/deputados'
resp = requests.get(url).json()
for d in resp['dados']:
  print (d['nome'], d['id'])

ABÍLIO SANTANA 204554
ABOU ANNI 204521
ACÁCIO FAVACHO 204379
ADOLFO VIANA 204560
ADRIANA VENTURA 204528
ADRIANO DO BALDY 121948
AÉCIO NEVES 74646
AFONSO FLORENCE 160508
AFONSO HAMM 136811
AFONSO MOTTA 178835
AGUINALDO RIBEIRO 160527
AIRTON FALEIRO 204495
AJ ALBUQUERQUE 204549
ALAN RICK 178836
ALCEU MOREIRA 160559
ALCIDES RODRIGUES 204413
ALÊ SILVA 204545
ALENCAR SANTANA BRAGA 204501
ALESSANDRO MOLON 160511
ALEX MANENTE 178972
ALEX SANTANA 204571
ALEXANDRE FROTA 204544
ALEXANDRE LEITE 160545
ALEXANDRE PADILHA 204503
ALEXANDRE SERFIOTIS 178833
ALEXIS FONTEYNE 204516
ALICE PORTUGAL 74057
ALIEL MACHADO 178927
ALINE GURGEL 204353
ALINE SLEUTJES 204400
ALTINEU CÔRTES 178937
ALUISIO MENDES 178881
AMARO NETO 204356
ANDRÉ ABDON 178831
ANDRÉ DE PAULA 74471
ANDRÉ FERREIRA 204423
ANDRÉ FIGUEIREDO 133439
ANDRÉ FUFUCA 178882
ANDRÉ JANONES 204515
ANGELA AMIN 73696
ANTONIO BRITO 160553
ARLINDO CHINAGLIA 73433
ARNALDO JARDIM 141391
AROLDO MARTINS 204414
ARTHUR LIRA 160541
ARTHUR OLIVEIRA MAIA 160600
AS

**Exercício**

Além do nome e identificador, mostre também o partido e UF de cada Deputado

Na url da Câmara, no bloco dos Deputados, coloque **aplication/json** no Response Content Type. Você irá notar que existem mais informações que as descritas inicialmente. Por exemplo, vamos baixar todas as fotos, no diretório onde você iniciou o jupyter notebook, dos deputados de São Paulo. Aqui começamos a suar uma condição **if** sendo que o bloco de instruções será executado apenas quando aquela condição resultar True

In [2]:
import requests
url = 'https://dadosabertos.camara.leg.br/api/v2/deputados'
resp = requests.get(url).json()
for d in resp['dados']:
  if d['siglaPartido'] == 'PSL' and d['siglaUf'] == 'SP':
    nome = d['nome'].lower()
    print (f'Gravando: {nome}')
    f = open(nome + '.jpg', 'wb')
    foto = requests.get(d['urlFoto']).content
    f.write(foto)
    f.close()

Gravando: abou anni
Gravando: carla zambelli
Gravando: coronel tadeu
Gravando: eduardo bolsonaro
Gravando: general peternelli
Gravando: guiga peixoto
Gravando: joice hasselmann
Gravando: júnior bozzella
Gravando: luiz philippe de orleans e bragança


Note que o print tem uma string que começa com f. Quando fazemos isso, dentro da string, tudo o que aparece em chaves, é substituído pelo valor calculado

Vamos acessar o valor total gasto por um Deputado Federal, com sua quota parlamentar, registrado na API da Câmara. A Deputada Tábata Amaral tem identificador 204534. Usando o link de descrição da API, podemos observar que são 26 páginas, de despesas comprovadas, onde cada página tem até no máximo 15 itens. Fazendo testes, verificamos que o número máximo de itens é 100. No caso seriam 4 páginas. Estas páginas irão aumentar ao longo do tempo. Verificamos novamente que, caso solicitada uma página maior, o item 'dado' volta vazio. Cada página tem uma URL de acesso, para seus itens. Existe um operador em Python, chamado range, que vai de um número até uma unidade a menos do segundo. Desta forma range(1, 100) nos gera o intervado de 1 até 99. No campo valorLiquido temos o gasto efetuado. Observe que a API nos retorna uma string, para poder somar, devemos converter o valor para float, antes de somar a uma variável total. Para imprimir com somente duas casas decimais, irei usar .2f 
Uma forma mais completa seria consultar o rótulo links, num primeiro acesso, e verificar a última página atual. Para simplificar este curso, para iniciantes, iremos fazer acessos desnecessários.

In [1]:
import requests
url = 'https://dadosabertos.camara.leg.br/api/v2/deputados/74847/despesas?ordem=ASC&ordenarPor=ano'
resp = requests.get(url).json()
total = 0
for pag in range(1, 100):
  u = f'https://dadosabertos.camara.leg.br/api/v2/deputados/74847/despesas?ordem=ASC&ordenarPor=ano&pagina={pag}&itens=100'
  r = requests.get(u).json()
  for gasto in r['dados']:
    total = total + float(gasto['valorLiquido'])

print (f'R$ {total:.2f}')

R$ 0.00


**Exercício**

Calcule o valor gasto por outros Deputados Federais, substituindo o identificador


Outra análise interessante é saber quem são os fornecedores que mais receberam desta quota. Usamos um dicionário para guardar estes dados, se o fornecedor não está ainda na base, crio e inicializo com aquele valor, caso já exista somo com o total acumulado. Cada item de um dicionário é um par, quero colocar em ordem do segundo elemento, que referencio por um entre colchetes, lembre que o primeiro é zero. Abaixo os fornecedores da deputada Tábata Amaral em ordem descrescente de valor recebido acumulado, até o momento.

In [4]:
import requests
total = 0
fornecedores = {}
cnpjCpfFornecedores = {}
for pag in range(1, 100):
  u = f'https://dadosabertos.camara.leg.br/api/v2/deputados/204534/despesas?ordem=ASC&ordenarPor=ano&pagina={pag}&itens=100'
  r = requests.get(u).json()
  for gasto in r['dados']:
    valor = float(gasto['valorLiquido'])
    total = total + valor
    nome = gasto['nomeFornecedor']
    cnpjCpf = gasto['cnpjCpfFornecedor']
    if cnpjCpf not in cnpjCpfFornecedores:
      cnpjCpfFornecedores[cnpjCpf] = valor
      fornecedores[cnpjCpf] = nome
    else:
      cnpjCpfFornecedores[cnpjCpf] = cnpjCpfFornecedores[cnpjCpf] + valor

print (f'Total retornado API Câmara: R$ {total:.2f}')
def chave(f): return f[1]
maiores = sorted(cnpjCpfFornecedores.items(), key=chave, reverse=True)
for cnpjcpf, valor in maiores[:50]:
    print (cnpjcpf, fornecedores[cnpjcpf], f'R$ {valor:.2f}')


Total retornado API Câmara: R$ 250550.96
02015147000180 CAIENA MULTIMIDIA E COMUNICACAO LTDA R$ 140000.00
07575651000159 GOL LINHAS AEREAS S.A. R$ 24625.25
02012862000160 TAM LINHAS AEREAS S/A. R$ 12987.23
28016647820 SILVANA VUONO DE CAMARGO REBELO R$ 11595.90
00031708000100 SINDICATO DOS PERMISSIONARIOS DE TAXIS E MOTORISTAS AUXILIARES DO DISTRITO FEDERAL R$ 10533.00
09296295000160 AZUL LINHAS AÉREAS INTELIGENTES S.A R$ 8578.15
00100765000101 LELLO LOCAÇÃO E VENDAS LTDA R$ 6469.44
18079818000107 Joao Paulo Apolinario Passos R$ 5785.52
47508411222809 COMPANHIA BRASILEIRA DE DISTRIBUICAO R$ 4120.48
24932136000106 MASSONETTO SERVIÇOS ADM EDUC E CONSULTORIA LTDA ME R$ 3806.52
02575829000148 OCEANAIR LINHAS AEREAS S/A EM RECUPERACAO JUDICIAL R$ 2532.32
25197585000102 MARCELO S BARRETO PROPAGANDA R$ 1875.00
17895646000187 UBER DO BRASIL TECNOLOGIA LTDA R$ 1590.33
19776879000196 AUTO POSTO SAN DIEGO LTDA R$ 856.16
43776517000180 SABESP R$ 829.23
72759582000103 FRANCIO DE HOLANDA MARTINS ME 

Observe que para totalizar corretamente temos que agrupar razões sociais. 

**Exercício**

Verifique os maiores fornecedores de outros Deputados Federais

Como podemos descobrir Dados de Deputados nas Legislaturas passadas? Por exemplo, do Deputado Jair Bolsonaro? Encontrando a Biografia do Deputado (https://www.camara.leg.br/deputados/74847/biografia), após pesquisar no Google, obtemos na URL o seu identificador. Como saber as Legislaturas? Pela biografia, sabemos as Datas de Início de sua atividade politica na Câmara, na API da Câmara chegamos que isso engloba as Legislaturas de 49 a 55. Na API podemos colocar como datas de início e final: 1990-01-01 e 2019-12-31. Podemos tentar trazer o máximo de itens por página, porém você irá descobrir, numa tentativa e erro, que o máximo é de 100 itens. No final do JSON de retorno, outra informação importante é de que temos páginas de 1 até 16, o que implica usar range(1, 17), pois range termina no número anterior ao segundo parâmetro fornecido. Pelo final do JSON retornado, você sabe como construir a requisição de cada página.

In [5]:
import requests
sair = 'o a à e os às as de da do ao na no nos nas não são nº em que com aos dos das pelo sobre por para pela entre contra'.split()
keywords = []
sumarios = []
for pag in range (1,17):
  url = f'https://dadosabertos.camara.leg.br/api/v2/deputados/74847/discursos?idLegislatura=49&idLegislatura=50&idLegislatura=51&idLegislatura=52&idLegislatura=53&idLegislatura=54&idLegislatura=55&dataInicio=1990-01-01&dataFim=2019-12-31&ordenarPor=dataHoraInicio&ordem=ASC&pagina={pag}&itens=100'
  resp = requests.get(url).json()
  for d in resp['dados']:
    s = d['sumario'].lower()
    s = ''.join(e for e in s if e not in ".,'()-")
    s = s.split()
    s = [w for w in s if w not in sair]
    sumarios.extend(s)
    if not d['keywords']: continue
    s = d['keywords'].lower()
    s = ''.join(e for e in s if e not in ".,'()-")
    s = s.split()
    s = [w for w in s if w not in sair]
    keywords.extend(s)

from collections import Counter
keywords = Counter(keywords)
sumarios = Counter(sumarios)
print (keywords.most_common(100))
print (sumarios.most_common(100))

[('militar', 1043), ('federal', 615), ('crítica', 479), ('defesa', 466), ('presidente', 337), ('nacional', 318), ('ministro', 304), ('projeto', 301), ('forças', 296), ('deputado', 294), ('armadas', 290), ('lei', 289), ('estado', 280), ('governo', 280), ('relação', 243), ('servidor', 226), ('critica', 223), ('civil', 217), ('atuação', 213), ('proposta', 204), ('emenda', 195), ('república', 188), ('salario', 180), ('publico', 180), ('medida', 177), ('partido', 174), ('orador', 167), ('comissão', 156), ('protesto', 155), ('deputados', 155), ('regime', 152), ('político', 145), ('ministério', 145), ('remuneração', 141), ('direitos', 139), ('estrangeiro', 133), ('aprovação', 129), ('apoio', 128), ('ex', 127), ('republica', 124), ('constitucional', 124), ('criação', 123), ('provisória', 122), ('fernando', 120), ('soldo', 110), ('votação', 110), ('pt', 109), ('rj', 108), ('câmara', 107), ('solicitação', 106), ('reajuste', 106), ('cardoso', 104), ('henrique', 103), ('avaliação', 103), ('comenta

Explicações: estamos removendo sinais especiais, split() quebra a string pelo espaço ou sinal de pular linha, split(',') separa por vírgula, a função extend faz algo parecido com append, enquanto append inclui um único elemento no final da lista, extend inclui vários. A função Counter vai contabilizar o número de vezes em que aparece um elemento na lista, criando um dicionário. No final vamos mostrar os 100 termos que mais aparecem nas Keywords do nosso presidente e também nos sumários. 

Podemos ver todos os maiores fornecedores, declarados enquanto Deputado Federal. Vemos que no total são 46 páginas. Alterando o script usado para a Deputada Tabata Amaral, temos:

In [6]:
import requests
total = 0
fornecedores = {}
cnpjCpfFornecedores = {}
for pag in range(1, 46):
  u = f'https://dadosabertos.camara.leg.br/api/v2/deputados/74847/despesas?ordem=ASC&ordenarPor=ano&pagina={pag}&itens=100'
  r = requests.get(u).json()
  for gasto in r['dados']:
    valor = float(gasto['valorLiquido'])
    total = total + valor
    nome = gasto['nomeFornecedor']
    cnpjCpf = gasto['cnpjCpfFornecedor']
    if cnpjCpf not in cnpjCpfFornecedores:
      cnpjCpfFornecedores[cnpjCpf] = valor
      fornecedores[cnpjCpf] = nome
    else:
      cnpjCpfFornecedores[cnpjCpf] = cnpjCpfFornecedores[cnpjCpf] + valor

print (f'Total retornado API Câmara: R$ {total:.2f}')
def chave(f): return f[1]
maiores = sorted(cnpjCpfFornecedores.items(), key=chave, reverse=True)
for cnpjcpf, valor in maiores[:50]:
    print (cnpjcpf, fornecedores[cnpjcpf], f'R$ {valor:.2f}')

Total retornado API Câmara: R$ 2864790.54
34028316577052 EMPRESA BRASILEIRA DE CORREIOS E TELÉGRAFOS R$ 608227.65
07575651000159 VRG LINHAS AÉREAS S. A. R$ 439075.36
40166704000153 M. R. CEDA IMPRESSOS LTDA R$ 282488.68
00540252000103 PAPELARIA ABC COM E IND LTDA R$ 188877.89
02012862000160 Cia Aérea - TAM R$ 179142.88
18509834000192 COPYLINE SERVIÇOS GRÁFICOS E COMUNICAÇÃO VISUAL LTDA R$ 158340.00
10892621000180 KARPER RENT A CAR R$ 93916.82
27677913000101 R. A. MANDULA SERVIÇOS GRÁFICOS E EDITORA LTDA R$ 79060.14
32337784000134 MEIRELLES CUNHA GRÁFICA LTDA - ME R$ 65272.00
00915792000124 EMPRESA BRASILEIRA DE CORREIOS E TELÉGRAFOS R$ 57231.50
00000000000007 CORREIOS - CARTA REGISTRADA R$ 53337.01
02351877000152 LOCAWEB SERVIÇOS DE INTERNET S/A R$ 48593.50
00409490000184 SVM - SERVIÇOS POSTAIS LTDA R$ 46914.25
38024675000143 QUASAR LOCADORA DE VEÍCULOS LTDA R$ 46093.33
66970229001805 NEXTEL TELECOMUNICAÇÕES LTDA R$ 45968.32
40432544006269 CLARO S/A R$ 37544.64
34028316004281 ECT - EMP

In [7]:
texto = 'batatinha, quando, nasce, esparrama, pelo, chão'
texto = texto.split(',')
texto

['batatinha', ' quando', ' nasce', ' esparrama', ' pelo', ' chão']

In [8]:
texto = [x.strip() for x in texto]
texto

['batatinha', 'quando', 'nasce', 'esparrama', 'pelo', 'chão']

Expressões entre colchetes criam novas listas segundo o critério que está dentro, no caso acima, vamos fazer x.strip() para todo x dentro da lista texto

**Exercício**

Repita o processo acima para outro Deputado Federal

Existem inúmeras APIs, podemos ver o que o Google completaria, dada uma expressão inicial

In [9]:
from requests import get
url = "http://suggestqueries.google.com/complete/search?client=firefox&q=Jair Bolsonaro é"
resp = get(url).json()
resp

['Jair Bolsonaro é',
 ['jair bolsonaro é formado em que',
  'jair bolsonaro é evangélico',
  'jair bolsonaro é aposentado',
  'jair bolsonaro é de qual partido',
  'jair bolsonaro é católico',
  'jair bolsonaro é evangélico de qual igreja',
  'jair bolsonaro é um bom presidente',
  'jair bolsonaro é eleito',
  'jair bolsonaro é de direita',
  'jair bolsonaro é medico']]

**Exercício**

Coloque outras frases a serem completadas para testar