### EXTRAÇÃO DOS DADOS 
Processo de conexão e requisição via <i>API</i>, a requisição foi dividia em dois blocos: <hr>

In [1]:
import pandas as pd
import requests

###### 1.0 - REQUISIÇÃO LISTA DE DEPUTADOS
Requisição dos deputados em mantato na API Dados Abertos

In [2]:
# REQUISIÇÃO VIA API 
url_requisicao_deputados = "https://dadosabertos.camara.leg.br/api/v2/deputados?&ordem=ASC&ordenarPor=nome"
resultado = requests.get(url_requisicao_deputados)
deputados = pd.DataFrame(resultado.json()['dados'])

# PROCESSO DE EXCLUSÃO DE DADOS DESNECESSÁRIOS
lista_exclusao_deputados = ['uri', 'uriPartido', 'urlFoto', 'idLegislatura']
i = 0

while i < len(lista_exclusao_deputados):
    del deputados[lista_exclusao_deputados[i]] 
    i += 1

# TRATAMENTO DOS DADOS
deputados.nome = [str(nome).upper() for nome in deputados.nome]
deputados.email = [str(email).upper() for email in deputados.email]

deputados.columns = ['id','nome','siglaPartido','ufLegislacao','email']

deputados.tail()

Unnamed: 0,id,nome,siglaPartido,ufLegislacao,email
508,178889,ZÉ CARLOS,PT,MA,DEP.ZECARLOS@CAMARA.LEG.BR
509,204559,ZÉ NETO,PT,BA,DEP.ZENETO@CAMARA.LEG.BR
510,160632,ZÉ SILVA,SOLIDARIEDADE,MG,DEP.ZESILVA@CAMARA.LEG.BR
511,204517,ZÉ VITOR,PL,MG,DEP.ZEVITOR@CAMARA.LEG.BR
512,160592,ZECA DIRCEU,PT,PR,DEP.ZECADIRCEU@CAMARA.LEG.BR


###### 1.1 - REQUISIÇÃO DETALHE DOS DEPUTADOS
Informações adicionais dos deputados

In [3]:
# VARIÁVEIS
id_deputado = deputados['id']
lista_id = []
lista_escolaridade = []
lista_data_nascimento = []
lista_municipio_nascimento = []
lista_sexo = []
lista_estado_nascimento = []

# FUNÇÃO QUE PEGA O ID DO DEPUTADO, FAZ REQUISIÇÃO DA API E SALVA EM UMA VARIÁVEL
def consulta_deputados():
    i = 0
    while i < len(id_deputado):
        conn = requests.get("https://dadosabertos.camara.leg.br/api/v2/deputados/"+str(id_deputado[i]))
        JSON = conn.json()['dados']
        # CONSULTA DADOS 
        lista_id.extend([JSON['id']])
        lista_data_nascimento.extend([JSON['dataNascimento']])
        lista_escolaridade.extend([JSON['escolaridade']])
        lista_municipio_nascimento.extend([JSON['municipioNascimento']])
        lista_sexo.extend([JSON['sexo']])
        lista_estado_nascimento.extend([JSON['ufNascimento']])
        i += 1 

consulta_deputados()

# PROCESSO DE SALVAR OS DADOS EM UM DATAFRAME E RENOMEAR COLUNAS
deputados_detalhe = pd.DataFrame(list(zip(lista_id,lista_escolaridade,lista_data_nascimento,lista_sexo,lista_estado_nascimento, lista_municipio_nascimento)))
deputados_detalhe.columns=['id','escolaridade','dataNascimento','sexo','estadoNascimento','cidadeNascimento']


# TRATAMENTO DOS DADOS
deputados_detalhe.escolaridade = [str(escolaridade).upper() for escolaridade in deputados_detalhe.escolaridade]
deputados_detalhe.cidadeNascimento = [str(cidadeNascimento).upper() for cidadeNascimento in deputados_detalhe.cidadeNascimento]

deputados_detalhe.head()

Unnamed: 0,id,escolaridade,dataNascimento,sexo,estadoNascimento,cidadeNascimento
0,204554,SUPERIOR INCOMPLETO,1965-02-13,M,BA,SALVADOR
1,204521,SUPERIOR,1966-11-06,M,SP,SÃO PAULO
2,204379,SUPERIOR,1983-09-28,M,AP,MACAPÁ
3,204560,SUPERIOR,1981-02-02,M,BA,SALVADOR
4,204528,DOUTORADO,1969-03-06,F,SP,SÃO PAULO


###### 1.2 - JOIN DAS TABELAS DEPUTADOS E DEPUTADOS DETALHE

In [5]:
deputados_join = pd.merge(deputados, deputados_detalhe, how='left',on='id')
deputados_join.head()

Unnamed: 0,id,nome,siglaPartido,ufLegislacao,email,escolaridade,dataNascimento,sexo,estadoNascimento,cidadeNascimento
0,204554,ABÍLIO SANTANA,PL,BA,DEP.ABILIOSANTANA@CAMARA.LEG.BR,SUPERIOR INCOMPLETO,1965-02-13,M,BA,SALVADOR
1,204521,ABOU ANNI,PSL,SP,DEP.ABOUANNI@CAMARA.LEG.BR,SUPERIOR,1966-11-06,M,SP,SÃO PAULO
2,204379,ACÁCIO FAVACHO,PROS,AP,DEP.ACACIOFAVACHO@CAMARA.LEG.BR,SUPERIOR,1983-09-28,M,AP,MACAPÁ
3,204560,ADOLFO VIANA,PSDB,BA,DEP.ADOLFOVIANA@CAMARA.LEG.BR,SUPERIOR,1981-02-02,M,BA,SALVADOR
4,204528,ADRIANA VENTURA,NOVO,SP,DEP.ADRIANAVENTURA@CAMARA.LEG.BR,DOUTORADO,1969-03-06,F,SP,SÃO PAULO


###### 1.3 - CRIANDO BASE DE DADOS EM CSV

In [11]:
deputados_join.to_csv('db/db_lista_deputados.csv', encoding='utf-8')

###### 2 - REQUISIÇÃO LISTA DE GASTOS

In [115]:
gastos = []
num_pagina = list(range(1,19,1))
t = 0 
while t < len(num_pagina):
    for id in deputados.id:
        url_despesa = "https://dadosabertos.camara.leg.br/api/v2/deputados/"
        url_despesa = url_despesa +str(id)+"/despesas?ano=2019&ano=2020&itens=999999999&pagina="+str(num_pagina[t])
        resposta = requests.get(url_despesa)
        gasto = pd.DataFrame(resposta.json()['dados'])
        gasto['id'] = id
        gastos.append(gasto)
    print(url_despesa)
    t +=1
    
total_gastos = pd.concat(gastos)
lista_exclusao_gastos = ['numRessarcimento','dataDocumento','codDocumento', 'codTipoDocumento','numDocumento', 'urlDocumento','codLote', 'parcela']

i = 0
while i < len(lista_exclusao_gastos):
    del total_gastos[lista_exclusao_gastos[i]] 
    i += 1
    
print('Processo de consulta finalizado')

https://dadosabertos.camara.leg.br/api/v2/deputados/160592/despesas?ano=2019&ano=2020&itens=999999999&pagina=1
https://dadosabertos.camara.leg.br/api/v2/deputados/160592/despesas?ano=2019&ano=2020&itens=999999999&pagina=2
https://dadosabertos.camara.leg.br/api/v2/deputados/160592/despesas?ano=2019&ano=2020&itens=999999999&pagina=3
https://dadosabertos.camara.leg.br/api/v2/deputados/160592/despesas?ano=2019&ano=2020&itens=999999999&pagina=4
https://dadosabertos.camara.leg.br/api/v2/deputados/160592/despesas?ano=2019&ano=2020&itens=999999999&pagina=5
https://dadosabertos.camara.leg.br/api/v2/deputados/160592/despesas?ano=2019&ano=2020&itens=999999999&pagina=6
https://dadosabertos.camara.leg.br/api/v2/deputados/160592/despesas?ano=2019&ano=2020&itens=999999999&pagina=7
https://dadosabertos.camara.leg.br/api/v2/deputados/160592/despesas?ano=2019&ano=2020&itens=999999999&pagina=8
https://dadosabertos.camara.leg.br/api/v2/deputados/160592/despesas?ano=2019&ano=2020&itens=999999999&pagina=9
h

### TRATAMENTO DOS DADOS 
Modelagem dos dados da requisição 'Lista de Gastos'. <hr>

**Informações detalhadas sobre a lista de gastos:**

In [118]:
total_gastos.count()

ano                  314098
mes                  314098
tipoDespesa          314098
tipoDocumento        314098
valorDocumento       314098
nomeFornecedor       314098
cnpjCpfFornecedor    314098
valorLiquido         314098
valorGlosa           314098
id                   314098
dtype: int64

Observações:
- Aqui já conseguimos ver se existe diferença entre o count das colunas, sendo possível verificar em quais existem valores nulos. 
- Neste caso não houve a necessidade de tratamento para o tipo dos dados, pois, todos estão retornando de forma correta: <br> Textos em Object/String e Valores calculáveis em Float.

<strong>Verificação e correção dos dados nulos ou duplicados: <strong> <br>

In [25]:
print('LISTAGEM DE COLUNAS COM VALORES NULOS:')
print(total_gastos.isnull().sum())
print('TOTAL DE DADOS VS COLUNAS:')
print(total_gastos.shape)
print('TOTAL DE DADOS VS COLUNAS SEM DUPLICAÇÕES:')
total_gastos.drop_duplicates()
print(total_gastos.shape)

LISTAGEM DE COLUNAS COM VALORES NULOS:
ano                  0
mes                  0
tipoDespesa          0
tipoDocumento        0
valorDocumento       0
nomeFornecedor       0
cnpjCpfFornecedor    0
valorLiquido         0
valorGlosa           0
id                   0
dtype: int64
TOTAL DE DADOS VS COLUNAS:
(50910, 10)
TOTAL DE DADOS VS COLUNAS SEM DUPLICAÇÕES:
(50910, 10)


Observações:
- Neste caso não houve necessidade de ajustes pois não há nenhum dado nulo ou duplicado. <br> 
É possível identificar através da contagem de valores nulos = 0 e também na diferença na contagem dos dados vs colunas com ou sem duplicações.

<strong>Analisando a coluna Fornecedores:<strong> <br> 

In [119]:
print('DADOS FORNECEDORES SEM ALTERAÇÃO:')
print(total_gastos.nomeFornecedor.value_counts().head(15))
print('----------------------------------------------')
print('DADOS FORNECEDORES AJUSTADOS:')
total_gastos.nomeFornecedor = [str(fornecedor).upper().replace("S.A.", "S.A").replace("S/A","S.A").replace("LTDA-ME","LTDA") for fornecedor in total_gastos.nomeFornecedor]
print(total_gastos.nomeFornecedor.value_counts().head(15))

DADOS FORNECEDORES SEM ALTERAÇÃO:
Cia Aérea - GOL                                     33905
Cia Aérea - TAM                                     30720
Cia Aérea - AZUL                                     8882
UBER DO BRASIL TECNOLOGIA LTDA.                      7555
RAMAL                                                7268
CASCOL COMBUSTIVEIS PARA VEICULOS LTDA               7217
CELULAR FUNCIONAL                                    6827
CORREIOS - SEDEX CONVENCIONAL                        5281
UBER DO BRASIL TECNOLOGIA LTDA                       4742
SERVICO NACIONAL DE APRENDIZAGEM COMERCIAL SENAC     4647
CORREIOS - CARTA COMERCIAL                           2681
SINPETAXI                                            2511
CORREIOS - ENCOMENDA PAC                             1955
FRATELLI POSTO DE COMBUSTIVEIS LTDA                  1825
Cia Aérea - AVIANCA                                  1795
Name: nomeFornecedor, dtype: int64
----------------------------------------------
DADOS FORNECED

Observações:
- Identifiquei que o dado não está padronizado, há alguns com escrita em caixa alta e outros não. Também contém variações de escrita para o mesmo fornecedor.

<strong>Analisando a coluna Tipos de Despesas:<strong> <br> 

In [120]:
print('DADOS FORNECEDORES SEM ALTERAÇÃO:')
print(total_gastos.tipoDespesa.value_counts().head(20))
print('----------------------------------------------')
print('DADOS FORNECEDORES AJUSTADOS:')
total_gastos.tipoDespesa = [str(despesas).upper() for despesas in total_gastos.tipoDespesa]
print(total_gastos.tipoDespesa.value_counts().head(20))

DADOS FORNECEDORES SEM ALTERAÇÃO:
Emissão Bilhete Aéreo                                        76137
COMBUSTÍVEIS E LUBRIFICANTES.                                75445
SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO                    36245
MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR    27851
TELEFONIA                                                    25343
FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR                   18723
SERVIÇOS POSTAIS                                             17054
DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.                         13885
LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES                 7794
HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL.        6436
PASSAGENS AÉREAS                                              3272
CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS.                 2919
PASSAGENS TERRESTRES, MARÍTIMAS OU FLUVIAIS                   1278
ASSINATURA DE PUBLICAÇÕES                                      752
SERVIÇO DE SEGURANÇA PRESTAD

Observações:
- Identifiquei que nessa coluna o dado também não está padronizado contém alguns com escrita em caixa alta e outros não. 

<strong>Analisando a colunas ano e mês:<strong> <br> 

In [121]:
import numpy as np
total_gastos.ano = [str(ano_list).replace("2020.0", "2020").replace("2019.0", "2019") for ano_list in total_gastos.ano]
total_gastos.groupby('ano').describe()

Unnamed: 0_level_0,mes,mes,mes,mes,mes,mes,mes,mes,valorDocumento,valorDocumento,...,valorGlosa,valorGlosa,id,id,id,id,id,id,id,id
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
ano,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2019,269727.0,6.636781,3.154713,1.0,4.0,7.0,9.0,12.0,269727.0,728.206285,...,0.0,86000.0,269727.0,165492.9412,45582.631189,66179.0,141531.0,178929.0,204444.0,212749.0
2020,44371.0,2.250524,1.044634,1.0,1.0,2.0,3.0,5.0,44371.0,973.159606,...,0.0,11287.0,44371.0,169386.414437,44520.295938,66179.0,152610.0,178985.0,204458.5,212749.0


In [122]:
total_gastos.mes = [str(mes_list).replace("1.0", "1").replace("2.0", "2").replace("3.0", "3").replace("4.0", "4").replace("4.0", "4").replace("5.0", "5").replace("6.0", "6").replace("7.0", "7").replace("8.0", "8").replace("9.0", "9").replace("10.0", "10").replace("11.0", "11").replace("12.0", "12") for mes_list in total_gastos.mes]

Observações:
- Nessa variável fiz um ajuste para 'string' e retirei as casas decimais. 

Para os demais dados da requisição despesas não houve necessidade de ajustes:
- valorDocumento
- cnpjCpfFornecedor
- valorLiquido
- valorGlosa
- id

<strong>Renomeando o nome das colunas:<strong> <br> 

In [123]:
total_gastos.columns = ['ano', 'mês', 'tipoDespesa','tipoDocumento','valorDocumento','nomeFornecedor','cnpjFornecedor','valorLiquido','valorGLosa','id']
total_gastos.head()

Unnamed: 0,ano,mês,tipoDespesa,tipoDocumento,valorDocumento,nomeFornecedor,cnpjFornecedor,valorLiquido,valorGLosa,id
0,2019,3,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,154.95,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,154.95,0.0,204554
1,2019,5,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,343.48,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,335.8,7.68,204554
2,2019,6,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,312.27,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,305.26,7.01,204554
3,2019,7,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,191.56,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,184.53,7.03,204554
4,2019,8,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,138.61,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,131.9,6.71,204554


### CRIANDO UMA BASE COM OS DADOS AJUSTADOS
Criando um CSV que salva todos os dados já tratados para análises sem a necessidade de requisições na API.
<hr>

In [125]:
total_gastos.to_csv('db/total_gastos.csv',encoding='utf8' )
pd.read_csv('db/total_gastos.csv',sep=',')

Unnamed: 0.1,Unnamed: 0,ano,mês,tipoDespesa,tipoDocumento,valorDocumento,nomeFornecedor,cnpjFornecedor,valorLiquido,valorGLosa,id
0,0,2019,3,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,154.95,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,154.95,0.00,204554
1,1,2019,5,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,343.48,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,335.80,7.68,204554
2,2,2019,6,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,312.27,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,305.26,7.01,204554
3,3,2019,7,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,191.56,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,184.53,7.03,204554
4,4,2019,8,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,Nota Fiscal,138.61,COMPANHIA DE ELETRICIDADE DO ESTADO DA BAHIA,15139629000194,131.90,6.71,204554
...,...,...,...,...,...,...,...,...,...,...,...
314093,71,2020,3,"SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO",Recibos/Outros,10.59,UBER DO BRASIL TECNOLOGIA LTDA.,17895646000187,9.59,1.00,160592
314094,72,2020,3,"SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO",Recibos/Outros,11.25,UBER DO BRASIL TECNOLOGIA LTDA.,17895646000187,10.24,1.01,160592
314095,73,2020,3,"SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO",Recibos/Outros,20.76,UBER DO BRASIL TECNOLOGIA LTDA.,17895646000187,19.76,1.00,160592
314096,74,2020,1,"PASSAGENS TERRESTRES, MARÍTIMAS OU FLUVIAIS",Recibos/Outros,125.13,CATTANI SUL TRANSPORTES E TURISMO LTDA,77472371000109,125.13,0.00,160592
