# Limpeza dos Arquivos

Os dados disponibilizados no site da Câmara dos Deputados são dividos em diversos arquivos e não estão previamente organizados para nossos objetivos. Sendo assim, é necessário realizar uma limpeza nos arquivos que serão utilizados, pois iremos juntar dados de diferentes arquivos que possuem algumas categorias irrelevantes. 

Esse arquivo jupyter é responsável por documentar e realizar a limpeza dos dados baixados, além de gerar as bases de dados que realmente serão utilizadas para criação de redes e análises.

Estamos na 56º Legislatura (2019 - 2023)

In [162]:
import pandas as pd
import requests
import os

In [214]:
arquivos = os.listdir('ArquivosCSV-2019')
arquivos

['deputados.csv',
 'eventos-2019.csv',
 'eventosOrgaos-2019.csv',
 'eventosPresencaDeputados-2019.csv',
 'eventosRequerimentos-2019.csv',
 'frentes.csv',
 'frentesDeputados.csv',
 'legislaturas.csv',
 'legislaturasMesas.csv',
 'orgaos.csv',
 'proposicoes-2019.csv',
 'proposicoesAutores-2019.csv',
 'proposicoesTemas-2019.csv',
 'votacoes-2019.csv',
 'votacoesObjetos-2019.csv',
 'votacoesOrientacoes-2019.csv',
 'votacoesProposicoes-2019.csv',
 'votacoesVotos-2019.csv']

In [222]:
file_deputados = 'ArquivosCSV-2019/' + arquivos[0]
db_deputados = pd.read_csv(file_deputados, delimiter=';')

Removendo colunas que não serão utilziadas:
    * cpf : Essa coluna estava vazia
    * urlRedeSocial : Não possui informações de todos candidatos além de que não será utilizada no momento
    * urlWebsite : Não possui informações de todos candidatos além de que não será utilizada no momento
    * dataNascimento, dataFalecimento: Informações irrelevantes no momento

In [223]:
db_deputados = db_deputados.drop(columns=['cpf', 'urlRedeSocial', 'urlWebsite', 'dataNascimento', 'dataFalecimento', 'idLegislaturaInicial'])
db_deputados.columns

Index(['uri', 'nome', 'idLegislaturaFinal', 'nomeCivil', 'siglaSexo',
       'ufNascimento', 'municipioNascimento'],
      dtype='object')

In [224]:
db_deputados = db_deputados[db_deputados.idLegislaturaFinal == 56]
db_deputados

Unnamed: 0,uri,nome,idLegislaturaFinal,nomeCivil,siglaSexo,ufNascimento,municipioNascimento
2824,https://dadosabertos.camara.leg.br/api/v2/depu...,Danilo Forte,56,FRANCISCO DANILO BASTOS FORTE,M,CE,Fortaleza
2842,https://dadosabertos.camara.leg.br/api/v2/depu...,Norma Ayub,56,NORMA AYUB ALVES,F,ES,Vitória
2845,https://dadosabertos.camara.leg.br/api/v2/depu...,Fausto Pinato,56,FAUSTO RUY PINATO,M,SP,Fernandópolis
2847,https://dadosabertos.camara.leg.br/api/v2/depu...,Iracema Portella,56,IRACEMA MARIA PORTELLA NUNES NOGUEIRA LIMA,F,PI,Teresina
2852,https://dadosabertos.camara.leg.br/api/v2/depu...,Fábio Henrique,56,FABIO HENRIQUE SANTANA DE CARVALHO,M,SE,Simão Dias
...,...,...,...,...,...,...,...
7622,https://dadosabertos.camara.leg.br/api/v2/depu...,Dr. Agripino Magalhães,56,AGRIPINO RODRIGUES GOMES MAGALHÃES,M,CE,Boa Viagem
7623,https://dadosabertos.camara.leg.br/api/v2/depu...,Deuzinho Filho,56,FRANCISCO DEUZINHO DE OLIVEIRA FILHO,M,CE,Caucaia
7624,https://dadosabertos.camara.leg.br/api/v2/depu...,Nilson F. Stainsack,56,NILSON FRANCISCO STAINSACK,M,SC,Presidente Getúlio
7625,https://dadosabertos.camara.leg.br/api/v2/depu...,Renato Queiroz,56,RENATO ANDRADE QUEIROZ,M,RR,Boa Vista


In [None]:
lista_ids = []
lista_legislaturas = []
for uri in db_deputados.uri:
    try:
        json = requests.get(uri).json()
        deputado_id = json['dados']['id']
    except:
        deputado_id = None
        
    lista_ids.append(deputado_id)
    
db_deputados.loc[:,'deputado_id'] = lista_ids

In [None]:
db_deputados