<a href="https://colab.research.google.com/github/askot19/Analise_de_dados/blob/main/Senado/1%20-%20Data%20Cleaning/1%20-%20datacleaning_senado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
## **Data Scientist & Analyst**

*by [Paulo Henrique de Melo Ferreira](https://www.linkedin.com/in/paulo-henrique-ferreira-20151374/)*

---

# Relatório de Análises
O seguinte projeto visa obter dados da transparência governamental, focados nos últimos quatro anos do Senado brasileiro (CEAP - Cota para Exercício da Atividade Parlamentar). O objetivo deste projeto é praticar as principais ferramentas envolvendo Ciência de Dados e produzir um relatório completo através da linguagem de programação Python e aplicar conceitos introdutórios de Machine Learning.

A ideia por trás é simular a Operação Serenata de Amor, que utilizou-se do algoritmo Rosie, uma inteligência artificial capaz de analisar os gastos reembolsados pela CEAP, de deputados federais e senadores, feitos em exercício de sua função, identificando suspeitas e incentivando a população a questioná-los.

In [None]:
# Importando pacotes de Análise de Dados

import pandas as pd
import numpy as np

In [None]:
# Importação de dados

url = 'https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_'

# Aqui estamos agrupando as planilhas de 2010 a 2022, através do método concat e codificando a leitura do arquivo para facilitar a manipulação dos dados
dados_ceaps = pd.concat(pd.read_csv(url+str(ano)+'.csv', encoding='ISO-8859-1', sep=';', skiprows=1) for ano in range(2010,2022))
dados_ceaps.reset_index(drop=True, inplace=True) # Nessa linha corrigimos o índice com o método reset_index

In [None]:
# Visualização dos dados
dados_ceaps.head(10)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2010,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA,045216-3,19/01/2010,,5908,277219.0
1,2010,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDônia,0454206-1,19/01/2010,,4047,277218.0
2,2010,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,,12/01/2010,,5000,229109.0
3,2010,1,ACIR GURGACZ,Divulgação da atividade parlamentar,09.040.457/0001-02,CENTRAL RONDÔNIA.COM,000003,05/01/2010,,1500,268264.0
4,2010,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",15.896.509/0001-31,POSTO FORTALEZA,018215,07/01/2010,,30,268265.0
5,2010,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",15.896.509/0001-31,POSTO FORTALEZA,018884,27/01/2010,,111,268266.0
6,2010,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",63.755.391/0001-74,VICENTE & TESTONI LTDA,050501,07/01/2010,,100,268268.0
7,2010,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",63.755.391/0001-74,vicente & testoni ltda,050201,02/01/2010,,50,268267.0
8,2010,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA - CERON,0452163-3,19/02/2010,,4027,277223.0
9,2010,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA - CERON,0454206-1,19/02/2010,,6927,277222.0


In [None]:
# Conferindo tipos de datatypes
dados_ceaps.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 282252 entries, 0 to 282251
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   ANO                282252 non-null  int64  
 1   MES                282252 non-null  int64  
 2   SENADOR            282252 non-null  object 
 3   TIPO_DESPESA       282252 non-null  object 
 4   CNPJ_CPF           282252 non-null  object 
 5   FORNECEDOR         282252 non-null  object 
 6   DOCUMENTO          262959 non-null  object 
 7   DATA               282252 non-null  object 
 8   DETALHAMENTO       171569 non-null  object 
 9   VALOR_REEMBOLSADO  282252 non-null  object 
 10  COD_DOCUMENTO      282250 non-null  float64
dtypes: float64(1), int64(2), object(8)
memory usage: 23.7+ MB


In [None]:
# Verificando coerência dos dados do final do Data Frame
dados_ceaps.tail()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
282247,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,GDAONA,01/12/2021,"Companhia Aérea: GOL, Localizador: GDAONA. Pas...",171545,2170983.0
282248,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,JFQVZP,15/12/2021,"Companhia Aérea: LATAM, Localizador: JFQVZP. P...",248929,2172263.0
282249,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SSKEOB,17/12/2021,"Companhia Aérea: GOL, Localizador: SSKEOB. Pas...",148666,2172717.0
282250,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,ZICCEX,27/12/2021,"Companhia Aérea: LATAM, Localizador: ZICCEX. P...",251556,2173239.0
282251,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,LM6FSK,29/12/2021,"Companhia Aérea: AZUL, Localizador: LM6FSK. Pa...",151075,2173238.0


In [None]:
# Verificando dados nulos
dados_ceaps.isnull().sum()

ANO                       0
MES                       0
SENADOR                   0
TIPO_DESPESA              0
CNPJ_CPF                  0
FORNECEDOR                0
DOCUMENTO             19293
DATA                      0
DETALHAMENTO         110683
VALOR_REEMBOLSADO         0
COD_DOCUMENTO             2
dtype: int64

In [None]:
# Identificando duplicatas, houve um erro da importação dos dados nas colunas documento, data, detalhamento, valor_reembolsado e código do documento
dados_ceaps[dados_ceaps['COD_DOCUMENTO'].duplicated(keep = False)]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
131284,2015,8,EDUARDO AMORIM,"Passagens aéreas, aquáticas e terrestres nacio...",13.353.495/0001-84,PROPAGTUR - Propag Turismo Ltda,"SEM FATURA"";02/08/2015""","Companhia Aérea: TAM, Localizador: YXGDSJ. Pas...",46953,2014675,
131291,2015,8,EDUARDO AMORIM,"Passagens aéreas, aquáticas e terrestres nacio...",13.353.495/0001-84,PROPAGTUR - Propag Turismo Ltda,"¨¨SEM FATURA"";17/08/2015""","Companhia Aérea: AVIANCA, Localizador: ZNEU9F....",46045,2016557,


In [None]:
# Reorganizando os registros nas colunas adequadas
duplicado1 = 131284

dados_ceaps.loc[duplicado1, 'COD_DOCUMENTO'] = dados_ceaps.loc[duplicado1, 'VALOR_REEMBOLSADO']
dados_ceaps.loc[duplicado1, 'VALOR_REEMBOLSADO'] = dados_ceaps.loc[duplicado1, 'DETALHAMENTO']
dados_ceaps.loc[duplicado1, 'DETALHAMENTO'] = dados_ceaps.loc[duplicado1, 'DATA']
dados_ceaps.loc[duplicado1, 'DATA'] = '02/08/2015'
dados_ceaps.loc[duplicado1, 'DOCUMENTO'] = 'SEM FATURA'
dados_ceaps.loc[duplicado1, 'VALOR_REEMBOLSADO'] = 469.53

duplicado2 = 131291

dados_ceaps.loc[duplicado2, 'COD_DOCUMENTO'] = dados_ceaps.loc[duplicado2, 'VALOR_REEMBOLSADO']
dados_ceaps.loc[duplicado2, 'VALOR_REEMBOLSADO'] = dados_ceaps.loc[duplicado2, 'DETALHAMENTO']
dados_ceaps.loc[duplicado2, 'DETALHAMENTO'] = dados_ceaps.loc[duplicado2, 'DATA']
dados_ceaps.loc[duplicado2, 'DATA'] = '17/08/2015'
dados_ceaps.loc[duplicado2, 'DOCUMENTO'] = 'SEM FATURA'
dados_ceaps.loc[duplicado2, 'VALOR_REEMBOLSADO'] = 460.45

dados_ceaps.loc[[duplicado1 ,duplicado2]]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
131284,2015,8,EDUARDO AMORIM,"Passagens aéreas, aquáticas e terrestres nacio...",13.353.495/0001-84,PROPAGTUR - Propag Turismo Ltda,SEM FATURA,02/08/2015,"Companhia Aérea: TAM, Localizador: YXGDSJ. Pas...",469.53,2014675
131291,2015,8,EDUARDO AMORIM,"Passagens aéreas, aquáticas e terrestres nacio...",13.353.495/0001-84,PROPAGTUR - Propag Turismo Ltda,SEM FATURA,17/08/2015,"Companhia Aérea: AVIANCA, Localizador: ZNEU9F....",460.45,2016557


In [None]:
# Reconferência de duplicatas
dados_ceaps[dados_ceaps['COD_DOCUMENTO'].duplicated(keep = False)]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO


In [None]:
# Compreendendo composição da coluna detalhamento
dados_ceaps['DETALHAMENTO'].unique()

array([nan,
       'BILHETE UTILIZADO PELO SENADOR ACIR GURGACZ. TRECHO: BRASÍLIA/ CUIABÁ. TAM-VOO-JJ-3648. DIA22/JUN/2011.',
       'BILHETE UTILIZADO PELO SENADOR ACIR GURGACZ. TRECHO: PORTO VELHO/BRASÍLIA. TAM-VOO-JJ-3687. DIA-27/JUN/2011.',
       ...,
       'Companhia Aérea: GOL, Localizador: SSKEOB. Passageiros: JOSÉ DA CRUZ MARINHO (Matrícula 341141, PARLAMENTAR), Voo: 1897 - BEL/BSB - 20/12/2021;',
       'Companhia Aérea: LATAM, Localizador: ZICCEX. Passageiros: JOSÉ DA CRUZ MARINHO (Matrícula 341141, PARLAMENTAR), Voo: 3174 - BSB/BELÉM - 29/12/2021;',
       'Companhia Aérea: AZUL, Localizador: LM6FSK. Passageiros: JOSÉ DA CRUZ MARINHO (Matrícula 341141, PARLAMENTAR), Voo: 4460 - BELÉM/MARABÁ - 30/12/2021;'],
      dtype=object)

In [None]:
# Compreendendo composição da coluna tipo_despesa, concluímos que a coluna detalhamento é mais informativa para análises
dados_ceaps['TIPO_DESPESA'].unique()

array(['Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
       'Divulgação da atividade parlamentar',
       'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
       'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ',
       'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
       'Passagens aéreas, aquáticas e terrestres nacionais',
       'Serviços de Segurança Privada'], dtype=object)

In [None]:
dados_copia = dados_ceaps.copy # Backup dos dados para evitar exclusões incorretas

dados_ceaps = dados_ceaps.drop(columns = ['DOCUMENTO', 'COD_DOCUMENTO']) # removendo DOCUMENTO E COD_DOCUMENTO

dados_ceaps.loc[dados_ceaps['DETALHAMENTO'].isnull(), 'DETALHAMENTO'] = dados_ceaps[dados_ceaps['DETALHAMENTO'].isnull()]['TIPO_DESPESA'] # preenchendo dados ausentes de detalhamento com o tipo de despesa no lugar

In [None]:
# Reconferência de dados ausentes
dados_ceaps.isnull().sum()

ANO                  0
MES                  0
SENADOR              0
TIPO_DESPESA         0
CNPJ_CPF             0
FORNECEDOR           0
DATA                 0
DETALHAMENTO         0
VALOR_REEMBOLSADO    0
dtype: int64

In [None]:
# Identificando estruturas de dados do Data Frame
dados_ceaps.dtypes

ANO                   int64
MES                   int64
SENADOR              object
TIPO_DESPESA         object
CNPJ_CPF             object
FORNECEDOR           object
DATA                 object
DETALHAMENTO         object
VALOR_REEMBOLSADO    object
dtype: object

In [None]:
# Corrigindo formato de dados da coluna ANO para uma possível análise de Time Series
dados_ceaps['ANO'] =  pd.to_datetime(dados_ceaps['ANO'], format='%Y')

In [None]:
dados_ceaps.dtypes

ANO                  datetime64[ns]
MES                           int64
SENADOR                      object
TIPO_DESPESA                 object
CNPJ_CPF                     object
FORNECEDOR                   object
DATA                         object
DETALHAMENTO                 object
VALOR_REEMBOLSADO            object
dtype: object

In [None]:
# Correção da notação de valores para conversão do dataype para Float
dados_ceaps['CORREÇÃO_VALORES'] = dados_ceaps['VALOR_REEMBOLSADO'].str.replace(',', '.')

In [None]:
dados_ceaps.head(10)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,CORREÇÃO_VALORES
0,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA,19/01/2010,"Aluguel de imóveis para escritório político, c...",5908,59.08
1,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDônia,19/01/2010,"Aluguel de imóveis para escritório político, c...",4047,40.47
2,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,12/01/2010,"Aluguel de imóveis para escritório político, c...",5000,5000.0
3,2010-01-01,1,ACIR GURGACZ,Divulgação da atividade parlamentar,09.040.457/0001-02,CENTRAL RONDÔNIA.COM,05/01/2010,Divulgação da atividade parlamentar,1500,1500.0
4,2010-01-01,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",15.896.509/0001-31,POSTO FORTALEZA,07/01/2010,"Locomoção, hospedagem, alimentação, combustíve...",30,30.0
5,2010-01-01,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",15.896.509/0001-31,POSTO FORTALEZA,27/01/2010,"Locomoção, hospedagem, alimentação, combustíve...",111,111.0
6,2010-01-01,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",63.755.391/0001-74,VICENTE & TESTONI LTDA,07/01/2010,"Locomoção, hospedagem, alimentação, combustíve...",100,100.0
7,2010-01-01,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",63.755.391/0001-74,vicente & testoni ltda,02/01/2010,"Locomoção, hospedagem, alimentação, combustíve...",50,50.0
8,2010-01-01,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA - CERON,19/02/2010,"Aluguel de imóveis para escritório político, c...",4027,40.27
9,2010-01-01,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA - CERON,19/02/2010,"Aluguel de imóveis para escritório político, c...",6927,69.27


In [None]:
# Corrigindo demais valores errôneos, devido a erros de importação
dados_ceaps['CORREÇÃO_VALORES'] = dados_ceaps['CORREÇÃO_VALORES'].str.replace('1\r\n675.55', '1675.55')
dados_ceaps.head()

  dados_ceaps['CORREÇÃO_VALORES'] = dados_ceaps['CORREÇÃO_VALORES'].str.replace('1\r\n675.55', '1675.55')


Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,CORREÇÃO_VALORES
0,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA,19/01/2010,"Aluguel de imóveis para escritório político, c...",5908,59.08
1,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDônia,19/01/2010,"Aluguel de imóveis para escritório político, c...",4047,40.47
2,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,12/01/2010,"Aluguel de imóveis para escritório político, c...",5000,5000.0
3,2010-01-01,1,ACIR GURGACZ,Divulgação da atividade parlamentar,09.040.457/0001-02,CENTRAL RONDÔNIA.COM,05/01/2010,Divulgação da atividade parlamentar,1500,1500.0
4,2010-01-01,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",15.896.509/0001-31,POSTO FORTALEZA,07/01/2010,"Locomoção, hospedagem, alimentação, combustíve...",30,30.0


In [None]:
# Conversão para float
dados_ceaps['CORREÇÃO_VALORES'] = dados_ceaps['CORREÇÃO_VALORES'].astype(float)
dados_ceaps.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,CORREÇÃO_VALORES
0,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA,19/01/2010,"Aluguel de imóveis para escritório político, c...",5908,59.08
1,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDônia,19/01/2010,"Aluguel de imóveis para escritório político, c...",4047,40.47
2,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,12/01/2010,"Aluguel de imóveis para escritório político, c...",5000,5000.0
3,2010-01-01,1,ACIR GURGACZ,Divulgação da atividade parlamentar,09.040.457/0001-02,CENTRAL RONDÔNIA.COM,05/01/2010,Divulgação da atividade parlamentar,1500,1500.0
4,2010-01-01,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",15.896.509/0001-31,POSTO FORTALEZA,07/01/2010,"Locomoção, hospedagem, alimentação, combustíve...",30,30.0


In [None]:
# Substituição da coluna Valor_Reembolsado
dados_ceaps['VALOR_REEMBOLSADO'] = dados_ceaps['CORREÇÃO_VALORES']
dados_ceaps.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,CORREÇÃO_VALORES
0,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA,19/01/2010,"Aluguel de imóveis para escritório político, c...",59.08,59.08
1,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDônia,19/01/2010,"Aluguel de imóveis para escritório político, c...",40.47,40.47
2,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,12/01/2010,"Aluguel de imóveis para escritório político, c...",5000.0,5000.0
3,2010-01-01,1,ACIR GURGACZ,Divulgação da atividade parlamentar,09.040.457/0001-02,CENTRAL RONDÔNIA.COM,05/01/2010,Divulgação da atividade parlamentar,1500.0,1500.0
4,2010-01-01,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",15.896.509/0001-31,POSTO FORTALEZA,07/01/2010,"Locomoção, hospedagem, alimentação, combustíve...",30.0,30.0


In [None]:
# Exclusão da coluna de correção
dados_ceaps = dados_ceaps.drop(columns = ['CORREÇÃO_VALORES'])
dados_ceaps.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
0,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDÔNIA,19/01/2010,"Aluguel de imóveis para escritório político, c...",59.08
1,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,CENTRAIS ELÉTRICAS DE RONDônia,19/01/2010,"Aluguel de imóveis para escritório político, c...",40.47
2,2010-01-01,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,12/01/2010,"Aluguel de imóveis para escritório político, c...",5000.0
3,2010-01-01,1,ACIR GURGACZ,Divulgação da atividade parlamentar,09.040.457/0001-02,CENTRAL RONDÔNIA.COM,05/01/2010,Divulgação da atividade parlamentar,1500.0
4,2010-01-01,1,ACIR GURGACZ,"Locomoção, hospedagem, alimentação, combustíve...",15.896.509/0001-31,POSTO FORTALEZA,07/01/2010,"Locomoção, hospedagem, alimentação, combustíve...",30.0


In [None]:
# Reconferência da estrutura de dados do Data Frame
dados_ceaps.dtypes

ANO                  datetime64[ns]
MES                           int64
SENADOR                      object
TIPO_DESPESA                 object
CNPJ_CPF                     object
FORNECEDOR                   object
DATA                         object
DETALHAMENTO                 object
VALOR_REEMBOLSADO           float64
dtype: object

In [None]:
# Conferência das estatísticas básicas do Data Frame, como temos um valor mínimo negativo, podemos concluir que há valores negativos no nosso Data Frame. Estes dados não condizem com a coluna Valor_Reembolsado
dados_ceaps.describe()

Unnamed: 0,MES,VALOR_REEMBOLSADO
count,282252.0,282250.0
mean,6.599085,968.715367
std,3.323014,2519.333617
min,1.0,-1500.0
25%,4.0,100.0
50%,7.0,282.63
75%,9.0,971.78
max,12.0,270000.0


In [None]:
# Identificando valores negativos do Data Frame
dados_ceaps.query('VALOR_REEMBOLSADO <-1')

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
133386,2015-01-01,2,GLADSON CAMELI,"Aluguel de imóveis para escritório político, c...",63.600.449/0001-00,Arras Adm. de Bens Imóveis Limpeza e Conservaç...,15/01/2015,Contrato de locação de Imóvel comercial do esc...,-1500.0
144296,2015-01-01,1,RANDOLFE RODRIGUES,"Passagens aéreas, aquáticas e terrestres nacio...",02.012.862/0001-60,Tam Linhas Aereas S/A,28/01/2015,"9572100929351 - R$ 1.298,93 (1º bilhete emitid...",-9.0
182570,2017-01-01,5,DÁRIO BERGER,"Contratação de consultorias, assessorias, pesq...",73.228.876/0001-63,TV CLIPAGEM LTDA. EPP.,02/06/2017,Despesa com Monitoramento de Informação Jornal...,-243.4


In [None]:
# O primeiro valor foi apenas um erro de importação, podemos apenas converter para o valor do módulo
dados_ceaps.loc[133386	, 'VALOR_REEMBOLSADO'] = dados_ceaps.loc[133386	, 'VALOR_REEMBOLSADO']* -1
dados_ceaps.loc[133386	, 'VALOR_REEMBOLSADO']

1500.0

In [None]:
# Como o segundo valor é muito pequeno em módulo, vamos consultar o detalhamento para verificar se o valor é condizente com a despesa
dados_ceaps.loc[144296, 'DETALHAMENTO']

'9572100929351 - R$ 1.298,93 (1º bilhete emitido) 9572102224403 - R$ 1.418,93 (1ª remarcação) 9572104023443 - R$ 1.498,93 (2ª remarcação) 9572104373256 - R$ 2.412,03 (3ª remarcação - bilhete utilizado)'

In [None]:
# Como o detalhamento nos informa que o terceiro bilhete foi o utilizado, devemos atualizar o valor reembolsado a partir dele
dados_ceaps.loc[144296, 'VALOR_REEMBOLSADO'] = 2412.03
dados_ceaps.loc[144296, 'VALOR_REEMBOLSADO']

2412.03

In [None]:
# Realizando a mesma conferência para o terceiro valor, como este é condizente com o valor absoluto de uma despesa com esta classificação também podemos considerar o seu módulo para análises
dados_ceaps.loc[182570, 'DETALHAMENTO']

'Despesa com Monitoramento de Informação Jornalística em Mídia Eletrônica e Imprensa'

In [None]:
# Correção do valor
dados_ceaps.loc[182570, 'VALOR_REEMBOLSADO'] = 243.40
dados_ceaps.loc[182570, 'VALOR_REEMBOLSADO']

243.4

In [None]:
# Excluindo colunas que não são necessárias para nossas análises
dados_ceaps.drop(columns = ['DATA', 'MES'], inplace = True)

In [None]:
# Exportação dos dados para construção de visualizações futuras
dados_ceaps.to_csv('dados_2010_2022.csv', encoding = 'utf-8', index = False)

---

## Fim da Etapa de Limpeza de Dados