# Limpeza de dados

## Ideias
- Ver se consigo achar outra base de dados com o partido dos senadores e juntar com essa

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

In [2]:
# Checa informações de encoding da base de dados
import chardet

with open('../dados/despesa_ceaps_2022.csv', 'rb') as rawdata:
    result = chardet.detect(rawdata.read(100000))
result

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}

In [3]:
df_2022 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2022.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True) # Configura parâmetros necessárias pra ler o csv corretamente


# transforma valores para o tipo desejado que permita a manipulação
df_2022['VALOR_REEMBOLSADO'] = df_2022['VALOR_REEMBOLSADO'].str.replace(",", ".").astype('float64')
df_2022['TIPO_DESPESA'] = df_2022['TIPO_DESPESA'].astype('string')
df_2022['DETALHAMENTO'] = df_2022['DETALHAMENTO'].astype('string')
df_2022['SENADOR'] = df_2022['SENADOR'].str.title() # Muda todas as palavras para iniciar com maísculo
df_2022.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6160 entries, 0 to 6159
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ANO                6160 non-null   int64         
 1   MES                6160 non-null   int64         
 2   SENADOR            6160 non-null   object        
 3   TIPO_DESPESA       6160 non-null   string        
 4   CNPJ_CPF           6160 non-null   object        
 5   FORNECEDOR         6160 non-null   object        
 6   DOCUMENTO          5858 non-null   object        
 7   DATA               6160 non-null   datetime64[ns]
 8   DETALHAMENTO       3308 non-null   string        
 9   VALOR_REEMBOLSADO  6160 non-null   float64       
 10  COD_DOCUMENTO      6160 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(3), object(4), string(2)
memory usage: 529.5+ KB


In [4]:
df_2022.sample(20)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
2243,2022,2,Giordano,"Locomoção, hospedagem, alimentação, combustíve...",60.522.380/0001-56,Auto Posto Mirante LTDA,00004736,2022-02-01,,2676.67,2175320
3930,2022,5,Marcelo Castro,"Locomoção, hospedagem, alimentação, combustíve...",23.509.441/0001-19,J W SARAIVA E CIA LTDA,11184,2022-05-16,Despesa com aquisição de combustível para veíc...,1158.5,2180484
3864,2022,5,Mara Gabrilli,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,598,2022-05-01,Despesa referente a passagem de ônibus do trec...,483.5,2180509
5652,2022,4,Veneziano Vital Do Rêgo,"Passagens aéreas, aquáticas e terrestres nacio...",07.575.651/0001-59,GOL,HKUXSP,2022-04-03,"Companhia Aérea: GOL, Localizador: HKUXSP. Pas...",2478.46,2179626
2078,2022,3,Flávio Arns,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,YXVSQP,2022-03-05,"Companhia Aérea: GOL, Localizador: YXVSQP. Pas...",810.32,2175893
2236,2022,2,Giordano,"Locomoção, hospedagem, alimentação, combustíve...",67.886.622/0005-63,Adm. Comércio de Alimentos Ltda,52266,2022-02-04,,400.51,2175326
4163,2022,2,Nelsinho Trad,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,LIRBEC,2022-01-28,"Companhia Aérea: LATAM, Localizador: LIRBEC. P...",753.14,2174332
2838,2022,3,Jarbas Vasconcelos,"Contratação de consultorias, assessorias, pesq...",11.021.809/0001-16,RGL DA SILVA CLIPPING ASSESSORIA DE COMUNICAÇÃO,00000853,2022-03-21,,5000.0,2177160
48,2022,4,Acir Gurgacz,"Passagens aéreas, aquáticas e terrestres nacio...",17.872.428/0001-27,AMERICA VIAGENS E TURISMO LTDA - ME,JDJPES,2022-04-10,"Companhia Aérea: AZUL, Localizador: JDJPES. Pa...",3890.0,2178314
644,2022,5,Carlos Viana,"Aluguel de imóveis para escritório político, c...",36.052.598/0001-00,DANIELE SIMOES GALDINO BRAZ 09791827605,2022/51,2022-05-12,,443.0,2180492


In [5]:
df_2022['TIPO_DESPESA'].unique() # Checa quantos tipos de despesa existem

<StringArray>
[                                                                                                       'Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
                                                                                                                                                             'Divulgação da atividade parlamentar',
                                                                                                                                              'Passagens aéreas, aquáticas e terrestres nacionais',
                                                          'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
                                                                                                                                'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
 'Aqui

In [6]:
# Existe um padrão na string de detalhamento de passagens aéreas que me permite coletar a informação da companhia aérea de cada passagem.

mask = (df_2022['TIPO_DESPESA'] == 'Passagens aéreas, aquáticas e terrestres nacionais') & (df_2022['DETALHAMENTO'].str.contains("Aérea", case=False)) # Checa se é passagem aérea
df_companhias_aereas = df_2022[mask]

companhias = df_companhias_aereas.loc[:,'DETALHAMENTO'].str.split(",", expand=True)
companhias = companhias[0].str.split(": ", expand=True)
companhias = companhias[1]
df_companhias_aereas = df_companhias_aereas.assign(COMPANHIA_AÉREA = companhias) # Assign foi usado para evitar o o 'SettingWithCopyWarning'
df_companhias_aereas

df_companhias_aereas['COMPANHIA_AÉREA'] = df_companhias_aereas.loc[:,'DETALHAMENTO'].str.split(",", expand=True)[0].str.split(": ", expand=True)[1] # Separa e seleciona apenas o nome da companhia
df_companhias_aereas.loc[:,'COMPANHIA_AÉREA'] = df_companhias_aereas.loc[:,'COMPANHIA_AÉREA'].apply(lambda x : "LATAM" if (x == "TAM") else (x)) # Junta TAM e LATAM



In [7]:
df_2022.describe(include='all')

  df_2022.describe(include='all')


Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
count,6160.0,6160.0,6160,6160,6160,6160,5858,6160,3308,6160.0,6160.0
unique,,,82,7,1716,1828,5343,185,2107,,
top,,,Humberto Costa,"Locomoção, hospedagem, alimentação, combustíve...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,s/n,2022-02-01 00:00:00,DESPESA COM COMBUSTÍVEL EM VEÍCULOS UTILIZADOS...,,
freq,,,215,2351,433,235,25,107,131,,
first,,,,,,,,2002-02-02 00:00:00,,,
last,,,,,,,,2022-05-28 00:00:00,,,
mean,2022.0,2.850487,,,,,,,,1559.44525,2177022.0
std,0.0,1.219217,,,,,,,,2896.67947,2195.34
min,2022.0,1.0,,,,,,,,0.01,2172906.0
25%,2022.0,2.0,,,,,,,,200.15,2175224.0


In [8]:
fig = px.histogram(df_2022, x='TIPO_DESPESA')
fig.show()

In [9]:
# Gráfico leva em consideração a quantidade de despesas e não o valor total acumlado
fig = px.histogram(df_2022, x='SENADOR').update_xaxes(categoryorder="total descending")
fig.show()

In [10]:
df_2022_valor_medio_senador = df_2022.groupby(['SENADOR']).sum()
df_2022_valor_medio_senador
fig = px.bar(df_2022_valor_medio_senador, x=df_2022_valor_medio_senador.index, y='VALOR_REEMBOLSADO', title="Media de Gastos por Senador(a)")
fig.update_xaxes(categoryorder="total descending")
fig.show()

# Juntar com base de outros anos



In [39]:
# lê novamente a base de 2022 pra juntar as bases brutas e fazer toda a limpeza na base já mesclada
df_2022 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2022.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2021 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2021.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2020 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2020.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2019 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2019.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2018 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2018.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2017 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2017.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2016 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2016.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2015 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2015.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)
df_2014 = pd.read_csv(filepath_or_buffer = '../dados/despesa_ceaps_2014.csv', encoding='ISO-8859-1', sep=';', header=1, parse_dates=['DATA'], infer_datetime_format=True, dayfirst=True)

# junta todas as bases
df_total = pd.concat([df_2022, df_2021, df_2020, df_2019, df_2018, df_2017, df_2016, df_2015, df_2014])

# transforma valores para o tipo desejado que permita a manipulação
df_total['VALOR_REEMBOLSADO'] = df_total['VALOR_REEMBOLSADO'].str.replace(",", ".").astype('float64')
df_total['TIPO_DESPESA'] = df_total['TIPO_DESPESA'].astype('string')
df_total['DETALHAMENTO'] = df_total['DETALHAMENTO'].astype('string')
df_total['SENADOR'] = df_total['SENADOR'].str.title() # Muda todas as palavras para iniciar com maísculo

df_total.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 185052 entries, 0 to 22001
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   ANO                185052 non-null  int64  
 1   MES                185052 non-null  int64  
 2   SENADOR            185052 non-null  object 
 3   TIPO_DESPESA       185052 non-null  string 
 4   CNPJ_CPF           185052 non-null  object 
 5   FORNECEDOR         185052 non-null  object 
 6   DOCUMENTO          172460 non-null  object 
 7   DATA               185052 non-null  object 
 8   DETALHAMENTO       137909 non-null  string 
 9   VALOR_REEMBOLSADO  185052 non-null  float64
 10  COD_DOCUMENTO      185050 non-null  float64
dtypes: float64(2), int64(2), object(5), string(2)
memory usage: 16.9+ MB


In [47]:
df_total.sample(20)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
10427,2019,11,Kátia Abreu,"Locomoção, hospedagem, alimentação, combustíve...",02.862.352/0005-05,PETROLIDER COM DE COMB E DERIV DE PETROLEO LTDA,36428,25/11/2019,"OLEO DIESEL S10 - COMUM, 72,170 LITROS",256.85,2135764.0
12941,2014,8,Lídice Da Mata,"Aluguel de imóveis para escritório político, c...",15.139.629/0001-94,COELBA,32784183,2014-08-25 00:00:00,PAGAMENTO DE CONTA TELEFONICA,153.23,955005.0
11773,2017,10,Jorge Viana,"Aluguel de imóveis para escritório político, c...",04.065.033/0001-70,COMPANHIA DE ELETRICIDADE DO ACRE S.A.,252916,31/10/2017,Conta de energia elétrica do escritório de apo...,262.39,2081600.0
25578,2016,7,Wellington Fagundes,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,Adria Viagens e Turismo LTDA - ME,0DUBT3,14/07/2016,"Companhia Aérea: Passaredo Transportes Aéreos,...",783.63,2043476.0
17812,2016,9,Paulo Paim,"Contratação de consultorias, assessorias, pesq...",16.987.837/0001-06,Empresa Gaúcha de Rodovias S/A,2205XEXECLX5,24/09/2016,Despesa com pedágio - carro utilizado no exerc...,5.2,2049021.0
11863,2019,7,Mailza Gomes,"Locomoção, hospedagem, alimentação, combustíve...",04.034.294/0001-23,IRMÃOS PINHEIRO HOTEIS E TURISMO LTDA,11912,03/08/2019,,180.0,2127858.0
15751,2017,11,Lúcia Vânia,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,RB8R3J,03/11/2017,"Companhia Aérea: LATAM, Localizador: RB8R3J. P...",973.93,2080635.0
10989,2021,5,Marcos Rogério,"Passagens aéreas, aquáticas e terrestres nacio...",07.575.651/0001-59,GOL,AWRN5N,17/05/2021,"Companhia Aérea: GOL, Localizador: AWRN5N. Pas...",2027.33,2162162.0
21397,2016,1,Romero Jucá,Aquisição de material de consumo para uso no e...,07.575.651/0029-50,Gollog Serviço de Cargas Aéreas,262436,21/01/2016,Referente a despesas postais.,88.89,2028287.0
14229,2016,6,Lídice Da Mata,"Aluguel de imóveis para escritório político, c...",28.350.338/0021-36,APSA,00142867,16/05/2016,PAGAMENTO DA TAXA DO CONDOMINIO DO ESCRITÓRIO ...,1660.27,2039521.0


In [101]:
mask = df_total['DETALHAMENTO'].str.contains('companhia aérea', case=False)
df_aereas = df_total[mask]
mask_true = df_aereas.loc[:,'DETALHAMENTO'].str.startswith('Companhia Aérea: ')
mask_inverted = ~df_aereas.loc[:,'DETALHAMENTO'].str.startswith('Companhia Aérea: ')




'Passagem do Senador João Vicente Claudino, trecho Brasília/Teresina, em 08/05/2014, pela companhia aérea TAM.'