# Data Wrangling

In [1]:
import pandas as pd
import numpy as np
pd.options.display.float_format = '{:.2f}'.format

In [2]:
#First I read the data from 2008 to make sure I had the correct enconding and sep
data = pd.read_csv('data/despesa_ceaps_2008.csv',
                   sep = ';', encoding = 'ansi',
                   skiprows = 1,
                   doublequote = True,
                   decimal = ',',
                   na_values = 'S/N')
#I used a for to read the data from all of the following years and then concatenate them
for i in range(14):
    path = 'data/despesa_ceaps_'+str(i+2009)+'.csv'
    temp_data = pd.read_csv(path, sep = ';',
                            encoding = 'ansi',
                            skiprows = 1,
                            doublequote = True,
                            decimal = ',',
                            na_values = 'S/N')
    data = pd.concat([temp_data, data])
data = data.reset_index(drop = True)

In [3]:
#All of the years (ANO) was correctly loaded
data.ANO.unique()

array([2022, 2021, 2020, 2019, 2018, 2017, 2016, 2015, 2014, 2013, 2012,
       2011, 2010, 2009, 2008], dtype=int64)

In [4]:
data.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000.0,2173614
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulgação da atividade parlamenta...,1500.0,2173615
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produção de texto e edição de víde...,6000.0,2173616
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulgação da atividade parlamentar,1000.0,2173618
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,17/01/2022,Divulgação da atividade parlamentar,2000.0,2173617


In [5]:
#Null data present in the dataset
data.isnull().sum()

ANO                       0
MES                       0
SENADOR                   0
TIPO_DESPESA              0
CNPJ_CPF               3144
FORNECEDOR             3144
DOCUMENTO             26003
DATA                   3144
DETALHAMENTO         131443
VALOR_REEMBOLSADO         0
COD_DOCUMENTO             0
dtype: int64

In [6]:
#Weird date, we need to substitute this with the correct date "07/08/2015, 24/08/2015"
data[data.COD_DOCUMENTO.isnull()].DATA.unique()

array([], dtype=object)

In [7]:
data['DATA'] = data.apply(lambda row: row['DATA'][str(row['DATA']).find('/20')-5:str(row['DATA']).find('/20')+5] if str(row['DATA']).find('/') > 2 else row['DATA'],
           axis = 1)

In [8]:
#I will use 999 as a code for SEM FATURA (no invoice) document code.
999 in data.COD_DOCUMENTO.unique()

False

In [9]:
data.fillna(value = {'COD_DOCUMENTO': 999}, inplace = True)

In [10]:
#If the data is null than I will complete it with the first day of the month and year that expense was created
data['DATA'] = data.apply(lambda row: '01/'+str(row['MES']).zfill(2)+'/'+str(row['ANO']) if pd.isnull(row['DATA']) else row['DATA'],
                     axis=1)

In [11]:
#Duplicated data in the dataset
data.duplicated().sum()

0

In [12]:
#Converting the COD_DOCUMENTO to int type
data.COD_DOCUMENTO = pd.to_numeric(data.COD_DOCUMENTO, downcast = 'integer')

In [13]:
def isfloat(num):
    try:
        float(num)
        return True
    except ValueError:
        return False

In [14]:
for i in range(len(data)):
    if not isfloat(data.VALOR_REEMBOLSADO.loc[i]):
        data.VALOR_REEMBOLSADO.loc[i] = data.VALOR_REEMBOLSADO.loc[i].replace('\r\n', '')
        data.VALOR_REEMBOLSADO.loc[i] = data.VALOR_REEMBOLSADO.loc[i].replace(',', '.')

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [15]:
data.VALOR_REEMBOLSADO = pd.to_numeric(data.VALOR_REEMBOLSADO)

In [16]:
data[data.VALOR_REEMBOLSADO < 0].DETALHAMENTO.unique()

array(['Despesa com Monitoramento de Informação Jornalística em Mídia Eletrônica e Imprensa',
       'Contrato de locação de Imóvel comercial do escritório de apoio do Senador Gladson Cameli no Estado',
       '9572100929351 - R$ 1.298,93 (1º bilhete emitido) 9572102224403 - R$ 1.418,93 (1ª remarcação) 9572104023443 - R$ 1.498,93 (2ª remarcação) 9572104373256 - R$ 2.412,03 (3ª remarcação - bilhete utilizado)'],
      dtype=object)

In [17]:
data[data.VALOR_REEMBOLSADO < 0]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
85157,2017,5,DÁRIO BERGER,"Contratação de consultorias, assessorias, pesq...",73.228.876/0001-63,TV CLIPAGEM LTDA. EPP.,001661,02/06/2017,Despesa com Monitoramento de Informação Jornal...,-243.4,2068568
142588,2015,2,GLADSON CAMELI,"Aluguel de imóveis para escritório político, c...",63.600.449/0001-00,Arras Adm. de Bens Imóveis Limpeza e Conservaç...,,15/01/2015,Contrato de locação de Imóvel comercial do esc...,-1500.0,2001228
153498,2015,1,RANDOLFE RODRIGUES,"Passagens aéreas, aquáticas e terrestres nacio...",02.012.862/0001-60,Tam Linhas Aereas S/A,"9,5721E+12",28/01/2015,"9572100929351 - R$ 1.298,93 (1º bilhete emitid...",-9.0,2000358


In [18]:
#I'm substituting this value because in the DETALHAMENTO it explicit the correct number
data.loc[153498,'VALOR_REEMBOLSADO'] = 2412.03
#The other values appers to simply be a typo, so I'm using the absolute value
data.VALOR_REEMBOLSADO = abs(data.VALOR_REEMBOLSADO)

In [19]:
data.groupby('TIPO_DESPESA').VALOR_REEMBOLSADO.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
TIPO_DESPESA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
"Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.",60100.0,951.35,1575.82,0.01,144.22,339.9,930.0,18793.95
"Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos.",24907.0,482.79,1083.68,0.01,47.5,135.0,420.0,40000.0
"Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar",12280.0,4162.96,6907.99,0.21,304.58,1726.55,5000.0,150000.0
Divulgação da atividade parlamentar,13004.0,3094.62,6730.7,0.6,800.0,1500.0,3000.0,270000.0
"Locomoção, hospedagem, alimentação, combustíveis e lubrificantes",127604.0,575.56,1659.03,0.01,50.0,120.0,222.03,66730.0
"Passagens aéreas, aquáticas e terrestres nacionais",66091.0,997.18,749.97,0.01,511.53,835.57,1335.08,84000.0
Serviços de Segurança Privada,925.0,3331.84,6075.21,6.57,198.0,499.88,4125.0,28922.72


In [20]:
quota = pd.read_csv('data\cota.csv')
senators_uf = pd.read_csv('data\senadores_uf.csv')

In [21]:
#There is 80 values that aren't possible
len(data.VALOR_REEMBOLSADO[data.VALOR_REEMBOLSADO > quota.QUOTA.max()])

80

In [22]:
#data[(data.VALOR_REEMBOLSADO < 10) & (data.FORNECEDOR == 'AZUL')]

In [None]:
for i in range(len(data)):
    if data.VALOR_REEMBOLSADO[i] > quota.QUOTA.max():
        data.VALOR_REEMBOLSADO[i] = data.VALOR_REEMBOLSADO[i]/100

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.VALOR_REEMBOLSADO[i] = data.VALOR_REEMBOLSADO[i]/100


In [None]:
#Making a dictionary to translate the column TIPO_DESPESA
pt = data.TIPO_DESPESA.unique()
en = (['Lease of properties for political office, including expenses related to them',
'Publication of parliamentary activity',
'National air, water and land tickets',
'Hiring consultancy, advisory, research, technical works and other services to support the exercise of parliamentary mandate',
'Locomotion, accommodation, food, fuel and lubricants',
'Purchase of consumables for use in the political office, including purchase or lease of software, postage, purchase of publications, lease of furniture and equipment',
'Private Security Services'])
expenses = pd.concat([pd.Series(pt),pd.Series(en)], axis = 1)
expenses.rename(columns = {0: 'pt', 1: 'en'}, inplace = True)
data['EXPENSE'] = ''
for i in range(len(data)):
    for j in range(len(expenses)):
        if data.TIPO_DESPESA[i] == expenses.pt[j]:
            data.EXPENSE[i] = expenses.en[j]

I'm not going to fill the rest of the null values because there is no information on how to fill it. I'm also not deleting this rows because of the important information we might lose.

In [None]:
data.to_csv('clean_data.csv', index = False)

The quota for each UF can be found [here](https://www2.camara.leg.br/legin/int/atomes/2009/atodamesa-43-21-maio-2009-588364-norma-cd-mesa.html). And the relation between senator and UF can be found [here](https://pt.wikipedia.org/wiki/Lista_de_senadores_do_Brasil). Both datasets can be found on the `data` folder.

In [None]:
quota.head()

In [None]:
senators_uf.head()

In [None]:
quota_percentage = data.groupby(['ANO', 'MES','SENADOR'], as_index = False)['VALOR_REEMBOLSADO'].sum()
quota_percentage = pd.merge(quota_percentage, senators_uf, left_on = 'SENADOR', right_on = 'NOME', how = 'left')

In [None]:
quota_percentage = pd.merge(quota_percentage, quota, on = 'UF', how = 'left')

In [None]:
quota_percentage.QUOTA = quota_percentage.QUOTA.fillna(quota.QUOTA.mean())
quota_percentage.QUOTA = round(quota_percentage.QUOTA, 2)

In [None]:
quota_percentage = quota_percentage.drop('NOME', axis=1)

In [None]:
quota_percentage['PERCENTAGE'] = round((quota_percentage.VALOR_REEMBOLSADO/quota_percentage.QUOTA)*100.00,2)

In [None]:
quota_percentage.describe()

In [None]:
quota_percentage.to_csv('quota_percentage.csv', index = False)