# Day 1 - Download a dataset from the [**CEAPS**](https://encr.pw/evzZb) portal (**Quota for the Exercise of the Parliamentary Activity of Senators**) and apply data processing and cleaning processes to it (a process known as Data Wrangling).

## Possible treatments:
- Null values;
- Duplicates;
- Converting date fields being loaded as text;
- Correcting monetary values;
- Incorrect names;
- Formatting CNPJ/CPF fields.

## [Tips on data cleaning techniques](https://encr.pw/rddsv)

# Dataset  - Downloads

## For this work, the following dataset was used:
- despesa_ceaps_2022.csv;
- despesa_ceaps_2021.csv;
- despesa_ceaps_2020.csv;
- despesa_ceaps_2019.csv.

# Import libraries

In [5]:
import pandas as pd
import numpy as np

# Load datasets

In [10]:
dataset_1 = pd.read_csv('datasets/despesa_ceaps_2019.csv', encoding='iso-8859-1', sep=';', skiprows=1)

In [11]:
dataset_1

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,00119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,007236036,04/02/2019,Despesa com pagamento de energia elétrica para...,9945,2116550
...,...,...,...,...,...,...,...,...,...,...,...
21629,2019,1,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",09.296.295/0001-60,Azul,O954UL,19/01/2019,"Companhia Aérea: AZUL, Localizador: O954UL. Pa...",76929,2113825
21630,2019,1,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",09.296.295/0001-60,Azul,G9Z36V,24/01/2019,"Companhia Aérea: AZUL, Localizador: G9Z36V. Pa...",31062,2113828
21631,2019,1,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",07.575.651/0001-59,GOL,WNQI4A,29/01/2019,"Companhia Aérea: GOL, Localizador: WNQI4A. Pas...",11681,2114101
21632,2019,1,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,NCCPIM,23/01/2019,"Companhia Aérea: LATAM, Localizador: NCCPIM. P...",77205,2113826


In [12]:
dataset_2 = pd.read_csv('datasets/despesa_ceaps_2020.csv', encoding='iso-8859-1', sep=';', skiprows=1)

In [13]:
dataset_2

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,14764742,06/01/2020,Despesa com energia elétrica para uso do escri...,12262,2141820
1,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,14764741,06/01/2020,Despesa com energia elétrica para uso do escri...,13775,2141818
2,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",062.135.728-64,FERNANDO WALDEIR PACINI e ANA LUCIA DA SILVA S...,001/2020,06/01/2020,Despesa com pagamento de aluguel de imóvel par...,1000,2139025
3,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/20,02/01/2020,Despesa com pagamento de aluguel de imóvel par...,6000,2139020
4,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,333871612,25/12/2019,Despesa com pagamento de telefone para uso do ...,32395,2139044
...,...,...,...,...,...,...,...,...,...,...,...
14085,2020,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,TJ9NGF,08/12/2020,"Companhia Aérea: GOL, Localizador: TJ9NGF. Pas...",165446,2152858
14086,2020,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QN9KHE,09/12/2020,"Companhia Aérea: AZUL, Localizador: QN9KHE. Pa...",112183,2152859
14087,2020,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QIGVKT,14/12/2020,"Companhia Aérea: AZUL, Localizador: QIGVKT. Pa...",54947,2153157
14088,2020,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QDHKYF,14/12/2020,"Companhia Aérea: AZUL, Localizador: QDHKYF. Pa...",83105,2153152


In [14]:
dataset_3 = pd.read_csv('datasets/despesa_ceaps_2021.csv', encoding='iso-8859-1', sep=';', skiprows=1)

In [15]:
dataset_3

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,023.489.627,21/01/2021,Pagamento de energia elétrica para uso do escr...,7529,2158003
1,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",062.135.728-64,FERNANDO WALDEIR PACINI e ANA LUCIA DA SILVA S...,01/2021,05/01/2021,Despesa com pagamento de aluguel de imóvel par...,1000,2157367
2,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/21,06/01/2021,Despesa com aluguel de imóvel para uso do escr...,6000,2156383
3,2021,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,10,25/01/2021,Divulgação da atividade parlamentar,1500,2154509
4,2021,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,44,07/01/2021,Divulgação da atividade parlamentar,6000,2154507
...,...,...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,GDAONA,01/12/2021,"Companhia Aérea: GOL, Localizador: GDAONA. Pas...",171545,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,JFQVZP,15/12/2021,"Companhia Aérea: LATAM, Localizador: JFQVZP. P...",248929,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SSKEOB,17/12/2021,"Companhia Aérea: GOL, Localizador: SSKEOB. Pas...",148666,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,ZICCEX,27/12/2021,"Companhia Aérea: LATAM, Localizador: ZICCEX. P...",251556,2173239


In [16]:
dataset_4 = pd.read_csv('datasets/despesa_ceaps_2021.csv', encoding='iso-8859-1', sep=';', skiprows=1)

In [17]:
dataset_4

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,023.489.627,21/01/2021,Pagamento de energia elétrica para uso do escr...,7529,2158003
1,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",062.135.728-64,FERNANDO WALDEIR PACINI e ANA LUCIA DA SILVA S...,01/2021,05/01/2021,Despesa com pagamento de aluguel de imóvel par...,1000,2157367
2,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/21,06/01/2021,Despesa com aluguel de imóvel para uso do escr...,6000,2156383
3,2021,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,10,25/01/2021,Divulgação da atividade parlamentar,1500,2154509
4,2021,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,44,07/01/2021,Divulgação da atividade parlamentar,6000,2154507
...,...,...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,GDAONA,01/12/2021,"Companhia Aérea: GOL, Localizador: GDAONA. Pas...",171545,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,JFQVZP,15/12/2021,"Companhia Aérea: LATAM, Localizador: JFQVZP. P...",248929,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SSKEOB,17/12/2021,"Companhia Aérea: GOL, Localizador: SSKEOB. Pas...",148666,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,ZICCEX,27/12/2021,"Companhia Aérea: LATAM, Localizador: ZICCEX. P...",251556,2173239


# Concatenate datasets

## Check if all datasets have the same shape

In [20]:
print(f'Dataset 1: {dataset_1.shape}\nDataset 2: {dataset_2.shape}\nDataset 3: {dataset_3.shape}\nDataset 4: {dataset_4.shape}\n')

Dataset 1: (21634, 11)
Dataset 2: (14090, 11)
Dataset 3: (16808, 11)
Dataset 4: (16808, 11)



## Concat the datasets

In [24]:
dataset = pd.concat([dataset_1, dataset_2, dataset_3, dataset_4], axis=0)
dataset

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,00119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,007236036,04/02/2019,Despesa com pagamento de energia elétrica para...,9945,2116550
...,...,...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,GDAONA,01/12/2021,"Companhia Aérea: GOL, Localizador: GDAONA. Pas...",171545,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,JFQVZP,15/12/2021,"Companhia Aérea: LATAM, Localizador: JFQVZP. P...",248929,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SSKEOB,17/12/2021,"Companhia Aérea: GOL, Localizador: SSKEOB. Pas...",148666,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,ZICCEX,27/12/2021,"Companhia Aérea: LATAM, Localizador: ZICCEX. P...",251556,2173239


# Check duplicates

## Duplicates

In [38]:
dataset[dataset.duplicated()]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,023.489.627,21/01/2021,Pagamento de energia elétrica para uso do escr...,7529,2158003
1,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",062.135.728-64,FERNANDO WALDEIR PACINI e ANA LUCIA DA SILVA S...,01/2021,05/01/2021,Despesa com pagamento de aluguel de imóvel par...,1000,2157367
2,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/21,06/01/2021,Despesa com aluguel de imóvel para uso do escr...,6000,2156383
3,2021,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,10,25/01/2021,Divulgação da atividade parlamentar,1500,2154509
4,2021,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,44,07/01/2021,Divulgação da atividade parlamentar,6000,2154507
...,...,...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,GDAONA,01/12/2021,"Companhia Aérea: GOL, Localizador: GDAONA. Pas...",171545,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,JFQVZP,15/12/2021,"Companhia Aérea: LATAM, Localizador: JFQVZP. P...",248929,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SSKEOB,17/12/2021,"Companhia Aérea: GOL, Localizador: SSKEOB. Pas...",148666,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,ZICCEX,27/12/2021,"Companhia Aérea: LATAM, Localizador: ZICCEX. P...",251556,2173239


## Drop duplicates

In [37]:
dataset_deduplicated = dataset.drop_duplicates()
dataset_deduplicated

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,00119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,007236036,04/02/2019,Despesa com pagamento de energia elétrica para...,9945,2116550
...,...,...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,GDAONA,01/12/2021,"Companhia Aérea: GOL, Localizador: GDAONA. Pas...",171545,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,JFQVZP,15/12/2021,"Companhia Aérea: LATAM, Localizador: JFQVZP. P...",248929,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SSKEOB,17/12/2021,"Companhia Aérea: GOL, Localizador: SSKEOB. Pas...",148666,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,ZICCEX,27/12/2021,"Companhia Aérea: LATAM, Localizador: ZICCEX. P...",251556,2173239


# Check null values

In [39]:
dataset_deduplicated.isna().sum()

ANO                      0
MES                      0
SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             2029
DATA                     0
DETALHAMENTO         23019
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0
dtype: int64

In [40]:
dataset_deduplicated['DOCUMENTO']

0        006582758
1        006582755
2            00119
3         86161151
4        007236036
           ...    
16803       GDAONA
16804       JFQVZP
16805       SSKEOB
16806       ZICCEX
16807       LM6FSK
Name: DOCUMENTO, Length: 52532, dtype: object

In [41]:
dataset_deduplicated['DETALHAMENTO']

0        Despesa com pagamento de energia elétrica do e...
1        Despesa com pagamento de energia elétrica do e...
2        Despesa com pagamento de aluguel de imóvel par...
3        Despesa com pagamento de telefonia para o escr...
4        Despesa com pagamento de energia elétrica para...
                               ...                        
16803    Companhia Aérea: GOL, Localizador: GDAONA. Pas...
16804    Companhia Aérea: LATAM, Localizador: JFQVZP. P...
16805    Companhia Aérea: GOL, Localizador: SSKEOB. Pas...
16806    Companhia Aérea: LATAM, Localizador: ZICCEX. P...
16807    Companhia Aérea: AZUL, Localizador: LM6FSK. Pa...
Name: DETALHAMENTO, Length: 52532, dtype: object

### The two attributes above have a considerable amount of null values. For the moment, I will remove them. Because I would need more time to study the content of both and apply the correct technique.

In [44]:
dataset_no_nan = dataset_deduplicated.drop(['DOCUMENTO', 'DETALHAMENTO'], axis=1)
dataset_no_nan

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/01/2019,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/01/2019,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,07/01/2019,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,25/12/2018,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/02/2019,9945,2116550
...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,01/12/2021,171545,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,15/12/2021,248929,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,17/12/2021,148666,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,27/12/2021,251556,2173239


# Treat date field

In [50]:
dataset_no_nan['DATA'].value_counts()

02/12/2019    144
01/10/2019    140
02/03/2020    131
01/07/2019    131
01/12/2021    130
             ... 
17/03/2018      1
12/04/2018      1
21/01/2022      1
22/08/2018      1
12/02/2022      1
Name: DATA, Length: 1192, dtype: int64

## Handling dates that are in error in the conversion

In [77]:
aux = 0
for date in dataset_no_nan['DATA']:
    try:
        pd.to_datetime([date], infer_datetime_format=True)
    except ValueError:
        print(f'DATA: {date} AUX: {aux}')
    aux += 1


DATA: 31/01/0219 AUX: 10986
DATA: 05/05/0202 AUX: 31996
DATA: 29/10/0202 AUX: 37870


In [86]:
dataset_no_nan.iloc[[37870]]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
2146,2021,11,CARLOS VIANA,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,29/10/0202,3399,2169237


## Change the wrong dates

In [116]:
dataset_replaced = dataset_no_nan.replace(to_replace=['31/01/0219'], value='31/01/2019')
dataset_replaced = dataset_replaced.replace(to_replace=['05/05/0202'], value='05/05/2020')
dataset_replaced = dataset_replaced.replace(to_replace=['29/10/0202'], value='29/10/2020')
dataset_replaced

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/01/2019,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/01/2019,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,07/01/2019,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,25/12/2018,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/02/2019,9945,2116550
...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,01/12/2021,171545,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,15/12/2021,248929,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,17/12/2021,148666,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,27/12/2021,251556,2173239


## Convert the dates

In [118]:
dataset_replaced['DATA'] = pd.to_datetime(dataset_replaced['DATA'], format="%d/%m/%Y")
dataset_replaced

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,2019-01-04,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,2019-01-04,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,2019-01-07,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,2018-12-25,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,2019-02-04,9945,2116550
...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-01,171545,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-15,248929,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-17,148666,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-27,251556,2173239


# Correct monetary values

## Created a function to replace comma to dot and transform in float number. After, apply function in dataset.

In [111]:
dataset_correct_monetary_value = dataset_replaced.copy()

def convert_string_to_float(value):
    return float(value.replace(',','.'))

dataset_correct_monetary_value['VALOR_REEMBOLSADO'] = dataset_correct_monetary_value['VALOR_REEMBOLSADO'].apply(convert_string_to_float)
dataset_correct_monetary_value

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,2019-04-01,66.02,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,2019-04-01,139.98,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,2019-07-01,6000.00,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,2018-12-25,316.39,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,2019-04-02,99.45,2116550
...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-01-12,1715.45,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-15,2489.29,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-17,1486.66,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-27,2515.56,2173239


# Treat names field

## Apparently there are no senator names wrong

In [114]:
dataset_correct_monetary_value['SENADOR'].value_counts()

CARLOS VIANA            1739
WELLINGTON FAGUNDES     1689
JAQUES WAGNER           1547
PAULO PAIM              1449
ZEQUINHA MARINHO        1391
                        ... 
HÉLIO JOSÉ                 3
VIRGINIO DE CARVALHO       3
EDISON LOBÃO               2
VICENTINHO ALVES           1
NAILDE PANTA               1
Name: SENADOR, Length: 139, dtype: int64

# Treat CNPJ/CPF field

## Apparently there are no CNPJ/CPF wrong

In [113]:
dataset_correct_monetary_value['CNPJ_CPF'].value_counts()

16.978.175/0001-08    3989
33.937.681/0001-78    1477
07.575.651/0001-59    1032
02.558.157/0001-62    1026
26.480.780/0001-08     599
                      ... 
08.195.919/0001-90       1
34.058.185/0001-07       1
10.715.142/0001-99       1
025.293.174-29           1
27.838.829/0001-14       1
Name: CNPJ_CPF, Length: 6189, dtype: int64

# Create a clean dataset

In [120]:
dataset_clean = dataset_correct_monetary_value.copy()
dataset_clean

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,2019-04-01,66.02,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,2019-04-01,139.98,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,2019-07-01,6000.00,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,2018-12-25,316.39,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,2019-04-02,99.45,2116550
...,...,...,...,...,...,...,...,...,...
16803,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-01-12,1715.45,2170983
16804,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-15,2489.29,2172263
16805,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-17,1486.66,2172717
16806,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-27,2515.56,2173239


In [121]:
dataset_clean.to_csv('datasets/dataset_preprocessed.csv', sep=';', index=False)