### Day 1 - Data Wrangling

In [23]:
#Importando bibliotecas
import numpy as np
import pandas as pd

In [24]:
#Importando os dados
ceaps = pd.read_csv('despesa_ceaps_2022.csv', sep=';', decimal=',', skiprows=1, encoding='ISO-8859-1')
ceaps.head(20)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000.0,2173614
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulgação da atividade parlamenta...,1500.0,2173615
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produção de texto e edição de víde...,6000.0,2173616
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulgação da atividade parlamentar,1000.0,2173618
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,17/01/2022,Divulgação da atividade parlamentar,2000.0,2173617
5,2022,1,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",17.872.428/0001-27,AMERICA VIAGENS E TURISMO LTDA - ME,ZTRPJB,24/01/2022,"Companhia Aérea: LATAM, Localizador: ZTRPJB. P...",1000.36,2174218
6,2022,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,002/22,02/02/2022,Despesa com pagamento de aluguel de imóvel par...,6000.0,2174221
7,2022,2,ACIR GURGACZ,"Contratação de consultorias, assessorias, pesq...",13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,116,14/02/2022,Despesa com produção de texto e edição de víde...,6000.0,2174981
8,2022,2,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000340/A,16/02/2022,Despesa com divulgação da atividade parlamenta...,1500.0,2174982
9,2022,2,ACIR GURGACZ,Divulgação da atividade parlamentar,41.845.127/0001-99,J. J. M. CALADO EIRELI,19,02/02/2022,Divulgação da atividade parlamentar,1000.0,2174219


In [25]:
# Obtendo informações gerais
ceaps.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9465 entries, 0 to 9464
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   ANO                9465 non-null   int64  
 1   MES                9465 non-null   int64  
 2   SENADOR            9465 non-null   object 
 3   TIPO_DESPESA       9465 non-null   object 
 4   CNPJ_CPF           9465 non-null   object 
 5   FORNECEDOR         9465 non-null   object 
 6   DOCUMENTO          8964 non-null   object 
 7   DATA               9465 non-null   object 
 8   DETALHAMENTO       5028 non-null   object 
 9   VALOR_REEMBOLSADO  9465 non-null   float64
 10  COD_DOCUMENTO      9465 non-null   int64  
dtypes: float64(1), int64(3), object(7)
memory usage: 813.5+ KB


Com as informações obtidas percebemos que as colunas 'DOCUMENTO' e 'DETALHAMENTO' apresentam dados faltantes e a coluna 'DATA' foi incorretamente identificada como objeto.

In [26]:
#Vamos corrigir a data para o formato correto
ceaps['DATA_CORRETA'] = pd.to_datetime(ceaps['DATA'], format="%d/%m/%Y", errors='coerce')
ceaps.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9465 entries, 0 to 9464
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ANO                9465 non-null   int64         
 1   MES                9465 non-null   int64         
 2   SENADOR            9465 non-null   object        
 3   TIPO_DESPESA       9465 non-null   object        
 4   CNPJ_CPF           9465 non-null   object        
 5   FORNECEDOR         9465 non-null   object        
 6   DOCUMENTO          8964 non-null   object        
 7   DATA               9465 non-null   object        
 8   DETALHAMENTO       5028 non-null   object        
 9   VALOR_REEMBOLSADO  9465 non-null   float64       
 10  COD_DOCUMENTO      9465 non-null   int64         
 11  DATA_CORRETA       9465 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(3), object(7)
memory usage: 887.5+ KB


In [27]:
ceaps.isnull().sum() #verificando quantas informações faltantes temos

ANO                     0
MES                     0
SENADOR                 0
TIPO_DESPESA            0
CNPJ_CPF                0
FORNECEDOR              0
DOCUMENTO             501
DATA                    0
DETALHAMENTO         4437
VALOR_REEMBOLSADO       0
COD_DOCUMENTO           0
DATA_CORRETA            0
dtype: int64

In [28]:
#Utilizando a coluna 'COD_DOCUMENTO' para verificar se temos dados duplicados
ceaps[ceaps['COD_DOCUMENTO'].duplicated(keep=False)]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO,DATA_CORRETA
