# Tratamendo da base CEAPS
### No decorrer desse notebook iremos tratar os dados e dexa-los mais apropriado para aplicação em modelos.

In [1]:
# importando biblioteca pandas que uma das principais lib para manipulação e análise de dados
import pandas as pd

# antes de carregar o arquivo no pandas precisamos remover a primeira linha
# que possui um indicativo da ultima data de atualização ou dar um skiprows=[1]


# Carregando arquivo csv
dados = pd.read_csv('despesa_ceaps_2022.csv', skiprows=1, sep=';', encoding='latin1')
# como este arquivo está um pouco fora dos padrões utilizams os parametros:
# sep=';'            => para utilizar separador de ';' 
# encoding='latin1'  => para aceitar acentuações

# exibe as primeiras linhas da tabela.
dados.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000,2173614
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulgação da atividade parlamenta...,1500,2173615
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produção de texto e edição de víde...,6000,2173616
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulgação da atividade parlamentar,1000,2173618
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,17/01/2022,Divulgação da atividade parlamentar,2000,2173617


In [2]:
# exibe o numero de linhas e colunas
dados.shape

(16782, 11)

In [3]:
# exibe a quantidade de dados faltantes por coluna
dados.isna().sum()

ANO                     0
MES                     0
SENADOR                 0
TIPO_DESPESA            0
CNPJ_CPF                0
FORNECEDOR              0
DOCUMENTO             934
DATA                    0
DETALHAMENTO         7720
VALOR_REEMBOLSADO       0
COD_DOCUMENTO           0
dtype: int64

In [4]:
(934 + 7720) / 16782 * 100
# mais de 51% dos dados estão sem documento ou detalhamento

51.56715528542486

In [5]:
# vamos verificar os tipo de despesas que não possuem detalhamento
dados[dados['DETALHAMENTO'].isna()]['TIPO_DESPESA'].unique()

array(['Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
       'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ',
       'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
       'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
       'Divulgação da atividade parlamentar',
       'Passagens aéreas, aquáticas e terrestres nacionais',
       'Serviços de Segurança Privada'], dtype=object)

In [6]:
# mostra a quantidade de TIPO_DESPESA 
dados[dados['DETALHAMENTO'].isna()]['TIPO_DESPESA'].nunique()
# podemo ver que estes são apenas 7 tipos, o que são todos os tipos existentes nesta tabela
# portanto vamos optar por excluir esta coluna

7

In [7]:
# verificar se exite repetição de dados, todos os registros são unicos.
dados.duplicated().sum()

0

In [8]:
# vamos excluir as colunas que possuem dados nulos
dados.drop(columns=['DOCUMENTO', 'DETALHAMENTO'], axis=1, inplace=True)
dados.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,03/01/2022,6000,2173614
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,04/01/2022,1500,2173615
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,14/01/2022,6000,2173616
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,18/01/2022,1000,2173618
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,17/01/2022,2000,2173617


In [9]:
# Agora vamos verificar os tipos de dados e transforma-los para um tipo mais adequado
dados.dtypes

ANO                   int64
MES                   int64
SENADOR              object
TIPO_DESPESA         object
CNPJ_CPF             object
FORNECEDOR           object
DATA                 object
VALOR_REEMBOLSADO    object
COD_DOCUMENTO         int64
dtype: object

In [10]:
# transforma DATA para datetime
dados['DATA2'] = pd.to_datetime(dados['DATA'], format='%d/%m/%Y')

In [11]:
dados.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO,DATA2
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,03/01/2022,6000,2173614,2022-01-03
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,04/01/2022,1500,2173615,2022-01-04
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,14/01/2022,6000,2173616,2022-01-14
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,18/01/2022,1000,2173618,2022-01-18
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,17/01/2022,2000,2173617,2022-01-17


In [12]:
dados[dados['DATA2'].isna()]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO,DATA2


In [13]:
# Transformando VALOR_REEMBOLSADO para 
dados['VALOR_REEMBOLSADO'] = dados['VALOR_REEMBOLSADO'].replace(',','.',regex=True)
dados = dados.assign(VALOR_REEMBOLSADO2 = pd.to_numeric(dados['VALOR_REEMBOLSADO'], errors='coerce'))

In [14]:
dados[dados['VALOR_REEMBOLSADO2'].isna()]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO,DATA2,VALOR_REEMBOLSADO2


In [15]:
dados.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO,DATA2,VALOR_REEMBOLSADO2
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,03/01/2022,6000,2173614,2022-01-03,6000.0
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,04/01/2022,1500,2173615,2022-01-04,1500.0
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,14/01/2022,6000,2173616,2022-01-14,6000.0
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,18/01/2022,1000,2173618,2022-01-18,1000.0
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,17/01/2022,2000,2173617,2022-01-17,2000.0


In [16]:
dados.dtypes

ANO                            int64
MES                            int64
SENADOR                       object
TIPO_DESPESA                  object
CNPJ_CPF                      object
FORNECEDOR                    object
DATA                          object
VALOR_REEMBOLSADO             object
COD_DOCUMENTO                  int64
DATA2                 datetime64[ns]
VALOR_REEMBOLSADO2           float64
dtype: object

In [17]:
# removendo mascaras do campo CNPJ_CPF
dados['CNPJ_CPF'].str.replace(r'\D+', '', regex=True).str.len().value_counts()
# podemos ver que todos os registros possuem 14 ou 11 digitos

14    16360
11      422
Name: CNPJ_CPF, dtype: int64

In [18]:
# criando um novo campo com mascaras do campo CNPJ_CPF removidas
dados['CNPJ_CPF2'] = dados['CNPJ_CPF'].str.replace(r'\D+', '', regex=True)
dados.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO,DATA2,VALOR_REEMBOLSADO2,CNPJ_CPF2
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,03/01/2022,6000,2173614,2022-01-03,6000.0,494802863
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,04/01/2022,1500,2173615,2022-01-04,1500.0,26320603000164
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,14/01/2022,6000,2173616,2022-01-14,6000.0,13659201000147
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,18/01/2022,1000,2173618,2022-01-18,1000.0,23652846000101
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,17/01/2022,2000,2173617,2022-01-17,2000.0,8941827000101


In [19]:
# vamos criar um campo TIPO_PESSOA Juridica = J, Fisica = F
dados['TIPO_PESSOA'] = dados['CNPJ_CPF2'].str.len()
tipo_pessoa = {11: 'F', 14: 'J'}
dados['TIPO_PESSOA'] = dados['TIPO_PESSOA'].map(tipo_pessoa)
dados.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO,DATA2,VALOR_REEMBOLSADO2,CNPJ_CPF2,TIPO_PESSOA
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,03/01/2022,6000,2173614,2022-01-03,6000.0,494802863,F
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,04/01/2022,1500,2173615,2022-01-04,1500.0,26320603000164,J
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,14/01/2022,6000,2173616,2022-01-14,6000.0,13659201000147,J
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,18/01/2022,1000,2173618,2022-01-18,1000.0,23652846000101,J
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,17/01/2022,2000,2173617,2022-01-17,2000.0,8941827000101,J


In [20]:
dados.dtypes

ANO                            int64
MES                            int64
SENADOR                       object
TIPO_DESPESA                  object
CNPJ_CPF                      object
FORNECEDOR                    object
DATA                          object
VALOR_REEMBOLSADO             object
COD_DOCUMENTO                  int64
DATA2                 datetime64[ns]
VALOR_REEMBOLSADO2           float64
CNPJ_CPF2                     object
TIPO_PESSOA                   object
dtype: object

In [21]:
# Agora vamos remover os campos originais que foram tratados
dados.drop(columns=['DATA', 'VALOR_REEMBOLSADO', 'CNPJ_CPF'], inplace=True)
dados.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,FORNECEDOR,COD_DOCUMENTO,DATA2,VALOR_REEMBOLSADO2,CNPJ_CPF2,TIPO_PESSOA
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",GILBERTO PISELO DO NASCIMENTO,2173614,2022-01-03,6000.0,494802863,F
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,INFORMANAHORA,2173615,2022-01-04,1500.0,26320603000164,J
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,LINHA PURPURA FOTO E VIDEO LTDA,2173616,2022-01-14,6000.0,13659201000147,J
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,ROBERTO GUTIERREZ DA ROCHA M.E.I.,2173618,2022-01-18,1000.0,23652846000101,J
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,2173617,2022-01-17,2000.0,8941827000101,J


In [22]:
# Vamos renomear as coluna novas colunas para os nomes originais.
dados.rename(columns={'DATA2': 'DATA', 
                      'VALOR_REEMBOLSADO2': 'VALOR_REEMBOLSADO', 
                      'CNPJ_CPF2': 'CNPJ_CPF'}, inplace=True)
dados.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,FORNECEDOR,COD_DOCUMENTO,DATA,VALOR_REEMBOLSADO,CNPJ_CPF,TIPO_PESSOA
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",GILBERTO PISELO DO NASCIMENTO,2173614,2022-01-03,6000.0,494802863,F
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,INFORMANAHORA,2173615,2022-01-04,1500.0,26320603000164,J
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,LINHA PURPURA FOTO E VIDEO LTDA,2173616,2022-01-14,6000.0,13659201000147,J
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,ROBERTO GUTIERREZ DA ROCHA M.E.I.,2173618,2022-01-18,1000.0,23652846000101,J
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,2173617,2022-01-17,2000.0,8941827000101,J


In [23]:
dados.dtypes

ANO                           int64
MES                           int64
SENADOR                      object
TIPO_DESPESA                 object
FORNECEDOR                   object
COD_DOCUMENTO                 int64
DATA                 datetime64[ns]
VALOR_REEMBOLSADO           float64
CNPJ_CPF                     object
TIPO_PESSOA                  object
dtype: object

In [24]:
# a base está toda tratada, agora vamos salvar estes dados em um arquivo csv novo.
dados.to_csv('despesa_ceaps_2022_tratado.csv', encoding='utf-8')

In [25]:
# para testar vamos ler este arquivo de forma simples
dados = pd.read_csv('despesa_ceaps_2022_tratado.csv')
dados.head()

Unnamed: 0.1,Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,FORNECEDOR,COD_DOCUMENTO,DATA,VALOR_REEMBOLSADO,CNPJ_CPF,TIPO_PESSOA
0,0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",GILBERTO PISELO DO NASCIMENTO,2173614,2022-01-03,6000.0,494802863,F
1,1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,INFORMANAHORA,2173615,2022-01-04,1500.0,26320603000164,J
2,2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,LINHA PURPURA FOTO E VIDEO LTDA,2173616,2022-01-14,6000.0,13659201000147,J
3,3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,ROBERTO GUTIERREZ DA ROCHA M.E.I.,2173618,2022-01-18,1000.0,23652846000101,J
4,4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,2173617,2022-01-17,2000.0,8941827000101,J


### Agora que já tratamos nosso arquivo seria interessante que fosse construido um método que pudesse fazer todo esse tratamento de uma só vez para que possa ser utilizado em uma esteira de automação de data scraping

In [26]:
import pandas as pd

def trata_arquivo_ceaps(origem, destino):
    dados = []
    if type(origem) is list:
        frames = []
        for arquivo in origem:
            dados = pd.read_csv(arquivo, skiprows=1, sep=';', encoding='latin1')
            if dados.shape[1] != 11:
                raise Exception('Arquivo com formato inválido: numero de colunas = %d' % (dados.shape[1]))
            frames.append(dados)
        dados = pd.concat(frames)
        dados.reset_index(drop=True)
        
    elif type(origem) is str:
        dados = pd.read_csv(origem, skiprows=1, sep=';', encoding='latin1')
        if dados.shape[1] != 11:
            raise Exception('Arquivo com formato inválido: numero de colunas = %d' % (dados.shape[1]))        
    else:
        raise Exception('Parâmetro origem tipo incoreto. Use list ou str.')

    dados['DATA2'] = pd.to_datetime(dados['DATA'], format='%d/%m/%Y', errors='coerce')
    dados.drop(dados[dados['DATA2'].isna()].index, inplace=True)
    dados['VALOR_REEMBOLSADO'] = dados['VALOR_REEMBOLSADO'].replace(',','.',regex=True)
    dados = dados.assign(VALOR_REEMBOLSADO2 = pd.to_numeric(dados['VALOR_REEMBOLSADO'], errors='coerce'))
    dados['CNPJ_CPF2'] = dados['CNPJ_CPF'].str.replace(r'\D+', '', regex=True)
    dados['TIPO_PESSOA'] = dados['CNPJ_CPF2'].str.len()
    tipo_pessoa = {11: 'F', 14: 'J'}
    dados['TIPO_PESSOA'] = dados['TIPO_PESSOA'].map(tipo_pessoa)
    dados.drop(columns=['DOCUMENTO', 'DETALHAMENTO', 'DATA', 'VALOR_REEMBOLSADO', 'CNPJ_CPF'], inplace=True)
    dados.rename(columns={'DATA2': 'DATA', 
                      'VALOR_REEMBOLSADO2': 'VALOR_REEMBOLSADO', 
                      'CNPJ_CPF2': 'CNPJ_CPF'}, inplace=True)    
    dados.to_csv(destino, encoding='utf-8')    
    return dados

In [27]:
dados = trata_arquivo_ceaps(['despesa_ceaps_2019.csv','despesa_ceaps_2020.csv','despesa_ceaps_2021.csv','despesa_ceaps_2022.csv'], 'despesa_ceaps_2019_2022_tratado.csv')

In [28]:
dados.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,FORNECEDOR,COD_DOCUMENTO,DATA,VALOR_REEMBOLSADO,CNPJ_CPF,TIPO_PESSOA
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",ENERGISA,2116543,2019-01-04,66.02,5914650000166,J
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",ENERGISA,2116546,2019-01-04,139.98,5914650000166,J
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",GILBERTO PISELO DO NASCIMENTO,2113817,2019-01-07,6000.0,494802863,F
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",OI MÓVEL S.A.,2116541,2018-12-25,316.39,5423963000111,J
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",ENERGISA,2116550,2019-02-04,99.45,5914650000166,J


In [29]:
dados.isna().sum()

ANO                  0
MES                  0
SENADOR              0
TIPO_DESPESA         0
FORNECEDOR           0
COD_DOCUMENTO        0
DATA                 0
VALOR_REEMBOLSADO    0
CNPJ_CPF             0
TIPO_PESSOA          0
dtype: int64

# Conclusão:
### Após tratar outros arquivos de anos anteriore foi verificado que alguns poucos registros estavam com data inválida, estes dados foram removidos por minha decisão arbitraria.