# Data Wrangling

> Código que executa a limpeza e tratamento dos dados dos arquivos CSV baixados do portal do CEAPS, referentes aos gastos dos senadores nos últimos quatro anos.

**Link**: https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps
    
**Autor**: Edson Cizeski - @cizesk 
    
**Data**: 22.02.2023
    
Dia 1 - #7DaysOfCode Alura

## 1) Leitura dos arquivos 

In [29]:
import pandas as pd # adiciona biblioteca padrão para manuseamento de dataframes no python

In [30]:
# Carregando apenas um dataset para entender seus dados e colunas
df = pd.read_csv('./data/despesa_ceaps_2019.csv', sep=';', encoding='latin1', header=1)
df.head(5)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,04/02/2019,Despesa com pagamento de energia elétrica para...,9945,2116550


In [31]:
df.columns # para visualizar todas as colunas 

Index(['ANO', 'MES', 'SENADOR', 'TIPO_DESPESA', 'CNPJ_CPF', 'FORNECEDOR',
       'DOCUMENTO', 'DATA', 'DETALHAMENTO', 'VALOR_REEMBOLSADO',
       'COD_DOCUMENTO'],
      dtype='object')

In [32]:
df.shape    # para entender quantas linhas e colunas temos

(21634, 11)

In [33]:
# Carregando todos os datasets para um único DataFrame
import glob

files = glob.glob("./data/*.csv") 
dataset = []

for f in files: # para cada arquivo
    df = pd.read_csv(f, sep=';', encoding='latin1', header=1) # Lê o csv
    dataset.append(df)  # adiciona na lista

dataset = pd.concat(dataset) # transforma a lista em um pandas DataFrame
# adicionar diretamente em um DataFrame acumularia muita memória, devido a forma como o Pandas lida com append

In [34]:
dataset.head(5)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000,2173614
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulgação da atividade parlamenta...,1500,2173615
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produção de texto e edição de víde...,6000,2173616
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulgação da atividade parlamentar,1000,2173618
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,17/01/2022,Divulgação da atividade parlamentar,2000,2173617


### Validando a concatenação

Para testar se nossa concatenação deu certo, vamos verificar a coluna ANO do dataset.

In [35]:
# Agrupando dataset pela coluna Ano e contando quantas linhas para cada instância 
anos = dataset.groupby('ANO')
r = anos['SENADOR'].count()
r

ANO
2019    21634
2020    14090
2021    16827
2022    16598
Name: SENADOR, dtype: int64

Como pode-se notar, o total de instâncias de 2019 batem com a quantia de linhas que tínhamos visto mais cedo. Porém em uma análise mais aprofundada vê-se que o dataset está com o índice estranho:

In [36]:
dataset.tail(5)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
16822,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,GDAONA,01/12/2021,"Companhia Aérea: GOL, Localizador: GDAONA. Pas...",171545,2170983
16823,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,JFQVZP,15/12/2021,"Companhia Aérea: LATAM, Localizador: JFQVZP. P...",248929,2172263
16824,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SSKEOB,17/12/2021,"Companhia Aérea: GOL, Localizador: SSKEOB. Pas...",148666,2172717
16825,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,ZICCEX,27/12/2021,"Companhia Aérea: LATAM, Localizador: ZICCEX. P...",251556,2173239
16826,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,LM6FSK,29/12/2021,"Companhia Aérea: AZUL, Localizador: LM6FSK. Pa...",151075,2173238


In [37]:
# Resetando o index
dataset = dataset.reset_index(drop=True)

dataset

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000,2173614
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulgação da atividade parlamenta...,1500,2173615
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produção de texto e edição de víde...,6000,2173616
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulgação da atividade parlamentar,1000,2173618
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,17/01/2022,Divulgação da atividade parlamentar,2000,2173617
...,...,...,...,...,...,...,...,...,...,...,...
69144,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,GDAONA,01/12/2021,"Companhia Aérea: GOL, Localizador: GDAONA. Pas...",171545,2170983
69145,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,JFQVZP,15/12/2021,"Companhia Aérea: LATAM, Localizador: JFQVZP. P...",248929,2172263
69146,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,SSKEOB,17/12/2021,"Companhia Aérea: GOL, Localizador: SSKEOB. Pas...",148666,2172717
69147,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,ZICCEX,27/12/2021,"Companhia Aérea: LATAM, Localizador: ZICCEX. P...",251556,2173239


## 2) Análise Exploratória

Vamos agora tentar entender nosso dataset e qual tipo de tratamento de dados será necessário.

In [38]:
print(f'Número de linhas: {dataset.shape[0]}')
print(f'Número de colunas: {dataset.shape[1]}')
print('Colunas:\n')
for c in dataset.columns:
    print(f'{c.capitalize()}')

Número de linhas: 69149
Número de colunas: 11
Colunas:

Ano
Mes
Senador
Tipo_despesa
Cnpj_cpf
Fornecedor
Documento
Data
Detalhamento
Valor_reembolsado
Cod_documento


Em uma análise rápida dos dados, parece que as informações de **Documento e Número de Documento não sejam tão relevantes** para nossa análise. Além disso, a coluna de valor deve estar definida com o **tipo errado** pois não apresenta o ponto flutuante e a coluna de data não aparenta ser uma data.

In [39]:
dataset.dtypes # confirmando os tipos de dados

ANO                   int64
MES                   int64
SENADOR              object
TIPO_DESPESA         object
CNPJ_CPF             object
FORNECEDOR           object
DOCUMENTO            object
DATA                 object
DETALHAMENTO         object
VALOR_REEMBOLSADO    object
COD_DOCUMENTO         int64
dtype: object

Por fim, verificamos se existem valores nulos no dataset

In [40]:
dataset.isna().sum()

ANO                      0
MES                      0
SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             2962
DATA                     0
DETALHAMENTO         30666
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0
dtype: int64

## 3) Tratamento dos Dados

Diante da análise feita, iremos tomar os seguintes passos:

- Remover as colunas Documento, Detalhamento e Número de Documento
- Remover as linhas duplicadas
- Transformar coluna valor para *double*
- Transformar coluna data para o tipo Date


In [41]:
dataset = dataset.drop(['DOCUMENTO', 'DETALHAMENTO', 'COD_DOCUMENTO'], axis=1)
dataset.head(5)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,03/01/2022,6000
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,04/01/2022,1500
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,14/01/2022,6000
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,18/01/2022,1000
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,17/01/2022,2000


In [42]:
dataset.drop_duplicates()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,03/01/2022,6000
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,04/01/2022,1500
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,14/01/2022,6000
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,18/01/2022,1000
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,17/01/2022,2000
...,...,...,...,...,...,...,...,...
69144,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,01/12/2021,171545
69145,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,15/12/2021,248929
69146,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,17/12/2021,148666
69147,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,27/12/2021,251556


In [43]:
# trocando , pelo . como indicador de decimal 
dataset['VALOR_REEMBOLSADO'] = dataset['VALOR_REEMBOLSADO'].str.replace(',', '.')

dataset

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,03/01/2022,6000
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,04/01/2022,1500
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,14/01/2022,6000
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,18/01/2022,1000
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,17/01/2022,2000
...,...,...,...,...,...,...,...,...
69144,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,01/12/2021,1715.45
69145,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,15/12/2021,2489.29
69146,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,17/12/2021,1486.66
69147,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,27/12/2021,2515.56


In [44]:
dataset = dataset.astype({'VALOR_REEMBOLSADO': 'double'})

dataset.dtypes

ANO                    int64
MES                    int64
SENADOR               object
TIPO_DESPESA          object
CNPJ_CPF              object
FORNECEDOR            object
DATA                  object
VALOR_REEMBOLSADO    float64
dtype: object

In [None]:
# Converte a data no formato especificado, removendo qualquer whitespace encontrado, e em caso de erro atribui NaT
dataset['DATA'] = pd.to_datetime(dataset['DATA'].str.strip(), format='%d/%m/%Y', dayfirst=True, errors='coerce')

In [57]:
dataset.dtypes

ANO                           int64
MES                           int64
SENADOR                      object
TIPO_DESPESA                 object
CNPJ_CPF                     object
FORNECEDOR                   object
DATA                 datetime64[ns]
VALOR_REEMBOLSADO           float64
dtype: object

Portanto, parece que concluímos o processo de transformação dos dados. Vamos apenas rodar o teste de nulos para verificar se está tudo 100% limpo:

In [58]:
dataset.isna().sum()

ANO                  0
MES                  0
SENADOR              0
TIPO_DESPESA         0
CNPJ_CPF             0
FORNECEDOR           0
DATA                 3
VALOR_REEMBOLSADO    0
dtype: int64

Devido a alguns erros nos dados de origem e o uso do parâmetro 'coerce' da função *to_datetime* do Pandas, surgiram alguns valores de data nulos no campo Data. Porém, manteremos assim por enquanto visto que não há muito como substituí-lo.

## 4) Gerar novo csv

Para finalizar o processo, salvaremos na pasta *output* o resultado do nosso dataset limpo.

In [61]:
dataset.to_csv('./output/despesa_ceaps_ultimos_anos.csv', index= False)

In [62]:
df = pd.read_csv('./output/despesa_ceaps_ultimos_anos.csv')

df

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,2022-01-03,6000.00
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,2022-01-04,1500.00
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,2022-01-14,6000.00
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,2022-01-18,1000.00
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,2022-01-17,2000.00
...,...,...,...,...,...,...,...,...
69144,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-01,1715.45
69145,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-15,2489.29
69146,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-17,1486.66
69147,2021,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,2021-12-27,2515.56
