---

![](https://ci3.googleusercontent.com/meips/ADKq_NalPsTE2pvOYWNLuTx5FQEiqMR2IICqwbE0yd07Lo5DBqNSujrNfI0xeljnYJEChVIFRqOWdClXUnsfUcUCm1Yrdz0t8BSxBTJ5h_V81xXqZVaqBPFHbfeSCOfVVm-Ti6Ip97bEaRmY7VQ4uEa--AnbpHKzgP0LNNc69HJnzQT1YigtFjsIRkNyXNXscnsPuWMxfVHTVSUshI1Tqjimq5Glw3mN0JUf0G3dtb0LUw=s0-d-e1-ft#https://empresas.alura.com.br/hs-fs/hubfs/488ef98e-4d3a-4c98-9ad4-70c297d9511a.png?width=536&upscale=true&name=488ef98e-4d3a-4c98-9ad4-70c297d9511a.pngraw=true)
   

Por **Luiz Henrique Leite dos Santos**

# #7DaysOfCode - 1: Data Cleaning and Preparation

Realizar procedimentos para tratar e limpar dados, detectando inconsistências como campos com valores nulos ou duplicados, transformando campos de data que estão em formato de texto, ajustando valores monetários, corrigindo nomes incorretos, e padronizando a formatação de campos de CNPJ, entre outras tarefas.
   
---

---

## Importação e Análise dos dados 

 Inicialmente, os dados são importados de fontes externas, como arquivos CSV, para dentro do ambiente do notebook.
 Após a importação, uma análise inicial utilizando as bibliotecas necessarias é conduzida para compreender a estrutura dos dados. Isso inclui a visualização das primeiras linhas do conjunto de dados, identificação dos tipos de dados em cada coluna e verificação de valores nulos ou ausentes. Também são detectadas possíveis inconsistências que necessitam de tratamento. O objetivo é deixar os dados prontos para análises posteriores.

---

In [78]:
import pandas as pd ## importando bibloteca pandas 

In [79]:
## importando arquivos de dados 

dados1 = pd.read_csv('despesa_ceaps_2019.csv', sep = ";", encoding="latin1", decimal = ",") ## especeficando a separação de numeros decimais por 'virgula' e a separação de campo de dados por 'ponto e virgula'
dados2 = pd.read_csv('despesa_ceaps_2020.csv', sep = ";", encoding="latin1", decimal = ",")
dados3 = pd.read_csv('despesa_ceaps_2021.csv', sep = ";", encoding="latin1", decimal = ",")
dados4 = pd.read_csv('despesa_ceaps_2022.csv', sep = ";", encoding="latin1", decimal = ",")


In [80]:

dados_ceaps = pd.concat([dados1, dados2, dados3, dados4]) # Usando concat para juntar os DataFrames
dados_ceaps = dados_ceaps.reset_index() # Corrigimos o índice com o método reset_index
dados_ceaps.head() # Visualizando as primeiras linhad do nosso DataFrame



Unnamed: 0,level_0,level_1,level_2,level_3,level_4,level_5,level_6,level_7,level_8,ULTIMA ATUALIZACAO,06/08/2021 02:08,26/04/2024 02:00,26/04/2024 02:01
0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO,,
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543,,
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,006582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546,,
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,00119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817,,
4,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541,,


In [81]:
# Utilizando .colums para renomear as colunas do DataFrame
dados_ceaps.columns = ['ANO', 'MES', 'SENADOR', 'TIPO_DESPESA', 'CNPJ_CPF',
                                           'FORNECEDOR', 'DOCUMENTO', 'DATA', 'DETALHAMENTO', 
                                           'VALOR_REEMBOLSADO', 'COD_DOCUMENTO', 'NaN', 'NaN']


In [82]:
dados_ceaps = dados_ceaps.drop(columns = ['NaN']) # Excluindo as colunas "NaN" do DataFrame
dados_ceaps = dados_ceaps.drop(0, axis = 0) # Excluindo a linha 0  do DataFrame

In [83]:
dados_ceaps.tail() # Visualizamos as ultimas colunas do DataFrame

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
69332,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WIXHAI,06/12/2022,"Companhia Aérea: LATAM, Localizador: WIXHAI. P...",289304,
69333,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WITOLM,09/12/2022,"Companhia Aérea: GOL, Localizador: WITOLM. Pas...",118019,
69334,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,THPKVQ,20/12/2022,"Companhia Aérea: TAM, Localizador: THPKVQ. Pas...",26719,
69335,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QNN9HX,21/12/2022,"Companhia Aérea: AZUL, Localizador: QNN9HX. Pa...",133431,
69336,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WMQWBX,30/12/2022,"Companhia Aérea: TAM, Localizador: WMQWBX. Pas...",225072,


Após a importação dos dados que serão utilizados realizamos o procedimento de **exploração de dados** que é uma etapa fundamental na análise de dados. Ele servindo para entender melhor a estrutura, conteúdo e características dos dados que estamos lidando.

In [84]:
dados_ceaps.shape ##  Visualizando número de linhas e colunas do DataFrame

(69336, 11)

In [85]:
dados_ceaps.info() # Utilizando .info() para ter uma visão geral do DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 69336 entries, 1 to 69336
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ANO                69336 non-null  object
 1   MES                69336 non-null  object
 2   SENADOR            69336 non-null  object
 3   TIPO_DESPESA       69336 non-null  object
 4   CNPJ_CPF           69336 non-null  object
 5   FORNECEDOR         69336 non-null  object
 6   DOCUMENTO          66373 non-null  object
 7   DATA               69336 non-null  object
 8   DETALHAMENTO       38586 non-null  object
 9   VALOR_REEMBOLSADO  69336 non-null  object
 10  COD_DOCUMENTO      21634 non-null  object
dtypes: object(11)
memory usage: 5.8+ MB


In [86]:
dados_ceaps.isnull().sum() # Verificando a quantidade de valores nulos totais por coluna 

ANO                      0
MES                      0
SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             2963
DATA                     0
DETALHAMENTO         30750
VALOR_REEMBOLSADO        0
COD_DOCUMENTO        47702
dtype: int64

### Trabalhando com os valores nulos 

 Quando analisamos a quantidade de valores nulos por tabela é possivel notar que estão somente presentes nas colunas *'DOCUMENTO'*, '*DETALHAMENTO'* e *'COD_DOCUMENTO'*.

As colunas *'DOCUMENTO'* e *'COD_DOCUMENTO'*, podem ser excluidas já que não acrescentão informações relevantes para o estudo dos gastos.

 A coluna *'DETALHAMENTO'* está diretamente relacionada a coluna *'TIPO_DESPESA'*, onde é entregue o detalhamento da despesa do senador, dessa forma é possivel utilizar a coluna *'TIPO_DESPESA'* para preencher os valores nulos da coluna *'DETALHAMENTO'*.



In [87]:
copia = dados_ceaps.copy # Criando uma cópia dos dados
dados_ceaps = dados_ceaps.drop(columns = ['DOCUMENTO', 'COD_DOCUMENTO']) # Removendo as colunas DOCUMENTO E COD_DOCUMENTO


In [88]:
dados_ceaps.loc[dados_ceaps['DETALHAMENTO'].isnull(), 'DETALHAMENTO'] = dados_ceaps[dados_ceaps['DETALHAMENTO'].isnull()]['TIPO_DESPESA'] # preenchendo dados ausentes da coluna 'DETALHAMENTO'

In [89]:
# Verificando dados ausentes
dados_ceaps.isnull().sum()

ANO                  0
MES                  0
SENADOR              0
TIPO_DESPESA         0
CNPJ_CPF             0
FORNECEDOR           0
DATA                 0
DETALHAMENTO         0
VALOR_REEMBOLSADO    0
dtype: int64

In [90]:
# Substituir vírgulas por pontos na coluna 'VALOR_REEMBOLSADO'
dados_ceaps['VALOR_REEMBOLSADO'] = dados_ceaps['VALOR_REEMBOLSADO'].str.replace(',', '.')

In [91]:
dados_ceaps.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/01/2019,Despesa com pagamento de energia elétrica do e...,66.02
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/01/2019,Despesa com pagamento de energia elétrica do e...,139.98
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000.0
4,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,25/12/2018,Despesa com pagamento de telefonia para o escr...,316.39
5,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/02/2019,Despesa com pagamento de energia elétrica para...,99.45


In [92]:
dados_ceaps.dtypes ## Verificando o tipo de dados das nossas colunas  

ANO                  object
MES                  object
SENADOR              object
TIPO_DESPESA         object
CNPJ_CPF             object
FORNECEDOR           object
DATA                 object
DETALHAMENTO         object
VALOR_REEMBOLSADO    object
dtype: object

>*ANO* e *MES* `object` para `float`

In [93]:
dados_ceaps["ANO"] = pd.to_numeric(dados_ceaps["ANO"], errors="coerce")
dados_ceaps["MES"] = pd.to_numeric(dados_ceaps["MES"], errors="coerce")

In [94]:
dados_ceaps.dtypes ## Verificando a mudança realizada nos tipo de dados das nossas colunas  

ANO                  float64
MES                  float64
SENADOR               object
TIPO_DESPESA          object
CNPJ_CPF              object
FORNECEDOR            object
DATA                  object
DETALHAMENTO          object
VALOR_REEMBOLSADO     object
dtype: object

Com a existencia da coluna *'DATA'*, não é mais necessario a existencia de uma coluna separada para mês e ano.

In [95]:
dados_ceaps = dados_ceaps.drop(columns = ['ANO', 'MES']) # Excluindo as colunas 'ANO' e 'MES'

In [96]:
dados_ceaps.isnull().sum()

SENADOR              0
TIPO_DESPESA         0
CNPJ_CPF             0
FORNECEDOR           0
DATA                 0
DETALHAMENTO         0
VALOR_REEMBOLSADO    0
dtype: int64

In [97]:
dados_ceaps.sort_values(by='DATA') ## Ordenamos o DataFrame de forma crescente em relação a coluna 'DATA'

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
9138,JOSÉ MARANHÃO,"Passagens aéreas, aquáticas e terrestres nacio...",07.575.651/0001-59,GOL,01/01/2019,"Companhia Aérea: GOL, Localizador: PKGUFJ. Pas...",1624.68
9382,JOSÉ SERRA,"Aluguel de imóveis para escritório político, c...",00.108.786/0001-65,NET SERVIÇOS DE COMUNICAÇÃO S.A.,01/01/2019,Senador José Serra - Despesa com TV a Cabo par...,19.17
9128,JOSÉ MARANHÃO,"Aluguel de imóveis para escritório político, c...",40.432.544/0064-20,NET,01/01/2019,"Aluguel de imóveis para escritório político, c...",156.47
14559,PAULO BAUER,"Locomoção, hospedagem, alimentação, combustíve...",22.304.309/0002-99,Restaurante Madero Brasília,01/01/2019,"Locomoção, hospedagem, alimentação, combustíve...",78
19571,WELLINGTON FAGUNDES,"Aluguel de imóveis para escritório político, c...",02.558.157/0001-62,Telefonica Brasil S/A,01/01/2019,Despesa com o pagamento referente ao serviço d...,238.28
...,...,...,...,...,...,...,...
59654,HUMBERTO COSTA,"Aluguel de imóveis para escritório político, c...",586.471.394-53,Maria Dulce Maranhão Zeltser,31/12/2022,Despesa com locação de imóvel para o escritóri...,6000
62469,LUCAS BARRETO,"Locomoção, hospedagem, alimentação, combustíve...",02.163.903/0001-19,Souza & Cavalcante Comércio Ltda,31/12/2022,"Locomoção, hospedagem, alimentação, combustíve...",200
21635,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
35726,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO


In [98]:
dados_ceaps["VALOR_REEMBOLSADO"] = pd.to_numeric(dados_ceaps["VALOR_REEMBOLSADO"], errors="coerce") # Converter a coluna 'VALOR_REEMBOLSADO' para o tipo float

In [99]:
dados_ceaps.head()

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/01/2019,Despesa com pagamento de energia elétrica do e...,66.02
2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/01/2019,Despesa com pagamento de energia elétrica do e...,139.98
3,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000.0
4,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,25/12/2018,Despesa com pagamento de telefonia para o escr...,316.39
5,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,04/02/2019,Despesa com pagamento de energia elétrica para...,99.45


In [100]:
dados_ceaps.dtypes

SENADOR               object
TIPO_DESPESA          object
CNPJ_CPF              object
FORNECEDOR            object
DATA                  object
DETALHAMENTO          object
VALOR_REEMBOLSADO    float64
dtype: object

## Realizando análises dos Valores Reembolsados 

In [101]:
dados_ceaps.describe()

Unnamed: 0,VALOR_REEMBOLSADO
count,69333.0
mean,1413.131098
std,3098.174309
min,0.01
25%,158.14
50%,426.04
75%,1570.56
max,120000.0


In [102]:
dados_ceaps.query('VALOR_REEMBOLSADO < -1') ## Usando query para procurar valores negativos na coluna 'VALOR_REEMBOLSADO'

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO


In [103]:
## Exportando DataSet

dados_ceaps.to_csv('CEAPS_dados_2019_2022.csv', sep=';')