## Visão geral da tabela

Verifico a tabela e noto quais dados são úteis para que possamos prosseguir com a análise.

In [153]:
import pandas as pd

# importando o data frame e removendo a primeira linha.
path = "data/despesa_ceaps_2022.csv"
data = pd.read_csv(path, sep=";", skiprows=[0])
data.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de im�veis para escrit�rio pol�tico, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de im�vel par...,6000,2173614
1,2022,1,ACIR GURGACZ,Divulga��o da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulga��o da atividade parlamenta...,1500,2173615
2,2022,1,ACIR GURGACZ,Divulga��o da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produ��o de texto e edi��o de v�de...,6000,2173616
3,2022,1,ACIR GURGACZ,Divulga��o da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulga��o da atividade parlamentar,1000,2173618
4,2022,1,ACIR GURGACZ,Divulga��o da atividade parlamentar,08.941.827/0001-01,RONDONIA DIN�MICA COM. E SERV. DE INFORM�TICA ...,000000000001772/A,17/01/2022,Divulga��o da atividade parlamentar,2000,2173617


## Limpando os dados

Nessa etapa, limparei a tabela, verificando se há valores nulos, transformarei os tipos de algumas colunas e verificarei se os dados fazem sentido.

In [154]:
# Removendo uma coluna que não é necessária
data = data.drop("DOCUMENTO", axis=1)
display(data.head())

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de im�veis para escrit�rio pol�tico, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,03/01/2022,Despesa com pagamento de aluguel de im�vel par...,6000,2173614
1,2022,1,ACIR GURGACZ,Divulga��o da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,04/01/2022,Despesa com divulga��o da atividade parlamenta...,1500,2173615
2,2022,1,ACIR GURGACZ,Divulga��o da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,14/01/2022,Despesa com produ��o de texto e edi��o de v�de...,6000,2173616
3,2022,1,ACIR GURGACZ,Divulga��o da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,18/01/2022,Divulga��o da atividade parlamentar,1000,2173618
4,2022,1,ACIR GURGACZ,Divulga��o da atividade parlamentar,08.941.827/0001-01,RONDONIA DIN�MICA COM. E SERV. DE INFORM�TICA ...,17/01/2022,Divulga��o da atividade parlamentar,2000,2173617


In [155]:
display(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10277 entries, 0 to 10276
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ANO                10277 non-null  int64 
 1   MES                10277 non-null  int64 
 2   SENADOR            10277 non-null  object
 3   TIPO_DESPESA       10277 non-null  object
 4   CNPJ_CPF           10277 non-null  object
 5   FORNECEDOR         10277 non-null  object
 6   DATA               10277 non-null  object
 7   DETALHAMENTO       5436 non-null   object
 8   VALOR_REEMBOLSADO  10277 non-null  object
 9   COD_DOCUMENTO      10277 non-null  int64 
dtypes: int64(3), object(7)
memory usage: 803.0+ KB


None

Notei que a coluna "DATA" está definida como uma coluna object, quando na verdade deveria estar formatada em datetime64. Então faço a transformação.

In [156]:
# Transforma a coluna DATA em um datetime64.
data["DATA"] = pd.to_datetime(data["DATA"], format="%d/%m/%Y")
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10277 entries, 0 to 10276
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ANO                10277 non-null  int64         
 1   MES                10277 non-null  int64         
 2   SENADOR            10277 non-null  object        
 3   TIPO_DESPESA       10277 non-null  object        
 4   CNPJ_CPF           10277 non-null  object        
 5   FORNECEDOR         10277 non-null  object        
 6   DATA               10277 non-null  datetime64[ns]
 7   DETALHAMENTO       5436 non-null   object        
 8   VALOR_REEMBOLSADO  10277 non-null  object        
 9   COD_DOCUMENTO      10277 non-null  int64         
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 803.0+ KB


Vendo também que a coluna "VALOR_REEMBOLSADO" está definida como object, tentarei fazer a transformação dela para numérico.

Vejo que algumas linhas da coluna VALOR_REEMBOLSADO estão utilizando virgulas para separar as casas decimais, sendo assim, farei o replace para que sejam pontos no lugar das virgulas.

In [157]:
data["VALOR_REEMBOLSADO"] = data["VALOR_REEMBOLSADO"].apply( lambda x: str(x).replace(",",".") )
data["VALOR_REEMBOLSADO"].value_counts()

200        236
100        181
2000       159
1500       123
1000       105
          ... 
810.32       1
1221.21      1
9.26         1
64.92        1
2850.9       1
Name: VALOR_REEMBOLSADO, Length: 6138, dtype: int64

Agora sim podemos converter a coluna para numérico.

In [158]:
data["VALOR_REEMBOLSADO"] = pd.to_numeric(data["VALOR_REEMBOLSADO"])
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10277 entries, 0 to 10276
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ANO                10277 non-null  int64         
 1   MES                10277 non-null  int64         
 2   SENADOR            10277 non-null  object        
 3   TIPO_DESPESA       10277 non-null  object        
 4   CNPJ_CPF           10277 non-null  object        
 5   FORNECEDOR         10277 non-null  object        
 6   DATA               10277 non-null  datetime64[ns]
 7   DETALHAMENTO       5436 non-null   object        
 8   VALOR_REEMBOLSADO  10277 non-null  float64       
 9   COD_DOCUMENTO      10277 non-null  int64         
dtypes: datetime64[ns](1), float64(1), int64(3), object(5)
memory usage: 803.0+ KB


Agora, todas as colunas foram limpas e estão definidas com seu tipo correto.

Por não ser uma informação importante, não há problema em deixar a coluna DETALHAMENTO com valores nulos.

## Conclusão

A tabela foi limpa e está pronta para ser usada uma uma análise de dados mais aprofundada.