## Análise Exploratória CEAPS

Este projeto tem por objetivo analisar as variáveis dos dados públicos de Cota para Exercício da Atividade Parlamentar dos Senadores.

O foco da análise é extrair informações sobre as despesase os valores reembolsados pelo Senadores em 2022 e gerar insight através de gráficos dinâmicos com a biblioteca plotly.

- Download do dataset CEAPS: https://www12.senado.leg.br/dados-abertos/conjuntos?portal=Administrativo&grupo=senadores
- Data Wragling;
- Data Visualization;
- Deploy Streamlit.

In [354]:
# Importação das bibliotecas
import pandas as pd
import numpy as np
import plotly.express as px
import matplotlib.pyplot as plt
import streamlit as st

In [360]:
# Leitura do dataset CEAPS
df = pd.read_csv('despesa_ceaps_2022 (1).csv', sep=';')
display(df.head(5))

Unnamed: 0,ULTIMA ATUALIZACAO,17/07/2023 02:01,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
1,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000,2173614
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulgação da atividade parlamenta...,1500,2173615
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produção de texto e edição de víde...,6000,2173616
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulgação da atividade parlamentar,1000,2173618


### Data Wrangling

Nessa etapa realizamos a limpeza dos dados.

In [361]:
# Definir a primeira linha como cabeçalho
df.columns = df.iloc[0]

# Excluir a primeira linha duplicada
df = df[1:]

In [362]:
df.sample(2)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
10801,2022,1,MARCELO CASTRO,"Locomoção, hospedagem, alimentação, combustíve...",07.321.071/0001-35,LUAUTO RENT A CAR LTDA,486,16/03/2022,Despesa de locação de veículo utilizado na ati...,7000,2176986
11215,2022,11,MARCOS DO VAL,"Locomoção, hospedagem, alimentação, combustíve...",27.419.142/0001-44,POSTO IATE LTDA- 42838- VENDA / COMBUST.LUBRIF.,19252,21/11/2022,,21692,2190560


In [363]:
# Verificar a quantidade de linhas e colunas
df.shape

(16782, 11)

In [364]:
# Corrigir os tipos de dados das variáveis
df.dtypes

0
ANO                  object
MES                  object
SENADOR              object
TIPO_DESPESA         object
CNPJ_CPF             object
FORNECEDOR           object
DOCUMENTO            object
DATA                 object
DETALHAMENTO         object
VALOR_REEMBOLSADO    object
COD_DOCUMENTO        object
dtype: object

In [365]:
# Alteração do cabeçalho
var_col = [nome.capitalize() for nome in df.columns]
df.columns = var_col

In [366]:
# Capitalizando as variáveis para padronização
var_senador = [nome.capitalize() for nome in df['Senador']]
df['Senador'] = var_senador

var_fornecedor = [nome.capitalize() for nome in df['Fornecedor']]
df['Fornecedor'] = var_fornecedor

display(df.head(5))

Unnamed: 0,Ano,Mes,Senador,Tipo_despesa,Cnpj_cpf,Fornecedor,Documento,Data,Detalhamento,Valor_reembolsado,Cod_documento
1,2022,1,Acir gurgacz,"Aluguel de imóveis para escritório político, c...",004.948.028-63,Gilberto piselo do nascimento,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000,2173614
2,2022,1,Acir gurgacz,Divulgação da atividade parlamentar,26.320.603/0001-64,Informanahora,000000000000310/A,04/01/2022,Despesa com divulgação da atividade parlamenta...,1500,2173615
3,2022,1,Acir gurgacz,Divulgação da atividade parlamentar,13.659.201/0001-47,Linha purpura foto e video ltda,107,14/01/2022,Despesa com produção de texto e edição de víde...,6000,2173616
4,2022,1,Acir gurgacz,Divulgação da atividade parlamentar,23.652.846/0001-01,Roberto gutierrez da rocha m.e.i.,187,18/01/2022,Divulgação da atividade parlamentar,1000,2173618
5,2022,1,Acir gurgacz,Divulgação da atividade parlamentar,08.941.827/0001-01,Rondonia dinâmica com. e serv. de informática ...,000000000001772/A,17/01/2022,Divulgação da atividade parlamentar,2000,2173617


In [372]:
# Conversão da variável para data
df['Data'] = pd.to_datetime(df['Data'])

In [368]:
# Alteração do separador ',' para '.' e transformação para Float
df['Valor_reembolsado'] = df['Valor_reembolsado'].str.replace(',','.')
df['Valor_reembolsado'] = df['Valor_reembolsado'].astype(float)

In [369]:
# Nova verificação dos tipos de dados
df.dtypes

Ano                          object
Mes                          object
Senador                      object
Tipo_despesa                 object
Cnpj_cpf                     object
Fornecedor                   object
Documento                    object
Data                 datetime64[ns]
Detalhamento                 object
Valor_reembolsado           float64
Cod_documento                object
dtype: object

In [370]:
# Verificação das células vazias
df.isnull().sum()

Ano                     0
Mes                     0
Senador                 0
Tipo_despesa            0
Cnpj_cpf                0
Fornecedor              0
Documento             934
Data                    0
Detalhamento         7720
Valor_reembolsado       0
Cod_documento           0
dtype: int64

In [373]:
# Verificação das observações vazias
df[df['Detalhamento'].isna()].head(5)

Unnamed: 0,Ano,Mes,Senador,Tipo_despesa,Cnpj_cpf,Fornecedor,Documento,Data,Detalhamento,Valor_reembolsado,Cod_documento
121,2022,1,Alessandro vieira,"Aluguel de imóveis para escritório político, c...",28.839.939/0001-63,Casa design servicos de apoio administrativo ltda,1253,2022-04-01,,500.0,2175348
122,2022,1,Alessandro vieira,"Aluguel de imóveis para escritório político, c...",06.028.059/0001-74,Casa shopping desing ltda - epp,1872,2022-10-02,,3300.0,2175347
123,2022,1,Alessandro vieira,"Aluguel de imóveis para escritório político, c...",40.432.544/0107-03,Claro s.a / net,"2,20191E+12",2022-01-01,,235.96,2174131
124,2022,1,Alessandro vieira,"Aluguel de imóveis para escritório político, c...",13.017.462/0001-63,Energisa,42.551.180,2022-01-13,,455.96,2174169
125,2022,1,Alessandro vieira,Aquisição de material de consumo para uso no e...,11.088.468/0001-04,Kaflex comercial ltda,1,2022-02-23,,800.0,2175349


In [374]:
# Excluindo colunas não utilizáveis
df = df.drop(columns=['Documento'], axis=1)
df = df.drop(columns=['Detalhamento'], axis=1)

Não manteremos as variáveis 'Documento' e 'Detalhamento', ambas não serão influenciadas na análise-alvo.

In [375]:
# Analisando a variável "Tipo_despesa"
df.head(5)

Unnamed: 0,Ano,Mes,Senador,Tipo_despesa,Cnpj_cpf,Fornecedor,Data,Valor_reembolsado,Cod_documento
1,2022,1,Acir gurgacz,"Aluguel de imóveis para escritório político, c...",004.948.028-63,Gilberto piselo do nascimento,2022-03-01,6000.0,2173614
2,2022,1,Acir gurgacz,Divulgação da atividade parlamentar,26.320.603/0001-64,Informanahora,2022-04-01,1500.0,2173615
3,2022,1,Acir gurgacz,Divulgação da atividade parlamentar,13.659.201/0001-47,Linha purpura foto e video ltda,2022-01-14,6000.0,2173616
4,2022,1,Acir gurgacz,Divulgação da atividade parlamentar,23.652.846/0001-01,Roberto gutierrez da rocha m.e.i.,2022-01-18,1000.0,2173618
5,2022,1,Acir gurgacz,Divulgação da atividade parlamentar,08.941.827/0001-01,Rondonia dinâmica com. e serv. de informática ...,2022-01-17,2000.0,2173617


In [376]:
# Verificando se há valores únicos e categorizados
df.Tipo_despesa.unique()

array(['Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
       'Divulgação da atividade parlamentar',
       'Passagens aéreas, aquáticas e terrestres nacionais',
       'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
       'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
       'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ',
       'Serviços de Segurança Privada'], dtype=object)

In [377]:
# Categorizando de forma resumida as informações
cat_despesa = {'Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.': 'Cat01',
    'Divulgação da atividade parlamentar': 'Cat02',
    'Passagens aéreas, aquáticas e terrestres nacionais': 'Cat03',
    'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar': 'Cat04',
    'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes':'Cat05',
    'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ': 'Cat06',
    'Serviços de Segurança Privada': 'Cat07'}

In [378]:
# Categorizando o tipo de despesa
df['categ_despesa'] = df['Tipo_despesa'].map(cat_despesa)

In [379]:
# Mes
# Categoria de despesa
# Gasto total
# diaMes

In [380]:
df['dia_mes'] = pd.to_datetime(df['Data']).dt.strftime('%d%m')
df.head(2)

Unnamed: 0,Ano,Mes,Senador,Tipo_despesa,Cnpj_cpf,Fornecedor,Data,Valor_reembolsado,Cod_documento,categ_despesa,dia_mes
1,2022,1,Acir gurgacz,"Aluguel de imóveis para escritório político, c...",004.948.028-63,Gilberto piselo do nascimento,2022-03-01,6000.0,2173614,Cat01,103
2,2022,1,Acir gurgacz,Divulgação da atividade parlamentar,26.320.603/0001-64,Informanahora,2022-04-01,1500.0,2173615,Cat02,104


In [381]:
# Criando colunas auxiliares de datas
df['Mes'] = df['Data'].dt.month
df['Dia'] = df['Data'].dt.day

In [382]:
# Alterando a posição
df.insert(2, 'Dia', df.pop('Dia'))

In [383]:
df.head(2)

Unnamed: 0,Ano,Mes,Dia,Senador,Tipo_despesa,Cnpj_cpf,Fornecedor,Data,Valor_reembolsado,Cod_documento,categ_despesa,dia_mes
1,2022,3,1,Acir gurgacz,"Aluguel de imóveis para escritório político, c...",004.948.028-63,Gilberto piselo do nascimento,2022-03-01,6000.0,2173614,Cat01,103
2,2022,4,1,Acir gurgacz,Divulgação da atividade parlamentar,26.320.603/0001-64,Informanahora,2022-04-01,1500.0,2173615,Cat02,104


In [408]:
df.to_csv('Clean_despesas_CEASP.csv', sep=';')