# Importação e Manipulação de Dados

In [201]:
import pandas as pd
import glob
import os
import plotly.express as px
import plotly.io as pio

In [202]:
# Listar todos os arquivos '.csv' da pasta 'Datasets/despesas' em uma variavel 'arquivos_csv'
arquivos_csv = glob.glob('Datasets/despesas/*.csv')
arquivos_csv

['Datasets/despesas\\despesa_ceaps_2016.csv',
 'Datasets/despesas\\despesa_ceaps_2017.csv',
 'Datasets/despesas\\despesa_ceaps_2018.csv',
 'Datasets/despesas\\despesa_ceaps_2019.csv',
 'Datasets/despesas\\despesa_ceaps_2020.csv',
 'Datasets/despesas\\despesa_ceaps_2021.csv',
 'Datasets/despesas\\despesa_ceaps_2022.csv']

In [203]:
# Criar um Dataframe 'df' com todos os dados dos arquivos da variavel 'arquivos_csv'
df = pd.concat([pd.read_csv(arq, sep=';', encoding='latin1', skiprows=1) for arq in arquivos_csv],ignore_index=True)
df

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000011328,13/01/2016,Despesa com pagamento de energia elétrica para...,736,2031086
1,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000011327,18/01/2016,Pagamento de energia elétrica para o escritóri...,20684,2031090
2,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/16,04/01/2016,"Despesa com pagamento de aluguel, utilizado pa...",6000,2028757
3,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,661639001,16/01/2016,despesa com pagamento de telefonia para o escr...,40748,2031089
4,2016,1,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,62.652.961/0001-38,AGÊNCIA ESTADO S.A.,00608918,06/01/2016,Aquisição de publicação virtual de conteúdo jo...,550,2037601
...,...,...,...,...,...,...,...,...,...,...,...
147634,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WIXHAI,06/12/2022,"Companhia Aérea: LATAM, Localizador: WIXHAI. P...",289304,2191398
147635,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WITOLM,09/12/2022,"Companhia Aérea: GOL, Localizador: WITOLM. Pas...",118019,2192272
147636,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,THPKVQ,20/12/2022,"Companhia Aérea: TAM, Localizador: THPKVQ. Pas...",26719,2192274
147637,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QNN9HX,21/12/2022,"Companhia Aérea: AZUL, Localizador: QNN9HX. Pa...",133431,2192244


In [204]:
# Criar uma copia do Dataframe principal para manipulação dos dados
df_limpo = df.copy()
df_limpo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 147639 entries, 0 to 147638
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   ANO                147639 non-null  int64 
 1   MES                147639 non-null  int64 
 2   SENADOR            147639 non-null  object
 3   TIPO_DESPESA       147639 non-null  object
 4   CNPJ_CPF           147639 non-null  object
 5   FORNECEDOR         147639 non-null  object
 6   DOCUMENTO          140252 non-null  object
 7   DATA               147639 non-null  object
 8   DETALHAMENTO       99689 non-null   object
 9   VALOR_REEMBOLSADO  147639 non-null  object
 10  COD_DOCUMENTO      147639 non-null  int64 
dtypes: int64(3), object(8)
memory usage: 12.4+ MB


In [205]:
# Verificar se ha dados duplicados
df_limpo.duplicated().sum()

np.int64(0)

In [206]:
# Alteração de tipos de dados das colunas
# Havia muitos problemas com datas em algumas linhas, então utilizei retirei os dados e recriei a coluna de data com as informações disponiveis
df_limpo['DATA'] = df_limpo['DATA'].astype(str)
df_limpo['DIA'] = df_limpo['DATA'].str[0:2]
df_limpo['MES_CORRETO'] = df_limpo['DATA'].str[3:5]

df_limpo['DATA_CONCAT'] = df_limpo['DIA'].astype(str) + "/" + df_limpo['MES_CORRETO'].astype(str) + "/" + df_limpo['ANO'].astype(str)
df_limpo['DATA_CORRETA'] = pd.to_datetime(df_limpo['DATA_CONCAT'],format='%d/%m/%Y', errors='coerce')

df_limpo['VALOR_REEMBOLSADO'] = pd.to_numeric(df_limpo['VALOR_REEMBOLSADO'].astype(str).str.replace(',','.'))

df_limpo = df_limpo.drop(columns=['DATA','DATA_CONCAT','MES'])

df_limpo.head()

Unnamed: 0,ANO,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO,DIA,MES_CORRETO,DATA_CORRETA
0,2016,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000011328,Despesa com pagamento de energia elétrica para...,73.6,2031086,13,1,2016-01-13
1,2016,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000011327,Pagamento de energia elétrica para o escritóri...,206.84,2031090,18,1,2016-01-18
2,2016,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/16,"Despesa com pagamento de aluguel, utilizado pa...",6000.0,2028757,4,1,2016-01-04
3,2016,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,661639001,despesa com pagamento de telefonia para o escr...,407.48,2031089,16,1,2016-01-16
4,2016,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,62.652.961/0001-38,AGÊNCIA ESTADO S.A.,00608918,Aquisição de publicação virtual de conteúdo jo...,550.0,2037601,6,1,2016-01-06


In [207]:
# Verificar dados nulos
df_limpo.isnull().sum()

ANO                      0
SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             7387
DETALHAMENTO         47950
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0
DIA                      0
MES_CORRETO              0
DATA_CORRETA             0
dtype: int64

In [208]:
# Tratar dados de colunas objects nulos com strings
df_limpo['DETALHAMENTO'] = df_limpo['DETALHAMENTO'].fillna("")
df_limpo['DOCUMENTO'] = df_limpo['DOCUMENTO'].fillna("Sem Documento")

# Remover os espaços extras no inicio e no fim dos itens
df_limpo['TIPO_DESPESA'] = df_limpo['TIPO_DESPESA'].str.strip()

df_limpo.isnull().sum()

ANO                  0
SENADOR              0
TIPO_DESPESA         0
CNPJ_CPF             0
FORNECEDOR           0
DOCUMENTO            0
DETALHAMENTO         0
VALOR_REEMBOLSADO    0
COD_DOCUMENTO        0
DIA                  0
MES_CORRETO          0
DATA_CORRETA         0
dtype: int64

In [209]:
tipos_despesas_resumido = {
    "Locomoção, hospedagem, alimentação, combustíveis e lubrificantes": "Transporte e alimentação",
    "Passagens aéreas, aquáticas e terrestres nacionais": "Passagens nacionais",
    "Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.": "Aluguel de escritório",
    "Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos.": "Materiais e equipamentos do escritório",
    "Divulgação da atividade parlamentar": "Divulgação parlamentar",
    "Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar": "Consultorias e serviços de apoio",
    "Serviços de Segurança Privada": "Segurança privada"
}

df_limpo['TIPO_DESPESA_ATUALIZADO'] = df_limpo['TIPO_DESPESA'].map(tipos_despesas_resumido)

In [210]:
df_limpo.isna().sum()

ANO                        0
SENADOR                    0
TIPO_DESPESA               0
CNPJ_CPF                   0
FORNECEDOR                 0
DOCUMENTO                  0
DETALHAMENTO               0
VALOR_REEMBOLSADO          0
COD_DOCUMENTO              0
DIA                        0
MES_CORRETO                0
DATA_CORRETA               0
TIPO_DESPESA_ATUALIZADO    0
dtype: int64

In [211]:
despesas = df_limpo['TIPO_DESPESA_ATUALIZADO'].value_counts()
despesas

TIPO_DESPESA_ATUALIZADO
Transporte e alimentação                  56911
Passagens nacionais                       34227
Aluguel de escritório                     30922
Materiais e equipamentos do escritório    10613
Divulgação parlamentar                     7515
Consultorias e serviços de apoio           7014
Segurança privada                           437
Name: count, dtype: int64

In [212]:
# Finalizando a manipulação de dados e criar o arquivo ".csv" para o GitHub
arquivo_resultado = 'Datasets/resultados/analise_ceaps.csv'

if not os.path.exists(arquivo_resultado):
    df_limpo.to_csv(arquivo_resultado, sep=',', encoding='latin1',index=False)
    print('Arquivo Criado com Sucesso!')
else:
    print('Arquivo ja esta criado.')

Arquivo ja esta criado.


# StoryTelling da analise do CEAPS

In [213]:
senadores_top_15 = df_limpo.groupby('SENADOR')['VALOR_REEMBOLSADO'].count().sort_values(ascending=False).reset_index().head(15)
senadores_top_15 = senadores_top_15.sort_values(by='VALOR_REEMBOLSADO',ascending=True)

fig = px.bar(
    senadores_top_15,
    y='SENADOR',
    x='VALOR_REEMBOLSADO',
    orientation='h',
    title='Top 15 - Senadores que mais declararam',
    labels={ 
        "SENADOR":"",
        "VALOR_REEMBOLSADO":"Compras Declaradas"
    }
)

fig.update_layout(
    font=dict(
        size=10
    )   
)

pio.get_chrome()

nome_arquivo = 'img/top_15_senadores.png'

if not os.path.exists(nome_arquivo):
    fig.write_image(nome_arquivo)
    print('Imagem criada')
else:
    print('Arquivo ja existe')

fig.show()

Arquivo ja existe


In [214]:
senadores_gastos_top_15 = df_limpo.groupby('SENADOR')['VALOR_REEMBOLSADO'].sum().sort_values().reset_index().head(15)

fig = px.bar(
    senadores_gastos_top_15,
    y='SENADOR',
    x='VALOR_REEMBOLSADO',
    orientation='h',
    title='Top 15 - Senadores com maior gasto total (R$)',
    labels={ 
        "SENADOR":"",
        "VALOR_REEMBOLSADO":"Reais (R$)"
    }
)

nome_arquivo = 'img/top_15_gastos_senadores.png'

if not os.path.exists(nome_arquivo):
    fig.write_image(nome_arquivo)
    print('Imagem criada')
else:
    print('Arquivo ja existe')


fig.show()

Arquivo ja existe


In [215]:
ano_media = df_limpo.groupby('ANO')['VALOR_REEMBOLSADO'].sum().reset_index()

fig = px.bar(
    ano_media,
    x='ANO',
    y='VALOR_REEMBOLSADO',
    title='Gastos totais declarados por Ano (R$)',
    labels={
            'ANO':'Ano',
            'VALOR_REEMBOLSADO':'Reais (R$)'
    }
)

nome_arquivo = 'img/gastos_por_ano.png'

if not os.path.exists(nome_arquivo):
    fig.write_image(nome_arquivo)
    print('Imagem criada')
else:
    print('Arquivo ja existe')

fig.show()

Imagem criada


In [216]:
fornecedores_top15 = df_limpo.value_counts('FORNECEDOR').sort_values(ascending=False).reset_index().head(15)
fornecedores_top15 = fornecedores_top15.sort_values(by='count',ascending=True)

fornecedores_nomes_grandes = {
    "Sindicato dos Permissionários de Táxis e Motoristas Auxiliares do Distrito Federal - SINPETAXI": 'SINPETAXI'
}

fornecedores_top15['FORNECEDOR'] = fornecedores_top15['FORNECEDOR'].replace(fornecedores_nomes_grandes)

fig = px.bar(
    fornecedores_top15,
    y='FORNECEDOR',
    x='count',
    orientation='h',
    title='Top 15 - Fornecedores mais Declarados',
    labels={
        'FORNECEDOR':'',
        'count':'Quantidade'
    }
)

nome_arquivo = 'img/fornecedores_mais_declarados.png'

if not os.path.exists(nome_arquivo):
    fig.write_image(nome_arquivo)
    print('Imagem criada')
else:
    print('Arquivo ja existe')

fig.show()

Arquivo ja existe


In [217]:
tipo_despesa = df_limpo.value_counts('TIPO_DESPESA_ATUALIZADO').sort_values(ascending=True).reset_index()

fig = px.pie(
    tipo_despesa,
    names='TIPO_DESPESA_ATUALIZADO',
    values='count',
    title='Categoria de despesas mais comuns',
        labels={
        'TIPO_DESPESA_ATUALIZADO':'Tipo',
        'count':'Quantidade'
    },
    hole=0.5
)

fig.update_traces(
    textinfo='percent+value'
)

nome_arquivo = 'img/quantidade_tipo.png'

if not os.path.exists(nome_arquivo):
    fig.write_image(nome_arquivo)
    print('Imagem criada')
else:
    print('Arquivo ja existe')

fig.show()


Arquivo ja existe
