## Bibliotecas

In [1]:
import pandas as pd
import warnings
from IPython.display import display, Markdown, HTML
import locale
from babel.numbers import format_currency

warnings.filterwarnings('ignore')

ModuleNotFoundError: No module named 'babel'

## Importação de Dados

In [None]:
# Importando dados
data_2018 = pd.read_csv('data/despesa_ceaps_2018.csv', encoding='latin-1', sep=';', skiprows=[0])
data_2019 = pd.read_csv('data/despesa_ceaps_2019.csv', encoding='latin-1', sep=';', skiprows=[0])
data_2020 = pd.read_csv('data/despesa_ceaps_2020.csv', encoding='latin-1', sep=';', skiprows=[0])
data_2021 = pd.read_csv('data/despesa_ceaps_2021.csv', encoding='latin-1', sep=';', skiprows=[0])
data_2022 = pd.read_csv('data/despesa_ceaps_2022.csv', encoding='latin-1', sep=';', skiprows=[0])

## Problema de Pesquisa

A coluna de Detalhamento tem um aumento nos valores nulos conforme se passam os anos. Pq?
Quem são os TOP 5 campeões de gastos de cada ano?
Com qual tipo de despesa foi gasto mais dinheiro?

## Funções

In [None]:
# Função para concatenar dataframes
def concat(dataframes_list):
    df_concat = pd.concat(dataframes_list, ignore_index=True)
    return df_concat

# Função para selecionar o ano
def select_year(df, year):
    year_df = df[df['ANO'] == year]
    return year_df

# Função para criar DF contagem de solicitações por senador
def count(df, ano):
    contagem_ano = df.query("ANO == @ano")
    df_ano = contagem_ano.sort_values("CONTAGEM", ascending=False)
    return df_ano
    
# Função para criar DF Valor Total por senador
def value_sum(df):
    df_agrupado = df.groupby('SENADOR')['VALOR_REEMBOLSADO'].sum()
    df_agrupado = df_agrupado.to_frame()
    df_agrupado = df_agrupado.rename(columns={'SENADOR': 'SENADOR', 'VALOR_REEMBOLSADO': 'VALOR_REEMBOLSADO'})
    df_agrupado = df_agrupado.sort_values("VALOR_REEMBOLSADO", ascending=False)
    return df_agrupado

# Função para criar DF Valor Total por Tipo de Despesa
def value_type(df):
    df_agrupado = df.groupby('TIPO_DESPESA')['VALOR_REEMBOLSADO'].sum()
    df_agrupado = df_agrupado.to_frame()
    df_agrupado = df_agrupado.rename(columns={'TIPO_DESPESA': 'TIPO_DESPESA','VALOR_REEMBOLSADO': 'VALOR_TOTAL'})
    df_agrupado = df_agrupado.sort_values("VALOR_TOTAL", ascending=False)
    return df_agrupado

# Função para mostrar o valor total por ano
def total_value(df):
    locale.setlocale(locale.LC_ALL, 'pt_BR.UTF-8')
    soma_total = df['VALOR_TOTAL'].sum()
    valor_formatado = format_currency(soma_total, 'BRL', format='#,##0.00', locale='pt_BR')
    print("Soma total dos valores do ano de 2020:", valor_formatado)    

# Função para realizar a porcentagem de nulos por coluna
def nulls(df):
    nulls_percent = df.isnull().mean() * 100
    return nulls_percent

# Função para tratar valores da coluna VALOR_REEMBOLSADO e substituir a vírgula por ponto
def treat_value(df):
    df.loc[:, 'VALOR_REEMBOLSADO'] = df.loc[:, 'VALOR_REEMBOLSADO'].str.replace(',', '.').astype(float)
    
# Função para centralizar o dataframe
def center_df(df):
    df = df.style.set_table_attributes('style="margin-left: auto; margin-right: auto;"')
    return HTML(df.render())
    
# Função para inserir título
def title(title, size):
    return Markdown(f'<h1 style="font-size:{size}px; text-align:center;">{title}</h1>')

## Concatenação das Tabelas 2018 - 2022

In [None]:
df_concat = concat([data_2018, data_2019, data_2020, data_2021, data_2022] )
df_concat

## Análise Exploratória

In [None]:
""" Comentários:
    Corrigir os valores da coluna VALOR_REEMBOLSADO (trocar , por .)"""
df_concat

In [None]:
# Dicionário de Dados
titulo = 'Dicionário de Dados'
tamanho_fonte = 24

dataframe = {'Colunas': ['ANO', 
                         'MES', 
                         'SENADOR', 
                         'TIPO_DESPESA', 
                         'CNPJ_CPF', 
                         'FORNECEDOR', 
                         'DOCUMENTO', 
                         'DATA', 
                         'DETALHAMENTO', 
                         'VALOR_REEMBOLSADO', 
                         'COD_DOCUMENTO'],
            'Descrição': ['Ano da Despesa', 
                          'Mês da Despesa', 
                          'Nome do Senador que realizou a Despesa',
                          'Tipificação da Despesa',
                          'CNPJ ou CPF do executor da Despesa',
                          'Nome do Fornecedor da Despesa',
                          'Identificação do documento apresentado',
                          'Data de Apresentação da Despesa',
                          'Detalhamento da Despesa',
                          'Valor gasto com a Despesa',
                          'Código gerado para a Despesa']}

dic = pd.DataFrame(dataframe)

dic_estilizado = dic.style.set_table_attributes('style="margin-left: auto; margin-right: auto;"')
display(Markdown(f'<h1 style="font-size:{tamanho_fonte}px; text-align:center;">{titulo}</h1>'))
display(HTML(dic_estilizado.render()))


In [None]:
df_concat.columns

#### Valores Nulos

In [None]:
null_2018 = nulls(data_2018).reset_index()
null_2018.rename(columns={'index': 'Coluna', 0: 'Porcentagem_Nulos'}, inplace=True)

display(title('Porcentagem de Valores Nulos 2018', 24))
center_df(null_2018)

In [None]:
null_2019 = nulls(data_2019).reset_index()
null_2019.rename(columns={'index': 'Coluna', 0: 'Porcentagem_Nulos'}, inplace=True)

display(title('Porcentagem de Valores Nulos 2019', 24))
center_df(null_2019)

In [None]:
null_2020 = nulls(data_2020).reset_index()
null_2020.rename(columns={'index': 'Coluna', 0: 'Porcentagem_Nulos'}, inplace=True)

display(title('Porcentagem de Valores Nulos 2020', 24))
center_df(null_2020)

In [None]:
null_2021 = nulls(data_2021).reset_index()
null_2021.rename(columns={'index': 'Coluna', 0: 'Porcentagem_Nulos'}, inplace=True)

display(title('Porcentagem de Valores Nulos 2021', 24))
center_df(null_2021)

In [None]:
null_2022 = nulls(data_2022).reset_index()
null_2022.rename(columns={'index': 'Coluna', 0: 'Porcentagem_Nulos'}, inplace=True)

display(title('Porcentagem de Valores Nulos 2022', 24))
center_df(null_2022)

In [None]:
""" Comentários:
    Atentar para os valores nulos da coluna DETALHAMENTO que tiveram um aumento importante na virada de governo
    Quem são os senadores que mais possuem nulosna coluna DETALHAMENTO?"""
null_concat = nulls(df_concat).reset_index()
null_concat.rename(columns={'index': 'Coluna', 0: 'Porcentagem_Nulos'}, inplace=True)

display(title('Porcentagem de Valores Nulos 2022', 24))
center_df(null_concat)


In [None]:
"""Comentários:
    Arrumar tipo de valor reembolsado, object para float
    Arrumar tipo de data, object para date
"""

df_types = df_concat.dtypes.reset_index()
df_types.rename(columns={'index': 'Coluna', 0: 'Tipo'}, inplace=True)
display(title('Tipos das Colunas', 20))
center_df(df_types)

In [None]:
df_concat['VALOR_REEMBOLSADO'].describe()

## Tratamento dos Dados

In [None]:
# Tratamento dos valores da coluna VALOR_REEMBOLSADO (retirando , e inserindo .) e do tipo da coluna (object to float)
treat_value(df_concat)
treat_value(data_2018)
treat_value(data_2019)
treat_value(data_2020)
treat_value(data_2021)
treat_value(data_2022)

In [None]:
# Tratamento do tipo da coluna DATA


## DataFrames de Contagem de Nulos na Coluna Detalhamento por Senador

In [None]:
# Use o método isnull() para criar uma máscara booleana indicando quais valores são nulos
mask = df_concat['DETALHAMENTO'].isnull()

# Aplique a máscara booleana para filtrar as linhas com valores nulos na coluna 'B'
df_filtrado = df_concat[mask]
df_filtrado['SENADOR'].value_counts()

## DataFrames de Contagem de Solicitações por Senador Por Ano

In [None]:
# Realizar a contagem de linhas por senador e por ano
contagem = df_concat.groupby(['ANO', 'SENADOR']).size().reset_index(name='CONTAGEM')

In [None]:
senador_2018 = count(contagem, 2018)
senador_2018

In [None]:
senador_2019 = count(contagem, 2019)
senador_2019

In [None]:
senador_2020 = count(contagem, 2020)
senador_2020

In [None]:
senador_2021 = count(contagem, 2021)
senador_2021

In [None]:
senador_2022 = count(contagem, 2022)
senador_2022

## DataFrames de Valor Total por Senador e Por Ano

In [None]:
df = df_concat[['ANO', 'SENADOR', 'VALOR_REEMBOLSADO']]
df

In [None]:
df = df_concat[['ANO', 'SENADOR', 'VALOR_REEMBOLSADO']]
df = select_year(df, 2018)
value_sum(df)

In [None]:
df = df_concat[['ANO', 'SENADOR', 'VALOR_REEMBOLSADO']]
df_2019 = select_year(df, 2019)
value_sum(df_2019)

In [None]:
df = df_concat[['ANO', 'SENADOR', 'VALOR_REEMBOLSADO']]
df_2020 = select_year(df, 2020)
value_sum(df_2020)

## ## DataFrames de Valor Total por Tipo de Despesa e Por Ano

In [None]:
df_type_2018 = data_2018[['TIPO_DESPESA', 'VALOR_REEMBOLSADO']]
value_2018 = value_type(df_type_2018)
value_2018

In [None]:
total_value(value_2018)

In [None]:
df_type_2019 = data_2019[['TIPO_DESPESA', 'VALOR_REEMBOLSADO']]
value_2019 = value_type(df_type_2019)
value_2019

In [None]:
total_value(value_2019)

In [None]:
df_type_2020 = data_2020[['TIPO_DESPESA', 'VALOR_REEMBOLSADO']]
value_2020 = value_type(df_type_2020)
value_2020

In [None]:
total_value(value_2020)

In [None]:
df_type_2021 = data_2021[['TIPO_DESPESA', 'VALOR_REEMBOLSADO']]
value_2021 = value_type(df_type_2021)
value_2021

In [None]:
total_value(value_2021)

In [None]:
df_type_2022 = data_2022[['TIPO_DESPESA', 'VALOR_REEMBOLSADO']]
value_2022 = value_type(df_type_2022)
value_2022

In [None]:
total_value(value_2022)