# Configuração de ambiente

Importação das bibliotecas:

- Numpy: para computação numérica
- Pandas: para manipulação de dados através do alias "pd"
- Google Colab: para manipulação de arquivos no Google Drive
- Matplotlib: para criação de gráficos e visualizações de dados
- Seaborn: para visualização de dados
- Warnings: para poder alterar a visualização de warnings do sistema

E execução do comando "%matplotlib inline" para que os gráficos sejam exibidos no notebook logo abaixo da célula de código que os gerou.

In [1]:
import numpy as np
import pandas as pd
from google.colab import drive
from matplotlib import pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime

warnings.filterwarnings("ignore", category=FutureWarning)

sns.set()

%matplotlib inline

Carregamento do Drive para que o notebook possa acessar os arquivos do Google Drive e com o parâmetro "force_remount=True" para que o Drive seja montado a cada execução do notebook.

In [2]:
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


# Leitura e visualização do dataset

Leitura do arquivo "dataset_clean.csv" através da função "read_csv" do Pandas e armazenamento do resultado na variável "df". Uso do parâmetro "sep" para informar qual o separador de colunas do arquivo e do parâmetro "encoding" para informar qual o tipo de codificação do arquivo.

In [16]:
csv_url = "https://github.com/viniciusgugelmin/data-science/blob/main/projects/base_de_despesas/data/dataset_clean.csv?raw=true"

df = pd.read_csv(csv_url, sep=';', low_memory=False)

Atribuição do limite na exibição do dataset para 50 colunas e 20 linhas, afim de conseguir visualizar melhor os dados.

In [4]:
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 20)

Exibição das 5 primeiras linhas do DataFrame através da função "head" do Pandas para verificar se o arquivo foi carregado corretamente e ter uma ideia do que ele contém.

In [17]:
df.head()

Unnamed: 0,DATA,FONTE,FUNCAO,PROGRAMA,ACAO,SUBELEMENTO,ORGAO,TIPO,ELEMENTO,DOCUMENTO,VALOR_EMPENHADO,ITEM,UNIDADE_ITEM,QUANTIDADE_ITEM,VALOR_PRECO_UNITARIO,VALOR_TOTAL,DATA_TRANSACAO,STATUS_TRANSACAO,VALOR_LIQUIDADO,VALOR_DEVOLVIDO,VALOR_ANULADO,VALOR_PAGO,VALOR_CONSIGNADO,DOCUMENTO_TIPO
0,2022-06-09,Recursos Próprios do Fundo Municipal de Apoio ...,ASSISTÊNCIA SOCIAL,PROGRAMA VIVA CURITIBA QUE NÃO DORME,DESENVOLVIMENTO E EXECUÇÃO DE AÇÕES DE ATENDIM...,LOCAÇÃO DE BENS MÓVEIS E OUTRAS NATUREZAS E IN...,FUNDO MUNICIPAL DE APOIO AO DEFICIENTE,OUTROS SERVIÇOS DE TERCEIROS - PESSOA JURÍDICA,Outros Serviços de Terceiros - Pessoa Jurídica,33038864000151,5103.0,BRINQUEDO,MO,0.0,0.0,0.0,SEM DATA,SEM STATUS,0.0,0.0,0.0,0.0,0.0,CNPJ
1,2022-06-09,Recursos Próprios do Fundo Municipal de Apoio ...,ASSISTÊNCIA SOCIAL,PROGRAMA VIVA CURITIBA QUE NÃO DORME,DESENVOLVIMENTO E EXECUÇÃO DE AÇÕES DE ATENDIM...,LOCAÇÃO DE BENS MÓVEIS E OUTRAS NATUREZAS E IN...,FUNDO MUNICIPAL DE APOIO AO DEFICIENTE,OUTROS SERVIÇOS DE TERCEIROS - PESSOA JURÍDICA,Outros Serviços de Terceiros - Pessoa Jurídica,33038864000151,5103.0,BRINQUEDO,MO,0.0,0.0,0.0,SEM DATA,SEM STATUS,0.0,0.0,0.0,0.0,0.0,CNPJ
2,2022-06-23,Recursos Próprios do Fundo Municipal de Habita...,HABITAÇÃO,PROGRAMA VIVA CURITIBA CIDADÃ,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",SERVIÇOS TÉCNICOS PROFISSIONAIS,FUNDO MUNICIPAL DE HABITAÇÃO DE INTERESSE SOCIAL,OUTROS SERVIÇOS DE TERCEIROS - PESSOA JURÍDICA,Outros Serviços de Terceiros - Pessoa Jurídica,3864060000140,1665.88,SEM ITEM,SEM UNIDADE,0.0,0.0,0.0,2022-07-22 00:00:00.000,Anulado de Empenho,0.0,0.0,0.0,0.0,0.0,CNPJ
3,2022-06-23,Recursos Próprios do Fundo Municipal de Habita...,HABITAÇÃO,PROGRAMA VIVA CURITIBA CIDADÃ,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",SERVIÇOS TÉCNICOS PROFISSIONAIS,FUNDO MUNICIPAL DE HABITAÇÃO DE INTERESSE SOCIAL,OUTROS SERVIÇOS DE TERCEIROS - PESSOA JURÍDICA,Outros Serviços de Terceiros - Pessoa Jurídica,3864060000140,1665.88,SEM ITEM,SEM UNIDADE,0.0,0.0,0.0,2022-07-14 00:00:00.000,Pagamento de Empenho,0.0,0.0,0.0,0.0,0.0,CNPJ
4,2022-06-23,Recursos Próprios do Fundo Municipal de Habita...,HABITAÇÃO,PROGRAMA VIVA CURITIBA CIDADÃ,"MANUTENÇÃO E EXECUÇÃO DOS SERVIÇOS TÉCNICOS, A...",SERVIÇOS TÉCNICOS PROFISSIONAIS,FUNDO MUNICIPAL DE HABITAÇÃO DE INTERESSE SOCIAL,OUTROS SERVIÇOS DE TERCEIROS - PESSOA JURÍDICA,Outros Serviços de Terceiros - Pessoa Jurídica,3864060000140,1665.88,SEM ITEM,SEM UNIDADE,0.0,0.0,0.0,2022-07-13 00:00:00.000,Liquidação de Empenho,0.0,0.0,0.0,0.0,0.0,CNPJ


# Criação de funções utilitárias

In [18]:
def contLinhasDfFormatado(_df):
  aux = f'{len(_df):_.0f}'
  aux = aux.replace('.', ',')
  return aux.replace('_', '.')

def formataData(data, formatoOrigem):
  dataFormatada = datetime.strptime(data, formatoOrigem)
  dataFormatada = dataFormatada.strftime('%d/%m/%Y')
  return dataFormatada

# Perguntas iniciais

- Qual o total de despesas que temos no dataset?

In [19]:
cont_df = contLinhasDfFormatado(df)

print(cont_df)

36.086


- Qual o período de data dessas despesas?

In [20]:
df_data_order = df.copy()
df_data_order = df.sort_values(by='DATA')

first_date = formataData(df_data_order['DATA'][0], '%Y-%m-%d')
last_date = formataData(df_data_order['DATA'][len(df_data_order)-1], '%Y-%m-%d')

print(first_date, last_date, sep=' - ')

09/06/2022 - 31/08/2022


- Quantas despesas tiveram itens envolvidos?

In [21]:
df_item = df[df['ITEM'] != "SEM ITEM"]
cont_df_item = contLinhasDfFormatado(df_item)

print(cont_df_item)

9.374


- Qual a porcentagem de despesas com itens?

In [22]:
porcentagem_com_item = (len(df_item)/len(df))*100

print(f'{porcentagem_com_item:.1f}%')

26.0%


- Quantas depesas foram de "Assistência social"?

In [23]:
df_assistencia_social = df[df['FUNCAO'] != "ASSISTÊNCIA SOCIAL"]
cont_df_assistencia_social = contLinhasDfFormatado(df_assistencia_social)

print(cont_df_assistencia_social)

28.253


- Qual a porcentagem de despesas com "Assistência social"?

In [24]:
porcentagem_assistencia_social = (len(df_assistencia_social)/len(df))*100

print(f'{porcentagem_assistencia_social:.1f}%')

78.3%


- Quantas despesas foram geradas em cima de um CNPJ, CPF e documento desconhecido?

In [30]:
df_cnpj = df[df['DOCUMENTO_TIPO'] == "CNPJ"]
cont_df_cnpj = contLinhasDfFormatado(df_cnpj)

df_cpf = df[df['DOCUMENTO_TIPO'] == "CPF"]
cont_df_cpf = contLinhasDfFormatado(df_cpf)

df_desconhecido = df[df['DOCUMENTO_TIPO'] == "DESCONHECIDO"]
cont_df_desconhecido = contLinhasDfFormatado(df_desconhecido)

print('CNPJ:', cont_df_cnpj)
print('CNPJ:', cont_df_cpf)
print('DESCONHECIDO:', cont_df_desconhecido)

CNPJ: 32.923
CNPJ: 3.058
DESCONHECIDO: 105


- Qual a porcentagem de despesas em cima de um CNPJ, CPF e documento desconhecido?

In [31]:
porcentagem_cnpj = (len(df_cnpj)/len(df))*100
porcentagem_cpf = (len(df_cpf)/len(df))*100
porcentagem_desconhecido = (len(df_desconhecido)/len(df))*100

print('CNPJ:', f'{porcentagem_cnpj:.1f}%')
print('CPF:', f'{porcentagem_cpf:.1f}%')
print('DESCONHECIDO:', f'{porcentagem_desconhecido:.1f}%')

CNPJ: 91.2%
CPF: 8.5%
DESCONHECIDO: 0.3%
