In [2]:
import string
import pandas as pd
from unidecode import unidecode
import re
from random import randint
import requests
import numpy as np
import os
import csv
import uuid

In [3]:
def save_dataframe(df, filename):
    # Verifica se o diretório existe e cria caso não exista
    diretorio = './arquivos_para_carga'
    if not os.path.exists(diretorio):
        os.makedirs(diretorio)
    
    # Salva o dataframe em um arquivo csv no diretório criado
    filepath = f'./{diretorio}/{filename}.csv'
    df.to_csv(filepath, index=False, sep=';')

In [4]:
# definir parâmetros do arquivo CSV
csv_kwargs = {'index': False,
              'sep': ';',
              'quoting': csv.QUOTE_NONE,
              'quotechar': '"'}

In [5]:
df_contribuintes_receitas = pd.read_csv('arquivos_para_carga/dados_contribuintes_receita.csv', sep=';')
df_contribuintes_receitas.rename(columns={'CPF/CNPJ':'CPF_CNPJ'}, inplace=True)
df_contribuintes_receitas.drop(columns=['TIPO','CONCAT_CODIGO'], inplace=True)
df_contribuintes_receitas.head()

Unnamed: 0,CPF_CNPJ,CONTRIBUINTE,CODIGO
0,08.923.971/0001-15,prefeitura municipal de cajazeiras,886cd0eabf5a18
1,038.628.134-36,joao jose de andrade sobrinho,af7e52bc3ee1a8
2,911.164.224-68,clara maria honorato,09dace633966e6
3,070.405.144-35,fopag creas i,2ec12bef7667c1
4,00.448.994/0001-03,classic viagens e turismo eireli me,eefb6011a40df6


In [6]:
df_contribuintes_despesas = pd.read_csv('arquivos_para_carga/dados_contribuintes_despesas.csv', sep=';')
df_contribuintes_despesas.rename(columns={'CREDOR':'CONTRIBUINTE','NUM_DOCUMENTO':'CPF_CNPJ'}, inplace=True)
df_contribuintes_despesas.drop(columns=['CONCAT_CREDOR_DOCUMENTO'], inplace=True)
df_contribuintes_despesas.head()

Unnamed: 0,CONTRIBUINTE,CPF_CNPJ,CODIGO
0,alianca do brasil seguros s a,01.378.407/0001-10,80e7979ff78e14
1,ademir santana da silva,***.893.004-**,4be681d5c1e352
2,olindina glicia gomes pereira,***.859.974-**,8ff22c743e712e
3,taise kelly cezario de souza,***.039.644-**,1db102414906f0
4,otavio leoncio pereira,***.396.364-**,5125ea1b50db6d


In [7]:
df_contribuintes = pd.concat([df_contribuintes_receitas, df_contribuintes_despesas]).reset_index(drop=True)
df_contribuintes

Unnamed: 0,CPF_CNPJ,CONTRIBUINTE,CODIGO
0,08.923.971/0001-15,prefeitura municipal de cajazeiras,886cd0eabf5a18
1,038.628.134-36,joao jose de andrade sobrinho,af7e52bc3ee1a8
2,911.164.224-68,clara maria honorato,09dace633966e6
3,070.405.144-35,fopag creas i,2ec12bef7667c1
4,00.448.994/0001-03,classic viagens e turismo eireli me,eefb6011a40df6
...,...,...,...
10951,11.902.878/0001-39,sec de saude equipe multidisciplinar efetivos,c879c55f68dc21
10952,11.902.878/0001-39,sec de saude usf zona rural contratados,d7e830ef625ffa
10953,11.902.878/0001-39,sec de saude usf zona sul contratados,c1ee386be483fa
10954,11.902.878/0001-39,sec de saude usf zona norte contratados,1091e970a75135


In [8]:
df_contribuintes['CODIGO'].value_counts()

886cd0eabf5a18    1
a262499484cd83    1
e089ac414fadcc    1
4d0c7f9a004e47    1
d9ad3b61bfc7af    1
                 ..
be606e2db1860f    1
32805a360fcc2d    1
4e47b5ad9b948f    1
b144f1fd96612e    1
d559c72929407c    1
Name: CODIGO, Length: 10956, dtype: int64

In [9]:
df_contribuintes.drop_duplicates(subset='CODIGO', inplace=True)
df_contribuintes.reset_index(drop=True)

Unnamed: 0,CPF_CNPJ,CONTRIBUINTE,CODIGO
0,08.923.971/0001-15,prefeitura municipal de cajazeiras,886cd0eabf5a18
1,038.628.134-36,joao jose de andrade sobrinho,af7e52bc3ee1a8
2,911.164.224-68,clara maria honorato,09dace633966e6
3,070.405.144-35,fopag creas i,2ec12bef7667c1
4,00.448.994/0001-03,classic viagens e turismo eireli me,eefb6011a40df6
...,...,...,...
10951,11.902.878/0001-39,sec de saude equipe multidisciplinar efetivos,c879c55f68dc21
10952,11.902.878/0001-39,sec de saude usf zona rural contratados,d7e830ef625ffa
10953,11.902.878/0001-39,sec de saude usf zona sul contratados,c1ee386be483fa
10954,11.902.878/0001-39,sec de saude usf zona norte contratados,1091e970a75135


In [10]:
df_contribuintes['CODIGO'].value_counts()

886cd0eabf5a18    1
a262499484cd83    1
e089ac414fadcc    1
4d0c7f9a004e47    1
d9ad3b61bfc7af    1
                 ..
be606e2db1860f    1
32805a360fcc2d    1
4e47b5ad9b948f    1
b144f1fd96612e    1
d559c72929407c    1
Name: CODIGO, Length: 10956, dtype: int64

In [11]:
save_dataframe(df_contribuintes,'dados_contribuintes')

with open('arquivos_para_carga/dados_contribuintes.csv', 'w', encoding='utf-8', newline='') as f:
    df_contribuintes.to_csv(f, **csv_kwargs)

# Tratamento das classes de receita e despesa

In [12]:
df_classe_receita = pd.read_csv('C:/Users/allys/Dados_TCC/dw_contas_publicas_2022/TCC2/dados/01_receitas/dados_para_carga/dados_tipos_receitas.csv', sep=';')
df_classe_receita.rename({'RECEITA':'DESCRICAO'}, axis=1, inplace=True)
df_classe_receita.head()

Unnamed: 0,CODIGO,DESCRICAO
0,1722010101,cotaparte do icms
1,1721010201,cotaparte do fundo de participacao dos municipios
2,9722010101,deducao de receita para a formacao do fundef icms
3,9721010201,deducao de receita do fpm fundef e redutor fin...
4,1113050002,sna simples nacional


In [13]:
df_classe_receita['CODIGO'].dtype

dtype('int64')

In [14]:
save_dataframe(df_classe_receita,'dados_classes_receitas')

with open('arquivos_para_carga/dados_classes_receitas.csv', 'w', encoding='utf-8', newline='') as f:
    df_classe_receita.to_csv(f, **csv_kwargs)

In [15]:
df_subelemento_tratamento = pd.read_csv('arquivos_para_carga/dados_subelemento.csv', sep=';')
df_subelemento_tratamento.drop_duplicates(subset='COD_SUBELEMENTO', inplace=True)
df_subelemento_tratamento.reset_index(drop=True)

Unnamed: 0,COD_SUBELEMENTO,SUBELEMENTO
0,2021,manutencao das atividades do ensino fundamenta...
1,2064,custeio das acoes e servicos publicos de saude...
2,2059,custeio das acoes e servicos publicos de saude...
3,2047,manutencao da secretaria municipal de saude
4,2062,custeio das acoes e servicos publicos de saude...
...,...,...
204,6799,maquinas e equipam. de natureza industrial
205,9921,aliquota suplementar de contribuicao previdenc...
206,9930,material de consumo
207,8536,outros servicos de terceiros - pessoa fisica


In [16]:
save_dataframe(df_subelemento_tratamento,'dados_subelemento')

with open('arquivos_para_carga/dados_subelemento.csv', 'w', encoding='utf-8', newline='') as f:
    df_subelemento_tratamento.to_csv(f, **csv_kwargs)