ETL Receita Federal - CNPJ

Introdução

Este projeto tem como finalidade coletar os dados do Cadastro Nacional da Pessoa Jurídica (CNPJ) que é um banco de dados gerenciado pela Secretaria Especial da Receita Federal do Brasil (RFB), Estes dados se tratam de dados cadastrais das pessoas jurídicas e outras entidades de interesse das administrações tributárias da União, dos Estados, do Distrito Federal e dos Municípios. No portal a periodicidade de atualização dos dados é mensal.

Desenho da Arquitetura

Tecnologias Utilizadas

Para este projeto foram utilizados as seguintes tecnologias:

Spark
Python
Kafka
AWS:
- S3
Docker

Arquivos do projeto

receita_federal_extract_files.ipynb: Este arquivo tem como principal objetivo acessar o link da api do portal de dados abertos e coletar os arquivos brutos para posteriormente serem processados.
receita_federal_transform_files.ipynb: Este arquivo tem como principal objetivo extrair os arquivo que foram baixados no processo de extração, e aplicar uma modelagem prévia baseado nos schemas fornecidos na pasta schemas/ a função _build_schema coleta o tipo de schema a ser aplicado nos dados e passa para a função de schema do Spark, com isso temos uma padronização seguindo o dicionário de dados da RFB.
receita_federal_load_files.ipynb: Este arquivo tem como objetivo carregar os dados que foram tratados no processo do script receita_federal_transform_files.ipynb. Nesta etapa podemos escolher dois métodos de carga. O primeiro seria baseada no schema fornecido, já realizar o envio dos dados para o Kafka que posteriormente poderia replicar para uma base de dados, ou realizar a gravação destes registros em um sistema de armazenamento de objetos como o S3 da AWS por exemplo.

Fonte dos dados

Os dados foram coletados do portal de dados aberto do governo federal na seção de Cadastro Nacional da Pessoa Jurídica - CNPJ. Nos arquivos podemos ter acesso aos dados abertos sobre Cnaes, Empresas, Estabelecimentos, Motivos, Municipio, Naturezas, Paises, Qualificacoes, Simples Nacional e Socios.

Considerações

Com este projeto agora temos informações precisas para decisões estratégicas. Este projeto continua em aperfeiçoamento, para se adaptar às mudanças estruturais e incorporar novos dados. Estou muito empolgado com o futuro e as oportunidades que surgirão.

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
notebooks		notebooks
schemas		schemas
Dockerfile		Dockerfile
README.md		README.md
docker-compose.yml		docker-compose.yml
etl-receita-federal-cnpj.jpg		etl-receita-federal-cnpj.jpg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ETL Receita Federal - CNPJ

Introdução

Desenho da Arquitetura

Tecnologias Utilizadas

Arquivos do projeto

Fonte dos dados

Considerações

About

Languages

matheus-conrado/etl-receita-federal-cnpj

Folders and files

Latest commit

History

Repository files navigation

ETL Receita Federal - CNPJ

Introdução

Desenho da Arquitetura

Tecnologias Utilizadas

Arquivos do projeto

Fonte dos dados

Considerações

About

Topics

Resources

Stars

Watchers

Forks

Languages