Coleta de dados do Monitriip - Sistema de Monitoramento do Transporte Rodoviário Interestadual e Internacional Coletivo de Passageiro

Introdução

Este projeto pretende extrair os dados de bilhete de passagem coletados pelo Sistema de Monitoramento do Transporte Rodoviário Interestadual e Internacional Coletivo de Passageiros. O periodo de coleta fornecido pelo site é de Janeiro/2019 à Junho/2023.

Diagrama de Arquitetura

Visão Geral

O objetivo principal deste projeto é demonstrar a criacao de um pipeline de coleta de dados usando os dados do sistema Monitrip fornecido pela ANTT via Portal de dados abertos do Governo Federal.
Usaremos o Spark desde a extração, transformação e processamento dos dados. Neste projeto vamos realizar a configuração de uma imagem Docker que sera responsavel por processar os notebooks usando o papermil, uma ferramenta de parametrização e execução de jupyter notebooks.

Arquivos do Projeto

monitrip_extract_files.ipynb: Este arquivo tem como principal objetivo acessar o link da api do portal de dados abertos e coletar os arquivos brutos para posteriormente serem processados.
monitrip_transform_files.ipynb: Este arquivo tem como principal objetivo extrair os arquivo que foram baixados no processo de extração, e aplicar uma modelagem prévia baseado nos schemas fornecidos na pasta schemas/ que por sua vez foram basedados no dicionário fornecido pela ANTT, essa integração é feita afim de padronizar e manter a conformidade dos dados fornecidos.
monitrip_load_files.ipynb: Este arquivo tem como objetivo carregar os dados que foram tratados no processo de transformação. Nesta etapa podemos escolher dois métodos de carga. O primeiro seria baseada no schema fornecido, já realizar o envio dos dados para o Kafka que posteriormente poderia replicar para uma base de dados, ou realizar a gravação destes registros em um sistema de armazenamento de objetos como o S3 da AWS por exemplo.

**Todos os notebooks serão convertidos para python e poderem ser utilizados no Lambda da AWS

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
schemas		schemas
.gitignore		.gitignore
README.md		README.md
etl-antt-monitrip.jpg		etl-antt-monitrip.jpg
monitrip_extract_files.ipynb		monitrip_extract_files.ipynb
monitrip_load_files.ipynb		monitrip_load_files.ipynb
monitrip_transform_files.ipynb		monitrip_transform_files.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Coleta de dados do Monitriip - Sistema de Monitoramento do Transporte Rodoviário Interestadual e Internacional Coletivo de Passageiro

Introdução

Diagrama de Arquitetura

Visão Geral

Arquivos do Projeto

About

Languages

matheus-conrado/etl-antt-monitrip

Folders and files

Latest commit

History

Repository files navigation

Coleta de dados do Monitriip - Sistema de Monitoramento do Transporte Rodoviário Interestadual e Internacional Coletivo de Passageiro

Introdução

Diagrama de Arquitetura

Visão Geral

Arquivos do Projeto

About

Topics

Resources

Stars

Watchers

Forks

Languages