Coleta de dados do Monitriip - Sistema de Monitoramento do Transporte Rodoviário Interestadual e Internacional Coletivo de Passageiro
Este projeto pretende extrair os dados de bilhete de passagem coletados pelo Sistema de Monitoramento do Transporte Rodoviário Interestadual e Internacional Coletivo de Passageiros. O periodo de coleta fornecido pelo site é de Janeiro/2019 à Junho/2023.
-
O objetivo principal deste projeto é demonstrar a criacao de um pipeline de coleta de dados usando os dados do sistema Monitrip fornecido pela ANTT via Portal de dados abertos do Governo Federal.
-
Usaremos o Spark desde a extração, transformação e processamento dos dados. Neste projeto vamos realizar a configuração de uma imagem Docker que sera responsavel por processar os notebooks usando o papermil, uma ferramenta de parametrização e execução de jupyter notebooks.
monitrip_extract_files.ipynb
: Este arquivo tem como principal objetivo acessar o link da api do portal de dados abertos e coletar os arquivos brutos para posteriormente serem processados.monitrip_transform_files.ipynb
: Este arquivo tem como principal objetivo extrair os arquivo que foram baixados no processo de extração, e aplicar uma modelagem prévia baseado nos schemas fornecidos na pastaschemas/
que por sua vez foram basedados no dicionário fornecido pela ANTT, essa integração é feita afim de padronizar e manter a conformidade dos dados fornecidos.monitrip_load_files.ipynb
: Este arquivo tem como objetivo carregar os dados que foram tratados no processo de transformação. Nesta etapa podemos escolher dois métodos de carga. O primeiro seria baseada no schema fornecido, já realizar o envio dos dados para o Kafka que posteriormente poderia replicar para uma base de dados, ou realizar a gravação destes registros em um sistema de armazenamento de objetos como o S3 da AWS por exemplo.
**Todos os notebooks serão convertidos para python e poderem ser utilizados no Lambda da AWS