Criação de um pipeline utilizando a ferramenta de orquestração Apache Airflow.
Projeto inicial na qual utilizei o portal da transparência para extração dos dados:
URL Utilizada para extração:
http://www.portaltransparencia.gov.br/download-de-dados/viagens/2020
Realização de extração dos dados para o sistema de arquivo local utilizando uma técnica conhecida como Crawler, e na sequência a inserção dos arquivos coletados para o HDFS, e logo após foram criadas as tabelas externas no HIVE utilizando esses arquivos. Utilizando uma ferramenta de orquestração Apache Airflow.
- Criação de um diretório local para armazenar os dados
- Download dos dados no formato ZIP
- Descompactação dos arquivos e inserção no diretório criado
- Utilizado um sensor para verificação do arquivos
- Criação de uma pasta no HDFS
- Inserção dos dados no HDFS
- Criação das tabelas externas no Hive
- Carregamento dos dados nas tabelas