Coletando dados de uma API(Pares de Moedas) e fazendo a ingestão dos dados em um Banco de Dados.
- API Utilizada: API
- Banco de Dados*: PostgreSQL 13 (Via Docker - postgres:13)
- Airflow: Airflow 2.8.3 (Via Docker - apache/airflow:2.8.3)
-
*Foi Criado dois banco de dados
-
1. moedas_dl(DataLake) -> Schema(moedas)
-
2. moedas_dw(DataWarehouse) -> Schema(moedas)
-
Conexões aos banco de dados:
- airflow(postgres-airflow_dl) -> Postegres(BD -> moedas_dl): user: etl_airflow_dl | password: *****
- airflow(postgres-airflow_dw) -> Postegres(BD -> moedas_dw): user: etl_airflow_dw | password: *****
- Coletar os dados da API (Em Produção)
- Data Quality (Em Desenvolvimento)
- Salvando os dados no Datalake (Em Produção)
- Filtrando os dados salvos no Datalake (Em Produção)
- Salvando os dados no Datawarehouse (Em Produção)
- Criando aplicação em flask com os dados (Em Desenvolvimento)
- VSCode: É o editor de código que irei utilizar Instruções aqui.
- Pyenv: É usado para gerenciar versões do Python. Instruções de instalação do Pyenv aqui. Vamos usar nesse projeto o Python 3.11.3. Para usuários Windows, é recomendado assistirem esse tutorial Youtube.
- Poetry: Este projeto utiliza Poetry para gerenciamento de dependências. Instruções de instalação do Poetry aqui.
- Docker: O Docker é uma plataforma open source que facilita a criação e administração de ambientes isolados. Iremos utilizar o Docker para implantação do AirFlow e do PostgreSQL. Intruções sobre o Docker Desktop aqui.
- Criando o diretório do projeto
mkdir ENG-AirFlow
cd ENG-AirFlow
- Clone o repositório:
git clone https://github.com/Prog-LucasAlves/ENG-AirFlow.git
- Configurar a versão do Python com
pyenv
:
pyenv install 3.11.3
pyenv local 3.11.3
- Configurar o poetry:
poetry init
poetry shell
- Instalando as dependências do projeto:
poetry install
- Executando Docker
docker-compose up -d