O objetivo deste projeto é construir uma aplicação em engenharia de dados que utilize duas fontes de dados (o yahoo finance
e o github
)
- Utilizar dados reais (yahoo finance & github)
- Criar um deltalake com python 🎉
- Copiar esses dados para o deltalake
- Realizar análises com o Apache Spark
- Realizar um modelo de machine learning para prever preços das ações 🎉
- Automatizar o processo de obtenção de dados 🎉
- Possibilitar análises em tempo real (Kafka) 🎉
Inicialmente tenhos o nosso fluxo de operações da seguinte maneira: