Este repositório consiste no deploy e exemplo de uma aplicação Spark Streaming para coleta de Hashtags (#) e Contas (@) mais comentadas no Twitter em tempo real.
- Requisitos
- Criar conta na API do Twitter
- Criar um Cluster com Hadoop (HDFS + Yarn) com o Spark
- Certificar que em todos os nós do cluster há Docker instalado
- Em todos os nós do cluster, executar:
sh build.sh
Isso irá construir as imagens dos DashBoards e da aplicação do Twitter. Antes de construir as imagens, certifique as variáveis de ambiente nos arquivos Dockerfile
- No nó mestre da aplicação, executar:
sh start.sh
Para construir a imagem do Twitter, é necessário um arquivo .env
com as seguintes configurações:
ACCESS_TOKEN=<access_token>
ACCESS_SECRET=<access_secret>
CONSUMER_KEY=<consumer_key>
CONSUMER_SECRET=<consumer_secret>
BEARER=<bearer>