Skip to content

marcosfpr/spark_streaming_twitter

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Twitter Trending # and @ Analytics

Este repositório consiste no deploy e exemplo de uma aplicação Spark Streaming para coleta de Hashtags (#) e Contas (@) mais comentadas no Twitter em tempo real.

Exemplo da Aplicação

  • Requisitos
    1. Criar conta na API do Twitter
    2. Criar um Cluster com Hadoop (HDFS + Yarn) com o Spark
    3. Certificar que em todos os nós do cluster há Docker instalado

Tutorial

  1. Em todos os nós do cluster, executar:
sh build.sh

Isso irá construir as imagens dos DashBoards e da aplicação do Twitter. Antes de construir as imagens, certifique as variáveis de ambiente nos arquivos Dockerfile

  1. No nó mestre da aplicação, executar:
sh start.sh

Para construir a imagem do Twitter, é necessário um arquivo .env com as seguintes configurações:

ACCESS_TOKEN=<access_token>
ACCESS_SECRET=<access_secret>
CONSUMER_KEY=<consumer_key>
CONSUMER_SECRET=<consumer_secret>
BEARER=<bearer>

Links legais sobre Spark Streaming:

Near Real Time Recommendations

Spark Streaming na Netflix

Dúvidas?

Escreva uma Issue, mande um PR ;)

About

Twitter Analytics with Spark Streaming

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published