tweetGather

Algoritmos desenvolvidos para coleta e processamento de tweets que foram utilizados em projetos durante o curso de Bacharelado em Sistemas de Informação na Universidade Federal de Santa Maria.

O projeto foi desenvolvido em Python (helper, src), utilizando uma base de dados estruturada em MySQL (tweetGather_bd.sql). Para realização de análises iniciais, a parte visualização com alguns gráficos e tabelas foi desenvolvida em PHP, utilizando HTML, CSS e JS (display).

No que corresponde a parte de coleta, estão disponíveis códigos para coleta de tweets via streaming e atualização dos dados de engajamento. Já no contexto de processamento, estão disponíveis códigos para:

Operações no banco de dados; dicionários de palavras;
Geração de arquivo de log;
Pré-processamento do texto dos tweets;
Análise de sentimentos (utilizando a biblioteca TextBlob);
Preparação de arquivos do tipo ARFF para utilização no Weka conforme necessidades do projeto (mais detalhes sobre esse processo encontram-se no capítulo 3.4.1 sobre Balanceamento das Instâncias no PDF do TCC, logo abaixo, página 29);
Algoritmo Naive Bayes para classificação dos tweets utilizando o texto pré-processado.

Maiores detalhes sobre a utilização dos algoritmos e resultados obtidos podem ser encontrados no artigo publicado e trabalho de conclusão de curso gerado.

Requisitos

Para instalação dos requisitos necessários utilizar o comando:

$ pip3 install -r requirements.txt

Criar conta na plataforma Twitter Developers e gerar as chaves e tokens de acesso. Criar um arquivo helper/authenticate.py com a seguinte estrutura:

def api_tokens(verify):
  keys = {}

  keys['consumer_key']        = "consumer_key"
  keys['consumer_secret']     = "consumer_secret"
  keys['access_token']        = "access_token"
  keys['access_token_secret'] = "access_token_secret"

  return keys

Trabalho de Concolusão de Curso - PDF:

Título: Utilização de algoritmos de aprendizado de máquina para prever a popularidade de tuítes

Orientador: Sérgio Luís Sardi Mergen

Instituição: Universidade Federal de Santa Maria (UFSM)

Repositório: ufsm-tcc-si-2018

Artigo publicado no ERBD 2018 - PDF

Título: Análise da Popularidade de Tuítes com Base em Características Extraídas de seu Conteúdo

Orientador: Sérgio Luís Sardi Mergen

Instituição: Universidade Federal de Santa Maria (UFSM)

🏆 Premiação: Melhor artigo de pesquisa do evento

Arquitetura de coleta e processamento dos dados

Name		Name	Last commit message	Last commit date
Latest commit History 118 Commits
display		display
helper		helper
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
database.sql		database.sql
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

tweetGather

Requisitos

Trabalho de Concolusão de Curso - PDF:

Artigo publicado no ERBD 2018 - PDF

About

Releases

Packages

Languages

License

lucaslioli/tweetGather

Folders and files

Latest commit

History

Repository files navigation

tweetGather

Requisitos

Trabalho de Concolusão de Curso - PDF:

Artigo publicado no ERBD 2018 - PDF

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages