# Análise de Sentimentos de Tweets coletados em tempo real com Spark Streaming e MLlib

---

A análise de sentimentos ajuda os analistas de dados de empresas e organizações a avaliar a opinião pública, realizar pesquisas de mercado, monitorar a reputação de marcas e produtos e compreender as experiências dos seus consumidores ou potenciais clientes.

Uma excelente forma de obter dados sobre opiniões, sentimentos e discussões sobre um determinado assunto, é através das redes sociais. Atualmente, o Twitter é a principal rede social para obter informações sobre discussções dos mais variados assuntos e tópicos. A empresa disponibiliza uma API de maneira gratuita para os desenvolvedores que desejam coletar os dados para realizar as suas análises.

A quantidade de tweets gerados por dia pode ultrapassar as centenas de milhares, chegando até em milhões de tweets em um único dia. Para lidar com essa grande quantidade de dados, a utilização de frameworks que sejam capazes de realizar o processamento distribuído em clusters ou em nuvens se faz bastante relevante. A principal ferramenta para realizar esse tipo de tarefa é o Spark. O Spark é uma estrutura de computação em cluster de código aberto, construída em torno da velocidade, facilidade de uso e análise de streaming de dados.

Com a utilização do Spark e a API do Twitter, este projeto se propõe ao desenvolvimento de um modelo de Machine Learning que com base nos dados históricos, seja capaz de criar um modelo para a classificação do sentimento de um texto como sendo positivo ou negativo. A partir disso, novos dados gerados e coletados em tempo real pela API serão submetidos ao modelo e serão classificados de acordo com o respectivo sentimento.

---

## Sumário

* <a href="#id_1">  1) Introdução e definição do problema</a>
    * <a href="#id_1-1"> 1.1) O que é análise de sentimentos?</a>
    * <a href="#id_1-2"> 1.2) Objetivos deste projeto</a>
    * <a href="#id_1-3"> 1.3) Metodologia</a>
<br/><br/>

* <a href="#id_2"> 2) Parte 1 - Criação do modelo</a>
    * <a href="#id_2-1"> 2.1) Importação das bibliotecas</a>
    * <a href="#id_2-2"> 2.2) Obtendo os dados de treino</a>
    * <a href="#id_2-3"> 2.3) Pré Processamento dos dados</a>
    * <a href="#id_2-4"> 2.4) Modelagem</a>
        * <a href="#id_2-4-1">2.4.1) Obtendo a lista de Stopwords</a>
        * <a href="#id_2-4-2">2.4.2) Treinamento do modelo</a>
        * <a href="#id_2-4-3">2.4.3) Testando o modelo</a>
<br/><br/>
	
* <a href="#id_3"> 3) Parte 2 - Coleta de dados do Twitter para Classificação</a>
    * <a href="#id_3-1"> 3.1) Obtendo chaves de autentifação e Definindo regras de pesquisa</a>
    * <a href="#id_3-2"> 3.2) Pré processamento dos Dados</a>
    * <a href="#id_3-3"> 3.3) Coleta e classificação</a>
<br/><br/>

* <a href="#id_4"> 4) Considerações finais</a>

---

<h2 id="id_1">  1) Introdução e definição do problema</h2>

<h3 id="id_1-1"> 1.1) O que é análise de sentimentos?</h3>
Uma tendência relativamente mais recente na análise de textos vai além da detecção de tópicos e tenta identificar a emoção por trás de um texto. Isso é chamado de análise de sentimentos, ou também de mineração de opinião e IA de emoção.

A análise de sentimentos é uma mineração contextual de um texto que identifica e extrai informações subjetivas no material de origem. Ela ajuda as empresas a entenderem o sentimento social de sua marca, produto ou serviço.

Um sistema de análise de sentimentos para conteúdo textual combina o processamento de linguagem natural (PLN) e técnicas de aprendizado de máquina para atribuir pontuações ponderadas de sentimento às sentenças. Com os recentes avanços na aprendizagem de máquina, o uso de técnicas avançadas de inteligência artificial se tornou eficaz para identificar sentimentos de usuários na web.

Quando uma empresa deseja entender o que estão falando sobre ela e qual a reputação de seus produtos online, uma das formas de se fazer isso é utilizando machine learning. Nesse sentido, uma das técnicas recomendadas é a análise de sentimentos, que consiste em extrair informações de textos a partir de linguagem natural.O objetivo dessa técnica é classificar sentenças, ou um conjunto de sentenças, como positivas ou negativas. Essa classificação é realizada automaticamente e extrai informações subjetivas de textos, criando conhecimento estruturado que pode ser utilizado por um sistema.

Contudo, obter uma grande quantidade de dados em tempo real pode gerar um problema. A dificuldade em termos de capacidade computacional para processar todos estes dados em tempo real. Ao longo dos últimos anos, a principal ferramenta utilizada para processar grandes quantidade de dados em tempo real é o Apache Spark. Em linhas gerais, o Apache Spark é uma estrtutura de código aberto desenvolvida para ser um mecanismo de processamento analítico para aplicações de processamento de dados distribuídos em larga escala e aprendizado de máquina em tempo real, ou seja, para grandes volumes de dados, o chamado Big Data.

<h3 id="id_1-2"> 1.2) Objetivos deste projeto</h3>
Este projeto tem por objetivo, utilizar a API do Twitter para obter tweets em tempo real de um determinado assunto, aplicar técnicas de MapReduce, transformação de dados com o framework Spark e utilizar o MLlib para classificar tweets como sentimento positivo ou negativo.

<h3 id="id_1-3"> 1.3) Metodologia</h3>
O projeto foi dividido em duas principais etapas. A primeira parte do projeto compreende a obtenção de um dataset rotulado contendo sentenças e suas respectivas classificações: 1 ou 0. Sendo 1 para sentimento positivo e 0 para sentimento negativo. O dataset foi obtido do repositório de datasets Kaggle e se trata de um conjunto de dados fornecido por um colaborador da Universidade de Michigan. O dataset se chama <a target="_blank" href="https://www.kaggle.com/datasets/seesea0203/umich-si650-nlp">UMICH SI650 NLP</a>, contém 5662 registros e duas colunas. A primeira para o texto e a segunda para o sentimento.

Após o carregamento dos dados foi realizado o pré-processamento dos dados. Esta é a principal atividade em um projeto baseado em dados. Os dados aqui se tratam de tweets reais e há vários tratamentos que devem ser realizados para garantir a legibilidade dos dados. Foi aplicado a remoção de caracteres especiais, remoção e de pontuação, remoção de stopwords (palavras irrelevantes para o sentido da frase) e a divisão dos dados em listas de palavras para se adequar ao formato de entrada que o modelo espera.

Com os dados limpos e organizados os mesmos foram submetidos ao algoritmo de Machine Learning responsável por fazer a classicação dos tweets e gerar o modelo de classificação. 

Em seguida foi iniciado a segunda parte do projeto, a etapa de coleta dos dados em tempo real do Twitter, tratamento dos tweets e a classificação com o modelo gerado anteriormente. 

A primeira atividade para obter dados do Twitter via API é estabelecar conexão com as respecitivas autenticações: api key, api key secret, access token, access token secret e bearer token. Com as chaves de autenticação foi necessário estabelecer conexão, obter as regras de acesso, deletar as antigas regras de acesso, adicionar as novas regras de acesso, para então realizar a coleta de dados.

Depois de pronto a conexão com a API do Twitter, os dados vêm são coletados por meio do streaming de dados do Spark (SparkStreaming) e salvos em objetos DSTreams. Os dados são então pré-processados e submetidos ao modelo para realizar a classificação. A coleta de dados termina após o tempo estabelicido pelo usuário ou então após a interrupção da conexão.

---

<h2 id="id_2"> 2) Parte 1 - Criação do modelo</h2>

<h3 id="id_2-1"> 2.1) Importação das bibliotecas</h3>

In [1]:
# Módulos usados
from pyspark.streaming import StreamingContext
from pyspark import SparkContext

from requests_oauthlib import OAuth1Session
from operator import add
import requests_oauthlib
from time import gmtime, strftime
import requests
import time
import string
import ast
import json
#import re

# Pacote NLTK
import nltk
from nltk.classify import NaiveBayesClassifier
from nltk.sentiment import SentimentAnalyzer
from nltk.corpus import subjectivity, stopwords
from nltk.sentiment.util import *

In [2]:
# Frequência de update
INTERVALO_BATCH = 10

In [3]:
# Criando o StreamingContext
ssc = StreamingContext(sc, INTERVALO_BATCH)

In [4]:
# Spark Session - usada quando se trabalha com Dataframes no Spark
spSession = SparkSession.builder.master("local").appName("tw-session").config("spark.some.config.option", "session").getOrCreate()

<h3 id="id_2-2"> 2.2) Obtendo os dados de treino</h3>

Uma parte essencial da criação de um algoritmo de análise de sentimento (ou qualquer algoritmo de mineração de dados) é ter um conjunto de dados abrangente ou "Corpus" para o aprendizado, bem como um conjunto de dados de teste para garantir que a precisão do seu algoritmo atende aos padrões que você espera. Isso também permitirá que você ajuste o seu algoritmo a fim de deduzir melhores (ou mais precisas) características de linguagem natural que você poderia extrair do texto e que vão contribuir para a classificação de sentimento, em vez de usar uma abordagem genérica. Tomaremos como base o dataset de treino fornecido pela Universidade de Michigan, para competições do Kaggle <a target="_blank" href="https://www.kaggle.com/datasets/seesea0203/umich-si650-nlp">UMICH SI650 NLP</a>.

Cada linha do Dataset é marcada como:
* **1**: para o sentimento positivo 
* **0**: para o sentimento negativo 

In [5]:
# Lendo o arquivo texto e criando um RDD em memória com Spark
rdd = sc.textFile("data/train.csv")

In [6]:
# Removendo o cabeçalho do arquivo
header = rdd.first()
rdd_body = rdd.filter(lambda x: header not in x)#.map(lambda l: l.split(','))

list_columns = header.replace('.', '_').upper().split(',')
list_columns

['SENTENCE', 'LABEL']

<h3 id="id_2-3"> 2.3) Pré Processamento dos dados</h3>

Agora nós vamos trabalhar para tratar os dados de forma a facilitar e otimizar para que o modelo possa realizar a classificação. O pré-processamento é um conjunto de atividades que envolvem preparação, organização e estruturação dos dados. Trata-se de uma etapa fundamental que precede a realização de análises e predições. Essa etapa é muito importante para reduzir as dimensões do problema e também será determinante para a qualidade final dos dados que serão treinados com o modelo.

In [7]:
# Substituindo as ocorrências de ,0 e ,1 por ;0 e ;1 para que possamos saber exatamente qual é o delimitador das colunas.
rdd_body = rdd_body.map(lambda x: x.replace(',0', ';0')).map(lambda x: x.replace(',1', ';1'))
rdd_body.take(10)

['Ok brokeback mountain is such a horrible movie.;0',
 'Brokeback Mountain was so awesome.;1',
 'friday hung out with kelsie and we went and saw The Da Vinci Code SUCKED!!!!!;0',
 'I am going to start reading the Harry Potter series again because that is one awesome story.;1',
 'Is it just me, or does Harry Potter suck?...;0',
 'The Da Vinci Code sucked big time.;0',
 'I am going to start reading the Harry Potter series again because that is one awesome story.;1',
 'For those who are Harry Potter ignorant, the true villains of this movie are awful creatures called dementors.;0',
 'Harry Potter dragged Draco Malfoy ’ s trousers down past his hips and sucked him into his throat with vigor, making whimpering noises and panting and groaning around the blonds rock-hard, aching cock...;0',
 "So as felicia's mom is cleaning the table, felicia grabs my keys and we dash out like freakin mission impossible.;1"]

In [8]:
# Essa função separa as colunas em cada linha, cria uma tupla e remove a pontuação.
def get_row(line):
    row = line.split(';') # Separa a linha em duas colunas.
    
    tweet = row[0].strip() # Coluna 1 para o texto.
    sentimento = int(re.sub('[^\d]+', '', row[1])) # Coluna 2 para o dígito corresponde a classificação.
    
    translator = str.maketrans({key: None for key in string.punctuation}) # Remove pontuação
    tweet = tweet.translate(translator)
    tweet = tweet.split(' ') # Separa a frase em lista de palavras
    tweet_lower = []
    for word in tweet:
        tweet_lower.append(word.lower()) # Converte todas as palavras para lowercase.
    return (tweet_lower, sentimento) # Retorna uma tupla com a lista de palavras e com o sentimento.

In [9]:
# Aplica a função para cada linha do dataset
dataset_treino = rdd_body.map(lambda line: get_row(line))

In [10]:
# Exibindo dois registros
dataset_treino.take(2)

[(['ok', 'brokeback', 'mountain', 'is', 'such', 'a', 'horrible', 'movie'], 0),
 (['brokeback', 'mountain', 'was', 'so', 'awesome'], 1)]

<h3 id="id_2-4"> 2.4) Modelagem</h3>

Agora que passamos pela etapa de pré-processamento, podemos entrar na modelagem propriamente dita.  Com os dados prontos, finalmente podemos escolher o modelo que iremos aplicar em nossos dados. Para a identificação do sentimento, iremos utilizar uma biblioteca pré-construída da biblioteca NLTK que pontia os dados de texto com base no sentimento.

In [11]:
# Cria um objeto SentimentAnalyzer 
sentiment_analyzer = SentimentAnalyzer()

<h4 id="id_2-4-1">2.4.1) Obtendo a lista de Stopwords</h4>

Stopwords são palavras comuns que normalmente não contribuem para o significado de uma frase, pelo menos com relação ao propósito da informação e do processamento da linguagem natural. São palavras como "The" e "a" ((em inglês) ou "O/A" e "Um/Uma" ((em português). Muitos mecanismos de busca filtram estas palavras (stopwords), como forma de economizar espaço em seus índices de pesquisa.

In [12]:
# Obtém a lista de stopwords em Inglês 
stopwords_all = []
for word in stopwords.words('english'):
    stopwords_all.append(word)
    stopwords_all.append(word + '_NEG')

In [13]:
# Obtém 10.000 tweets do dataset de treino e retorna todas as palavras que não são stopwords
dataset_treino_amostra = dataset_treino.take(10000)

In [14]:
all_words_neg = sentiment_analyzer.all_words([mark_negation(doc) for doc in dataset_treino_amostra])
all_words_neg_nostops = [x for x in all_words_neg if x not in stopwords_all]

In [20]:
# Cria um unigram e extrai as features
unigram_feats = sentiment_analyzer.unigram_word_feats(all_words_neg_nostops, top_n = 200)
sentiment_analyzer.add_feat_extractor(extract_unigram_feats, unigrams = unigram_feats)
training_set = sentiment_analyzer.apply_features(dataset_treino_amostra)

In [21]:
type(training_set)

nltk.collections.LazyMap

<h4 id="id_2-4-2">2.4.2) Treinamento do modelo</h4>

In [22]:
# Treinar o modelo
trainer = NaiveBayesClassifier.train
classifier = sentiment_analyzer.train(trainer, training_set)

Training classifier


<h4 id="id_2-4-3">2.4.3) Testando o modelo</h4>

In [29]:
# Testa o classificador em algumas sentenças
test_sentence1 = [(['this', 'program', 'is', 'amazing'], '')]
test_sentence2 = [(['tough', 'day', 'at', 'work', 'today'], '')]
test_sentence3 = [(['good', 'wonderful', 'amazing', 'awesome'], '')]
test_set1 = sentiment_analyzer.apply_features(test_sentence1)
test_set2 = sentiment_analyzer.apply_features(test_sentence2)
test_set3 = sentiment_analyzer.apply_features(test_sentence3)

In [31]:
classifier.classify(test_set1[0][0])

1

---

<h2 id="id_3"> 3) Parte 2 - Coleta de dados do Twitter para Classificação</h2>

Nesta etapa iremos realizar a coleta dos dados do Twitter em tempo real. Há várias etapas que devemos seguir para conseguir obter os dados. 

Como pré-requisito básico, você precisa ter uma conta de desenvolvedorno Twitter. Daí então criar uma app e gerar as chaves de autenticação: api key, api key secret, access token, access token secret  e bearer token.

Com as chaves em mãos, é necessário realizar a etapa de autenticação com os métodos de autentication. Em seguida, devemos obter as regras antigas de pesquisa (caso você já tenha contectado antes), excluí-las e então definir as novas regras de pesquisa.


> NOTA: Este notebook funciona de maneira independente. Diferentemente dos exemplos que eu usei no tutorial sobre como utilizar o Spark Streaming via Socket, este notebook não necessita do app `tweets-listener.py` para ser executado.

In [32]:
import requests
import configparser
import tweepy
from tweepy import OAuthHandler
from tweepy import Stream
import socket
import json
import re
import time

# Nestas configs estão as chaves da api do Twiterr
# Você vai encontrar um arquivo chamado config_template.ini no diretório conf. renomeie para config.ini e insira suas credenciais do Twitter
config = configparser.ConfigParser()
config.read('conf/config.ini')

['conf/config.ini']

<h3 id="id_3-1"> 3.1) Obtendo chaves de autentifação e Definindo regras de pesquisa</h3>

In [36]:
# Obtendo as credenciais
api_key = config['twitter']['api_key']
api_key_secret = config['twitter']['api_key_secret']
access_token = config['twitter']['access_token']
access_token_secret = config['twitter']['access_token_secret']

bearer_token = r'AAAAAAAAAAAAAAAAAAAAAHY5hgEAAAAA2FSk9Qi3r1OKDdlXRzhkzox9InI%3DR3U3eL0OI5G8ka9GO1OlXtrZnvfuktbrEJozzVwPz1LssHYWcG'

In [37]:
# Autenticação utilizando o Bearer Token
def bearer_oauth(r):
    """
    Method required by bearer token authentication.
    """

    r.headers["Authorization"] = f"Bearer {bearer_token}"
    r.headers["User-Agent"] = "v2FilteredStreamPython"
    return r

In [38]:
def get_set_rules():
    print('Getting rules...') # Obtendo regras atuais
    response = requests.get("https://api.twitter.com/2/tweets/search/stream/rules", auth=bearer_oauth)
    print(json.dumps(response.json()))
    rules = response.json()
    print(f'Status {response.status_code}')
    
    #########################################################################
    print('\nDeleting all rules...') # Deletando todas as regras
    if rules is None or "data" not in rules:
        return None

    ids = list(map(lambda rule: rule["id"], rules["data"]))
    payload = {"delete": {"ids": ids}}
    response = requests.post("https://api.twitter.com/2/tweets/search/stream/rules", auth=bearer_oauth, json=payload)
    
    print(json.dumps(response.json()))
    print(f'Status {response.status_code}')
    
    #########################################################################
    print('\nSetting rules...') # Setando as novas regras
    sample_rules = [{'value': 'russia'},{'value': 'war'},{'value': 'putin'}]

    payload = {"add": sample_rules}
    response = requests.post("https://api.twitter.com/2/tweets/search/stream/rules", auth=bearer_oauth, json=payload)
    print(json.dumps(response.json()))
    print(f'Status {response.status_code}')

In [None]:
# Obtendo acesso e conectando a API do Twitter usando credenciais
client = tweepy.Client(bearer_token, api_key, api_key_secret, access_token, access_token_secret)

# Realizando autenticação
auth = tweepy.OAuth1UserHandler(api_key, api_key_secret, access_token, access_token_secret)
api = tweepy.API(auth, wait_on_rate_limit=True)

get_set_rules()

<h3 id="id_3-2"> 3.2) Pré processamento dos Dados</h3>

Foi realizado a autenticação e definido as regras de pesquisas. Agora vamos definir como o nosso sistema vai receber e tratar estes dados. Afinal, os tweets também estarão "poluídos" com stopwords, gírias, hashtags, menções e pontuações. Portanto, devemos tratar da mesma forma que foi tratado anteriormente.


In [None]:
# Criação de uma fila de fluxo
stream = ssc.queueStream([], default = rdd)
type(stream)

In [None]:
# Total de tweets por update
NUM_TWEETS = 1  

In [None]:
# Essa função conecta ao Twitter e retorna um número específico de Tweets (NUM_TWEETS)
def tfunc(t, rdd):
    return rdd.flatMap(lambda x: stream_twitter_data())

def stream_twitter_data():
    # Faz a requisição do tweet na API.
    response = requests.get("https://api.twitter.com/2/tweets/search/stream", auth=bearer_oauth, stream=True)
    # Exibe o status de retorno: 200 e 201 para sucesso.
    print('Status code {}'.format(response.status_code))
    count = 0
    # Faz a iteração para cada linha de tweet obtido.
    # Se a quantidade de registros for maior que a quantidade permitida por update, então retorna os tweets
    for line in response.iter_lines():
        try:
            if count > NUM_TWEETS:
                break
            post = json.loads(line.decode('utf-8'))
            contents = [post['data']['text']]
            count += 1
            yield str(contents)
        except:
            result = False

In [None]:
# Aplica a transformação
stream = stream.transform(tfunc)
type(stream)

In [None]:
coord_stream = stream.map(lambda line: ast.literal_eval(line))
type(coord_stream)

In [None]:
# Essa função classifica os tweets, aplicando as features do modelo criado anteriormente
def classifica_tweet(tweet):
    sentence = [(tweet, '')]
    test_set = sentiment_analyzer.apply_features(sentence)
    print(tweet, classifier.classify(test_set[0][0]))
    return(tweet, classifier.classify(test_set[0][0]))

In [None]:
# Essa função retorna o texto do Twitter
def get_tweet_text(rdd):
    for line in rdd:
        tweet = line.strip()
        translator = str.maketrans({key: None for key in string.punctuation})
        tweet = tweet.translate(translator)
        tweet = tweet.split(' ')
        tweet_lower = []
        for word in tweet:
            tweet_lower.append(word.lower())
    return(classifica_tweet(tweet_lower))

In [None]:
# Cria uma lista vazia para os resultados
resultados = []

In [None]:
# Essa função salva o resultado dos batches de Tweets junto com o timestamp
def output_rdd(rdd):
    global resultados
    pairs = rdd.map(lambda x: (get_tweet_text(x)[1],1))
    counts = pairs.reduceByKey(add)
    output = []
    for count in counts.collect():
        output.append(count)
    result = [time.strftime("%I:%M:%S"), output]
    resultados.append(result)
    print(result)

In [None]:
# A função foreachRDD() aplica uma função a cada RDD to streaming de dados
coord_stream.foreachRDD(lambda t, rdd: output_rdd(rdd))

<h3 id="id_3-3"> 3.3) Coleta e classificação</h3>

Tudo pronto. Agora é só iniciar a coleta e visualizar os resultados sendo classificados em tempo real. Você pode utilizar qualquer uma das duas células seguintes para realizar o inicio da coleta.

In [None]:
# Inicia a listen
ssc.start()

# Aguarda a interrupção ou o tempo definido em segudos. (120s) por exemplo.
ssc.awaitTerminationOrTimeout(120) 

# Para o listen
ssc.stop()

In [None]:
# Enquanto a quantidade de resultados obtidos for menor ou igual a quantidade definida, 
# então coleta e classifica os tweets, salvando na lista de resultados.

cont = True
while cont:
    if len(resultados) > 5:
        cont = False

---

<h2 id="id_4"> 4) Considerações finais</h2>

Este projeto se propôs a realização de um classificador de sentimentos em tempo real relativamente simples utilizando um dos veículos de obter opiniões sobre qualquer assunto, que é o Twitter. Utilizamos o principal framework para análise de Big Data, o Apache Spark, que não é dos frameworks mais simples de se aprender, mas é extremamente poderoso e escalável, e é sem dúvidas uma ferramenta muito importe para compor a carteira de conhecimento dos cientistas de dados.

Projetos desse tipo são valiosíssimos para as organizações e empresas. Citando alguns exemplos de aplicação prática:
* Obter opiniões sobre determinado assunto de interesse da empresa;
* Entender o sentimento das pessoas quanto a um produto X;
* Estudar o comportamento das pessoas frente a um evento como por exemplo: as eleições política;


**Agradecimentos**

Para quem chegou até aqui, muito obrigado por acompanhar este conteúdo. Me coloco a disposição para esclarecer eventuais dúvidas. Segue o contato das minhas redes:

* Email: **<a target="_blank" href="mailto:krupck@outlook.com">krupck@outlook.com</a>**
* Linkedin: **<a target="_blank" href="https://www.linkedin.com/in/henrique-krupck/">henrique-krupck</a>**


At.te,

Henrique K.


# Fim