In [None]:
#instalando bibliotecas utilizadas no projeto

pip install pandas --quiet
pip install tweepy --quiet
pip install wordcloud --quiet
pip install nltk --quiet
pip install matplot --quiet

In [None]:
#import de bibliotecas

import re
import nltk
import pandas as pd
import tweepy as tw
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS

In [None]:
# autenticação na api do twitter

with open('bearer-token.txt', 'r') as tokenfile:
    bearer_token = tokenfile.readline().strip('\n')
client = tw.Client(bearer_token)

In [None]:
# buscando tweets na api

# query de busca pelas hashtags
hashtag = "#Eleições2022"
response = client.search_recent_tweets(hashtag, max_results=100)

In [None]:
# atribuindo propriedade data do response a variável
# o data é um objeto com todos os 100 tts que foram retornados
# pela requisição anterior

tts = response.data

In [None]:
# imprimindo tweets (opcional)
print("---------------------------------tts---------------------------------")
for tt in tts: 
    print(tt.text)
    print( )

In [None]:
# agrupar coleção de tweets em dataframes
# somente o atributo text de cada tt é necessário
# para a criação do dataframe

lista_tts = [[tt.text] for tt in tts]
dataframe = pd.DataFrame(lista_tts, columns=['Tweet-DF01'])

In [None]:
# exibir os dataframes (opcional)
pd.options.display.max_colwidth = 130 # tamanho máximo da coluna do dataframe

In [None]:
# exibe os primeiros 5 itens do dataframe
dataframe.head() 

In [None]:
# agrupar tweets em uma única string para criação da wordcloud

tts_string = pd.Series(dataframe['Tweet-DF01'].values).str.cat(sep=' ')# concatenação dos tts separados por espaço

In [None]:
# exibir as strings (opcional)
print("---------------------------------tts_string---------------------------------")
tts_string

In [None]:
# expressao regular para remover links
url_regex = re.compile(r'http\S+', re.I)

# expressao regular para remover números
number_regex = re.compile(r'[0-9]')

# remocao de url's
remove_url_string = url_regex.sub('', tts_string)

# remocao de números
clean_string = number_regex.sub('', remove_url_string)

In [None]:
# exibir as strings sem URL's e números (opcional)
print("---------------------------------clean_string---------------------------------")
clean_string

In [None]:
# remoção de caracteres especiais

caracteres = '#@?!%'

for i in range(len(caracteres)):
    clean_string = clean_string.replace(caracteres[i], "")

In [None]:
# exibir as strings sem os caracteres especiais (opcional)
print("---------------------------------clean_string---------------------------------")
clean_string

In [None]:
# download do pacote de stopwords da biblioteca nltk

nltk.download('stopwords')

In [None]:
# definindo stopwords (palavras a serem excluídas da nuvem de palavras)

# definindo stopwords em português
pt_stopwords = nltk.corpus.stopwords.words('portuguese')

# definindo stopwords identificadas nos tweets
tt_stopwords = ['VEJA', 'pessoal', 'após', 'vc', 'dessa', 'vão', 'compartilhem', 'games', 'irmaospiol', 'irmaospiologo', 'modo', 'preparem', 'através', 'fail', 'xbox', 'pico', 'vcs', 'Leia', 'digam', 'desde', 'chamou',  'sabe', 'deveria', 'euMarinaMamede', 'choquei', 'JTabw', 'dias', 'tá', 'bar', 'vamos', 'faltam', 'falta', 'aí', 'dica', 'todos', 'foto', 'dono', 'todo', 'então', 'menos', 'fabiofcd', 'vídeo', 'cu', 'usar', 'anos', 'juntos', 'bem', 'ei', 'oi', 'dia', 'diz', 'têm', 'UOL', 'RT', 'Eleicoes', 'Eleições', 'rede', 'sexta', 'manhã', 'band', 'globo', 'sobre', 'feira', 'quero', 'diga', 'mês', 'vai', 'lugar', 'pró', 'pra', 'pau', 'quarta', 'gay', 'tudo', 'demais', 'nesta', 'logo', 'tamos', 'vou', 'dois', 'alguém', 'quero', 'queima', 'pro', 'sobre', 'hoje', 'noite', 'vivo', 'ZAP', 'tel']

# definindo stopwords em inglês (presente na biblioteca wordcloud)
cloud_stopwords = set(STOPWORDS)

# concatenando as listas de stopwords
cloud_stopwords.update(pt_stopwords) 
cloud_stopwords.update(tt_stopwords)

In [None]:
# imprimindo lista com todas as stopwords definidas (opcional)
cloud_stopwords

In [None]:
# gerando as wordclouds
wordcloud = WordCloud(stopwords=cloud_stopwords, width=1600, height=800, max_font_size=200, max_words=50, collocations=False, background_color='white').generate(clean_string)
plt.figure(figsize=(40, 30))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()