# Exercício:

Analisar os tópicos nos tweets de Bolsonaro de agosto/2017 a agosto/2018.

```

https://raw.githubusercontent.com/ufrpe-ensino/curso-mineracao-textos/master/data/bolsonaro.csv

```

Quais os principais tópicos? Houve mudança ao longo do tempo?

In [41]:
#Capitura de dados

import numpy as np
import pandas as pd
from urllib.request import Request, urlopen
from io import StringIO
import csv

  
try:
    data = urlopen('https://raw.githubusercontent.com/ufrpe-ensino/curso-mineracao-textos/master/data/bolsonaro.csv').read().decode('ascii','ignore')
except HTTPError as e:
    print(e)
    
except URLError as e:
    print(e)
    
else:
    print('OK')
    
try:
    dataFile = StringIO(data)  
    df = pd.read_csv(dataFile)
except AttributeError as e:
    print(e)

#Linhas e colunas
print(df.shape)

#Checando o tipo das colunas
print(df.dtypes)

#DataFrame
df

OK
(1741, 2)
data     object
tweet    object
dtype: object


Unnamed: 0,data,tweet
0,2017-08-01,venezuela esta sendo destruida pelo socialismo...
1,2017-08-01,quem pariu poa voz do pt paulo henrique amorim...
2,2017-08-01,toddynho pro moleque
3,2017-08-01,a apagou mas temos o
4,2017-08-01,falamos de agronegocio e n de grafeno e no mai...
...,...,...
1736,2018-08-16,os rumos da educacao no brasil precisam mudar ...
1737,2018-08-16,o psdb mais que nunca se unindo ao a narrativa...
1738,2018-08-16,o jogo de caas que a imprensa persegue mente e...
1739,2018-08-16,conhecam a verdadeira wal de mambucaba angra dos


In [42]:
# DataSet possui 1741 linhas e 2 colunas. Vamos analisar agora os dados 
import hashedindex
index = hashedindex.HashedIndex()

for val in df.index:
    index.add_term_occurrence(df['data'][val], df['tweet'][val])
    
index.items()
index.get_documents('2017-12-14')

Counter({'obrigado pela recepcao seguindo para agenda de compromissos': 1,
         'tudo em nome do globalismo e foro de sao desde denuncio interesse do governo em impoar bananas isso mesmo bananas do': 1,
         'as bananas do equador nao sao uma piada e nao tem nada a ver com fim do livre mercado como tentam induzir os que': 1,
         'uma entrevista sem igual pelo tema e seriedade do peco assistir e': 1,
         'indulto de natal e outros tais atitudes concedidas por uma canetada pelo presidente da repblica coloca milhares de bandidos novamente nas ruas extinguindo suas penas para aterrorizarem novamente os isso tem que': 1,
         'dia e de dezembro jair bolsonaro em manaus e manacapuru': 1})

In [47]:
#Analisando com TopicModeling

from sklearn.decomposition import LatentDirichletAllocation, TruncatedSVD
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import GridSearchCV

vectorizer = CountVectorizer(analyzer='word',
                             min_df=10,                        # Mínimo de ocorrências da palavra
                             lowercase=True,                   # converte para lowercase
                             token_pattern='[a-zA-Z0-9]{4,}',  # palavras com pelo menos 3 caracteres
                             # max_features=50000,             # número máximo de palavras
                            )

# convertendo a coluna 'tweet' para string
df['tweet'] = df['tweet'].astype(str)

tokens_cv = vectorizer.fit_transform(df['tweet'])
tokens_cv

<1741x231 sparse matrix of type '<class 'numpy.int64'>'
	with 5957 stored elements in Compressed Sparse Row format>

In [49]:
# Build LDA Model
lda_model = LatentDirichletAllocation(n_components=10,           # Número de tópicos
                                      max_iter=10,               # Número de interações
                                      learning_method='online',
                                      random_state=100,          
                                      batch_size=128,            
                                      evaluate_every = -1,       
                                      n_jobs = -1,               # Número de CPUs
                                     )
lda_output = lda_model.fit_transform(tokens_cv)

In [50]:
import numpy as np

def mostrar_topicos(vectorizer=vectorizer, lda_model='', n_words=20):
    keywords = np.array(vectorizer.get_feature_names())
    topic_keywords = []
    for topic_weights in lda_model.components_:
        top_keyword_locs = (-topic_weights).argsort()[:n_words]
        topic_keywords.append(keywords.take(top_keyword_locs))
    return topic_keywords

topic_keywords = mostrar_topicos(vectorizer=vectorizer, lda_model=lda_model, n_words=15)

# Topic - Keywords Dataframe
df_topic_keywords = pd.DataFrame(topic_keywords)
df_topic_keywords.columns = ['Palavra '+str(i) for i in range(df_topic_keywords.shape[1])]
df_topic_keywords.index = ['Tópico '+str(i) for i in range(df_topic_keywords.shape[0])]
df_topic_keywords

Unnamed: 0,Palavra 0,Palavra 1,Palavra 2,Palavra 3,Palavra 4,Palavra 5,Palavra 6,Palavra 7,Palavra 8,Palavra 9,Palavra 10,Palavra 11,Palavra 12,Palavra 13,Palavra 14
Tópico 0,nossa,sera,midia,porque,temos,nome,ainda,nossas,nossos,controle,esta,anos,temas,paido,lado
Tópico 1,pela,abraco,grande,brasil,obrigado,consideracao,mais,eleicoes,grato,esta,pouco,nesta,brasileiros,voces,valeu
Tópico 2,mais,sobre,entrevista,pesquisa,amor,cada,pessoas,direita,menos,caso,alguns,psdb,campanha,favor,ninguem
Tópico 3,como,parabens,mais,esta,quando,pelo,liberdade,todos,apoio,noite,estao,folha,outros,muitos,meus
Tópico 4,esquerda,agora,para,tudo,globo,suas,essa,governo,seus,sobre,chegada,estado,entre,aeropoo,assista
Tópico 5,contra,pode,corrupcao,qualquer,apos,melhor,general,este,revista,canalhas,video,jornal,democracia,crime,nacional
Tópico 6,para,todos,obrigado,hoje,muito,nosso,brasil,deus,todo,voto,politica,pais,pelo,trabalho,seguranca
Tópico 7,bolsonaro,jair,fala,lula,canal,youtube,eles,coreia,ponto,unidos,temer,estados,fosse,deputado,economia
Tópico 8,sempre,brasil,mesmo,para,vamos,sistema,presidente,tambem,quer,como,sendo,militar,mudar,enquanto,mulheres
Tópico 9,quem,paulo,isso,para,imprensa,voce,verdade,nosso,poder,povo,esta,foro,esse,futuro,plano


In [None]:
# Preprocessamento
'''Tokenização utilizando o [TweetTokenizer](https://www.nltk.org/api/nltk.tokenize.html) do NLTK. 
Tratamento diferenciado de smileys:
'''

In [51]:
df.iloc[147]['tweet']

'um alea para o brasil pae'

In [52]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/anderson/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [54]:
nltk.word_tokenize(df.iloc[147]['tweet'])

['um', 'alea', 'para', 'o', 'brasil', 'pae']

In [56]:
from nltk.tokenize import TweetTokenizer

tweet_tokenizer = TweetTokenizer(strip_handles=False,  # remover 'mentions'
                                 preserve_case=False)
tweet_tokenizer.tokenize(df.iloc[147]['tweet'])

['um', 'alea', 'para', 'o', 'brasil', 'pae']

In [57]:
import re
from nltk.tokenize import TweetTokenizer
tt = TweetTokenizer(strip_handles=True, 
                    reduce_len=True, 
                    preserve_case=False)
def preprocessamento(text, join=True):
    #remove links, pontos, virgulas,ponto e virgulas dos tweets
    #coloca tudo em minusculo
    text = re.sub(r"http\S+", "", text).lower().replace(',','').replace('.','').replace(';','').replace('-','').replace(':','')
    if join:
      text = ' '.join(tt.tokenize(text))
    else:
      text = tt.tokenize(text)
    return text

tokens_nltk = vectorizer.fit_transform(df['tweet'].apply(preprocessamento))
tokens_nltk

<1741x231 sparse matrix of type '<class 'numpy.int64'>'
	with 5957 stored elements in Compressed Sparse Row format>

In [58]:
lda_output = lda_model.fit_transform(tokens_nltk)

topic_keywords = mostrar_topicos(vectorizer=vectorizer, lda_model=lda_model, n_words=15)

# Topic - Keywords Dataframe
df_topic_keywords = pd.DataFrame(topic_keywords)
df_topic_keywords.columns = ['Palavra '+str(i) for i in range(df_topic_keywords.shape[1])]
df_topic_keywords.index = ['Tópico '+str(i) for i in range(df_topic_keywords.shape[0])]
df_topic_keywords

Unnamed: 0,Palavra 0,Palavra 1,Palavra 2,Palavra 3,Palavra 4,Palavra 5,Palavra 6,Palavra 7,Palavra 8,Palavra 9,Palavra 10,Palavra 11,Palavra 12,Palavra 13,Palavra 14
Tópico 0,nossa,sera,midia,porque,temos,nome,ainda,nossas,nossos,controle,esta,anos,temas,paido,lado
Tópico 1,pela,abraco,grande,brasil,obrigado,consideracao,mais,eleicoes,grato,esta,pouco,nesta,brasileiros,voces,valeu
Tópico 2,mais,sobre,entrevista,pesquisa,amor,cada,pessoas,direita,menos,caso,alguns,psdb,campanha,favor,ninguem
Tópico 3,como,parabens,mais,esta,quando,pelo,liberdade,todos,apoio,noite,estao,folha,outros,muitos,meus
Tópico 4,esquerda,agora,para,tudo,globo,suas,essa,governo,seus,sobre,chegada,estado,entre,aeropoo,assista
Tópico 5,contra,pode,corrupcao,qualquer,apos,melhor,general,este,revista,canalhas,video,jornal,democracia,crime,nacional
Tópico 6,para,todos,obrigado,hoje,muito,nosso,brasil,deus,todo,voto,politica,pais,pelo,trabalho,seguranca
Tópico 7,bolsonaro,jair,fala,lula,canal,youtube,eles,coreia,ponto,unidos,temer,estados,fosse,deputado,economia
Tópico 8,sempre,brasil,mesmo,para,vamos,sistema,presidente,tambem,quer,como,sendo,militar,mudar,enquanto,mulheres
Tópico 9,quem,paulo,isso,para,imprensa,voce,verdade,nosso,poder,povo,esta,foro,esse,futuro,plano


In [59]:
'''Visualizando com o pyLDAvis'''

'Visualizando com o pyLDAvis'

In [60]:
!pip install pyLDAvis



In [61]:
import pyLDAvis.sklearn
import pyLDAvis
import matplotlib.pyplot as plt
#%matplotlib inline

pyLDAvis.enable_notebook()
panel = pyLDAvis.sklearn.prepare(lda_model, 
                                 tokens_nltk, 
                                 vectorizer, 
                                 mds='tsne', 
                                 sort_topics=False)
panel

In [62]:
'''Salvando como HTML'''

'Salvando como HTML'

In [63]:
pyLDAvis.save_html(panel, 'LDA.html')

In [64]:
#Gensim

from gensim.corpora import Dictionary
from gensim.models import Phrases

docs = df['tweet'].apply(lambda x: preprocessamento(x, join=False)).values

# Add bigrams and trigrams to docs (only ones that appear 20 times or more).
bigram = Phrases(docs, min_count=20)
for idx in range(len(docs)):
    for token in bigram[docs[idx]]:
        if '_' in token:
            # Token is a bigram, add to document.
            docs[idx].append(token)

# Create a dictionary representation of the documents.
# docs = [' '.join(tokens) for tokens in tokens_nltk]
dictionary = Dictionary(docs)

# Filter out words that occur less than 20 documents, or more than 50% of the documents.
dictionary.filter_extremes(no_below=20, no_above=0.5)

# Bag-of-words representation of the documents.
corpus = [dictionary.doc2bow(doc) for doc in docs]

print('Number of unique tokens: %d' % len(dictionary))
print('Number of documents: %d' % len(corpus))

scipy.sparse.sparsetools is a private module for scipy.sparse, and should not be used.
  _deprecated()


Number of unique tokens: 157
Number of documents: 1741


In [65]:
# Train LDA model.
from gensim.models import LdaModel

# Set training parameters.
num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None  # Don't evaluate model perplexity, takes too much time.

# Make a index to word dictionary.
temp = dictionary[0]  # This is only to "load" the dictionary.
id2word = dictionary.id2token

model = LdaModel(
    corpus=corpus,
    id2word=id2word,
    chunksize=chunksize,
    alpha='auto',
    eta='auto',
    iterations=iterations,
    num_topics=num_topics,
    passes=passes,
    eval_every=eval_every
)

In [66]:
model.show_topics()

[(0,
  '0.116*"e" + 0.087*"na" + 0.081*"jair" + 0.074*"bolsonaro" + 0.059*"a" + 0.047*"jair_bolsonaro" + 0.043*"com" + 0.042*"da" + 0.041*"por" + 0.041*"entrevista"'),
 (1,
  '0.108*"um" + 0.098*"obrigado" + 0.078*"abraco" + 0.075*"pela" + 0.039*"grande" + 0.038*"e" + 0.038*"a" + 0.033*"um_abraco" + 0.032*"de" + 0.031*"todos"'),
 (2,
  '0.133*"que" + 0.084*"de" + 0.055*"ou" + 0.045*"em" + 0.044*"sera" + 0.037*"no" + 0.033*"o" + 0.031*"nao" + 0.030*"ate" + 0.026*"os"'),
 (3,
  '0.148*"do" + 0.095*"de" + 0.068*"para" + 0.066*"o" + 0.055*"e" + 0.053*"a" + 0.049*"sobre" + 0.033*"bolsonaro" + 0.030*"na" + 0.024*"nao"'),
 (4,
  '0.208*"o" + 0.069*"que" + 0.062*"e" + 0.052*"brasil" + 0.034*"de" + 0.030*"do" + 0.027*"da" + 0.027*"no" + 0.023*"a" + 0.021*"nao"'),
 (5,
  '0.143*"e" + 0.080*"a" + 0.066*"que" + 0.066*"nao" + 0.055*"de" + 0.050*"o" + 0.031*"bolsonaro" + 0.029*"se" + 0.024*"para" + 0.021*"da"'),
 (6,
  '0.103*"no" + 0.099*"de" + 0.079*"com" + 0.072*"em" + 0.066*"a" + 0.049*"todos" +

In [67]:
import pyLDAvis.gensim

panel = pyLDAvis.gensim.prepare(model, corpus, dictionary)
panel