# Modelagem de tópicos em textos através do Latent Dirichlet Allocation (LDA) aplicação em python 


## imports 

In [2]:
import pandas as pd
import numpy as np
import altair as alt
from sklearn.feature_extraction.text import CountVectorizer
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

import re
from time import time

[nltk_data] Downloading package stopwords to /home/renato/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Dados


   Os dados utilizados serão alguns tweets retirado do em alta no Brasil.

In [4]:
df = pd.read_csv('tweets_para_teste.csv')
df = df.drop(columns=['language'])
df.head()

Unnamed: 0.1,Unnamed: 0,ID,USUARIO,TWEET,DATA_TWEET
0,6,556,Thayna18900373,RT @lohlovesot7: olha eu digo sem medo de erra...,2020-08-25 12:23:15
1,7,557,naturegyu,RT @Tdetravesti: MAIS DE 12 MIL MÁSCARAS!!! \n...,2020-08-25 12:22:59
2,9,559,nathaliaspss,RT @TatiNefertari: A Casa Nem é um espaço de a...,2020-08-25 12:21:21
3,10,560,ivansearom,RT @pabllovittar: #CASANEMCASAVIVA não dá pra...,2020-08-25 12:16:56
4,11,562,lonelybkwolf,RT @pabllovittar: #CASANEMCASAVIVA não dá pra...,2020-08-25 12:15:43


## Pré processamento

In [3]:
stop_words = set(stopwords.words("portuguese"))
stop_words.update(['que', 'até', 'esse', 
                    'essa', 'pro', 'pra',
                    'oi', 'lá', 'blá', 'bb', 
                    'bbm', 'abm', 'cbm', 
                    'dbm', 'dos', 
                    'ltda', 'editora'])
clean_tweets = []
for w in range(len(df.TWEET)):
  tweet = df['TWEET'].iloc[w]

  # remove special characters and digits
  tweet = ' '.join(i for i in tweet.split() if '@' not in i and 'https' not in i)
  tweet  = re.sub("(\\d|\\W)+|\w*\d\w*"," ",tweet )
  tweet = ' '.join(s for s in tweet.split() if (not any(c.isdigit() for c in s)) and len(s) > 2)
  clean_tweets.append(tweet)
#print(clean_tweets)
clean_tweets[100:200]

#remover colunas repetidas
#procurar exemplos de limpesa de dados mais eficientes, com tweets

['São todos bundões mesmo Jornalista que mente distorce esconde inventa nega verdade nem caráter tem Chama',
 'Por tudo que imprensa faz dias com Presidente Bolsonaro chama los BUNDÕES ele está sendo muito genero',
 'sempre trataram todos jornalistas com muita atenção carinho Foram barbaramente injustiçado',
 'Enquanto estamos dando porrada globo nos blogueiros bundões Maia Alcolumbre estão articulando com STF reeleiç',
 'fala vírus vira seu aliado contra jornalistas bundoes Art Código Penal pune quem',
 'NOME DELE ERA JACOB BLACK UMA PETIÇÃO ESTÁ ROLANDO SOBRE ESSE CASO PETIÇÃO PARA ACUSAR POLICIAIS ASSINEM COMPARTIL',
 'felix cropped seungmin quase matando com essa roupa blue hair jeongin topete vermelho chan seungmin bla',
 'chama arena corinthians itaquerão tremendo filho puta',
 'BOMBA Verdadeiro dono Itaquerão Guarani Paraguai não aprova valores trava acordo naming rights',
 'Nome oficial Itaquerão Odebrecht',
 'Eles têm prazer falar Itaquerão porque são maquiavélicos odiosos pej

### LDA funciona baseado em frequências de palavras, então usaremos TFs, e não TF-IDFs.

In [4]:
# COUNT vectorizer
tf_vectorizer = CountVectorizer(
        min_df = 30,
        max_df = 0.5,
        max_features = 10000,
        stop_words = stop_words, 
        ngram_range = (1,2)
  )

#transform
vec_text = tf_vectorizer.fit_transform(clean_tweets)

#returns a list of words.
words = tf_vectorizer.get_feature_names()

print(vec_text.shape)
print(len(words))

(5397, 247)
247


Encontrando tópicos
O resultado terá

uma matriz que descreve a relação entre palavras e tópicos
uma matriz que descreve a relação entre documentos e tópicos
Existe uma outra implementação de LDA popular em python chamada Gensim.

In [5]:
from sklearn.decomposition import LatentDirichletAllocation

In [6]:
def print_top_words(model, feature_names, n_top_words):
  for topic_idx, topic in enumerate(model.components_):
    print("\n--\nTopic #{}: ".format(topic_idx + 1))
    message = ", ".join([feature_names[i]
                          for i in topic.argsort()[:-n_top_words - 1:-1]])
    print(message)
  print()

def display_topics(W, H, feature_names, documents, no_top_words, no_top_documents):
    for topic_idx, topic in enumerate(H):
        print("\n--\nTopic #{}: ".format(topic_idx + 1))
        print(", ".join([feature_names[i]
                for i in topic.argsort()[:-no_top_words - 1:-1]]).upper())
        top_d_idx = np.argsort(W[:,topic_idx])[::-1][0:no_top_documents]
        for d in top_d_idx: 
          doc_data = df[['USUARIO', 'TWEET']].iloc[d]
          print('{} - {} : \t{:.2f}'.format(doc_data[0], doc_data[1], W[d, topic_idx]))

In [7]:
lda = LatentDirichletAllocation(n_components=15, 
                                learning_method='online', # 'online' equivale a minibatch no k-means
                                random_state=0)

t0 = time()

lda.fit(vec_text)
doc_topic_matrix = lda.transform(vec_text)

print("done in %0.3fs." % (time() - t0))

done in 7.043s.


In [8]:
print('Matriz documento-tópicos:' + str(doc_topic_matrix.shape))
print('Matriz tópicos-termos:' + str(lda.components_.shape))

Matriz documento-tópicos:(5397, 15)
Matriz tópicos-termos:(15, 247)


In [9]:
display_topics(doc_topic_matrix,
               lda.components_, 
               words,
               df,
               15, 
               10)


--
Topic #1: 
VITÃO, BIEL, NOME, POZE, COISA, SONZA, VITAO, DOIS, LUÍSA, MENOS, SEXTOU, LUISA, CARALHO, FELIZ, LUCHO
dangerouxswift - RT @SeriesBrasil: se Biel está feliz, eu estou triste
se Biel está de um lado, automaticamente estou de outro #AFazenda12 : 	0.77
dream76526491 - RT @foquinha: CHAMOU O MION DE BIAL AO VIVO DEPOIS DE CHAMAR O BIEL DE BABACA HAHAHAHBAHAHAAHHAHAHAHAHAHAHHAHA OLHA LUISA O PRÊMIO É TEU : 	0.69
Guiribeiroff - vitao e Castanhari
os dois a 80 km/h
quem pega mais casadas? : 	0.69
mecpee - RT @bruletx: dois homens q foram abusivos e doentes... O certo seria os dois morrerem e pronto e venha final alternativo está em tuas mãos… : 	0.69
KidCubatao2 - @igorvalois @ambberwanger Foram dois graves problemas, um recorrente. Muriel falhou nos dois gols. Egídio não acert… https://t.co/GoHv6v2Mtd : 	0.69
Alecrim_dourads - RT @cadamasc: Luísa Sonza saiu de um feio talentoso para um feio sem talento.

Voltou duas casas. : 	0.69
Dantas_RD0 - RT @badgaldorinha: Quem traiu? Ca

wisertomlinson - RT @feeIsmary: O homem negro foi separar uma briga de duas mulheres e quando foi voltar pro carro a polícia simplesmente atirou 7 vezes nel… : 	0.77
benny__blacks - RT @iconzayn: O homem negro foi separar uma briga de duas mulheres e quando foi voltar pro carro a polícia simplesmente atirou 7 vezes nele… : 	0.77
amtljf - #GloboLixo
Estamos diante de uma tremenda FAKE NEWS explorada por todos a favor do inquérito das fake news que é a… https://t.co/NSxkbhchuE : 	0.76
envyusz - RT @Itspedrito: “vou tomar um banho...lavar essa tcheca”

JOJO TODDYNHO 3 MESES LÁ DENTRO POR FAVOR #ProvaDoFazendeiro 

 https://t.co/9e62… : 	0.69
wL_TorresJr_3 - RT @Guipolemico: Maldito é o homem que confia em outro homem : 	0.69
Jhu_Rodrigues07 - RT @Tigre_louco22: Maldito é o homem que confia em outro homem : 	0.69
maysks - RT @ggukmulan: ATIRAR EM ALGUÉM PELAS COSTAS &gt;SETE VEZES&lt; NÃO É AUTO-DEFESA. É ASSASSINATO! 

#JusticeForJacobBlake #BlackLivesMatter https… : 	0.69
Diogo__Vieira -

Anta calada, do que um… https://t.co/VP7m9NAsPl : 	0.84
mathfreireb - RT @nadanovonofront: Bom dia, bots do Bolsonaro, eu vi que vocês estão sem dormir desde domingo, quando perguntamos ao presidente @jairbols… : 	0.84
Carlosmarinho08 - Bom dia, Hoje é dia de Vasco em! 

#Vasco #DiaDeVasco #Bomdia #Brasileirao2020 https://t.co/6bLHer9Txo : 	0.84
lollamendez_ - RT @natbonavides: Acabo de protocolar no STF denúncia contra Bolsonaro por crime de constrangimento ilegal. Hoje ele ameaçou agredir um jor… : 	0.81
EdinhooSanches - Bom dia de grêmio mas não muito bom : 	0.81
FabricioAF89 - RT @motta13_motta: Bom dia para quem admira a autoestima do bolsominion, que acredita que o Leonardo DiCaprio está atacando o presidente em… : 	0.81
CarlosFurlanet2 - RT @fellipebambam: A blogueira @majucoutinho , do @jornalhoje , MENTIU ao dizer q Bolsonaro não prestou homenagem às vítimas da covid. Hoje… : 	0.77
crisalbu - RT @psol_ricardo: Toffoli sai menor do que entrou na presidência do STF

Bolsonaro am

## Visualizando os tópicos

In [10]:
#!pip install pyLDAvis
import pyLDAvis
import pyLDAvis.sklearn
pyLDAvis.enable_notebook()

In [11]:
pyLDAvis.sklearn.prepare(lda, vec_text, tf_vectorizer, sort_topics=False, mds = 'tsne')