# Modelagem de tópicos em textos através do Latent Dirichlet Allocation (LDA) aplicação em python 


## imports 

In [1]:
import pandas as pd
import numpy as np
import altair as alt
from sklearn.feature_extraction.text import CountVectorizer
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

import re
from time import time

[nltk_data] Downloading package stopwords to /home/renato/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Dados



In [2]:
df = pd.read_csv('../Dados coletados/Twitter.csv', encoding='utf-8',  lineterminator='\n')

df.head()

ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.


## Pré processamento

In [3]:
def remove_elementos_repetidos(lista):
    nova_lista = []
    for item in lista:
        if item not in nova_lista:
            nova_lista.append(item)
    return nova_lista

# remove special characters and digits
def clean_tweet(tweet):
    # remove os RT
    tweet = re.sub(r'RT+', '', tweet) 
    
    # remove as menções
    tweet = re.sub(r'@\S+', '', tweet)  
    
    # remove links e alguns pontos
    tweet = re.sub(r"http\S+", "", tweet).lower().replace('.','').replace(';','').replace('-','').replace(':','').replace(')','')
    
    # remove alguns caracteres
    tweet  = re.sub("(\\d|\\W)+|\w*\d\w*"," ",tweet )
    tweet = ' '.join(s for s in tweet.split() if (not any(c.isdigit() for c in s)) and len(s) > 2)
    tweet = tweet.replace("\n", "")
    return tweet

In [4]:
stop_words = set(stopwords.words("portuguese"))
stop_words.update(['que', 'até', 'esse', 
                    'essa', 'pro', 'pra',
                    'oi', 'lá', 'blá', 'dos'])
clean_tweets = []
for w in range(len(df.TWEET)):
  tweet = df['TWEET'].iloc[w]
  tweet = clean_tweet(tweet)
    
  clean_tweets.append(tweet)

#remover colunas repetidas
clean_tweets = remove_elementos_repetidos(clean_tweets)
clean_tweets[110:145]



#procurar exemplos de limpesa de dados mais eficientes, com tweets

['casagrande não consegue acertar comentários que faz sobre futebol imagine ele comentando política melhor ele proc',
 'mesmo puto com flamengo você vai postar hoje tem flamengo sim',
 'hoje tem flamengo',
 'hoje tem flamengo cobracoral papagaio vintém vestiu rubronegro não tem pra ninguém',
 'hoje tem mengão libea mais querido enfrenta barcelona guayaquil fora casa pela fase grupos',
 'bom dia nação hoje tem flamengo hoje tem mais querido hoje tem maior torcida mundo vamos flamengo',
 'hoje tem flamengooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo',
 'gravação golden vamos mais clipe iconico',
 'vídeo marcelinho carioca diz que globo usada por desportistas para atacar bolsonaro vários atletas estamos con',
 'marcelinho carioca calado poeta',
 'querido marcelinho carioca para envergonhar fiel',
 'marcelinho carioca diz que globo usada por desportistas para atacar bolsonaro exjogador marcelinho carioca',
 'marcelinho carioca uma

### LDA funciona baseado em frequências de palavras, então usaremos TFs, e não TF-IDFs.

In [5]:
# COUNT vectorizer
tf_vectorizer = CountVectorizer(
        min_df = 30,
        max_df = 0.5,
        max_features = 10000,
        stop_words = stop_words, 
        ngram_range = (1,2)
  )

#transform
vec_text = tf_vectorizer.fit_transform(clean_tweets)

#returns a list of words.
words = tf_vectorizer.get_feature_names()
#print(clean_tweets)
print(vec_text)
print(len(words))

  (0, 380)	1
  (0, 993)	1
  (1, 537)	1
  (1, 560)	1
  (1, 205)	1
  (1, 861)	1
  (2, 30)	1
  (2, 109)	1
  (2, 599)	1
  (2, 1041)	1
  (2, 192)	1
  (2, 1338)	1
  (2, 110)	1
  (3, 109)	1
  (3, 599)	1
  (3, 1041)	1
  (3, 110)	1
  (3, 1194)	1
  (3, 510)	1
  (3, 402)	1
  (3, 0)	1
  (4, 109)	1
  (4, 599)	1
  (4, 1041)	1
  (4, 110)	1
  :	:
  (27247, 1100)	1
  (27247, 792)	1
  (27248, 1577)	1
  (27248, 1486)	1
  (27248, 1315)	1
  (27248, 31)	1
  (27248, 4)	1
  (27248, 1367)	1
  (27249, 1494)	1
  (27249, 1483)	1
  (27249, 1128)	1
  (27249, 1367)	1
  (27250, 237)	1
  (27250, 363)	1
  (27250, 1367)	1
  (27251, 533)	1
  (27251, 1304)	1
  (27251, 961)	1
  (27251, 1485)	1
  (27251, 1367)	1
  (27252, 987)	1
  (27252, 1367)	1
  (27253, 501)	1
  (27253, 93)	1
  (27253, 1266)	1
1611


Encontrando tópicos
O resultado terá

uma matriz que descreve a relação entre palavras e tópicos
uma matriz que descreve a relação entre documentos e tópicos
Existe uma outra implementação de LDA popular em python chamada Gensim.

In [6]:
from sklearn.decomposition import LatentDirichletAllocation

In [7]:
def print_top_words(model, feature_names, n_top_words):
  for topic_idx, topic in enumerate(model.components_):
    print("\n--\nTopic #{}: ".format(topic_idx + 1))
    message = ", ".join([feature_names[i]
                          for i in topic.argsort()[:-n_top_words - 1:-1]])
    print(message)
  print()

def display_topics(W, H, feature_names, documents, no_top_words, no_top_documents):
    for topic_idx, topic in enumerate(H):
        print("\n--\nTopic #{}: ".format(topic_idx + 1))
        print(", ".join([feature_names[i]
                for i in topic.argsort()[:-no_top_words - 1:-1]]).upper())
        top_d_idx = np.argsort(W[:,topic_idx])[::-1][0:no_top_documents]
        for d in top_d_idx: 
          doc_data = df[['USUARIO', 'TWEET']].iloc[d]
          print('{} - {} : \t{:.2f}'.format(doc_data[0], doc_data[1], W[d, topic_idx]))

In [None]:
print(vec_text)

In [8]:
lda = LatentDirichletAllocation(n_components=15, 
                                learning_method='online', # 'online' equivale a minibatch no k-means
                                random_state=0)

t0 = time()

lda.fit(vec_text)
doc_topic_matrix = lda.transform(vec_text)

print("done in %0.3fs." % (time() - t0))

done in 32.018s.


In [9]:
print('Matriz documento-tópicos:' + str(doc_topic_matrix.shape))
print('Matriz tópicos-termos:' + str(lda.components_.shape))

Matriz documento-tópicos:(27254, 15)
Matriz tópicos-termos:(15, 1611)


In [10]:
display_topics(doc_topic_matrix,
               lda.components_, 
               words,
               df,
               15, 
               10)


--
Topic #1: 
TODOS, VASCO, TAVA, BOTAFOGO, CORINTHIANS, FELIZ, DESSA, ALLAN, FLUMINENSE, NESSA, SANTOS, ESTAR, DIAS, JOGOS, MULHER
Iriisdias - RT @nctwhere: 26 de julho o jaehyun tava com o cabelo neon rosa, e foi nessa época que estavam nas gravações do yearparty!!!! 

#NCT2020_YE… : 	0.81
zabdicasacomigo - RT @QuebrandoOTabu: Todos os dias mulheres são abusadas e não denunciam o agressor, pelos mais diversos fatores. E mesmo quando a mulher de… : 	0.81
GuiBtrReal - @SCInternacional fora jussa e fora ze Gabriel. Coudet tbm ñ dá : 	0.77
eduguim - David Miranda denuncia ministro da Educação por homofobia https://t.co/KJcfxBYdAm https://t.co/wMZeSi5r6w : 	0.77
DisfarceDoBilll - @davincdavi Puta mano foda essa comparação..
O impacto deles no mundo é totalmente o oposto. Apesar das bobice do f… https://t.co/C1hQs9k66R : 	0.77
SSAKREZ - o Felipe Neto é muito burro cara porque como pode eu não entendo https://t.co/sZksrUdAJI : 	0.77
digoio_ - @yure_lp @INTZ @LegacyOCE mano 1º game lucian f

fourfivewalls - RT @badgalmafe: essa situação foi tão besta, óbvio que a lidi não ia comer a comida de alguém que não tem intimidade, inclusive ia ser muit… : 	0.77
Mlchaa - RT @wyxwebber: # ─ nem fodendo que eu esperei 22 anos pra isso...

#osnfselfieday https://t.co/yJIiligv7h : 	0.77
leticiiatbr - RT @isabelevrcss: @alvxaro Isadora Thury é uma criança de Manaus-AM portadora de AME que tem 5 dias para arrecadar mais de 9 milhões de rea… : 	0.77
fsfloro - #SelecaoSportv Corinthians tem que voltar a jogar como time pequeno, foi assim que conseguiu os títulos (1x0 era go… https://t.co/jbMeKMOGmV : 	0.77

--
Topic #11: 
VOU, PAULO, PRIOR, FICAR, PORQUE, VAI, DEUS PRIOR, DEVE, JOGADOR, SEXTOU, DIZ, PRECISA, VÍDEO, LUGAR, AMANHÃ
wagnercurado - RT @JornalBSM: Para o Copom, os programas governamentais de recomposição de renda, como o auxílio emergencial, “têm permitido uma retomada… : 	0.81
felipperm - Pra ficar top mesmo so Falta um comentário desses na Libertadores e #sbtlibertadores  #red

## Visualizando os tópicos

In [11]:
#!pip install pyLDAvis
import pyLDAvis
import pyLDAvis.sklearn
pyLDAvis.enable_notebook()

In [12]:
pyLDAvis.sklearn.prepare(lda, vec_text, tf_vectorizer, sort_topics=False, mds = 'tsne')