# Exemplo de uso

## Parte 2: Aplica√ß√£o do modelo de LDA.

Vamos seguir a partir pr√©-processamento realizado na etapa anterior.

Caso queira economizar tempo e n√£o rodar os blocos de c√≥digo da etapa 1, dado que ela pode demorar bastante tempo dependendo da m√°quina, pode-se importar o arquivo j√° processado disponibilizado `tweets_prefeitos_2020_preprocessado.csv.gzip` e seguir a partir daqui.

Importando as bilbiotecas que ser√£o utilizadas.

In [9]:
import pandas as pd
import re
import gensim
import gensim.corpora as corpora
import pyLDAvis.gensim
import pyLDAvis
from pprint import pprint

Carregando o arquivo.

In [2]:
df_tweets = pd.read_csv('../dados/tweets_prefeitos_2020_preprocessado.csv.gzip', compression='gzip')

Criando a matriz de frequ√™ncia de termos que ser√° utilizada para treinar o modelo de LDA.

In [3]:
def sent_to_words(sentences):
    for sentence in sentences:
        yield(gensim.utils.simple_preprocess(str(sentence), deacc=True)) # deacc=True removes punctuations

data = df_tweets['text_processed'].values.tolist()
data_words = list(sent_to_words(data))

id2word = corpora.Dictionary(data_words)            # Create Dictionary
texts = data_words                                  # Create Corpus
corpus = [id2word.doc2bow(text) for text in texts]  # Term Document Frequency

Rodando o modelo de LDA para um total de 5 t√≥picos.

In [4]:
num_topics = 5
passes = 10

lda_model = gensim.models.LdaModel(corpus=corpus,
                                   id2word=id2word,
                                   num_topics=num_topics,
                                   passes=passes,
                                   random_state=1000)
doc_lda = lda_model[corpus]

pprint(lda_model.print_topics())

[(0,
  '0.042*"dose" + 0.033*"ser" + 0.032*"vacinacao" + 0.025*"vacinar" + '
  '0.019*"ano" + 0.018*"vacina" + 0.016*"estar" + 0.015*"pessoa" + 0.013*"dia" '
  '+ 0.013*"covid"'),
 (1,
  '0.024*"ser" + 0.017*"vacina" + 0.015*"vacinacao" + 0.012*"todo" + '
  '0.012*"covid" + 0.010*"contra" + 0.009*"saude" + 0.009*"pandemia" + '
  '0.008*"estar" + 0.006*"ter"'),
 (2,
  '0.045*"ser" + 0.020*"crianca" + 0.011*"mulher" + 0.009*"projeto" + '
  '0.008*"direito" + 0.008*"publico" + 0.007*"lei" + 0.007*"ano" + '
  '0.007*"contra" + 0.006*"sobre"'),
 (3,
  '0.057*"ser" + 0.023*"vacina" + 0.022*"bolsonaro" + 0.019*"ter" + '
  '0.012*"governo" + 0.010*"estar" + 0.010*"brasil" + 0.008*"fazer" + '
  '0.008*"poder" + 0.007*"morte"'),
 (4,
  '0.020*"ser" + 0.013*"dia" + 0.012*"todo" + 0.011*"mae" + 0.010*"pai" + '
  '0.010*"hoje" + 0.009*"filho" + 0.009*"amigo" + 0.008*"ano" + '
  '0.007*"familia"')]


Calculando a distribui√ß√£o de t√≥picos por documento.

In [5]:
topic_dist = [lda_model.get_document_topics(item, minimum_probability=0.0) for item in corpus]
df_tweets.reset_index(drop=True, inplace=True)

for n in range(0, num_topics):
    for l in range(0, len(topic_dist)):
        df_tweets.at[l, f'topic_{n}_prob'] = topic_dist[l][n][1]

Exibindo os 20 *tweets* mais prov√°veis de cada um dos t√≥picos.

In [6]:
for n in range(0, num_topics):
    print('==========================================================================================================')
    print(f'T√≥pico {n+1}:')
    print('==========================================================================================================')
    for t in df_tweets.sort_values(f'topic_{n}_prob', ascending=False)[:20]['text']:
        print(t, end='\n\n')

T√≥pico 1:
O mutir√£o de vacina√ß√£o contra covid-19 continua neste domingo. Veja quem pode se vacinar \nüî∫1¬∞ dose: pessoas com 12 anos ou +\nüî∫1¬∞ ou 2¬∞ dose: pessoas com 18 anos ou +\nüî∫3¬∞ dose: profissionais da sa√∫de com 2¬∞ dose at√© julho\nüî∫3¬∞ dose: idosos com 70 anos ou + com 2¬∞ dose at√© julho

Para ser atendido na UBS, √© necess√°rio apenas apresentar o cart√£o do SUS. Caso o idoso n√£o possua o cart√£o, basta levar originais e c√≥pias de um documento de identifica√ß√£o com foto, CPF e comprovante de resid√™ncia. O cadastro √© feito na hora e a vacina√ß√£o poder√° ser realizada.

@sheric_ @prefeiturabelem ASesma informa que nesta ter√ßa-feira, 6, n√£o haver√° imuniza√ß√£o contra a covid-19 em Bel√©m. O munic√≠pio aguarda a chegada de novas doses. Caso novos imunizantes cheguem at√© esta ter√ßa-ter√ßa, nova etapa de vacina√ß√£o ser√° anunciada pela Sesma para ser retomada na quarta-feira, 7.

Domingo tamb√©m √© dia de vacina! \n\nOs 6 pontos fixos estar√£o funcion

Visualizando o resultado com o aux√≠lio da biblioteca `pyLDAvis`.

In [7]:
# Visualize the topics
pyLDAvis.enable_notebook()
LDAvis_prepared = pyLDAvis.gensim.prepare(lda_model, doc_lda, id2word, sort_topics=False)   
LDAvis_prepared

Criando uma coluna chamada `td` contendo a distribui√ß√£o de t√≥picos para cada documento (*topic distribution*).

In [10]:
topics_cols = [x for x in df_tweets.columns.to_list() if re.match(r'topic_\d+_prob', x)]

df_tweets['topic_num'] = df_tweets[topics_cols].idxmax(axis=1)
df_tweets['topic_num'] = df_tweets['topic_num'].apply(lambda x: int(re.findall(r'(\d+)', x)[0]))

df_tweets['td'] = df_tweets[topics_cols].apply(lambda row: [x for x in row], axis=1)

Agora, quem estiver analisando os dados, atr√°ves da visualiza√ß√£o forncedida pela ferramenta `pyLDAvis`, assim como analisando as postagens mais prov√°veis de cada t√≥pico, pode tentar atribuir um nome significativo para os t√≥picos encontrados pelo modelo de LDA.

In [11]:
df_tweets['topic_label'] = df_tweets['topic_num'].map({
    0: 'T√≥pico 1',
    1: 'T√≥pico 2',
    2: 'T√≥pico 3',
    3: 'T√≥pico 4',
    4: 'T√≥pico 5'
})

Salvando o dataset j√° contendo as distribui√ß√µes de t√≥pico.

In [12]:
df_tweets.to_csv('../dados/tweets_prefeitos_2020_preprocessado_com_td.csv.gzip', compression='gzip', index=False)