In [2]:
import Loader
from PreProcessor import Preprocessor
from gensim.corpora.dictionary import Dictionary
from gensim.models.wrappers import LdaMallet

### Load corpus

In [3]:
corpus = Loader.load_from_folder("data")

In [6]:
len(corpus['articles'])

5741

### Pre-process and tokenize

In [4]:
# alterei o pre_processor pra devolver tokenizado e não fazer steeming (mais fácil de visualizar)
p = Preprocessor(lang='portuguese')
pre_processed = p.transform(corpus['articles'])

### Vectorize data 

In [5]:
common_dictionary = Dictionary(pre_processed)
common_corpus = [common_dictionary.doc2bow(text) for text in pre_processed]

### Apply model

In [10]:
lda = LdaMallet('/Users/alex/mallet-2.0.8/bin/mallet',common_corpus, num_topics=100,id2word=common_dictionary, workers=8)

In [11]:
lda.show_topics()

[(16,
  '0.034*"pmdb" + 0.033*"governador" + 0.023*"candidato" + 0.020*"partido" + 0.018*"psdb" + 0.018*"governo" + 0.018*"luiz" + 0.017*"presidente" + 0.016*"quercia" + 0.015*"antonio"'),
 (3,
  '0.022*"show" + 0.019*"rock" + 0.019*"banda" + 0.018*"noite" + 0.016*"festival" + 0.015*"publico" + 0.015*"brasil" + 0.014*"bandeira" + 0.012*"shows" + 0.011*"hollywood"'),
 (5,
  '0.027*"carro" + 0.017*"carros" + 0.013*"os" + 0.012*"veiculos" + 0.011*"modelo" + 0.011*"da" + 0.009*"motor" + 0.009*"importados" + 0.008*"modelos" + 0.007*"portas"'),
 (96,
  '0.054*"justica" + 0.025*"federal" + 0.025*"tribunal" + 0.022*"acao" + 0.021*"prisao" + 0.020*"advogado" + 0.019*"contra" + 0.016*"pc" + 0.016*"juiz" + 0.016*"processo"'),
 (28,
  '0.035*"eua" + 0.035*"clinton" + 0.031*"presidente" + 0.020*"washington" + 0.019*"de" + 0.015*"vai" + 0.014*"caso" + 0.013*"ontem" + 0.012*"governo" + 0.011*"bill"'),
 (1,
  '0.015*"estado" + 0.012*"processo" + 0.011*"sistema" + 0.010*"nacional" + 0.010*"projeto" + 0

### Checking topic from a random document 

In [14]:
from random import randint
doc_number = randint(0, len(corpus['articles'])-1)
test_topics = lda[common_corpus[doc_number]]
test_topics.sort(key=lambda x: x[1], reverse=True)
print("Topic:",lda.print_topic(test_topics[0][0]))
print("Article:", corpus['articles'][doc_number])


Topic: 0.038*"prefeitura" + 0.031*"prefeito" + 0.023*"maluf" + 0.021*"obras" + 0.021*"municipal" + 0.020*"meio" + 0.019*"secretario" + 0.017*"obra" + 0.017*"projeto" + 0.016*"ambiente"
Article:  Manifestantes que não moram na região da avenida foram à audiência para defender o projeto Da Reportagem Local A audiência pública realizada ontem na Secretaria Municipal do Verde e do Meio Ambiente com o objetivo de discutir a extensão da avenida Faria Lima foi marcada pelo tumulto. Cerca de 900 pessoas se manifestavam a favor e contra a obra, trocando acusações aos gritos, durante as cinco horas que ela durou, das 14h às 19h. A maior polêmica foi causada pelos cerca de 200 manifestantes que foram apoiar a obra. Eles participavam de movimentos de moradia da periferia da capital e afirmavam que estavam apoiando a obra porque ela vai melhorar o trânsito na cidade. Entre dez manifestantes ouvidos pela Folha, nenhum morava na área da avenida. O grupo contrário à obra acusava a prefeitura de trocar

In [15]:
corpus['dates'][doc_number]

datetime.datetime(1994, 1, 27, 0, 0)

In [17]:
# aproveitar pra conferir o pre_processamento
print(pre_processed[doc_number])

['manifestantes', 'moram', 'regiao', 'avenida', 'audiencia', 'defender', 'projeto', 'da', 'reportagem', 'local', 'audiencia', 'publica', 'realizada', 'ontem', 'secretaria', 'municipal', 'verde', 'meio', 'ambiente', 'objetivo', 'discutir', 'extensao', 'avenida', 'faria', 'lima', 'marcada', 'tumulto', 'cerca', 'pessoas', 'manifestavam', 'favor', 'contra', 'obra', 'trocando', 'acusacoes', 'gritos', 'durante', 'cinco', 'horas', 'durou', 'maior', 'polemica', 'causada', 'cerca', 'manifestantes', 'apoiar', 'obra', 'eles', 'participavam', 'movimentos', 'moradia', 'periferia', 'capital', 'afirmavam', 'apoiando', 'obra', 'porque', 'vai', 'melhorar', 'transito', 'cidade', 'entre', 'dez', 'manifestantes', 'ouvidos', 'folha', 'nenhum', 'morava', 'area', 'avenida', 'grupo', 'contrario', 'obra', 'acusava', 'prefeitura', 'trocar', 'apoio', 'projeto', 'benfeitorias', 'bairros', 'um', 'coordenadores', 'grupo', 'edson', 'lage', 'disse', 'quatro', 'onibus', 'transportaram', 'manifestantes', 'periferia', '