In [1]:
import Loader
from PreProcessor import Preprocessor
from DocumentRetriever import DocumentRetriever
from gensim.corpora.dictionary import Dictionary
from gensim.models.wrappers import LdaMallet

### Load corpus

In [2]:
corpus = Loader.load_from_folder("data")

In [3]:
len(corpus['articles'])

5741

### Pre-process and tokenize

In [4]:
# alterei o pre_processor pra devolver tokenizado e não fazer steeming (mais fácil de visualizar)
p = Preprocessor(lang='portuguese')
pre_processed = p.transform(corpus['articles'])

### Vectorize data 

In [5]:
common_dictionary = Dictionary(pre_processed)
common_corpus = [common_dictionary.doc2bow(text) for text in pre_processed]

### Apply model

In [6]:
lda = LdaMallet('/Users/alex/mallet-2.0.8/bin/mallet',common_corpus, num_topics=100,id2word=common_dictionary, workers=8)

In [7]:
lda.show_topics()

[(18,
  '0.101*"milhoes" + 0.048*"empresa" + 0.026*"ano" + 0.024*"grupo" + 0.013*"acoes" + 0.013*"mil" + 0.013*"capital" + 0.011*"da" + 0.011*"venda" + 0.011*"maior"'),
 (76,
  '0.043*"inflacao" + 0.032*"urv" + 0.026*"plano" + 0.025*"precos" + 0.025*"governo" + 0.016*"fhc" + 0.013*"economica" + 0.013*"conversao" + 0.012*"real" + 0.012*"fazenda"'),
 (39,
  '0.039*"ser" + 0.015*"sistema" + 0.013*"atraves" + 0.012*"controle" + 0.011*"poder" + 0.011*"processo" + 0.010*"mudancas" + 0.009*"projeto" + 0.009*"deve" + 0.008*"atual"'),
 (40,
  '0.057*"mercado" + 0.034*"setor" + 0.030*"producao" + 0.028*"industria" + 0.018*"empresas" + 0.017*"produtos" + 0.011*"industrias" + 0.011*"nacional" + 0.010*"industrial" + 0.009*"vendas"'),
 (27,
  '0.020*"todos" + 0.015*"pois" + 0.014*"assim" + 0.012*"porem" + 0.012*"tao" + 0.011*"se" + 0.011*"alguns" + 0.010*"caso" + 0.009*"tempo" + 0.009*"parte"'),
 (58,
  '0.087*"ministro" + 0.059*"presidente" + 0.050*"governo" + 0.042*"itamar" + 0.038*"fernando" + 0.

### Checking topic from a random document 

In [16]:
from random import randint
doc_number = randint(0, len(corpus['articles'])-1)
test_topics = lda[common_corpus[doc_number]]
topics = []
for top in test_topics:
    topics.append(top[1])
test_topics.sort(key=lambda x: x[1], reverse=True)
print("Topic:",lda.print_topic(test_topics[0][0]))
print("Article:", corpus['articles'][doc_number])


Topic: 0.040*"folha" + 0.031*"jornal" + 0.024*"sobre" + 0.014*"imprensa" + 0.013*"ainda" + 0.011*"dia" + 0.011*"jornais" + 0.010*"contra" + 0.010*"leitor" + 0.009*"carta"
Article:  JUNIA NOGUEIRA DE SÁ A dúvida é velha: até que ponto se pode mesmo acreditar na imprensa? Vejamos: na quarta-feira a Folha publicou a história do bancário Paulo Sérgio do Espírito Santo, acusado de abusar sexualmente de meninos. Em seu depoimento, o rapaz admitiu ter feito sexo anal com 80 garotos e disse manter "relações amigáveis" com outros 150, informou a  Folha. Ele teria ainda um diário com 600 nomes anotados. No mesmo dia, o carioca "O Globo" publicou reportagem sobre o caso com o título "Tarado confessa relações com 150". O jornal dizia que o bancário mantinha em sua casa um diário com 560 nomes. Em "O Estado de S.Paulo", o diário teria 570 nomes de garotos, todos eles aliciados pelo rapaz. Na "Folha da Tarde" os nomes eram pelo menos 580. No "Jornal do Brasil", exatos 605. Não foi só isso. Na terça-

### Retrieving Similar Documents 

In [17]:
dr = DocumentRetriever(lda.fdoctopics())
most_similar = dr.n_most_similar(topics, n=5)
for similar in most_similar:
    print("SIMILAR:", corpus['articles'][similar])

SIMILAR:  JUNIA NOGUEIRA DE SÁ A dúvida é velha: até que ponto se pode mesmo acreditar na imprensa? Vejamos: na quarta-feira a Folha publicou a história do bancário Paulo Sérgio do Espírito Santo, acusado de abusar sexualmente de meninos. Em seu depoimento, o rapaz admitiu ter feito sexo anal com 80 garotos e disse manter "relações amigáveis" com outros 150, informou a  Folha. Ele teria ainda um diário com 600 nomes anotados. No mesmo dia, o carioca "O Globo" publicou reportagem sobre o caso com o título "Tarado confessa relações com 150". O jornal dizia que o bancário mantinha em sua casa um diário com 560 nomes. Em "O Estado de S.Paulo", o diário teria 570 nomes de garotos, todos eles aliciados pelo rapaz. Na "Folha da Tarde" os nomes eram pelo menos 580. No "Jornal do Brasil", exatos 605. Não foi só isso. Na terça-feira, enquanto todos os jornais davam como 24 os mortos no balanço preliminar do terremoto em Los Angeles, "O Globo" afirmava que eles seriam 22. Na quarta, os prejuízos 