In [1]:
import Loader
from pre_processor import Preprocessor
from gensim.corpora.dictionary import Dictionary
from gensim.models.wrappers import LdaMallet

### Load corpus

In [2]:
corpus = Loader.load_from_folder("data")

### Pre-process and tokenize

In [3]:
# alterei o pre_processor pra devolver tokenizado e não fazer steeming (mais fácil de visualizar)
p = Preprocessor(lang='portuguese')
pre_processed = p.transform(corpus['articles'])

### Vectorize data 

In [4]:
common_dictionary = Dictionary(pre_processed)
common_corpus = [common_dictionary.doc2bow(text) for text in pre_processed]

### Apply model

In [5]:
lda = LdaMallet('/Users/alex/mallet-2.0.8/bin/mallet',common_corpus, num_topics=50,id2word=common_dictionary, workers=8)

In [6]:
lda.show_topics()

[(23,
  '0.051*"dia" + 0.044*"dias" + 0.028*"janeiro" + 0.022*"dois" + 0.021*"quatro" + 0.021*"ano" + 0.019*"mes" + 0.017*"tres" + 0.016*"meses" + 0.014*"semana"'),
 (42,
  '0.033*"segundo" + 0.029*"ano" + 0.025*"produtos" + 0.024*"mercado" + 0.023*"deve" + 0.019*"precos" + 0.018*"afirma" + 0.017*"empresa" + 0.016*"os" + 0.016*"vendas"'),
 (28,
  '0.059*"mil" + 0.032*"para" + 0.021*"cr" + 0.019*"antes" + 0.019*"cerca" + 0.018*"fazer" + 0.018*"conta" + 0.017*"faz" + 0.015*"seis" + 0.015*"porque"'),
 (41,
  '0.021*"jose" + 0.019*"agua" + 0.017*"media" + 0.016*"renda" + 0.015*"regiao" + 0.014*"os" + 0.014*"anos" + 0.013*"minimo" + 0.012*"segundo" + 0.011*"casa"'),
 (12,
  '0.025*"vida" + 0.021*"ser" + 0.020*"contra" + 0.016*"fome" + 0.014*"betinho" + 0.014*"casa" + 0.014*"campanha" + 0.013*"ratos" + 0.011*"jorge" + 0.011*"fundacao"'),
 (17,
  '0.042*"eua" + 0.029*"tv" + 0.018*"americano" + 0.017*"estados" + 0.017*"anos" + 0.016*"americanos" + 0.016*"maior" + 0.016*"cabo" + 0.015*"america"

### Checking topic from a random document 

In [7]:
from random import randint
doc_number = randint(0, len(corpus['articles'])-1)
test_topics = lda[common_corpus[doc_number]]
test_topics.sort(key=lambda x: x[1], reverse=True)
print("Topic:",lda.print_topic(test_topics[0][0]))
print("Article:", corpus['articles'][doc_number])


Topic: 0.030*"feira" + 0.028*"vai" + 0.020*"na" + 0.017*"da" + 0.017*"segunda" + 0.016*"grupo" + 0.015*"ultima" + 0.014*"desde" + 0.014*"quinta" + 0.014*"reportagem"
Article:  LUÍS PEREZ Da Reportagem Local Começa depois de amanhã, dia 4, a segunda fase da Fuvest. Dos 140.518 inscritos, 31.492 continuam disputando as 8.401 vagas na USP (Universidade de São Paulo) e mais quatro instituições Escola Paulista de Medicina, Santa Casa, Fundação Getúlio Vargas e Universidade Federal de São Carlos. "O pessoal deste ano está muito bem preparado", afirma o vice-diretor da Fuvest, José Atílio Vanin, 49, para quem o novo critério de convocação cujo cálculo é feito pela raiz quadrada do produto entre inscritos e vagas selecionou candidatos com nível mais alto do que nos anos anteriores. A fórmula faz com que candidatos a carreiras mais concorridas tenham mais chances de disputar a segunda fase. Para fazer o exame, o candidato deve apresentar o original da carteira de identidade. A perda do docum

In [79]:
# aproveitar pra conferir o pre_processamento
pre_processed[doc_number]

['da',
 'reportagem',
 'local',
 'para',
 'entrar',
 'negocio',
 'moveis',
 'objetos',
 'antigos',
 'preciso',
 'visitar',
 'lojas',
 'existentes',
 'procurar',
 'filao',
 'muitos',
 'concorrentes',
 'antiguidades',
 'bonsucesso',
 'especializada',
 'fornecer',
 'objetos',
 'decoracao',
 'cenarios',
 'teatro',
 'televisao',
 'para',
 'novela',
 'renascer',
 'globo',
 'alugou',
 'toda',
 'cenografia',
 'cecilia',
 'suguino',
 'brasil',
 'antigo',
 'diz',
 'maior',
 'clientela',
 'loja',
 'refere',
 'locacao',
 'agencias',
 'publicidade',
 'necessitam',
 'objetos',
 'pequenos',
 'museu',
 'acervo',
 'moveis',
 'ingleses',
 'franceses',
 'jacaranda',
 'embuia',
 'maioria',
 'virada',
 'seculo',
 'atende',
 'emissoras',
 'tv',
 'forneceu',
 'maioria',
 'moveis',
 'novela',
 'kananga',
 'japao',
 'rede',
 'manchete',
 'na',
 'casa',
 'velha',
 'encontrados',
 'moveis',
 'objetos',
 'desde',
 'inicio',
 'seculo',
 'decada',
 'mas',
 'sandra',
 'tripoli',
 'gerente',
 'diz',
 'maior',
 'procu