In [2]:
from LdaMalletHandler import LdaMalletHandler

# The purpose of this script is only to demonstrate my LdaMalletHandler usage
# Note that you must have a Loader and a Preprocessor to use this code entirely
import Loader
from PreProcessor import Preprocessor

In [2]:
saved_model_name = "1MesFolha50"
mallet_path = "/Users/alex/mallet-2.0.8/bin/mallet"

### Loading saved model

In [3]:
lda = LdaMalletHandler(mallet_path=mallet_path)
lda.load_model(saved_model_name)

# load corpus from path stored in the saved model
corpus = Loader.load_from_folder(lda.corpus_path)

In [26]:
print("Some topics of the model:")
all_topics = lda.get_string_topics()
all_topics[:10]

Some topics of the model:


['final partida fase titulo ano equipe primeiro mundial time torneio',
 'vida tudo homem filme ai onde ser todos bem mulher',
 'saude segundo ser hospital medico deve casos conselho medicos medicina',
 'paulo sp folha jornal sobre ser redacao horizonte dia imprensa',
 'mercado empresas brasil empresa setor comercio industria capital produtos paises',
 'parte fundacao recursos roberto proprio dinheiro uniao todos nacional verbas',
 'disse afirmou ontem sobre caso segundo vai feira carvalho folha',
 'paulo tempo min local contra bola gol reportagem primeiro tecnico',
 'cr banco dia mercado juros mes dolar dias compra dinheiro',
 'pontos los york italia nova agencias internacionais san norte angeles']

### Most representative document of topic

In [27]:
topic_number = 5
most_repr = lda.n_most_representative(topic_number,n=1)

print("MOST REPRESENTATIVE DOCUMENTS OF TOPIC:")
print(all_topics[topic_number])
print()
print()
for n_doc in most_repr:
    print(corpus['articles'][n_doc])
    print()

MOST REPRESENTATIVE DOCUMENTS OF TOPIC:
parte fundacao recursos roberto proprio dinheiro uniao todos nacional verbas


 Da Sucursal do Rio 1. A Fundação Roberto Marinho recebeu hoje os auditores do Tribunal de Contas da União, acompanhados dos deputados Paulo Ramos e José Lourenço, e vai providenciar prontamente os documentos solicitados. 2. A Fundação Roberto Marinho nunca recebeu subvenção social do Governo Federal e de nenhum outro governo. 3. Desde 1991, a Fundação Roberto Marinho não desenvolve nenhum convênio com qualquer órgão da Administração Pública Federal, que envolva recursos do Orçamento da União. 4. Todos os convênios assinados no período de 1988 a 1991 tiveram ampla cobertura da imprensa e TV, com seus objetivos claramente definidos. Sua realização foi sempre acompanhada por milhões de telespectadores. 5. Sempre apresentamos no tempo devido prestações de contas aos órgãos financiadores de todos os convênios, que têm sido regularmente aprovadas, não tendo nenhuma exigênci

### Most significative topics of internal document

In [5]:
doc_number = 2
doc_topics = lda.doc_topics(doc_number)


print("DOCUMENT:")
print(corpus['articles'][doc_number])
print()
print("IS LIKELY TO BELONG TO:")
print("Topic",doc_topics[0][0],":",all_topics[doc_topics[0][0]],"- with probability: {:.3f}".format(doc_topics[0][1]))
print("Topic",doc_topics[1][0],":",all_topics[doc_topics[1][0]],"- with probability: {:.3f}".format(doc_topics[1][1]))

DOCUMENT:
 O prefeito Paulo Maluf pretende marcar sua gestão através de grandes obras viárias na cidade de São Paulo. Maluf também parece querer fazer de um conjunto de pontes, túneis e avenidas o símbolo de uma possível candidatura presidencial. Mas esse ímpeto de realizar está atropelando o direito dos cidadãos de serem bem informados sobre a utilização do seu próprio dinheiro. A Prefeitura demorou três semanas mais do que o prometido para divulgar o laudo sobre o acidente nas obras de um túnel da zona sul da cidade. Entre os dias 24 e 26 de novembro o desabamento da galeria de um córrego, causado pelos trabalhos de escavação, provocou o surgimento de duas crateras nas avenidas sobre o túnel. Desde então, o governo municipal obstruiu o trabalho da imprensa no local e limitou as informações sobre o caso a lacônicos e quase nada informativos boletins oficiais, deixando a população da região intranquila. Agora, o secretrário de Obras da cidade diz que vai ignorar a determinação da Secre

### Topics of new document

In [30]:
new_document = '''
O modelo de jogo do Felipão é esse, é convicção. 
O que se discute é que, apesar do sucesso no Brasileirão, no qual o time usa ligação direta, 
tem pouca troca de passes, gosta da bola no centroavante e da disputa da segunda bola, 
é se isso será suficiente para passar do Boca Juniors. 
No Brasileiro, o repertório é suficiente para ser líder. 
Para mim, o campeonato acabou. Acabou a brincadeira."
'''

# Preprocess new document
p = Preprocessor(lang='portuguese')
processed_new_doc = p.transform([new_document])[0]

# time consuming if your model is too large 
topics = lda.ext_doc_topics(processed_new_doc)

print("1st more likely:", all_topics[topics[0][0]])
print("2nd more likely",all_topics[topics[1][0]])

1st more likely: time futebol copa tecnico jogadores clube jogador jogo campeonato selecao
2nd more likely paulo tempo min local contra bola gol reportagem primeiro tecnico


###  Most similar to new document

In [None]:
new_document = '''
O modelo de jogo do Felipão é esse, é convicção. 
O que se discute é que, apesar do sucesso no Brasileirão, no qual o time usa ligação direta, 
tem pouca troca de passes, gosta da bola no centroavante e da disputa da segunda bola, 
é se isso será suficiente para passar do Boca Juniors. 
No Brasileiro, o repertório é suficiente para ser líder. 
Para mim, o campeonato acabou. Acabou a brincadeira."
'''

# Preprocess new document
p = Preprocessor(lang='portuguese')
processed_new_doc = p.transform([new_document])[0]

# time consuming if your model is too large
most_similar = lda.ext_doc_n_most_similar(processed_new_doc, n=2)

print("1th MOST SIMILAR:\n", corpus['articles'][most_similar[0]])
print()
print("2nd MOST SIMILAR:\n", corpus['articles'][most_similar[1]])
