In [1]:
from LdaMalletHandler import LdaMalletHandler

# The purpose of this script is only to demonstrate my LdaMalletHandler usage
# Note that you must have a Loader and a Preprocessor to use this code entirely
import Loader
from PreProcessor import Preprocessor

In [3]:
saved_model_name = "1MesFolha50"
mallet_path = "/Users/alex/mallet-2.0.8/bin/mallet"
corpus_path = "data/"
corpus = Loader.load_from_folder(corpus_path)

### Loading saved model

In [4]:
lda = LdaMalletHandler(mallet_path=mallet_path)
lda.load_model(saved_model_name)

In [5]:
print("Some topics of the model:")
all_topics = lda.get_string_topics()
all_topics[:10]

Some topics of the model:


['ser pode forma exemplo podem sobre deve existem pesquisa especie',
 'pt presidente lula sindicato cut clinton disse campanha vai oswaldo',
 'norte contra nacional internacionais mexico sul exercito agencias americano americana',
 'sul cr cidade rio agua praia km pessoas grande santa',
 'jornal sobre ainda todos agora alguns outros outro qualquer nada',
 'pais brasil paises populacao todos hoje apenas sociedade grande parece',
 'paulo projeto prefeitura estado sp prefeito obras estadual maluf municipal',
 'show noite banda grupo publico rock brasil festival palco bandeira',
 'futebol time copa jogadores selecao equipe campeonato jogo tecnico vitoria',
 'ano passado dia janeiro dezembro segundo dias desde outubro fevereiro']

### Most representative document of topic

In [6]:
topic_number = 5
most_repr = lda.n_most_representative(topic_number,n=1)

print("MOST REPRESENTATIVE DOCUMENTS OF TOPIC:")
print(all_topics[topic_number])
print()
print()
for n_doc in most_repr:
    print(corpus['articles'][n_doc])
    print()

MOST REPRESENTATIVE DOCUMENTS OF TOPIC:
pais brasil paises populacao todos hoje apenas sociedade grande parece


 PEDRO DE CAMARGO NETO O país tem assistido aos governos assinarem, com enorme desenvoltura, acordos internacionais com sérias implicações na vida de todo cidadão. Dentro do caos que vivemos e rapidez e abrangência dos acordos, tem sido muito difícil analisar criteriosamente seus efeitos. Nos últimos dias uma importante alteração no acordo do Mercosul foi anunciada. Caracterizado o fracasso da agenda do Tratado de Assunção, nosso governo passou a defender um período de livre comércio entre os países do Cone Sul. Que implicações existem para a vida daqueles que vão viver, colher os benefícios e pagar os custos, do recentemente acordado? O Tratado de Assunção pretendia criar um mercado comum para os quatro países signatários. Em prazo recorde, além do livre comércio, pretendia-se estabelecer a união aduaneira e a harmonização das diversas políticas macroeconômicas. A parte fác

### Most significative topics of internal document

In [7]:
doc_number = 2
doc_topics = lda.doc_topics(doc_number)


print("DOCUMENT:")
print(corpus['articles'][doc_number])
print()
print("IS LIKELY TO BELONG TO:")
print("Topic",doc_topics[0][0],":",all_topics[doc_topics[0][0]],"- with probability: {:.3f}".format(doc_topics[0][1]))
print("Topic",doc_topics[1][0],":",all_topics[doc_topics[1][0]],"- with probability: {:.3f}".format(doc_topics[1][1]))

DOCUMENT:
 O prefeito Paulo Maluf pretende marcar sua gestão através de grandes obras viárias na cidade de São Paulo. Maluf também parece querer fazer de um conjunto de pontes, túneis e avenidas o símbolo de uma possível candidatura presidencial. Mas esse ímpeto de realizar está atropelando o direito dos cidadãos de serem bem informados sobre a utilização do seu próprio dinheiro. A Prefeitura demorou três semanas mais do que o prometido para divulgar o laudo sobre o acidente nas obras de um túnel da zona sul da cidade. Entre os dias 24 e 26 de novembro o desabamento da galeria de um córrego, causado pelos trabalhos de escavação, provocou o surgimento de duas crateras nas avenidas sobre o túnel. Desde então, o governo municipal obstruiu o trabalho da imprensa no local e limitou as informações sobre o caso a lacônicos e quase nada informativos boletins oficiais, deixando a população da região intranquila. Agora, o secretrário de Obras da cidade diz que vai ignorar a determinação da Secre

### Topics of new document

In [8]:
new_document = '''
O modelo de jogo do Felipão é esse, é convicção. 
O que se discute é que, apesar do sucesso no Brasileirão, no qual o time usa ligação direta, 
tem pouca troca de passes, gosta da bola no centroavante e da disputa da segunda bola, 
é se isso será suficiente para passar do Boca Juniors. 
No Brasileiro, o repertório é suficiente para ser líder. 
Para mim, o campeonato acabou. Acabou a brincadeira."
'''

# Preprocess new document
p = Preprocessor(lang='portuguese')
processed_new_doc = p.transform([new_document])[0]

# time consuming if your model is too large 
topics = lda.ext_doc_topics(processed_new_doc)

print("1st more likely:", all_topics[topics[0][0]])
print("2nd more likely",all_topics[topics[1][0]])

1st more likely: futebol time copa jogadores selecao equipe campeonato jogo tecnico vitoria
2nd more likely tudo bem vai bom agora dizer ai ninguem porque sempre


###  Most similar to new document

In [9]:
new_document = '''
O modelo de jogo do Felipão é esse, é convicção. 
O que se discute é que, apesar do sucesso no Brasileirão, no qual o time usa ligação direta, 
tem pouca troca de passes, gosta da bola no centroavante e da disputa da segunda bola, 
é se isso será suficiente para passar do Boca Juniors. 
No Brasileiro, o repertório é suficiente para ser líder. 
Para mim, o campeonato acabou. Acabou a brincadeira."
'''

# Preprocess new document
p = Preprocessor(lang='portuguese')
processed_new_doc = p.transform([new_document])[0]

# time consuming if your model is too large
most_similar = lda.ext_doc_n_most_similar(processed_new_doc, n=2)

print("1th MOST SIMILAR:\n", corpus['articles'][most_similar[0]])
print()
print("2nd MOST SIMILAR:\n", corpus['articles'][most_similar[1]])


1th MOST SIMILAR:
  Na emergência de conseguir mais dinheiro para os seus principais atletas, rompidos com a federação nacional e com o treinador Pavel Sadryin por uma questão de dinheiro, a Rússia acaba de acertar um contrato de patrocínio com uma empresa de vinhos da Itália. O líder dos ex-patriados da equipe (que está na chave brasileira na Copa-94), Igor Shalimov, já respondeu: "É pouco". 

2nd MOST SIMILAR:
  As duas equipes estrearam no Grupo Verde do Campeonato Paulista com um empate em 0 a 0, em partida disputada à tarde em Itu. Foi o único empate e a única partida sem gols entre as disputadas ontem no Grupo A-1. Com isso, Ituano e Mogi Mirim dividem provisoriamente o sexto lugar do campeonato. 
