In [1]:
from LdaMalletHandler import LdaMalletHandler
import Loader
from PreProcessor import Preprocessor

In [2]:
saved_model_name = "FolhaCompleto100t_1000i"
mallet_path = "/Users/alex/mallet-2.0.8/bin/mallet"

### Loading saved model

In [3]:
lda = LdaMalletHandler(mallet_path=mallet_path)
lda.load_model(saved_model_name)

# load corpus from path stored in the saved model
corpus = Loader.load_from_folder("data/Folhacompleto/")

In [7]:
print("Size of vocabulary:",len(lda.dictionary.keys()))

Size of vocabulary: 249115


In [4]:
print("Some topics of the model:")
all_topics = lda.get_string_topics()
all_topics[:10]

Some topics of the model:


['paulo sp jose santos rio folha belo minas horizonte preto',
 'paises brasil internacional america mundial latina mundo mercosul comercio estados',
 'tudo bem gente fazer mundo coisa sempre melhor bom ver',
 'moda roupas modelos cores roupa marca nova colecao estilo estilista',
 'governo previdencia salario social orcamento minimo recursos funcionarios salarios gastos',
 'todos povo vida grande bem melhor sempre pois nesta momento',
 'anos tres dois quatro cinco meses seis dez duas ultimos',
 'producao toneladas agricultura produtores milhoes leite agricola safra produto rural',
 'banco bancos central bc divida governo bilhoes credito economico dinheiro',
 'contra publico qualquer publica nada opiniao fato apenas pais falta']

### Most representative document of topic

In [21]:
topic_number = 61
most_repr = lda.n_most_representative(topic_number,n=5)

print("MOST REPRESENTATIVE DOCUMENTS OF TOPIC:")
print(all_topics[topic_number])
print()
print()
for n_doc in most_repr:
    print(corpus['dates'][n_doc], corpus['articles'][n_doc])
    print()

MOST REPRESENTATIVE DOCUMENTS OF TOPIC:
saude medico hospital medicos doenca casos aids virus tratamento hospitais


1995-06-03 00:00:00  Paulistanos sofrem com febre alta, dores no corpo, garganta inflamada e excesso de catarro  Da Reportagem Local  Tudo começa com um simples espirro. Depois, o nariz escorre, a garganta inflama, o corpo inteiro dói e uma febre alta se instala. Em dois dias, a pessoa está de cama, sem a mínima disposição para qualquer atividade. Trata-se de uma ``supergripe" causada pelo vírus Influenza tipo A, que já ``derrubou" cerca de 30% dos paulistanos, segundo o pediatra Anthony Wong, 48, do Instituto da Criança do Hospital das Clínicas e professor da USP. O vírus, que chegou ao Brasil em maio, é o mesmo que causou um surto de gripe nos EUA e matou 200 idosos no começo do ano. A principal característica da ``supergripe" é uma febre alta, acima de 39 graus. Excesso de catarro e dor de cabeça também são comuns. Os sintomas duram de cinco a sete dias. Nos casos mai

### Most significative topics of internal document

In [6]:
doc_number = 2
doc_topics = lda.doc_topics(doc_number)


print("DOCUMENT:")
print(corpus['articles'][doc_number])
print()
print("IS LIKELY TO BELONG TO:")
print("Topic",doc_topics[0][0],":",all_topics[doc_topics[0][0]],"- with probability: {:.3f}".format(doc_topics[0][1]))
print("Topic",doc_topics[1][0],":",all_topics[doc_topics[1][0]],"- with probability: {:.3f}".format(doc_topics[1][1]))

DOCUMENT:
 O prefeito Paulo Maluf pretende marcar sua gestão através de grandes obras viárias na cidade de São Paulo. Maluf também parece querer fazer de um conjunto de pontes, túneis e avenidas o símbolo de uma possível candidatura presidencial. Mas esse ímpeto de realizar está atropelando o direito dos cidadãos de serem bem informados sobre a utilização do seu próprio dinheiro. A Prefeitura demorou três semanas mais do que o prometido para divulgar o laudo sobre o acidente nas obras de um túnel da zona sul da cidade. Entre os dias 24 e 26 de novembro o desabamento da galeria de um córrego, causado pelos trabalhos de escavação, provocou o surgimento de duas crateras nas avenidas sobre o túnel. Desde então, o governo municipal obstruiu o trabalho da imprensa no local e limitou as informações sobre o caso a lacônicos e quase nada informativos boletins oficiais, deixando a população da região intranquila. Agora, o secretrário de Obras da cidade diz que vai ignorar a determinação da Secre

### Topics of new document

In [18]:
new_document = '''
O Brasil registrou uma redução de 16% no número de detecções de Aids em 2018, 
segundo o Boletim Epidemiologico divulgado nesta terça-feira
'''

# Preprocess new document
p = Preprocessor(lang='portuguese')
processed_new_doc = p.transform([new_document])[0]

# time consuming if your model is too large 
topics = lda.ext_doc_topics(processed_new_doc)

print("1st more likely:", all_topics[topics[0][0]])
print("2nd more likely",all_topics[topics[1][0]])
topics

1st more likely: saude medico hospital medicos doenca casos aids virus tratamento hospitais
2nd more likely feira semana sexta segunda dia hoje ultima quarta amanha quinta


[(61, 0.06720430107526887),
 (49, 0.05107526881720435),
 (33, 0.04569892473118284),
 (91, 0.022401433691756293),
 (90, 0.015232974910394279),
 (86, 0.013440860215053776),
 (21, 0.011648745519713273),
 (29, 0.011648745519713273),
 (42, 0.011648745519713273),
 (1, 0.009856630824372768),
 (17, 0.009856630824372768),
 (55, 0.009856630824372768),
 (69, 0.009856630824372768),
 (70, 0.009856630824372768),
 (74, 0.009856630824372768),
 (77, 0.009856630824372768),
 (83, 0.009856630824372768),
 (93, 0.009856630824372768),
 (0, 0.008064516129032265),
 (2, 0.008064516129032265),
 (3, 0.008064516129032265),
 (4, 0.008064516129032265),
 (5, 0.008064516129032265),
 (6, 0.008064516129032265),
 (7, 0.008064516129032265),
 (8, 0.008064516129032265),
 (9, 0.008064516129032265),
 (10, 0.008064516129032265),
 (11, 0.008064516129032265),
 (12, 0.008064516129032265),
 (13, 0.008064516129032265),
 (14, 0.008064516129032265),
 (15, 0.008064516129032265),
 (16, 0.008064516129032265),
 (18, 0.008064516129032265)

###  Most similar to new document

In [8]:
new_document = '''
O Brasil registrou uma redução de 16% no número de detecções de Aids em 2018, 
segundo o Boletim Epidemiologico divulgado nesta terça-feira
'''

# Preprocess new document
p = Preprocessor(lang='portuguese')
processed_new_doc = p.transform([new_document])[0]

# time consuming if your model is too large
most_similar = lda.ext_doc_n_most_similar(processed_new_doc, n=2)

print("1th MOST SIMILAR:\n", corpus['dates'][most_similar[0]],corpus['articles'][most_similar[0]])
print()
print("2nd MOST SIMILAR:\n", corpus['dates'][most_similar[1]],corpus['articles'][most_similar[1]])


1th MOST SIMILAR:
 1995-01-05 00:00:00  O Comitê da Cidadania dos Funcionários do Banco do Brasil inaugura hoje um posto de saúde na favela do Pirambu, considerada a maior de Fortaleza. Foram investidos R$ 12 mil no posto, que contará com serviço de atendimento médico e odontológico e uma farmácia. O posto ocupará uma área de 100 m2.  

2nd MOST SIMILAR:
 1995-10-14 00:00:00   DROGAS - Acontece no próximo dia 19, às 15h, no Colégio Rio Branco (zona oeste de SP), o ``Fórum de Debates sobre Prevenção de Drogas e Aids em Escolas". O debate será coordenado pelo professor Claude Olievenstein, diretor do Centre Medical Marmottan de Paris, especializado na recuperação de farmacodependentes. Mais informações sobre o evento podem ser obtidas pelo tel. 549-5255. 
