In [1]:
import pickle
from gensim.models.ldamodel import LdaModel
from gensim.corpora import Dictionary
from wordseg import wb
import pandas as pd
from string import punctuation as en_punc

26171 32885 318


In [2]:
# Load the saved LDA topic model from previous step.

with open('aux/stop-words.txt') as f:
    STOP_WORDS = [l.strip() for l in f]

def tokenize(text): # Assumes the text is already word-segmented and is space-separated
    return text.split()

def prepare_text_for_lda(text):
    text = str(text).translate(str.maketrans('', '', en_punc))
    tokens = tokenize(text)
#     tokens = [token for token in tokens if len(token) > 4]
    tokens = [token for token in tokens if token not in STOP_WORDS]
#     tokens = [get_lemma(token) for token in tokens]
    return tokens

with open('aux/all_body_corpus.pkl','rb') as f:
    corpus = pickle.load(f)
lda = LdaModel.load('aux/all_body_model5.gensim')
dictionary = Dictionary.load('aux/all_body_dictionary.gensim')

## LSI-based Document Similarity
<https://radimrehurek.com/gensim/auto_examples/core/run_similarity_queries.html#sphx-glr-auto-examples-core-run-similarity-queries-py>

In [3]:
from gensim import models
lsi = models.LsiModel(corpus, id2word=dictionary, num_topics=2)

In [4]:
doc = 'အစိုးရက တည်ဆောက်နေသော လမ်းတံတားများ'
vec_bow = dictionary.doc2bow(wb(doc)) # tokenize properly with word segmentor
vec_lsi = lsi[vec_bow]  # convert the query to LSI space
print(vec_lsi)

[(0, 0.12005091236100508), (1, 0.08342007665808411)]


In [5]:
from gensim import similarities
index = similarities.MatrixSimilarity(lsi[corpus])  # transform corpus to LSI space and index it

index.save('aux/all-lsi.index')
index = similarities.MatrixSimilarity.load('aux/all-lsi.index')

In [6]:
sims = index[vec_lsi]  # perform a similarity query against the corpus
result = list(enumerate(sims))  # print (document_number, document_similarity) 2-tuples

In [7]:
# Retrieve the actual document
irr = pd.read_csv('data/clean_wb/irr.csv', sep='\t', usecols=['wb_title','wb_body'])
ele = pd.read_csv('data/clean_wb/ele.csv', sep='\t', usecols=['wb_title','wb_body'])
miz = pd.read_csv('data/clean_wb/miz.csv', sep='\t', usecols=['wb_title','wb_body'])
voi = pd.read_csv('data/clean_wb/voi.csv', sep='\t', usecols=['wb_title','wb_body'])
dvb = pd.read_csv('data/clean_wb/dvb.csv', sep='\t', usecols=['wb_title','wb_body'])
titles = [
    t for t in irr.wb_title.values] + [
    t for t in ele.wb_title.values] + [
    t for t in miz.wb_title.values] + [
    t for t in voi.wb_title.values] + [
    t for t in dvb.wb_title.values]
text_data = [
    prepare_text_for_lda(t) for t in irr.wb_body.values] + [
    prepare_text_for_lda(t) for t in ele.wb_body.values] + [
    prepare_text_for_lda(t) for t in miz.wb_body.values] + [
    prepare_text_for_lda(t) for t in voi.wb_body.values] + [
    prepare_text_for_lda(t) for t in dvb.wb_body.values]
print(len(text_data))

250


In [8]:
resdf = pd.DataFrame({
    'idx': [t[0] for t in result],
    'sim': [t[1] for t in result]
})
resdf.sort_values('sim', ascending=False, inplace=True)
resdf['title'] = [titles[i] for i in resdf.idx]
resdf['body'] = [' '.join(text_data[i]) for i in resdf.idx]
# Top 20 documents
display(resdf.head(20))

Unnamed: 0,idx,sim,title,body
241,241,1.0,အနိုင်ရ ရန် သေချာ သည့် နေရာ များ တွင် သာ UNA မ...,၂၀၂၀ ရွေးကောက်ပွဲ ငွေကြေး လူအင်အား အခက်အခဲ ကြေ...
150,150,0.999999,မြန် မာ့ ဒီမိုကရေစီ အသွင် ကူးပြောင်း ရေး လမ်းမ...,မြန် မာ့ ဒီမိုကရေစီ အသွင် ကူးပြောင်း လမ်းမှန် ...
71,71,0.999988,ထိုင်း နိုင်ငံ ၌ ပြုလုပ် နေ သည့် NCA ထိုး ထား ...,ထိုင်း နိုင်ငံ ပြုလုပ် တစ်နိုင် ငံ လုံး ပစ်ခတ်...
131,131,0.999981,ပြည်ပ ကို စပါး တင်ပို့ ဖို့ အစိုးရ ကူညီ မည်,လက်ရှိ နှစ် ပြည်ပ တင်ပို့ ဆန် စျေး နှုန်း ကျဆင...
208,208,0.999961,ပလတ်စတစ် ထုတ်ကုန် များ တရုတ် တားမြစ် မည်,တရုတ် နိုင်ငံ ဟာ အခု နှစ် ကုန် ပလတ်စတစ် ညစ်ညမ်...
128,128,0.999953,လက် ဘ နွန် တွင် နှစ် ရက် တာ ထိပ်တိုက် တွေ့ မှု...,လက် ဘ နွန် နှစ် ရက် ထိပ်တိုက် တွေ့ ၌ လူ ပေါင်း...
162,162,0.999928,AUTOVOICENews&LocalPrice: ပြည်တွင်း ကား ဈေးကွက်,AUTOVOICENewsLocalPrice ပြည်တွင်း ကား ဈေးကွက် ...
121,121,0.999911,ဒေါ် ဖြူ ဖြူ တင် (YangonBakeHouse),အစ်မ ကောင့် ဟက် ခံ ပေ မယ့် bully အနိုင်ကျင့် လ...
132,132,0.999899,ဖွဲ့စည်းပုံ ပြင်ဆင် ရေး ဘယ်လောက် ထိ ခရီးရောက် ...,မင်္ဂလာပါ မဇ္စျိ ပရိသတ် ခင်ဗျာ အပတ်စဉ် တင်ဆက် ...
141,141,0.999895,စီးပွားရေး လုပ်ငန်း ရှင် များ ၏ အခက်အခဲ များ က...,စီးပွားရေး လုပ်ငန်း ရှင် အခက်အခဲ တောင်သူလယ်သမာ...
