In [7]:
import re
from collections import Counter

# POS weights (new version)
POS_WEIGHTS = {
    "PROPN": 2.0,   
    "NOUN": 2.0,
    "VERB": 1.6,
    "PRON": 1.0,
    "ADJ": 1.5,
    "ADV": 1.2,
    "ADP": 0.4,
    "PART": 0.4,
    "CCONJ": 0.4,
    "SCONJ": 0.4,
    "DET": 0.5,
    "NUM": 0.6,
    "AUX": 1.0,
    "PUNCT": 0.1,
    "UNK": 1.0
}


In [8]:
def load_tagged_text(path="data/tagged_essay.txt"):
    with open(path, "r", encoding="utf-8") as f:
        return f.read()

text = load_tagged_text()
text[:300]


'“འབྲུག་/PROPNརྒྱལ་ཁབ་/PROPN ཀྱི་/ADP གོང་འཕེལ་/NOUN གྱི་/ADP ལྟ་བ་/NOUN འདི་/PRON རྒྱལ་ཡྩོངས་/NOUN དགའ་སྐྱིད་/NOUN དཔལ་འཛོམས་/NOUN ཀྱི་/ADP ཀ་ཆེན་/NOUN ༤/NUM ལུ་/ADP གཞི་/NOUN བཞག་/VERB སྟེ་/PART ཨིན་/VERB མིན་/PART བཞིན་/ADV དུ་/ADP ང་/PRON བཅས་/PART མི་/NOUN ལུ་/ADP རང་བཞིན་/NOUN གྱིས་/ADP ཕྱིན་ཅི'

In [9]:
def split_sentences(text):
    raw = re.split(r"[།༎\n]+", text.strip())
    return [s.strip() for s in raw if s.strip()]

sentences = split_sentences(text)
sentences[:5]   # show first 5

['“འབྲུག་/PROPNརྒྱལ་ཁབ་/PROPN ཀྱི་/ADP གོང་འཕེལ་/NOUN གྱི་/ADP ལྟ་བ་/NOUN འདི་/PRON རྒྱལ་ཡྩོངས་/NOUN དགའ་སྐྱིད་/NOUN དཔལ་འཛོམས་/NOUN ཀྱི་/ADP ཀ་ཆེན་/NOUN ༤/NUM ལུ་/ADP གཞི་/NOUN བཞག་/VERB སྟེ་/PART ཨིན་/VERB མིན་/PART བཞིན་/ADV དུ་/ADP ང་/PRON བཅས་/PART མི་/NOUN ལུ་/ADP རང་བཞིན་/NOUN གྱིས་/ADP ཕྱིན་ཅི་/ADV ཕོག་པ་/VERB འགན་ཁུར་/NOUN འདི་/PRON ལམ་སྲོལ་/NOUN མི་/NOUN ཉམས་/VERB གོང་འཕེལ་/NOUN གཏང་/VERB ནི་/PART དང་/CCONJ',
 '/PUNCT རང་བཞིན་/NOUN གནས་སྟངས་/NOUN ཉམས་སྲུང་/VERB འབད་/VERB ནི་/PART འདི་/PRON ཨིན་/AUX',
 '/PUNCT”',
 '“དེ་/PROPN གི་/ADP ནང་/ADP ལས་/ADP ཡང་/ADV འབྲུག་/PROPN གི་/ADP རྩ་ཁྲིམས་/NOUN ཆེན་/ADJ མོའི་/NOUN ནང་ADP ཡང་/ADV རྒྱལ་ཁམས་/NOUN ཀྱི་/ADP མི་སྡེ་/NOUN དང་/CCONJ མི་སེར་/NOUN གྱི་/ADP ལམ་སྲོལ་/NOUN འཚོ་བ་/VERB འབྱོར་/VERB ཐབས་/NOUN ལུ་/ADP དྲན་རྟེན་/NOUN དང་/CCONJ སྒྱུ་རྩལ་/NOUN ཡང་ན་CCONJ རྒྱལ་རབས་/NOUN ཅན་/ADJ གྱི་ADP ས་གོ་/NOUN དང་/CCONJ ཅ་དངོས་/NOUN རྫོང་གཞིས་/NOUN ལྷ་ཁང་/NOUN དགོན་སྡེ་/NOUN རྟེན་གསུམ་/NOUN  གནས་/NOUN སྐད་ཡིག་/NOUN རྩོམ་རིག་/NOUN སྒྲ་དབྱངས་/NOUN 

In [10]:
def parse_pos_tokens(sentence):
    tokens = []
    for token in sentence.split():
        if "/" in token:
            word, tag = token.rsplit("/", 1)
            tokens.append((word, tag.upper()))
    return tokens

parsed = [parse_pos_tokens(s) for s in sentences]
parsed[:2]

[[('“འབྲུག་/PROPNརྒྱལ་ཁབ་', 'PROPN'),
  ('ཀྱི་', 'ADP'),
  ('གོང་འཕེལ་', 'NOUN'),
  ('གྱི་', 'ADP'),
  ('ལྟ་བ་', 'NOUN'),
  ('འདི་', 'PRON'),
  ('རྒྱལ་ཡྩོངས་', 'NOUN'),
  ('དགའ་སྐྱིད་', 'NOUN'),
  ('དཔལ་འཛོམས་', 'NOUN'),
  ('ཀྱི་', 'ADP'),
  ('ཀ་ཆེན་', 'NOUN'),
  ('༤', 'NUM'),
  ('ལུ་', 'ADP'),
  ('གཞི་', 'NOUN'),
  ('བཞག་', 'VERB'),
  ('སྟེ་', 'PART'),
  ('ཨིན་', 'VERB'),
  ('མིན་', 'PART'),
  ('བཞིན་', 'ADV'),
  ('དུ་', 'ADP'),
  ('ང་', 'PRON'),
  ('བཅས་', 'PART'),
  ('མི་', 'NOUN'),
  ('ལུ་', 'ADP'),
  ('རང་བཞིན་', 'NOUN'),
  ('གྱིས་', 'ADP'),
  ('ཕྱིན་ཅི་', 'ADV'),
  ('ཕོག་པ་', 'VERB'),
  ('འགན་ཁུར་', 'NOUN'),
  ('འདི་', 'PRON'),
  ('ལམ་སྲོལ་', 'NOUN'),
  ('མི་', 'NOUN'),
  ('ཉམས་', 'VERB'),
  ('གོང་འཕེལ་', 'NOUN'),
  ('གཏང་', 'VERB'),
  ('ནི་', 'PART'),
  ('དང་', 'CCONJ')],
 [('', 'PUNCT'),
  ('རང་བཞིན་', 'NOUN'),
  ('གནས་སྟངས་', 'NOUN'),
  ('ཉམས་སྲུང་', 'VERB'),
  ('འབད་', 'VERB'),
  ('ནི་', 'PART'),
  ('འདི་', 'PRON'),
  ('ཨིན་', 'AUX')]]

In [11]:
def compute_word_frequencies(sentences_tokens):
    freq = Counter()
    for sent in sentences_tokens:
        for w, t in sent:
            freq[w] += 1
    return freq

freq = compute_word_frequencies(parsed)
list(freq.items())[:10]

[('“འབྲུག་/PROPNརྒྱལ་ཁབ་', 1),
 ('ཀྱི་', 6),
 ('གོང་འཕེལ་', 5),
 ('གྱི་', 12),
 ('ལྟ་བ་', 1),
 ('འདི་', 6),
 ('རྒྱལ་ཡྩོངས་', 1),
 ('དགའ་སྐྱིད་', 1),
 ('དཔལ་འཛོམས་', 1),
 ('ཀ་ཆེན་', 1)]

In [12]:
def score_sentence(tokens, word_freq):
    score = 0.0
    for word, tag in tokens:
        score += word_freq[word] * POS_WEIGHTS.get(tag, POS_WEIGHTS["UNK"])
    return score

scores = [score_sentence(tokens, freq) for tokens in parsed]
scores[:5]

[192.40000000000006, 54.3, 21.0, 296.7, 21.0]

In [13]:
def extract_summary(pos_tagged_text, top_k=3):
    sents = split_sentences(pos_tagged_text)
    parsed = [parse_pos_tokens(s) for s in sents]
    freq = compute_word_frequencies(parsed)

    scored = []
    for i, tokens in enumerate(parsed):
        scored.append((i, score_sentence(tokens, freq), sents[i]))

    ranked = sorted(scored, key=lambda x: x[1], reverse=True)[:top_k]
    ranked_sorted = sorted(ranked, key=lambda x: x[0])

    return [s[2] for s in ranked_sorted]

summary = extract_summary(text, top_k=3)
summary

['“ང་/PRON བཅས་/PART རའི་/ADP གྲོང་གསེབ་/NOUN ཚུ་/PART ནང་/ADP ཁྱིམ་/NOUN ཚུ་/PART གི་/ADP བཟྲོ་བཀོད་/NOUN ཅོག་/PART འཐདཔ་/ADJ བཟོ་/VERB ནི་/PART དང་/CCONJ ས་/NOUN འི་/ADP ཆགས་/VERB ཚུལ་/NOUN དག་པ་/ADJ ཅིག་/DET གཅིག་/DET མཚུངས་/ADJ བཟོ་/VERB ནི་/PART དེ་/PRON ལམ་སྲོལ་/NOUN གྱི་/ADP གྲངས་/NOUN སུ་/ADP མི་/NOUN ཚུད་/VERB ནི་/PART ཨིན་/AUX མ་/PART ལས་/ADP སྔོན་/NOUN དང་/CCONJ ཕུ་/NOUN ལས་/ADP ཡོད་པ་/VERB འི་/ADP ལྷ་ཁང་/NOUN དགོན་སྡེ་/NOUN དང་/CCONJ དྲན་རྟེན་/NOUN ལུང་ཕྱོགས་/NOUN སོ་/NOUN སོའི་/ADP ལམ་ལུགས་/NOUN སྲོལ་/NOUN ཚུ་/PART བདག་འཛིན་/VERB འཐབ་པ་/VERB ཅིན་/SCONJ རྩ་ཁྲིམས་/NOUN ཆེན་/ADJ མོའི་/NOUN གི་/ADP དགོངས་དོན་/NOUN ཚུ་/PART འགྲུབ་/VERB ཚུགས་/AUX ནི་/PART ཨིན་/AUX མས་/PART',
 '/PUNCT བདུན་/NUM ཕྲག་/NOUN དག་པ་/ADJ ཅིག་/DET གི་/ADP ཧེ་མར་/ADV རྒྱལ་ཁབ་/PROPN ཀྱི་/ADP ས་ཁ་/NOUN མཐོ་/VERB སར་/NOUN  སྡོད་མི་ /NOUN ཚུ་/PART གི་/ADP དོན་/NOUN ལུ་/ADP རྒྱལ་ས་/PROPN ལྟེ་བ་/NOUN ལུ་/ADP གཞུང་/NOUN དང་/CCONJ གཅིག་/DET ཁར་/ADP ཞལ་འཛོམས་/NOUN ཐེངས་/NOUN དང་པ་/NUM ཚོགས་པ་/NOUN འི་/ADP སྐབས་/NO

In [14]:
print("། ".join(summary) + "།")

“ང་/PRON བཅས་/PART རའི་/ADP གྲོང་གསེབ་/NOUN ཚུ་/PART ནང་/ADP ཁྱིམ་/NOUN ཚུ་/PART གི་/ADP བཟྲོ་བཀོད་/NOUN ཅོག་/PART འཐདཔ་/ADJ བཟོ་/VERB ནི་/PART དང་/CCONJ ས་/NOUN འི་/ADP ཆགས་/VERB ཚུལ་/NOUN དག་པ་/ADJ ཅིག་/DET གཅིག་/DET མཚུངས་/ADJ བཟོ་/VERB ནི་/PART དེ་/PRON ལམ་སྲོལ་/NOUN གྱི་/ADP གྲངས་/NOUN སུ་/ADP མི་/NOUN ཚུད་/VERB ནི་/PART ཨིན་/AUX མ་/PART ལས་/ADP སྔོན་/NOUN དང་/CCONJ ཕུ་/NOUN ལས་/ADP ཡོད་པ་/VERB འི་/ADP ལྷ་ཁང་/NOUN དགོན་སྡེ་/NOUN དང་/CCONJ དྲན་རྟེན་/NOUN ལུང་ཕྱོགས་/NOUN སོ་/NOUN སོའི་/ADP ལམ་ལུགས་/NOUN སྲོལ་/NOUN ཚུ་/PART བདག་འཛིན་/VERB འཐབ་པ་/VERB ཅིན་/SCONJ རྩ་ཁྲིམས་/NOUN ཆེན་/ADJ མོའི་/NOUN གི་/ADP དགོངས་དོན་/NOUN ཚུ་/PART འགྲུབ་/VERB ཚུགས་/AUX ནི་/PART ཨིན་/AUX མས་/PART། /PUNCT བདུན་/NUM ཕྲག་/NOUN དག་པ་/ADJ ཅིག་/DET གི་/ADP ཧེ་མར་/ADV རྒྱལ་ཁབ་/PROPN ཀྱི་/ADP ས་ཁ་/NOUN མཐོ་/VERB སར་/NOUN  སྡོད་མི་ /NOUN ཚུ་/PART གི་/ADP དོན་/NOUN ལུ་/ADP རྒྱལ་ས་/PROPN ལྟེ་བ་/NOUN ལུ་/ADP གཞུང་/NOUN དང་/CCONJ གཅིག་/DET ཁར་/ADP ཞལ་འཛོམས་/NOUN ཐེངས་/NOUN དང་པ་/NUM ཚོགས་པ་/NOUN འི་/ADP སྐབས་/NOUN ཁོ