In [155]:
import re
import yaml

from bs4 import BeautifulSoup
from collections import defaultdict
from pathlib import Path
from pyewts import pyewts
from strsimpy.cosine import Cosine
from uuid import uuid4

converter = pyewts()

In [156]:
rkts_content = Path('./pedurma_rkts.xml').read_text()

In [157]:
rkts_soup = BeautifulSoup(rkts_content, 'xml')

In [158]:
items = rkts_soup.find_all('item')

In [159]:
def to_yaml(dict_):
    return yaml.safe_dump(dict_, sort_keys = False, allow_unicode=True)

In [160]:
def parse_span(span_poti):
    span = []
    potis = re.split('\+\s', span_poti)
    for poti in potis:
        poti_title = converter.toUnicode(poti)
        print(poti_title)
        span.append(poti_title)
    return span

In [161]:
def parse_item(item):
    cur_text = []
    rkts_id = item.find('rkts').text
    text_title = converter.toUnicode(item.find('tib').text)
    if text_title == '':
        text_title = converter.toUnicode(item.find('coloph').text)
        text_title = text_title.replace('རྫོགས་སོ', '')
    span_poti = item.find('loctbrc').text
    spans = parse_span(span_poti)
#     cur_text[rkts_id] = {
#         'text_title': text_title,
#         'span': span
#     }
    for span in spans:
        cur_text.append((rkts_id, text_title, span))
    return cur_text

In [162]:
result = []
count = 1
for item in items:
    rkts_id = item.find('rkts').text
    if re.search('\d+', rkts_id):
        count += 1
        print(f'{rkts_id} processing')
        cur_text = parse_item(item)
        if cur_text:
            for text in cur_text:
                result.append(text)
        else:
            print('rkts')

1 processing
པ༢༠-༨༤༣.་དེབ་དང་པོ། ༼འདུལ་བ། ཀ༽ 
པ༢༢-༧༦༤.་དེབ་གཉིས་པ། ༼འདུལ་བ། ཁ༽ 
པ༢༢-༥༨༧་དེབ་གསུམ་པ། ༼འདུལ་བ། ག༽ 
པ༢༠-༧༣༥་དེབ་བཞི་པ། ༼འདུལ་བ། ང༽
2 processing
པ༢༢-༦༢.་དེབ་ལྔ་པ། ༼འདུལ་བ། ཅ༽
3 processing
པ༦༢-༧༡༠.་དེབ་ལྔ་པ། ༼འདུལ་བ། ཅ༽ 
པ༢༢-༦༩༣་དེབ་དྲུག་པ། ༼འདུལ་བ། ཆ༽ 
པ༢༢+༦༥༡་དེབ་བདུན་པ། ༼འདུལ་བ། ཇ༽ 
པ༢༠-༦༥༡་དེབ་བརྒྱད་པ། ༼འདུལ་བ། ཉ༽
4 processing
པ༣༢-༩༠.་དེབ་དགུ་པ། ༼འདུལ་བ། ཏ༽
5 processing
པ༡༠༡-༨༡༣.་དེབ་དགུ་པ། ༼འདུལ་བ། ཏ༽
6 processing
པ༢༢-༧༧༧.་དེབ་བཅུ་པ། ༼འདུལ་བ། ཐ༽ 
པ༢༠-༨༢༢་དེབ་བཅུ་གཅིག་པ། ༼འདུལ་བ། ད༽
7 processing
པ༢༨-༢༤༩.་དེབ་བཅུ་གཉིས་པ། ༼འདུལ་བ། ན༽
739 processing
པ༢༨༡-༧༨༦.་དེབ་བཅུ་གཉིས་པ། ༼འདུལ་བ། ན༽ 
པ༢༨-༨༩༧་དེབ་བཅུ་གསུམ་པ། ༼འདུལ་བ། པ༽
1095 processing
པ༨༩༨-༩༠༦.་དེབ་བཅུ་གསུམ་པ། ༼འདུལ་བ། པ༽
1096 processing
པ༨༩༨-༩༠༦.་དེབ་བཅུ་གསུམ་པ། ༼འདུལ་བ། པ༽
1097 processing
པ༩༡༡-༩༡༤.་དེབ་བཅུ་གསུམ་པ། ༼འདུལ་བ། པ༽
1133 processing
པ༩༡༥-༩༢༠.་དེབ་བཅུ་གསུམ་པ། ༼འདུལ་བ། པ༽
806 processing
པ༩༢༡-༩༣༣.་དེབ་བཅུ་གསུམ་པ། ༼འདུལ་བ། པ༽
807 processing
པ༩༣༤-༩༣༨.་དེབ་བཅུ་གསུམ་པ། ༼འདུལ་བ། པ༽
808 processing
པ༩༣༩-༩༤༡.་དེབ་བཅུ་གས

པ༦༥༨-༦༦༧་དེབ་དྲུག་ཅུ་པ། ༼མདོ་སྡེ། མ༽
179 processing
པ༦༧༡-༧༢༥་དེབ་དྲུག་ཅུ་པ། ༼མདོ་སྡེ། མ༽
180 processing
པ༧༣༢-༨༠༣་དེབ་དྲུག་ཅུ་པ། ༼མདོ་སྡེ། མ༽
181 processing
པ༢༥-༢༠༧་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
182 processing
པ༢༢༥-༢༦༩་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
183 processing
པ༢༧༩-༢༨༥་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
184 processing
པ༢༨༥-༣༠༦་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
185 processing
པ༣༡༡-༣༩༨་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
186 processing
པ༤༠༩-༤༤༢་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
187 processing
པ༤༤༨-༥༢༤དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
188 processing
པ༥༣༢-༥༥༢་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
189 processing
པ༥༥༨-༥༦༢་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
190 processing
པ༥༦༤-༦༢༠་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
191 processing
པ༦༢༩-༦༧༣་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
192 processing
པ༦༨༢-༦༨༨་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
193 processing
པ༦༩༠-༧༠༠་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
194 processing
པ༧༠༣-༧༠༤་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
195 processing
པ༧༠༦-༧༤༠་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
196 processing
པ༧༤༧-༧༥༩་དེབ་རེ་གཅིག་པ། ༼མདོ་སྡེ། ཙ༽
197 processing
པ༧༦༢-༧༧༠་དེབ་ར

པ༦༣-༧༩་དེབ་དོན་བདུན་པ། ༼རྒྱུད་འབུམ། ཀ༽
362 processing
པ༨༣-༣༣༧་དེབ་དོན་བདུན་པ། ༼རྒྱུད་འབུམ། ཀ༽
363 processing
པ༣༨༧-༤༢༣་དེབ་དོན་བདུན་པ། ༼རྒྱུད་འབུམ། ཀ༽
364 processing
པ༤༣༣-༤༣༧་དེབ་དོན་བདུན་པ། ༼རྒྱུད་འབུམ། ཀ༽
365 processing
པ༤༤༠-༤༦༩་དེབ་དོན་བདུན་པ། ༼རྒྱུད་འབུམ། ཀ༽
366 processing
པ༤༥༢-༥༥༢་དེབ་དོན་བདུན་པ། ༼རྒྱུད་འབུམ། ཀ༽
367 processing
པ༥༧༦-༦༢༢་དེབ་དོན་བདུན་པ། ༼རྒྱུད་འབུམ། ཀ༽
368 processing
པ༦༣༠-༧༠༣་དེབ་དོན་བདུན་པ། ༼རྒྱུད་འབུམ། ཀ༽
369 processing
པ༧༣༤-༡༠༣༢་དེབ་དོན་བདུན་པ། ༼རྒྱུད་འབུམ། ཀ༽
370 processing
པ༣༡-༣༢༤་དེབ་དོན་བརྒྱད་པ། ༼རྒྱུད་འབུམ། ཁ༽
371 processing
པ༤༠༠-༤༢༩་དེབ་དོན་བརྒྱད་པ། ༼རྒྱུད་འབུམ། ཁ༽
372 processing
པ༤༣༢-༧༣༦་དེབ་དོན་བརྒྱད་པ། ༼རྒྱུད་འབུམ། ཁ༽
373 processing
པ༨༠༢-༩༡༢་དེབ་དོན་བརྒྱད་པ། ༼རྒྱུད་འབུམ། ཁ༽
374 processing
པ༣༨-༡༡༣་དེབ་དོན་དགུ་པ། ༼རྒྱུད་འབུམ། ག༽
375 processing
པ༡༣༠-༡༥༥་དེབ་དོན་དགུ་པ། ༼རྒྱུད་འབུམ། ག༽
376 processing
པ༡༦༤-༡༨༣་དེབ་དོན་དགུ་པ། ༼རྒྱུད་འབུམ། ག༽
377 processing
པ༡༨༩-༢༠༧་དེབ་དོན་དགུ་པ། ༼རྒྱུད་འབུམ། ག༽
378 processing
པ༢༡༥-༢༤༤་དེབ་དོན་དགུ་པ། ༼རྒྱུད་འབུམ། ག༽
380 processi

པ༣༢-༡༧༨་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
553 processing
པ༢༠༥-༢༦༤་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
554 processing
པ༢༥༤-༣༥༩་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
555 processing
པ༣༨༡-༣༨༢་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
556 processing
པ༣༨༤-༤༣༤་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
557 processing
པ༤༢༡-༤༧༨་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
558 processing
པ༤༨༦-༥༠༠་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
559 processing
པ༥༠༦-༥༠༩་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
560 processing
པ༥༡༡-༥༢༩་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
561 processing
པ༥༣༧-༥༨༥་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
562 processing
པ༦༠༢-༦༡༦་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
563 processing
པ༦༢༡-༦༣༠་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
564 processing
པ༦༣༦-༦༣༩་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
565 processing
པ༦༤༢-༦༤༦་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
566 processing
པ༦༤༩-༦༥༡་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
567 processing
པ༦༥༥-༦༥༧་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
568 processing
པ༦༣༡-༦༦༡་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
569 processing
པ༦༦༣-༦༦༧་དེབ་དགུ་བཅུ་པ། ༼རྒྱུད་འབུམ། ཕ༽
570 processing
པ༦༧༡-༦༧༣་དེ

741 processing
པ༧༡༧-༧༧༩་དེབ་གོ་ལྔ་པ། ༼རྒྱུད་འབུམ། ཛ༽
742 processing
པ༧༩༦-༧༩༩་དེབ་གོ་ལྔ་པ། ༼རྒྱུད་འབུམ། ཛ༽
743 processing
པ༨༠༢-༨༠༥་དེབ་གོ་ལྔ་པ། ༼རྒྱུད་འབུམ། ཛ༽
744 processing
པ༨༠༧-༨༡༠་དེབ་གོ་ལྔ་པ། ༼རྒྱུད་འབུམ། ཛ༽
745 processing
པ༨༡༤-༨༨༣་དེབ་གོ་ལྔ་པ། ༼རྒྱུད་འབུམ། ཛ༽
746 processing
པ༣༣-༤༠་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
747 processing
པ༤༤-༤༦་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
748 processing
པ༤༨-༥༠་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
749 processing
པ༥༣-༥༦་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
750 processing
པ༦༠-༦༢་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
751 processing
པ༦༣-༨༨་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
752 processing
པ༩༥-༡༡༥་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
753 processing
པ༡༢༦-༡༧༧་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
754 processing
པ༡༩༢-༡༩༦་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
755 processing
པ༢༠༠-༢༠༣་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
756 processing
པ༢༠༦-༢༠༨་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
757 processing
པ༢༡༠-༢༡༤་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
758 processing
པ༢༡༧-༢༡༨་དེབ་གོ་དྲུག་པ། ༼རྒྱུད་འབུམ། ཝ༽
759 processing
པ༢༢༡-༢༥༡་དེབ་གོ་དྲ

པ༣༢༨-༣༣༠་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
313 processing
པ༣༣༣-༣༣༨་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
648 processing
པ༣༤༡-༣༤༨་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
609 processing
པ༣༥༡-༣༥༢་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
523 processing
པ༣༥༥-༣༥༦་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
703 processing
པ༣༥༨་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
518 processing
པ༣༦༠-༣༦༥་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
988 processing
པ༣༦༨-༣༧༠་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
520 processing
པ༣༧༢་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
509 processing
པ༣༧༤-༣༩༨་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
593 processing
པ༤༠༢-༤༢༣་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
591 processing
པ༤༢༨-༤༣༩་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
584 processing
པ༤༤༢-༤༦༡་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
585 processing
པ༤༦༥-༤༧༦་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
987 processing
པ༤༨༠-༤༨༧་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
559 processing
པ༤༩༠-༤༩༢༤༥༠་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
607 processing
པ༤༩༥-༤༩༧་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས། ཝཾ༽
566 processing
པ༤༩༩-༥༠༡་དེབ་གོ་བརྒྱད་པ། ༼གཟུངས་འདུས

In [163]:
result_yml = to_yaml(result)

In [164]:
Path('./pedurma_text_title.yml').write_text(result_yml, encoding='utf-8')

126079

In [165]:
len(result)

1179