# Ramcharitmanas AI Project - Step 1(a): Data Preparation

In this step, we will transform the PDF to raw text and perform any invalid characters and other cleaning tasks.

### Import Libraries

In [1]:
import re
import pytesseract
from pdf2image import convert_from_path
from PIL import Image




In [16]:
# Path to your PDF
pdf_path = "ramcharitmanas.pdf"

# Convert PDF pages to images
images = convert_from_path(pdf_path)

print(len(images))

1054


In [17]:
# Specify the path to the Tesseract executable if necessary
pytesseract.pytesseract.tesseract_cmd = "/opt/homebrew/bin/tesseract"

# OCR settings for Hindi
ocr_lang = "hin"

# Page Class

In [144]:
class Page:
    def __init__(self, book_page_number, chapter_title, text):
        self.book_page_number = book_page_number
        self.chapter_title = chapter_title
        self.text = text

    def __str__(self):
        return f"Page Number: {self.book_page_number}\n\n\n{self.text}"

# Text Extractor Function

In [145]:
def extract_text_from_page_images(page_images, book_page_offset, book_chapter_title):
    page_list = []
    for i, page_image in enumerate(page_images):
        print(f"Processing page {i + 1} / {len(page_images)}")
        # Perform OCR on the image
        text = pytesseract.image_to_string(page_image, lang=ocr_lang)
        page = Page(book_page_offset + i + 1, book_chapter_title, text)
        page_list.append(page)
    return page_list

# Page Header Functions

In [146]:
page_header_regex = r"^.{1,7}\s*&?\s*\*?\s*रामचरितमानस\s*\*?$|^न?\s*#?\s*\*?\s*(?:बालकाण्ड|अयोध्याकाण्ड|अरण्यकाण्ड|किष्किन्धाकाण्ड|सुन्दरकाण्ड|लंकाकाण्ड|उत्तरकाण्ड)\s*\*?\s*#?\s*\*?\s*.{1,7}$"
    
def extract_first_non_empty_line(text):
    match = re.search(r'^\s*(\S.*)', text, re.MULTILINE)
    # Extract and print the first non-empty line
    if match:
        first_non_empty_line = match.group(1)
    return first_non_empty_line

def check_page_header_line(text):
    first_non_empty_line = extract_first_non_empty_line(text)
    if first_non_empty_line is None:
        return False, ""
    if re.search(page_header_regex, first_non_empty_line):
        return True
    if first_non_empty_line == '- तत तहफक्\u200dफऋहफस"सत"स"स"स" त "ख  ख6/ शा ि  उए ऊउऊ फस फ कक तकऋ जउइारर':
        return True
    return False, first_non_empty_line

def remove_page_header_line(text):
    check_res = check_page_header_line(text)
    if check_res == True:
        return re.sub(r"^\s*(\S.*)", "", text)
    else: 
        print(check_res[1])

# Invalid words mapping

In [263]:
word_mappers = {
    "लड्ढाकाण्ड": "लंकाकाण्ड",
    "लट्ढाकाण्ड": "लंकाकाण्ड",
    "लड्ढडगकाण्ड": "लंकाकाण्ड",
    "लड्ज्काण्ड": "लंकाकाण्ड",
    "लड्ढकाण्ड": "लंकाकाण्ड",
    "एइलोक": "श्लोक",
    "अरणयकाण्ड": "अरण्यकाण्ड",
    "नवाह्पारायण": "नवाह्नपारायण",
    "नवाह्रपारायण": "नवाह्नपारायण",
    "नवाह्॒पारायण": "नवाह्नपारायण"
}

<br><br>

# Extracting text for बालकाण्ड (Chapter 1)

In [149]:
first_page_idx = 15
last_page_idx = 339

ch1_pages = extract_text_from_page_images(images[first_page_idx: last_page_idx + 1], first_page_idx, 'बालकाण्ड')

Processing page 1 / 325
Processing page 2 / 325
Processing page 3 / 325
Processing page 4 / 325
Processing page 5 / 325
Processing page 6 / 325
Processing page 7 / 325
Processing page 8 / 325
Processing page 9 / 325
Processing page 10 / 325
Processing page 11 / 325
Processing page 12 / 325
Processing page 13 / 325
Processing page 14 / 325
Processing page 15 / 325
Processing page 16 / 325
Processing page 17 / 325
Processing page 18 / 325
Processing page 19 / 325
Processing page 20 / 325
Processing page 21 / 325
Processing page 22 / 325
Processing page 23 / 325
Processing page 24 / 325
Processing page 25 / 325
Processing page 26 / 325
Processing page 27 / 325
Processing page 28 / 325
Processing page 29 / 325
Processing page 30 / 325
Processing page 31 / 325
Processing page 32 / 325
Processing page 33 / 325
Processing page 34 / 325
Processing page 35 / 325
Processing page 36 / 325
Processing page 37 / 325
Processing page 38 / 325
Processing page 39 / 325
Processing page 40 / 325
Processin

In [150]:
len(ch1_pages)

325

In [151]:
print(ch1_pages[1].text)

१८ & रामचरितमानस *

उद्धवस्थितिसंहारकारिणीं क्लेशहारिणीम्‌।
सर्वश्रेयस्करीं सीतां नतो5हं रामवलल्‍लभाम्‌॥ ५॥
उत्पत्ति, स्थिति (पालन) और संहार करनेवाली, क्लेशोंकी हरनेवाली तथा सम्पूर्ण कल्याणोंकी
करनेवाली श्रीरामचन्द्रजीकी प्रियतमा श्रीसीताजीको मैं नमस्कार करता हूँ॥५॥
यन्मायावशवर्त्ति विश्वमखिलं ब्रह्मादिदेवासुरा
यत्सत्त्वादमृषेव भाति सकल॑ रज्जौ यथाहेभ्भ्रम: ।
यत्पादप्लवमेकमेव हि भवाम्भोधेस्तितीर्षावतां
वन्दे5ह॑ तमशेषकारणपरं रामाख्यमीशं हरिम्‌॥ ६॥
जिनकी मायाके वशीभूत सम्पूर्ण विश्व, ब्रह्मादि देवता और असुर हैं, जिनकी सत्तासे रस्सीमें
सर्पके भ्रमकी भाँति यह सारा दृश्य-जगत्‌ सत्य ही प्रतीत होता है और जिनके केवल चरण ही

भवसागरसे तरनेकी इच्छावालोंके लिये एकमात्र नौका हैं, उन समस्त कारणोंसे पर (सब कारणोंके
कारण और सबसे श्रेष्ठ) राम कहानेवाले भगवान्‌ हरिकी मैं वन्दना करता हूँ॥६॥

नानापुराणनिगमागमसम्मतं यद्‌
रामायणे निगदितं क्कचिदन्यतो5पि।
स्वान्तः:सुखाय तुलसी रघुनाथगाथा-
भाषानिबन्धमतिमज्जुलमातनोति ॥ ७॥
अनेक पुराण, वेद और [तन्‍्त्र] शास्त्रसे सम्मत तथा जो रामायणमें वर्णित है और कुछ अन्यत्रसे

भ

### Handling Invalid words or characters

In [152]:
for i, book_page in enumerate(ch1_pages):
    ch1_pages[i].text = re.sub(r"(?<=\S)5(?=\S)", "ऽ", book_page.text)
    # Replace invalid words using the dictionary
    for invalid_word, correct_word in word_mappers.items():
        ch1_pages[i].text = book_page.text.replace(invalid_word, correct_word)    

In [153]:
print(ch1_pages[1].text)

१८ & रामचरितमानस *

उद्धवस्थितिसंहारकारिणीं क्लेशहारिणीम्‌।
सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्‍लभाम्‌॥ ५॥
उत्पत्ति, स्थिति (पालन) और संहार करनेवाली, क्लेशोंकी हरनेवाली तथा सम्पूर्ण कल्याणोंकी
करनेवाली श्रीरामचन्द्रजीकी प्रियतमा श्रीसीताजीको मैं नमस्कार करता हूँ॥५॥
यन्मायावशवर्त्ति विश्वमखिलं ब्रह्मादिदेवासुरा
यत्सत्त्वादमृषेव भाति सकल॑ रज्जौ यथाहेभ्भ्रम: ।
यत्पादप्लवमेकमेव हि भवाम्भोधेस्तितीर्षावतां
वन्देऽह॑ तमशेषकारणपरं रामाख्यमीशं हरिम्‌॥ ६॥
जिनकी मायाके वशीभूत सम्पूर्ण विश्व, ब्रह्मादि देवता और असुर हैं, जिनकी सत्तासे रस्सीमें
सर्पके भ्रमकी भाँति यह सारा दृश्य-जगत्‌ सत्य ही प्रतीत होता है और जिनके केवल चरण ही

भवसागरसे तरनेकी इच्छावालोंके लिये एकमात्र नौका हैं, उन समस्त कारणोंसे पर (सब कारणोंके
कारण और सबसे श्रेष्ठ) राम कहानेवाले भगवान्‌ हरिकी मैं वन्दना करता हूँ॥६॥

नानापुराणनिगमागमसम्मतं यद्‌
रामायणे निगदितं क्कचिदन्यतोऽपि।
स्वान्तः:सुखाय तुलसी रघुनाथगाथा-
भाषानिबन्धमतिमज्जुलमातनोति ॥ ७॥
अनेक पुराण, वेद और [तन्‍्त्र] शास्त्रसे सम्मत तथा जो रामायणमें वर्णित है और कुछ अन्यत्रसे

भ

### Handling page headers

In [154]:
for book_page in ch1_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(check_res[1])

॥ श्रीगणेशाय नमः ॥


#### Handling page headers for first chapter page

In [155]:
print(ch1_pages[0].text)

॥ श्रीगणेशाय नमः ॥

श्रीजानकीवल्लभो विजयते

श्रीरामचरितमानस

प्रथम सोपान |

(_बालकाण्ड_>
श्लोक
वर्णानामर्थसंघानां रसानां छन्दसामपि।
मड़लानां च कर्त्तारा बन्दे वाणीविनायकौ॥ १॥
अक्षरों, अर्थसमूहों, रसों, छन्‍्दों और मंगलोंकी करनेवाली सरस्वतीजी और गणेशजीकी मैं
वन्दना करता हूँ॥ १॥
भवानीशड्ूरोौ. वन्दे _ श्रद्धाविश्वासरूपिणौ।
याभ्यां विना न पश्यन्ति सिद्धाः स्वान्तःस्थमी श्वरम्‌॥ २॥
श्रद्धा और विश्वासके स्वरूप श्रीपार्वतीजी और श्रीशड्डरजीकी मैं वन्दना करता हूँ, जिनके बिना
सिद्धजन अपने अन्तःकरणमें स्थित ईश्वरको नहीं देख सकते॥ २॥
वन्दे बोधमयं नित्यं गुरु शड्डूररूपिणम्‌।
यमाथअ्ितो हि वक्रोषपि चन्द्र: सर्वत्र वन्द्यते॥ ३॥

ज्ञानमय, नित्य, शड्डूररूपी गुरुकी मैं वन्दना करता हूँ, जिनके आश्रित होनेसे ही टेढ़ा चन्द्रमा
भी सर्वत्र वन्दित होता है॥३॥

सीतारामगुणग्रामपुण्यारण्यविहारिणौ ।
वन्दे विशुद्धविज्ञानौ कवीश्वरकपी श्वरौ ॥ ४॥

श्रीसीतारामजीके गुणसमूहरूपी पवित्र वनमें विहार करनेवाले, विशुद्ध विज्ञानसम्पन्न कवीश्वर
श्रीवाल्मीकिजी और कपीश्वर श्रीहनुमानूजीकी मैं वन्दना करता हूँ॥४॥




In [156]:
init_idx = ch1_pages[0].text.find('श्लोक')
ch1_pages[0].text = ch1_pages[0].text[init_idx + len('श्लोक'):]

In [157]:
print(ch1_pages[0].text)


वर्णानामर्थसंघानां रसानां छन्दसामपि।
मड़लानां च कर्त्तारा बन्दे वाणीविनायकौ॥ १॥
अक्षरों, अर्थसमूहों, रसों, छन्‍्दों और मंगलोंकी करनेवाली सरस्वतीजी और गणेशजीकी मैं
वन्दना करता हूँ॥ १॥
भवानीशड्ूरोौ. वन्दे _ श्रद्धाविश्वासरूपिणौ।
याभ्यां विना न पश्यन्ति सिद्धाः स्वान्तःस्थमी श्वरम्‌॥ २॥
श्रद्धा और विश्वासके स्वरूप श्रीपार्वतीजी और श्रीशड्डरजीकी मैं वन्दना करता हूँ, जिनके बिना
सिद्धजन अपने अन्तःकरणमें स्थित ईश्वरको नहीं देख सकते॥ २॥
वन्दे बोधमयं नित्यं गुरु शड्डूररूपिणम्‌।
यमाथअ्ितो हि वक्रोषपि चन्द्र: सर्वत्र वन्द्यते॥ ३॥

ज्ञानमय, नित्य, शड्डूररूपी गुरुकी मैं वन्दना करता हूँ, जिनके आश्रित होनेसे ही टेढ़ा चन्द्रमा
भी सर्वत्र वन्दित होता है॥३॥

सीतारामगुणग्रामपुण्यारण्यविहारिणौ ।
वन्दे विशुद्धविज्ञानौ कवीश्वरकपी श्वरौ ॥ ४॥

श्रीसीतारामजीके गुणसमूहरूपी पवित्र वनमें विहार करनेवाले, विशुद्ध विज्ञानसम्पन्न कवीश्वर
श्रीवाल्मीकिजी और कपीश्वर श्रीहनुमानूजीकी मैं वन्दना करता हूँ॥४॥




<br>

#### Handling page headers for rest of the chapter pages

In [158]:
print(ch1_pages[1].text)

१८ & रामचरितमानस *

उद्धवस्थितिसंहारकारिणीं क्लेशहारिणीम्‌।
सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्‍लभाम्‌॥ ५॥
उत्पत्ति, स्थिति (पालन) और संहार करनेवाली, क्लेशोंकी हरनेवाली तथा सम्पूर्ण कल्याणोंकी
करनेवाली श्रीरामचन्द्रजीकी प्रियतमा श्रीसीताजीको मैं नमस्कार करता हूँ॥५॥
यन्मायावशवर्त्ति विश्वमखिलं ब्रह्मादिदेवासुरा
यत्सत्त्वादमृषेव भाति सकल॑ रज्जौ यथाहेभ्भ्रम: ।
यत्पादप्लवमेकमेव हि भवाम्भोधेस्तितीर्षावतां
वन्देऽह॑ तमशेषकारणपरं रामाख्यमीशं हरिम्‌॥ ६॥
जिनकी मायाके वशीभूत सम्पूर्ण विश्व, ब्रह्मादि देवता और असुर हैं, जिनकी सत्तासे रस्सीमें
सर्पके भ्रमकी भाँति यह सारा दृश्य-जगत्‌ सत्य ही प्रतीत होता है और जिनके केवल चरण ही

भवसागरसे तरनेकी इच्छावालोंके लिये एकमात्र नौका हैं, उन समस्त कारणोंसे पर (सब कारणोंके
कारण और सबसे श्रेष्ठ) राम कहानेवाले भगवान्‌ हरिकी मैं वन्दना करता हूँ॥६॥

नानापुराणनिगमागमसम्मतं यद्‌
रामायणे निगदितं क्कचिदन्यतोऽपि।
स्वान्तः:सुखाय तुलसी रघुनाथगाथा-
भाषानिबन्धमतिमज्जुलमातनोति ॥ ७॥
अनेक पुराण, वेद और [तन्‍्त्र] शास्त्रसे सम्मत तथा जो रामायणमें वर्णित है और कुछ अन्यत्रसे

भ

In [159]:
for i, book_page in enumerate(ch1_pages):
    if i > 0:
        ch1_pages[i].text = remove_page_header_line(book_page.text)

In [160]:
print(ch1_pages[1].text)



उद्धवस्थितिसंहारकारिणीं क्लेशहारिणीम्‌।
सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्‍लभाम्‌॥ ५॥
उत्पत्ति, स्थिति (पालन) और संहार करनेवाली, क्लेशोंकी हरनेवाली तथा सम्पूर्ण कल्याणोंकी
करनेवाली श्रीरामचन्द्रजीकी प्रियतमा श्रीसीताजीको मैं नमस्कार करता हूँ॥५॥
यन्मायावशवर्त्ति विश्वमखिलं ब्रह्मादिदेवासुरा
यत्सत्त्वादमृषेव भाति सकल॑ रज्जौ यथाहेभ्भ्रम: ।
यत्पादप्लवमेकमेव हि भवाम्भोधेस्तितीर्षावतां
वन्देऽह॑ तमशेषकारणपरं रामाख्यमीशं हरिम्‌॥ ६॥
जिनकी मायाके वशीभूत सम्पूर्ण विश्व, ब्रह्मादि देवता और असुर हैं, जिनकी सत्तासे रस्सीमें
सर्पके भ्रमकी भाँति यह सारा दृश्य-जगत्‌ सत्य ही प्रतीत होता है और जिनके केवल चरण ही

भवसागरसे तरनेकी इच्छावालोंके लिये एकमात्र नौका हैं, उन समस्त कारणोंसे पर (सब कारणोंके
कारण और सबसे श्रेष्ठ) राम कहानेवाले भगवान्‌ हरिकी मैं वन्दना करता हूँ॥६॥

नानापुराणनिगमागमसम्मतं यद्‌
रामायणे निगदितं क्कचिदन्यतोऽपि।
स्वान्तः:सुखाय तुलसी रघुनाथगाथा-
भाषानिबन्धमतिमज्जुलमातनोति ॥ ७॥
अनेक पुराण, वेद और [तन्‍्त्र] शास्त्रसे सम्मत तथा जो रामायणमें वर्णित है और कुछ अन्यत्रसे

भी उपलब्ध श्रीरघुना

In [162]:
for book_page in ch1_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

16 वर्णानामर्थसंघानां रसानां छन्दसामपि।
17 उद्धवस्थितिसंहारकारिणीं क्लेशहारिणीम्‌।
18 नील सरोरुह स्थाम तरून अरुन बारिज नयन।
19 उघरहिं बिमल बिलोचन ही के । मिट॒हिं दोष दुख भव रजनी के॥
20 मुद मंगलमय संत समाजू । जो जग जंगम तीरथराजू॥
21 बालमीक नारद घटजोनी। निज निज मुखनि कही निज होनी ॥
22 मैं संतोंको प्रणाम करता हूँ, जिनके चित्तमें समता है, जिनका न कोई मित्र है और न शत्रु!
23 जैसे ओले खेतीका नाश करके आप भी गल जाते हैं, वैसे ही वे दूसरोंका काम बिगाड़नेके
24 दोनों (संत और असंत) जगत्‌में एक साथ पैदा होते हैं; पर [एक साथ पैदा होनेवाले] कमल
25 माया ब्रहा जीव जगदीसा । लच्छि अलच्छि रंक अवनीसा॥
26 बुरा वेष बना लेनेपर भी साधुका सम्मान ही होता है, जैसे जगत्‌में जाम्बवान्‌ और हनुमान्‌जीका
27 देवता, दैत्य, मनुष्य, नाग, पक्षी, प्रेत, पितर, गन्धर्व, किन्नर और निशाचर सबको मैं प्रणाम
28 रसीली हो या अत्यन्त फीकी, अपनी कविता किसे अच्छी नहीं लगती ? किन्तु जो दूसरेकी
29 सज्जनगण इस कथाको अपने जीमें श्रीरामजीकी भक्तिसे भूषित जानकर सुन्दर वाणीसे सराहना
30 जदपि कबित रस एकउ नाहीं। राम प्रताप प्रगट एहि माहीं॥
31 मनि 

<br><br><br>

# Extracting text for अयोध्याकाण्ड (Chapter 2)

In [163]:
first_page_idx = 341
last_page_idx = 615

ch2_pages = extract_text_from_page_images(images[first_page_idx: last_page_idx + 1], first_page_idx, 'अयोध्याकाण्ड')

Processing page 1 / 275
Processing page 2 / 275
Processing page 3 / 275
Processing page 4 / 275
Processing page 5 / 275
Processing page 6 / 275
Processing page 7 / 275
Processing page 8 / 275
Processing page 9 / 275
Processing page 10 / 275
Processing page 11 / 275
Processing page 12 / 275
Processing page 13 / 275
Processing page 14 / 275
Processing page 15 / 275
Processing page 16 / 275
Processing page 17 / 275
Processing page 18 / 275
Processing page 19 / 275
Processing page 20 / 275
Processing page 21 / 275
Processing page 22 / 275
Processing page 23 / 275
Processing page 24 / 275
Processing page 25 / 275
Processing page 26 / 275
Processing page 27 / 275
Processing page 28 / 275
Processing page 29 / 275
Processing page 30 / 275
Processing page 31 / 275
Processing page 32 / 275
Processing page 33 / 275
Processing page 34 / 275
Processing page 35 / 275
Processing page 36 / 275
Processing page 37 / 275
Processing page 38 / 275
Processing page 39 / 275
Processing page 40 / 275
Processin

In [166]:
len(ch2_pages)

275

In [167]:
print(ch2_pages[1].text)

३४४ * रामचरितमानस *

नीले कमलके समान श्याम और कोमल जिनके अछ् हैं, श्रीसीताजी जिनके वाम भागमें
विराजमान हैं और जिनके हाथोंमें [क्रमशः] अमोघ बाण और सुन्दर धनुष है, उन रघुवंशके स्वामी
श्रीरामचन्द्रजीको मैं नमस्कार करता हूँ॥३॥

दो०-- श्रीगुरू चरन सरोज रज निज मनु मुकुरु सुधारि।
बरनउं रघुबर बिमल जसु जो दायकु फल चारि॥
श्रीगुरुजीके चरणकमलोंकी रजसे अपने मनरूपी दर्पणको साफ करके मैं श्रीरघुनाथजीके उस
निर्मल यशका वर्णन करता हूँ, जो चारों फलोंको (धर्म, अर्थ, काम, मोक्षको) देनेवाला है।
जब तें रामु ब्याहि घघ आए। नित नव मंगल मोद बधाए॥
भुवन चारिदस भूधर भारी । सुकृत मेघ बरषहिं सुख बारी॥
जबसे श्रीरामचन्द्रजी विवाह करके घर आये, तबसे [अयोध्यामें] नित्य नये मड़ल हो रहे हैं
और आननन्‍्दके बधावे बज रहे हैं। चौदहों लोकरूपी बड़े भारी पर्वतोंपर पुण्यरूपी मेघ सुखरूपी
जल बरसा रहे हैं॥१॥
रिधि सिधि संपति नदीं सुहाई । उमगि अवध अंबुधि कहूँ आई॥
मनिगन पुर नर नारि सुजाती। सुचि अमोल सुंदर सब भाँती॥
ऋद्धि-सिद्धि और सम्पत्तिरूपी सुहावनी नदियाँ उमड़-उमड़कर अयोध्यारूपी समुद्रमें आ
मिलीं। नगरके स्त्री-पुरुष अच्छी जातिके मणियोंक

### Handling Invalid words or characters

In [168]:
for i, book_page in enumerate(ch2_pages):
    ch2_pages[i].text = re.sub(r"(?<=\S)5(?=\S)", "ऽ", book_page.text)
    # Replace invalid words using the dictionary
    for invalid_word, correct_word in word_mappers.items():
        ch2_pages[i].text = book_page.text.replace(invalid_word, correct_word)    

In [169]:
print(ch2_pages[1].text)

३४४ * रामचरितमानस *

नीले कमलके समान श्याम और कोमल जिनके अछ् हैं, श्रीसीताजी जिनके वाम भागमें
विराजमान हैं और जिनके हाथोंमें [क्रमशः] अमोघ बाण और सुन्दर धनुष है, उन रघुवंशके स्वामी
श्रीरामचन्द्रजीको मैं नमस्कार करता हूँ॥३॥

दो०-- श्रीगुरू चरन सरोज रज निज मनु मुकुरु सुधारि।
बरनउं रघुबर बिमल जसु जो दायकु फल चारि॥
श्रीगुरुजीके चरणकमलोंकी रजसे अपने मनरूपी दर्पणको साफ करके मैं श्रीरघुनाथजीके उस
निर्मल यशका वर्णन करता हूँ, जो चारों फलोंको (धर्म, अर्थ, काम, मोक्षको) देनेवाला है।
जब तें रामु ब्याहि घघ आए। नित नव मंगल मोद बधाए॥
भुवन चारिदस भूधर भारी । सुकृत मेघ बरषहिं सुख बारी॥
जबसे श्रीरामचन्द्रजी विवाह करके घर आये, तबसे [अयोध्यामें] नित्य नये मड़ल हो रहे हैं
और आननन्‍्दके बधावे बज रहे हैं। चौदहों लोकरूपी बड़े भारी पर्वतोंपर पुण्यरूपी मेघ सुखरूपी
जल बरसा रहे हैं॥१॥
रिधि सिधि संपति नदीं सुहाई । उमगि अवध अंबुधि कहूँ आई॥
मनिगन पुर नर नारि सुजाती। सुचि अमोल सुंदर सब भाँती॥
ऋद्धि-सिद्धि और सम्पत्तिरूपी सुहावनी नदियाँ उमड़-उमड़कर अयोध्यारूपी समुद्रमें आ
मिलीं। नगरके स्त्री-पुरुष अच्छी जातिके मणियोंक

### Handling page headers

In [None]:
print(ch2_pages[0].text)

In [170]:
for book_page in ch2_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

342 ॥ श्रीगणेशाय नम: ॥


#### Handling page headers for first chapter page

In [171]:
print(ch2_pages[0].text)

॥ श्रीगणेशाय नम: ॥

श्रीजानकीवल्लभो विजयते

श्रीरासमचरितमानस

द्वितीय सोपान |

अयो'
< ध्याकाण्ड_>
श्लोक
यस्याड्डले च विभाति भूधरसुता देवापगा मस्तके
भाले बालविधुर्गले च गरलं यस्योरसि व्यालराट।
सोऽयं भूतिविभूषण: सुरवरः सर्वाधिप: सर्वदा
शर्व: सर्वगतः शिवः शशिनिभ:ः श्रीशड्डरः पातु माम्‌॥ १॥
जिनकी गोदमें हिमाचलसुता पार्वतीजी, मस्तकपर गद्जाजी, ललाटपर द्वितीयाका चन्द्रमा,
कण्ठमें हलाहल विष और वक्ष:स्थलपर सर्पराज शेषजी सुशोभित हैं, वे भस्मसे विभूषित,
देवताओंमें श्रेष्ठ, सर्वेश्वर, संहारकर्ता [या भक्तोंके पापनाशक], सर्वव्यापक, कल्याणरूप, चन्द्रमाके
समान शुभ्रवर्ण श्रीशल्डरजी सदा मेरी रक्षा करें॥ १॥
प्रसन्‍नतां या न गताभिषेकतस्तथा न मम्ले वनवासदुःखतः।
मुखाम्बुजश्री रघुनन्दनस्य मे सदास्तु सा मज्जुलमड्डलप्रदा॥ २॥
रघुकुलको आनन्द देनेवाले श्रीरामचन्द्रजीके मुखारविन्दकी जो शोभा राज्याभिषेकसे (राज्याभिषेककी
बात सुनकर) न तो प्रसनन्‍नताको प्राप्त हुई और न वनवासके दुःखसे मलिन ही हुई, वह
(मुखकमलकी छबि) मेरे लिये सदा सुन्दर मड़लोंकी देनेवाली हो॥२॥
नीलाम्बुजश्यामलकोमलाडुं. सीतासमारोपितवामभागम्‌।
पाणौ महासाय

In [172]:
init_idx = ch2_pages[0].text.find('श्लोक')
ch2_pages[0].text = ch2_pages[0].text[init_idx + len('श्लोक'):]

In [173]:
print(ch2_pages[0].text)


यस्याड्डले च विभाति भूधरसुता देवापगा मस्तके
भाले बालविधुर्गले च गरलं यस्योरसि व्यालराट।
सोऽयं भूतिविभूषण: सुरवरः सर्वाधिप: सर्वदा
शर्व: सर्वगतः शिवः शशिनिभ:ः श्रीशड्डरः पातु माम्‌॥ १॥
जिनकी गोदमें हिमाचलसुता पार्वतीजी, मस्तकपर गद्जाजी, ललाटपर द्वितीयाका चन्द्रमा,
कण्ठमें हलाहल विष और वक्ष:स्थलपर सर्पराज शेषजी सुशोभित हैं, वे भस्मसे विभूषित,
देवताओंमें श्रेष्ठ, सर्वेश्वर, संहारकर्ता [या भक्तोंके पापनाशक], सर्वव्यापक, कल्याणरूप, चन्द्रमाके
समान शुभ्रवर्ण श्रीशल्डरजी सदा मेरी रक्षा करें॥ १॥
प्रसन्‍नतां या न गताभिषेकतस्तथा न मम्ले वनवासदुःखतः।
मुखाम्बुजश्री रघुनन्दनस्य मे सदास्तु सा मज्जुलमड्डलप्रदा॥ २॥
रघुकुलको आनन्द देनेवाले श्रीरामचन्द्रजीके मुखारविन्दकी जो शोभा राज्याभिषेकसे (राज्याभिषेककी
बात सुनकर) न तो प्रसनन्‍नताको प्राप्त हुई और न वनवासके दुःखसे मलिन ही हुई, वह
(मुखकमलकी छबि) मेरे लिये सदा सुन्दर मड़लोंकी देनेवाली हो॥२॥
नीलाम्बुजश्यामलकोमलाडुं. सीतासमारोपितवामभागम्‌।
पाणौ महासायकचारुचापं नमामि राम॑ रघुवंशनाथम्‌। ॥। ३॥




#### Handling page headers for rest of the chapter pages

In [174]:
print(ch2_pages[1].text)

३४४ * रामचरितमानस *

नीले कमलके समान श्याम और कोमल जिनके अछ् हैं, श्रीसीताजी जिनके वाम भागमें
विराजमान हैं और जिनके हाथोंमें [क्रमशः] अमोघ बाण और सुन्दर धनुष है, उन रघुवंशके स्वामी
श्रीरामचन्द्रजीको मैं नमस्कार करता हूँ॥३॥

दो०-- श्रीगुरू चरन सरोज रज निज मनु मुकुरु सुधारि।
बरनउं रघुबर बिमल जसु जो दायकु फल चारि॥
श्रीगुरुजीके चरणकमलोंकी रजसे अपने मनरूपी दर्पणको साफ करके मैं श्रीरघुनाथजीके उस
निर्मल यशका वर्णन करता हूँ, जो चारों फलोंको (धर्म, अर्थ, काम, मोक्षको) देनेवाला है।
जब तें रामु ब्याहि घघ आए। नित नव मंगल मोद बधाए॥
भुवन चारिदस भूधर भारी । सुकृत मेघ बरषहिं सुख बारी॥
जबसे श्रीरामचन्द्रजी विवाह करके घर आये, तबसे [अयोध्यामें] नित्य नये मड़ल हो रहे हैं
और आननन्‍्दके बधावे बज रहे हैं। चौदहों लोकरूपी बड़े भारी पर्वतोंपर पुण्यरूपी मेघ सुखरूपी
जल बरसा रहे हैं॥१॥
रिधि सिधि संपति नदीं सुहाई । उमगि अवध अंबुधि कहूँ आई॥
मनिगन पुर नर नारि सुजाती। सुचि अमोल सुंदर सब भाँती॥
ऋद्धि-सिद्धि और सम्पत्तिरूपी सुहावनी नदियाँ उमड़-उमड़कर अयोध्यारूपी समुद्रमें आ
मिलीं। नगरके स्त्री-पुरुष अच्छी जातिके मणियोंक

In [175]:
for i, book_page in enumerate(ch2_pages):
    if i > 0:
        ch2_pages[i].text = remove_page_header_line(book_page.text)

In [176]:
print(ch2_pages[1].text)



नीले कमलके समान श्याम और कोमल जिनके अछ् हैं, श्रीसीताजी जिनके वाम भागमें
विराजमान हैं और जिनके हाथोंमें [क्रमशः] अमोघ बाण और सुन्दर धनुष है, उन रघुवंशके स्वामी
श्रीरामचन्द्रजीको मैं नमस्कार करता हूँ॥३॥

दो०-- श्रीगुरू चरन सरोज रज निज मनु मुकुरु सुधारि।
बरनउं रघुबर बिमल जसु जो दायकु फल चारि॥
श्रीगुरुजीके चरणकमलोंकी रजसे अपने मनरूपी दर्पणको साफ करके मैं श्रीरघुनाथजीके उस
निर्मल यशका वर्णन करता हूँ, जो चारों फलोंको (धर्म, अर्थ, काम, मोक्षको) देनेवाला है।
जब तें रामु ब्याहि घघ आए। नित नव मंगल मोद बधाए॥
भुवन चारिदस भूधर भारी । सुकृत मेघ बरषहिं सुख बारी॥
जबसे श्रीरामचन्द्रजी विवाह करके घर आये, तबसे [अयोध्यामें] नित्य नये मड़ल हो रहे हैं
और आननन्‍्दके बधावे बज रहे हैं। चौदहों लोकरूपी बड़े भारी पर्वतोंपर पुण्यरूपी मेघ सुखरूपी
जल बरसा रहे हैं॥१॥
रिधि सिधि संपति नदीं सुहाई । उमगि अवध अंबुधि कहूँ आई॥
मनिगन पुर नर नारि सुजाती। सुचि अमोल सुंदर सब भाँती॥
ऋद्धि-सिद्धि और सम्पत्तिरूपी सुहावनी नदियाँ उमड़-उमड़कर अयोध्यारूपी समुद्रमें आ
मिलीं। नगरके स्त्री-पुरुष अच्छी जातिके मणियोंके समूह हैं, जो सब प

In [177]:
for book_page in ch2_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

342 यस्याड्डले च विभाति भूधरसुता देवापगा मस्तके
343 नीले कमलके समान श्याम और कोमल जिनके अछ् हैं, श्रीसीताजी जिनके वाम भागमें
344 सबके हृदयमें ऐसी अभिलाषा है और सब महादेवजीको मनाकर (प्रार्थना करके) कहते हैं
345 सबहि रामु प्रिय जेहि बिधि मोही । प्रभु असीस जनु तनु धरि सोही॥
346 पुनि न सोच तनु रहउ कि जाऊ | जेहिं न होइ पाछें पछिताऊ॥
347 जग मंगल भल काजु बिचारा। बेगिअ नाथ न लाइअ बारा॥
348 ध्वजा, पताका, तोरण, कलश, घोड़े, रथ और हाथी सबको सजाओ। मुनिश्रेष्ठ वसिष्ठजीके
349 सबसे पहले [रनिवासमें ] जाकर जिन्होंने ये वचन (समाचार) सुनाये, उन्होंने बहुत-से आभूषण
350 सेवक सदन स्वामि आगमनू | मंगल मूल अमंगल दमनू॥
351 बिमल बंस यहु अनुचित एकू | बंधु बिहाइ बड़ेहि अभिषेकू॥
352 दो०--बिपति हमारि बिलोकि बड़ि मातु करिअ सोड आजु।
353 दीख मंथरा नगरू बनावा। मंजुल मंगल बाज बधावा॥
354 [वह कहने लगी--] हे माई! हमें कोई क्‍यों सीख देगा और मैं किसका बल पाकर गाल
355 बड़ा भाई स्वामी और छोटा भाई सेवक होता है। यह सूर्यवंशकी सुहावनी रीति ही है। यदि
356 विधाताने कुरूप बनाकर मुझे परवश कर दिया! [दूसरेको क्‍या दोष] जो बोया सो काटती


<br><br><br>

# Extracting text for अरण्यकाण्ड (Chapter 3)

In [178]:
first_page_idx = 617
last_page_idx = 677

ch3_pages = extract_text_from_page_images(images[first_page_idx: last_page_idx + 1], first_page_idx, 'अरण्यकाण्ड')

Processing page 1 / 61
Processing page 2 / 61
Processing page 3 / 61
Processing page 4 / 61
Processing page 5 / 61
Processing page 6 / 61
Processing page 7 / 61
Processing page 8 / 61
Processing page 9 / 61
Processing page 10 / 61
Processing page 11 / 61
Processing page 12 / 61
Processing page 13 / 61
Processing page 14 / 61
Processing page 15 / 61
Processing page 16 / 61
Processing page 17 / 61
Processing page 18 / 61
Processing page 19 / 61
Processing page 20 / 61
Processing page 21 / 61
Processing page 22 / 61
Processing page 23 / 61
Processing page 24 / 61
Processing page 25 / 61
Processing page 26 / 61
Processing page 27 / 61
Processing page 28 / 61
Processing page 29 / 61
Processing page 30 / 61
Processing page 31 / 61
Processing page 32 / 61
Processing page 33 / 61
Processing page 34 / 61
Processing page 35 / 61
Processing page 36 / 61
Processing page 37 / 61
Processing page 38 / 61
Processing page 39 / 61
Processing page 40 / 61
Processing page 41 / 61
Processing page 42 / 61
P

In [180]:
len(ch3_pages)

61

In [181]:
print(ch3_pages[1].text)

६२० * रामचरितमानस *

जिनका शरीर जलयुक्त मेघोंके समान सुन्दर (श्यामवर्ण) एवं आनन्दघन है, जो सुन्दर [वल्कलका]
पीतवस्त्र धारण किये हैं, जिनके हाथोंमें बाण और धनुष हैं, कमर उत्तम तरकसके भारसे सुशोभित
है, कमलके समान विशाल नेत्र हैं और मस्तकपर जटाजूट धारण किये हैं, उन अत्यन्त शोभायमान
श्रीसीताजी और लक्ष्मणजीसहित मार्ममें चलते हुए आनन्द देनेवाले श्रीरामचन्द्रजीको मैं भजता हूँ॥ २॥

सो०--उमा राम गुन गूढ़ पंडित मुनि पावहिं बिरति।
पावहिं मोह बिमूढ़ जे हरि बिमुख न धर्म रति॥

हे पार्वती ! श्रीरमजीके गुण गूढ़ हैं, पण्डित और मुनि उन्हें समझकर वैराग्य प्राप्त करते हैं। परन्तु जो
भगवानूसे विमुख हैं और जिनका धर्ममें प्रेम नहीं है, वे महामूढ़ [उन्हें सुनकर] मोहको प्राप्त होते हैं।

पुर नर भरत प्रीति मैं गाई। मति अनुरूप अनूप सुहाई॥

अब प्रभु चरित सुनहु अति पावन । करत जे बन सुर नर मुनि भावन॥
पुरवासियोंके और भरतजीके अनुपम और सुन्दर प्रेमका मैंने अपनी बुद्धिके अनुसार गान

किया। अब देवता, मनुष्य और मुनियोंके मनको भानेवाले प्रभु श्रीरामचन्द्रजीके वे अत्यन्त पवित्र

चरित्र सुनो, जिन्हें वे वनमें कर रहे हैं॥ १॥


### Handling Invalid words or characters

In [182]:
print(ch3_pages[16].text)

#* अरणयकाण्ड * ६३५

अस अभिमान जाइ जनि भोरे। मैं सेवक रघुपति पति मोरे॥

सुनि मुनि बचन राम मन भाए। बहुरि हरषि मुनिबर उर लाए॥

ऐसा अभिमान भूलकर भी न छूटे कि मैं सेवक हूँ और श्रीरघुनाथजी मेरे स्वामी हैं। मुनिके
वचन सुनकर श्रीरामजी मनमें बहुत प्रसन्न हुए। तब उन्होंने हर्षित होकर श्रेष्ठ मुनिको हृदयसे लगा
लिया॥ ११॥

परम प्रसन्न जानु मुनि मोही। जो बर मागहु देउें सो तोही॥

मुनि कह मैं बर कबहुँ न जाचा । समुझि न परइ झूठ का साचा॥
[और कहा--] हे मुनि! मुझे परम प्रसन्न जानो। जो वर माँगो, वहीं मैं तुम्हें दूँ! मुनि

सुतीक्ष्णणीने कहा-मैंने तो वर कभी माँगा ही नहीं। मुझे समझ ही नहीं पड़ता कि क्‍या झूठ है

और क्‍या सत्य है, (क्या माँगूँ, क्या नहीं) ॥ १२॥

तुम्हिहि नीक लागै रघुराई । सो मोहि देहु दास सुखदाई॥

अबिरल भगति बिरति बिग्याना । होहु सकल गुन ग्यान निधाना॥

[अतः ] हे रघुनाथजी ! हे दासोंको सुख देनेवाले! आपको जो अच्छा लगे, मुझे वही दीजिये।
[ श्रीरामचन्द्रजीने कहा--हे मुने!] तुम प्रगाढ़ भक्ति, वैराग्य, विज्ञान और समस्त गुणों तथा ज्ञानके
निधान हो जाओ॥ १३॥

प्रभु जो दीन्ह सो बरु मैं पावा। अब सो देहु मोह

In [183]:
for i, book_page in enumerate(ch3_pages):
    ch3_pages[i].text = re.sub(r"(?<=\S)5(?=\S)", "ऽ", book_page.text)
    # Replace invalid words using the dictionary
    for invalid_word, correct_word in word_mappers.items():
        ch3_pages[i].text = book_page.text.replace(invalid_word, correct_word)    

In [184]:
print(ch3_pages[16].text)

#* अरण्यकाण्ड * ६३५

अस अभिमान जाइ जनि भोरे। मैं सेवक रघुपति पति मोरे॥

सुनि मुनि बचन राम मन भाए। बहुरि हरषि मुनिबर उर लाए॥

ऐसा अभिमान भूलकर भी न छूटे कि मैं सेवक हूँ और श्रीरघुनाथजी मेरे स्वामी हैं। मुनिके
वचन सुनकर श्रीरामजी मनमें बहुत प्रसन्न हुए। तब उन्होंने हर्षित होकर श्रेष्ठ मुनिको हृदयसे लगा
लिया॥ ११॥

परम प्रसन्न जानु मुनि मोही। जो बर मागहु देउें सो तोही॥

मुनि कह मैं बर कबहुँ न जाचा । समुझि न परइ झूठ का साचा॥
[और कहा--] हे मुनि! मुझे परम प्रसन्न जानो। जो वर माँगो, वहीं मैं तुम्हें दूँ! मुनि

सुतीक्ष्णणीने कहा-मैंने तो वर कभी माँगा ही नहीं। मुझे समझ ही नहीं पड़ता कि क्‍या झूठ है

और क्‍या सत्य है, (क्या माँगूँ, क्या नहीं) ॥ १२॥

तुम्हिहि नीक लागै रघुराई । सो मोहि देहु दास सुखदाई॥

अबिरल भगति बिरति बिग्याना । होहु सकल गुन ग्यान निधाना॥

[अतः ] हे रघुनाथजी ! हे दासोंको सुख देनेवाले! आपको जो अच्छा लगे, मुझे वही दीजिये।
[ श्रीरामचन्द्रजीने कहा--हे मुने!] तुम प्रगाढ़ भक्ति, वैराग्य, विज्ञान और समस्त गुणों तथा ज्ञानके
निधान हो जाओ॥ १३॥

प्रभु जो दीन्ह सो बरु मैं पावा। अब सो देहु मो

### Handling page headers

In [185]:
for book_page in ch3_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

618 ॥ श्रीगणेशाय नम: ॥


#### Handling page headers for first chapter page

In [186]:
print(ch3_pages[0].text)

॥ श्रीगणेशाय नम: ॥

श्रीजानकीवल्लभो विजयते

श्रीरासमचरितमानस

तृतीय सोपान |

<__अरण्यकाण्ड_>
._ अरण्यकाण्ड »

श्लोक
मूल धर्मतरोरविवेकजलधे:  पूर्णन्दुमानन्ददं
वैराग्याम्बुजभास्करं हाघघनध्वान्तापह॑ तापहम्‌।
मोहाम्भोधरपूगपाटनविधौ_स्वःसम्भवं॑ शह्डूरं

वन्दे ब्रहाकुलं॑ कलड्डुशमनं श्रीरामभूपप्रियम्‌॥ १॥

धर्मरूपी वृक्षेके मूल, विवेकरूपी समुद्रको आनन्द देनेवाले पूर्णचन्द्र, वैराग्यरूपी कमलके
[विकसित करनेवाले] सूर्य, पापरूपी घोर अन्धकारको निश्चय ही मिटानेवाले, तीनों तापोंको
हरनेवाले, मोहरूपी बादलोंके समूहको छिन्न-भिन्न करनेकी विधि (क्रिया)-में आकाशसे उत्पन्न
पवनस्वरूप, ब्रह्माजीके वंशन (आत्मज) तथा कलछ्लनाशक महाराज श्रीरामचन्द्रजीके प्रिय
श्रीशड्ररजीकी मैं वन्दना करता हूँ॥ १॥

सान्द्रानन्दययोदसौभगतनुं पीताम्बर सुन्दर

पाणौ बाणशरासनं कटिलसत्तृणीरभारं वरम्‌।

राजीवायतलोचनं धृतजटाजूटेन. संशोभितं

सीतालक्ष्मणसंयुतं पथिगतं रामाभिरामं भजे॥ २॥




In [187]:
init_idx = ch3_pages[0].text.find('श्लोक')
ch3_pages[0].text = ch3_pages[0].text[init_idx + len('श्लोक'):]

In [188]:
print(ch3_pages[0].text)


मूल धर्मतरोरविवेकजलधे:  पूर्णन्दुमानन्ददं
वैराग्याम्बुजभास्करं हाघघनध्वान्तापह॑ तापहम्‌।
मोहाम्भोधरपूगपाटनविधौ_स्वःसम्भवं॑ शह्डूरं

वन्दे ब्रहाकुलं॑ कलड्डुशमनं श्रीरामभूपप्रियम्‌॥ १॥

धर्मरूपी वृक्षेके मूल, विवेकरूपी समुद्रको आनन्द देनेवाले पूर्णचन्द्र, वैराग्यरूपी कमलके
[विकसित करनेवाले] सूर्य, पापरूपी घोर अन्धकारको निश्चय ही मिटानेवाले, तीनों तापोंको
हरनेवाले, मोहरूपी बादलोंके समूहको छिन्न-भिन्न करनेकी विधि (क्रिया)-में आकाशसे उत्पन्न
पवनस्वरूप, ब्रह्माजीके वंशन (आत्मज) तथा कलछ्लनाशक महाराज श्रीरामचन्द्रजीके प्रिय
श्रीशड्ररजीकी मैं वन्दना करता हूँ॥ १॥

सान्द्रानन्दययोदसौभगतनुं पीताम्बर सुन्दर

पाणौ बाणशरासनं कटिलसत्तृणीरभारं वरम्‌।

राजीवायतलोचनं धृतजटाजूटेन. संशोभितं

सीतालक्ष्मणसंयुतं पथिगतं रामाभिरामं भजे॥ २॥




#### Handling page headers for rest of the chapter pages

In [189]:
print(ch3_pages[1].text)

६२० * रामचरितमानस *

जिनका शरीर जलयुक्त मेघोंके समान सुन्दर (श्यामवर्ण) एवं आनन्दघन है, जो सुन्दर [वल्कलका]
पीतवस्त्र धारण किये हैं, जिनके हाथोंमें बाण और धनुष हैं, कमर उत्तम तरकसके भारसे सुशोभित
है, कमलके समान विशाल नेत्र हैं और मस्तकपर जटाजूट धारण किये हैं, उन अत्यन्त शोभायमान
श्रीसीताजी और लक्ष्मणजीसहित मार्ममें चलते हुए आनन्द देनेवाले श्रीरामचन्द्रजीको मैं भजता हूँ॥ २॥

सो०--उमा राम गुन गूढ़ पंडित मुनि पावहिं बिरति।
पावहिं मोह बिमूढ़ जे हरि बिमुख न धर्म रति॥

हे पार्वती ! श्रीरमजीके गुण गूढ़ हैं, पण्डित और मुनि उन्हें समझकर वैराग्य प्राप्त करते हैं। परन्तु जो
भगवानूसे विमुख हैं और जिनका धर्ममें प्रेम नहीं है, वे महामूढ़ [उन्हें सुनकर] मोहको प्राप्त होते हैं।

पुर नर भरत प्रीति मैं गाई। मति अनुरूप अनूप सुहाई॥

अब प्रभु चरित सुनहु अति पावन । करत जे बन सुर नर मुनि भावन॥
पुरवासियोंके और भरतजीके अनुपम और सुन्दर प्रेमका मैंने अपनी बुद्धिके अनुसार गान

किया। अब देवता, मनुष्य और मुनियोंके मनको भानेवाले प्रभु श्रीरामचन्द्रजीके वे अत्यन्त पवित्र

चरित्र सुनो, जिन्हें वे वनमें कर रहे हैं॥ १॥


In [190]:
for i, book_page in enumerate(ch3_pages):
    if i > 0:
        ch3_pages[i].text = remove_page_header_line(book_page.text)

In [191]:
print(ch3_pages[1].text)



जिनका शरीर जलयुक्त मेघोंके समान सुन्दर (श्यामवर्ण) एवं आनन्दघन है, जो सुन्दर [वल्कलका]
पीतवस्त्र धारण किये हैं, जिनके हाथोंमें बाण और धनुष हैं, कमर उत्तम तरकसके भारसे सुशोभित
है, कमलके समान विशाल नेत्र हैं और मस्तकपर जटाजूट धारण किये हैं, उन अत्यन्त शोभायमान
श्रीसीताजी और लक्ष्मणजीसहित मार्ममें चलते हुए आनन्द देनेवाले श्रीरामचन्द्रजीको मैं भजता हूँ॥ २॥

सो०--उमा राम गुन गूढ़ पंडित मुनि पावहिं बिरति।
पावहिं मोह बिमूढ़ जे हरि बिमुख न धर्म रति॥

हे पार्वती ! श्रीरमजीके गुण गूढ़ हैं, पण्डित और मुनि उन्हें समझकर वैराग्य प्राप्त करते हैं। परन्तु जो
भगवानूसे विमुख हैं और जिनका धर्ममें प्रेम नहीं है, वे महामूढ़ [उन्हें सुनकर] मोहको प्राप्त होते हैं।

पुर नर भरत प्रीति मैं गाई। मति अनुरूप अनूप सुहाई॥

अब प्रभु चरित सुनहु अति पावन । करत जे बन सुर नर मुनि भावन॥
पुरवासियोंके और भरतजीके अनुपम और सुन्दर प्रेमका मैंने अपनी बुद्धिके अनुसार गान

किया। अब देवता, मनुष्य और मुनियोंके मनको भानेवाले प्रभु श्रीरामचन्द्रजीके वे अत्यन्त पवित्र

चरित्र सुनो, जिन्हें वे वनमें कर रहे हैं॥ १॥

एक बार चुनि कुसुम 

In [192]:
for book_page in ch3_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

618 मूल धर्मतरोरविवेकजलधे:  पूर्णन्दुमानन्ददं
619 जिनका शरीर जलयुक्त मेघोंके समान सुन्दर (श्यामवर्ण) एवं आनन्दघन है, जो सुन्दर [वल्कलका]
620 श्रीरघुनाथजी, जो अत्यन्त ही कृपालु हैं और जिनका दीनोंपर सदा प्रेम रहता है, उनसे भी
621 आतुर और भयभीत जयन्तने जाकर श्रीरामजीके चरण पकड़ लिये [और कहा--] हे दयालु
622 श्रीरामजीकी छबि देखकर मुनिके नेत्र शीतल हो गये। तब वे उनको आदरपूर्वक अपने आश्रममें
623 हे लक्ष्मीपते! हे सुखोंकी खान और सत्पुरुषोंकी एकमात्र गति! मैं आपको नमस्कार करता
624 दो०--बिनती करि मुनि नाइ सिरु कह कर जोरि बहोरि।
625 जग पतिब्रता चारि बिधि अहहीं । बेद पुरान संत सब कहहीं॥
626 सुनु सीता तव नाम सुमिरि नारि पतिब्रत करहिं।
627 छं०-- तन पुलक निर्भर प्रेम पूरन नयन मुख पंकज दिए।
628 तुरतहिं रुचिर रूप तेहिं पावा। देखि दुखी निज धाम पठावा॥
629 दो०--सीता अनुज समेत प्रभु नील जलद तनु स्याम।
630 मुनि अगस्ति कर सिष्य सुजाना। नाम सुतीकन रति भगवाना॥
631 उन्हें दिशा-विदिशा (दिशाएँ और उनके कोण आदि) और रास्ता, कुछ भी नहीं सूझ रहा
632 मुनिहि मिलत अस सोह कृपाला। कनक तरुहि जनु भेंट तमाला॥
633 संशय सर्प ग्

<br><br><br>

# Extracting text for किष्किन्धाकाण्ड (Chapter 4)

In [193]:
first_page_idx = 679
last_page_idx = 709

ch4_pages = extract_text_from_page_images(images[first_page_idx: last_page_idx + 1], first_page_idx, 'किष्किन्धाकाण्ड')

Processing page 1 / 31
Processing page 2 / 31
Processing page 3 / 31
Processing page 4 / 31
Processing page 5 / 31
Processing page 6 / 31
Processing page 7 / 31
Processing page 8 / 31
Processing page 9 / 31
Processing page 10 / 31
Processing page 11 / 31
Processing page 12 / 31
Processing page 13 / 31
Processing page 14 / 31
Processing page 15 / 31
Processing page 16 / 31
Processing page 17 / 31
Processing page 18 / 31
Processing page 19 / 31
Processing page 20 / 31
Processing page 21 / 31
Processing page 22 / 31
Processing page 23 / 31
Processing page 24 / 31
Processing page 25 / 31
Processing page 26 / 31
Processing page 27 / 31
Processing page 28 / 31
Processing page 29 / 31
Processing page 30 / 31
Processing page 31 / 31


In [194]:
len(ch4_pages)

31

In [195]:
print(ch4_pages[1].text)

६८२ * रामचरितमानस *

सो०--मुक्ति जन्म महि जानि ग्यान खानि अघ हानि कर।

जहँ बस संभु भवानि सो कासी सेइअ कस न॥
जहाँ श्रीशिव-पार्वती बसते हैं, उस काशीको मुक्तिकी जन्मभूमि, ज्ञानकी खान और पापोंका
नाश करनेवाली जानकर उसका सेवन क्‍यों न किया जाय?

जरत सकल सुर बूंद बिषम गरल जेहिं पान किय।
तेहि न भजसि मन मंद को कृपाल संकर सरिस॥

जिस भीषण हलाहल विषसे सब देवतागण जल रहे थे उसको जिन्होंने स्वयं पान कर लिया,
रे मन्द मन! तू उन शहक्लूरजीको क्‍यों नहीं भजता? उनके समान कृपालु [और] कौन है?
आगें चले बहुरि रघुराया। रिष्यमूक पर्बत निअराया॥
तहँ रह सचिव सहित सुग्रीवा। आवत देखि अतुल बल सींवा॥

श्रीरधुनाथजी फिर आगे चले। ऋष्यमूक पर्वत निकट आ गया। वहाँ (ऋष्यमूक पर्वतपर)

मन्त्रियोंसहित सुग्रीव रहते थे। अतुलनीय बलकी सीमा श्रीरामचन्द्रजी और लक्ष्मणजीको आते
देखकर-- ॥ १॥

अति सभीत कह सुनु हनुमाना | पुरुष जुगल बल रूप निधाना॥
धरि बटु रूप देखु तें जाई। कहेसु जानि जिये सयन बुझाई॥
सुग्रीव अत्यन्त भयभीत होकर बोले-हे हनुमान्‌! सुनो, ये दोनों पुरुष बल और रूपके निधान
हैं। तुम ब्रह्मचारीका रूप धारण करके जाकर देखो। अपने हृदयमें 

### Handling Invalid words or characters

In [196]:
for i, book_page in enumerate(ch4_pages):
    ch4_pages[i].text = re.sub(r"(?<=\S)5(?=\S)", "ऽ", book_page.text)
    # Replace invalid words using the dictionary
    for invalid_word, correct_word in word_mappers.items():
        ch4_pages[i].text = book_page.text.replace(invalid_word, correct_word)    

In [197]:
print(ch4_pages[1].text)

६८२ * रामचरितमानस *

सो०--मुक्ति जन्म महि जानि ग्यान खानि अघ हानि कर।

जहँ बस संभु भवानि सो कासी सेइअ कस न॥
जहाँ श्रीशिव-पार्वती बसते हैं, उस काशीको मुक्तिकी जन्मभूमि, ज्ञानकी खान और पापोंका
नाश करनेवाली जानकर उसका सेवन क्‍यों न किया जाय?

जरत सकल सुर बूंद बिषम गरल जेहिं पान किय।
तेहि न भजसि मन मंद को कृपाल संकर सरिस॥

जिस भीषण हलाहल विषसे सब देवतागण जल रहे थे उसको जिन्होंने स्वयं पान कर लिया,
रे मन्द मन! तू उन शहक्लूरजीको क्‍यों नहीं भजता? उनके समान कृपालु [और] कौन है?
आगें चले बहुरि रघुराया। रिष्यमूक पर्बत निअराया॥
तहँ रह सचिव सहित सुग्रीवा। आवत देखि अतुल बल सींवा॥

श्रीरधुनाथजी फिर आगे चले। ऋष्यमूक पर्वत निकट आ गया। वहाँ (ऋष्यमूक पर्वतपर)

मन्त्रियोंसहित सुग्रीव रहते थे। अतुलनीय बलकी सीमा श्रीरामचन्द्रजी और लक्ष्मणजीको आते
देखकर-- ॥ १॥

अति सभीत कह सुनु हनुमाना | पुरुष जुगल बल रूप निधाना॥
धरि बटु रूप देखु तें जाई। कहेसु जानि जिये सयन बुझाई॥
सुग्रीव अत्यन्त भयभीत होकर बोले-हे हनुमान्‌! सुनो, ये दोनों पुरुष बल और रूपके निधान
हैं। तुम ब्रह्मचारीका रूप धारण करके जाकर देखो। अपने हृदयमें 

### Handling page headers

In [198]:
for book_page in ch4_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(check_res[1])

॥ श्रीगणेशाय नम: ॥


#### Handling page headers for first chapter page

In [199]:
print(ch4_pages[0].text)

॥ श्रीगणेशाय नम: ॥

श्रीजानकीवल्लभो विजयते

श्रीरासमचरितमानस

अतुर्थ सोपान

किष्किन्धाकाण्ड
श्लोक
कुन्देन्दीवरसुन्दरवतिबलौ विज्ञानधामावुभौ
शोभाढ्यौ वरधन्विनौ श्रुतिनुतौ गोविप्रवृन्दप्रियौ।
मायामानुषरूपिणौ रघुवरो सद्धर्मवर्मों हितौ
सीतान्वेषणतत्परौ पथिगतौ भक्तिप्रदाौ तौ हि नः॥ १॥

कुन्दपुष्प और नील कमलके समान सुन्दर गौर एवं श्यामवर्ण, अत्यन्त बलवान, विज्ञानके धाम,
शोभासम्पन्न, श्रेष्ठ धनुर्धर, वेदोंके द्वारा वन्दित, गौ एवं ब्राह्मणोंके समूहके प्रिय [ अथवा प्रेमी |, मायासे
मनुष्यरूप धारण किये हुए, श्रेष्ठ धर्मके लिये कवचस्वरूप, सबके हितकारी, श्रीसीताजीकी खोजमें लगे
हुए, पथिकरूप रघुकुलके श्रेष्ठ श्रीयमजी और श्रीलक्ष्मणजी दोनों भाई निश्चय ही हमें भक्तिप्रद हों॥ १॥
ब्रह्माम्भोधिसमुद्धवं _कलिमलप्रध्वंसनं॑ चाव्ययं
श्रीमच्छम्भुमुखेन्दुसुन्दरवरे संशोभितं॑ सर्वदा।
संसारामयभेषज॑ सुखकरं श्रीजानकीजीवनं

धन्यास्ते कृतिनः पिबन्ति सततं श्रीरामनामामृतम्‌॥ २॥

वे सुकृती (पुण्यात्मा पुरुष) धन्य हैं जो वेदरूपी समुद्र [के मथने] से उत्पन्न हुए कलियुगके
मलको सर्वथा नष्ट कर देनेवाले, अविनाशी, भगवान्‌ श्रीशम्भ

In [200]:
init_idx = ch4_pages[0].text.find('श्लोक')
ch4_pages[0].text = ch4_pages[0].text[init_idx + len('श्लोक'):]

In [201]:
print(ch4_pages[0].text)


कुन्देन्दीवरसुन्दरवतिबलौ विज्ञानधामावुभौ
शोभाढ्यौ वरधन्विनौ श्रुतिनुतौ गोविप्रवृन्दप्रियौ।
मायामानुषरूपिणौ रघुवरो सद्धर्मवर्मों हितौ
सीतान्वेषणतत्परौ पथिगतौ भक्तिप्रदाौ तौ हि नः॥ १॥

कुन्दपुष्प और नील कमलके समान सुन्दर गौर एवं श्यामवर्ण, अत्यन्त बलवान, विज्ञानके धाम,
शोभासम्पन्न, श्रेष्ठ धनुर्धर, वेदोंके द्वारा वन्दित, गौ एवं ब्राह्मणोंके समूहके प्रिय [ अथवा प्रेमी |, मायासे
मनुष्यरूप धारण किये हुए, श्रेष्ठ धर्मके लिये कवचस्वरूप, सबके हितकारी, श्रीसीताजीकी खोजमें लगे
हुए, पथिकरूप रघुकुलके श्रेष्ठ श्रीयमजी और श्रीलक्ष्मणजी दोनों भाई निश्चय ही हमें भक्तिप्रद हों॥ १॥
ब्रह्माम्भोधिसमुद्धवं _कलिमलप्रध्वंसनं॑ चाव्ययं
श्रीमच्छम्भुमुखेन्दुसुन्दरवरे संशोभितं॑ सर्वदा।
संसारामयभेषज॑ सुखकरं श्रीजानकीजीवनं

धन्यास्ते कृतिनः पिबन्ति सततं श्रीरामनामामृतम्‌॥ २॥

वे सुकृती (पुण्यात्मा पुरुष) धन्य हैं जो वेदरूपी समुद्र [के मथने] से उत्पन्न हुए कलियुगके
मलको सर्वथा नष्ट कर देनेवाले, अविनाशी, भगवान्‌ श्रीशम्भुके सुन्दर एवं श्रेष्ठ मुखरूपी चन्द्रमामें
सदा शोभायमान, जन्म-मरणरूपी रोगके औषध, सबको सुख देनेवाल

<br>

#### Handling page headers for rest of the chapter pages

In [202]:
print(ch4_pages[1].text)

६८२ * रामचरितमानस *

सो०--मुक्ति जन्म महि जानि ग्यान खानि अघ हानि कर।

जहँ बस संभु भवानि सो कासी सेइअ कस न॥
जहाँ श्रीशिव-पार्वती बसते हैं, उस काशीको मुक्तिकी जन्मभूमि, ज्ञानकी खान और पापोंका
नाश करनेवाली जानकर उसका सेवन क्‍यों न किया जाय?

जरत सकल सुर बूंद बिषम गरल जेहिं पान किय।
तेहि न भजसि मन मंद को कृपाल संकर सरिस॥

जिस भीषण हलाहल विषसे सब देवतागण जल रहे थे उसको जिन्होंने स्वयं पान कर लिया,
रे मन्द मन! तू उन शहक्लूरजीको क्‍यों नहीं भजता? उनके समान कृपालु [और] कौन है?
आगें चले बहुरि रघुराया। रिष्यमूक पर्बत निअराया॥
तहँ रह सचिव सहित सुग्रीवा। आवत देखि अतुल बल सींवा॥

श्रीरधुनाथजी फिर आगे चले। ऋष्यमूक पर्वत निकट आ गया। वहाँ (ऋष्यमूक पर्वतपर)

मन्त्रियोंसहित सुग्रीव रहते थे। अतुलनीय बलकी सीमा श्रीरामचन्द्रजी और लक्ष्मणजीको आते
देखकर-- ॥ १॥

अति सभीत कह सुनु हनुमाना | पुरुष जुगल बल रूप निधाना॥
धरि बटु रूप देखु तें जाई। कहेसु जानि जिये सयन बुझाई॥
सुग्रीव अत्यन्त भयभीत होकर बोले-हे हनुमान्‌! सुनो, ये दोनों पुरुष बल और रूपके निधान
हैं। तुम ब्रह्मचारीका रूप धारण करके जाकर देखो। अपने हृदयमें 

In [203]:
for i, book_page in enumerate(ch4_pages):
    if i > 0:
        ch4_pages[i].text = remove_page_header_line(book_page.text)

In [204]:
print(ch4_pages[1].text)



सो०--मुक्ति जन्म महि जानि ग्यान खानि अघ हानि कर।

जहँ बस संभु भवानि सो कासी सेइअ कस न॥
जहाँ श्रीशिव-पार्वती बसते हैं, उस काशीको मुक्तिकी जन्मभूमि, ज्ञानकी खान और पापोंका
नाश करनेवाली जानकर उसका सेवन क्‍यों न किया जाय?

जरत सकल सुर बूंद बिषम गरल जेहिं पान किय।
तेहि न भजसि मन मंद को कृपाल संकर सरिस॥

जिस भीषण हलाहल विषसे सब देवतागण जल रहे थे उसको जिन्होंने स्वयं पान कर लिया,
रे मन्द मन! तू उन शहक्लूरजीको क्‍यों नहीं भजता? उनके समान कृपालु [और] कौन है?
आगें चले बहुरि रघुराया। रिष्यमूक पर्बत निअराया॥
तहँ रह सचिव सहित सुग्रीवा। आवत देखि अतुल बल सींवा॥

श्रीरधुनाथजी फिर आगे चले। ऋष्यमूक पर्वत निकट आ गया। वहाँ (ऋष्यमूक पर्वतपर)

मन्त्रियोंसहित सुग्रीव रहते थे। अतुलनीय बलकी सीमा श्रीरामचन्द्रजी और लक्ष्मणजीको आते
देखकर-- ॥ १॥

अति सभीत कह सुनु हनुमाना | पुरुष जुगल बल रूप निधाना॥
धरि बटु रूप देखु तें जाई। कहेसु जानि जिये सयन बुझाई॥
सुग्रीव अत्यन्त भयभीत होकर बोले-हे हनुमान्‌! सुनो, ये दोनों पुरुष बल और रूपके निधान
हैं। तुम ब्रह्मचारीका रूप धारण करके जाकर देखो। अपने हृदयमें उनकी यथार्थ बात जान

In [205]:
for book_page in ch4_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

680 कुन्देन्दीवरसुन्दरवतिबलौ विज्ञानधामावुभौ
681 सो०--मुक्ति जन्म महि जानि ग्यान खानि अघ हानि कर।
682 मृदुल मनोहर सुंदर गाता। सहत दुसह बन आतप बाता॥
683 तव माया बस फिरडँ भुलाना। ता ते मैं नहिं प्रभु पहिचाना॥
684 और हे हनुमान्‌! अनन्य वही है जिसकी ऐसी बुद्धि कभी नहीं टलती कि मैं सेवक हूँ और
685 मंत्रिन्न सहित इहाँ एक बारा। बैठ रहेउेँ मैं करत बिचारा॥
686 वह मायावी एक पर्वतकी गुफामें जा घुसा। तब बालिने मुझे समझाकर कहा-तुम एक
687 जिन्हे कें असि मति सहज न आईं । ते सठ कत हठि करत मिताई॥
688 उपजा ग्यान बचन तब बोला। नाथ कृपाँ मन भयउ अलोला॥
689 तदनन्तर सुग्रीवको साथ लेकर और हाथोंमें धनुष-बाण धारण करके श्रीरघुनाथजी चले। तब
690 दो०--बहु छल बल सुग्रीव कर हियँ हारा भय मानि।
691 [बालिने कहा--] हे श्रीरामजी ! सुनिये, स्वामी (आप) से मेरी चतुराई नहीं चल सकती।
692 हे नाथ! अब मुझपर दयादृष्टि कीजिये और मैं जो वर माँगता हूँ उसे दीजिये। मैं कर्मवश जिस
693 दो०-- लछिमन तुरत बोलाए पुरजन बिप्र समाज।
694 सुंदर बन कुसुमित अति सोभा। गुंजत मधुप निकर मधु लोभा॥
695 छुद्र नदीं भरि चलीं तोराई। जस थोरेहुँ धन खल इतराई॥
696

<br><br><br>

# Extracting text for सुन्दरकाण्ड (Chapter 5)

In [206]:
first_page_idx = 711
last_page_idx = 767

ch5_pages = extract_text_from_page_images(images[first_page_idx: last_page_idx + 1], first_page_idx, 'सुन्दरकाण्ड')

Processing page 1 / 57
Processing page 2 / 57
Processing page 3 / 57
Processing page 4 / 57
Processing page 5 / 57
Processing page 6 / 57
Processing page 7 / 57
Processing page 8 / 57
Processing page 9 / 57
Processing page 10 / 57
Processing page 11 / 57
Processing page 12 / 57
Processing page 13 / 57
Processing page 14 / 57
Processing page 15 / 57
Processing page 16 / 57
Processing page 17 / 57
Processing page 18 / 57
Processing page 19 / 57
Processing page 20 / 57
Processing page 21 / 57
Processing page 22 / 57
Processing page 23 / 57
Processing page 24 / 57
Processing page 25 / 57
Processing page 26 / 57
Processing page 27 / 57
Processing page 28 / 57
Processing page 29 / 57
Processing page 30 / 57
Processing page 31 / 57
Processing page 32 / 57
Processing page 33 / 57
Processing page 34 / 57
Processing page 35 / 57
Processing page 36 / 57
Processing page 37 / 57
Processing page 38 / 57
Processing page 39 / 57
Processing page 40 / 57
Processing page 41 / 57
Processing page 42 / 57
P

In [207]:
len(ch5_pages)

57

In [208]:
print(ch5_pages[2].text)

* सुन्दरकाण्ड * 9१७५

दो०--हनूमान तेहि परसा कर पुनि कीन्ह प्रनाम।
राम काजु कीन्हें बिनु मोहि कहाँ बिश्राम॥ १॥
हनुमानजीने उसे हाथसे छू दिया, फिर प्रणाम करके कहा-भाई! श्रीरामचन्द्रजीका काम किये
बिना मुझे विश्राम कहाँ ?॥ १॥
जात पवनसुत देवन्ह देखा। जानें कहुँ बल बुद्धि बिसेषा॥
सुरसा नाम अहिन्ह कै माता। पठइन्हि आइ कही तेहिं बाता॥
देवताओंने पवनपुत्र हनुमानूजीको जाते हुए देखा। उनकी विशेष बल-बुद्धिको जाननेके लिये

(परीक्षार्थ) उन्होंने सुरसा नामक सर्पोंकी माताको भेजा, उसने आकर हनुमानूजीसे यह बात
कही--॥ १॥

आजु सुरन्ह मोहि दीन्ह अहारा। सुनत बचन कह पवनकुमारा॥
राम काजु करि फिरि मैं आवबौं। सीता कइ सुधि प्रभुहि सुनावौं॥
आज देवताओंने मुझे भोजन दिया है। यह वचन सुनकर पवनकुमार हनुमानजीने
कहा-श्रीरामजीका कार्य करके मैं लौट आऊँ और सीताजीकी खबर प्रभुको सुना दूँ,॥२॥
तब तव बदन पेठिहडें आई। सत्य कहडउें मोहि जान दे माई॥
कवनेहूँ जतन देइ नहिं जाना। ग्रससि न मोहि कहेउ हनुमाना॥
तब मैं आकर तुम्हारे मुँहमें घुस जाऊँगा [तुम मुझे खा लेना] । हे माता! मैं सत्य कहता हूँ,
अभी मुझे जाने दे। जब किसी भी उपायसे उसने जाने नही

### Handling Invalid words or characters

In [209]:
for i, book_page in enumerate(ch5_pages):
    ch5_pages[i].text = re.sub(r"(?<=\S)5(?=\S)", "ऽ", book_page.text)
    # Replace invalid words using the dictionary
    for invalid_word, correct_word in word_mappers.items():
        ch5_pages[i].text = book_page.text.replace(invalid_word, correct_word)    

In [210]:
print(ch5_pages[1].text)

७9१४ * रामचरितमानस *

अतुलितबलधामं हेमशैलाभदेहं
दनुजवनकृशानुं ज्ञानिनामग्रगण्यम्‌।
सकलगुणनिधानं वानराणामधीशं

रघुपतिप्रियभक्ते वातजातं नमामि॥ ३॥
अतुल बलके धाम, सोनेके पर्वत (सुमेरु) के समान कान्तियुक्त शरीरवाले, दैत्यरूपी वन [को
ध्वंस करने] के लिये अग्रिरूप, ज्ञानियोंमें अग्रगण्य, सम्पूर्ण गुणोंके निधान, वानरोंके स्वामी,
श्रीरघुनाथजीके प्रिय भक्त पवनपुत्र श्रीहनुमानूजीको मैं प्रणाम करता हूँ॥ ३॥
जामवंत के बचन सुहाए। सुनि हनुमंत हृदय अति भाए॥
तब लगि मोहि परिखेहु तुम्ह भाई । सहि दुख कंद मूल फल खाई॥

जाम्बवान्‌के सुन्दर वचन सुनकर हनुमानूजीके हृदयको बहुत ही भाये। [वे बोले--]
है भाई! तुमलोग दुःख सहकर, कन्द-मूल-फल खाकर तबतक मेरी राह देखना॥ १॥

जब लगि आवोां सीतहि देखी । होइहि काजु मोहि हरष बिसेषी॥

यह कहि नाइ सबन्हि कहूँ माथा । चलेउ हरषि हियेँ धरि रघुनाथा॥
जबतक मैं सीताजीको देखकर [लौट] न आऊँ। काम अवश्य होगा, क्योंकि मुझे बहुत ही

हर्ष हो रहा है। यह कहकर और सबको मस्तक नवाकर तथा हृदयमें श्रीरघुनाथजीको धारण करके

हनुमानजी हर्षित होकर चले॥ २॥

सिंधु तीर एक भूधर सुंदर। कौतुक कूदि चढ़ेड ता ऊपर॥

बार

### Handling page headers

In [211]:
for book_page in ch5_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(check_res[1])

॥ श्रीगणेशाय नमः ॥


#### Handling page headers for first chapter page

In [212]:
print(ch5_pages[0].text)

॥ श्रीगणेशाय नमः ॥

श्रीजानकीवल्लभो विजयते

श्रीरामचरितमानस

पद्ञम सोपान |
(_सुन्दरकाण्ड >

श्लोक
शान्‍्त॑ शाश्वतमप्रमेयमनघं निर्वाणशान्तिप्रदं
ब्रह्माशम्भुफणीन्द्रसेव्यमनिशं वेदान्तवेद्य॑ विभुम्‌।
रामाख्यं जगदीश्वरं सुरगुरुं मायामनुष्यं हरिं
वन्देहहू करुणाकरं रघुवरं भूपालचूडामणिम्‌॥ १॥
शान्त, सनातन, अप्रमेय (प्रमाणोंसे परे), निष्पाप, मोक्षरूप परमशान्ति देनेवाले, ब्रह्मा, शम्भु
और शेषजीसे निरन्तर सेवित, वेदान्तके द्वारा जाननेयोग्य, सर्वव्यापक, देवताओंमें सबसे बड़े,

मायासे मनुष्यरूपमें दीखनेवाले, समस्त पापोंको हरनेवाले, करुणाकी खान, रघुकुलमें श्रेष्ठ तथा
राजाओंके शिरोमणि, राम कहलानेवाले जगदीश्वरकी मैं वन्दना करता हूँ॥ १॥

नान्‍या स्पृहा रघुपते हृदयेउस्मदीये
सत्यं वदामि च भवानखिलान्तरात्मा।
भक्ति प्रयच्छ रघुपुड्व निर्भरां मे

कामादिदोषरहितं कुरू मानसं च॥२॥
हे रघुनाथजी ! मैं सत्य कहता हूँ और फिर आप सबके अन्तरात्मा ही हैं (सब जानते ही हैं)
कि मेरे हृदयमें दूसरी कोई इच्छा नहीं है। हे रघुकुलकश्रेष्ठ ! मुझे अपनी निर्भरा (पूर्ण) भक्ति दीजिये
और मेरे मनको काम आदि दोषोंसे रहित कीजिये॥ २॥




In [213]:
init_idx = ch5_pages[0].text.find('श्लोक')
ch5_pages[0].text = ch5_pages[0].text[init_idx + len('श्लोक'):]

In [214]:
print(ch5_pages[0].text)


शान्‍्त॑ शाश्वतमप्रमेयमनघं निर्वाणशान्तिप्रदं
ब्रह्माशम्भुफणीन्द्रसेव्यमनिशं वेदान्तवेद्य॑ विभुम्‌।
रामाख्यं जगदीश्वरं सुरगुरुं मायामनुष्यं हरिं
वन्देहहू करुणाकरं रघुवरं भूपालचूडामणिम्‌॥ १॥
शान्त, सनातन, अप्रमेय (प्रमाणोंसे परे), निष्पाप, मोक्षरूप परमशान्ति देनेवाले, ब्रह्मा, शम्भु
और शेषजीसे निरन्तर सेवित, वेदान्तके द्वारा जाननेयोग्य, सर्वव्यापक, देवताओंमें सबसे बड़े,

मायासे मनुष्यरूपमें दीखनेवाले, समस्त पापोंको हरनेवाले, करुणाकी खान, रघुकुलमें श्रेष्ठ तथा
राजाओंके शिरोमणि, राम कहलानेवाले जगदीश्वरकी मैं वन्दना करता हूँ॥ १॥

नान्‍या स्पृहा रघुपते हृदयेउस्मदीये
सत्यं वदामि च भवानखिलान्तरात्मा।
भक्ति प्रयच्छ रघुपुड्व निर्भरां मे

कामादिदोषरहितं कुरू मानसं च॥२॥
हे रघुनाथजी ! मैं सत्य कहता हूँ और फिर आप सबके अन्तरात्मा ही हैं (सब जानते ही हैं)
कि मेरे हृदयमें दूसरी कोई इच्छा नहीं है। हे रघुकुलकश्रेष्ठ ! मुझे अपनी निर्भरा (पूर्ण) भक्ति दीजिये
और मेरे मनको काम आदि दोषोंसे रहित कीजिये॥ २॥




<br>

#### Handling page headers for rest of the chapter pages

In [215]:
print(ch5_pages[1].text)

७9१४ * रामचरितमानस *

अतुलितबलधामं हेमशैलाभदेहं
दनुजवनकृशानुं ज्ञानिनामग्रगण्यम्‌।
सकलगुणनिधानं वानराणामधीशं

रघुपतिप्रियभक्ते वातजातं नमामि॥ ३॥
अतुल बलके धाम, सोनेके पर्वत (सुमेरु) के समान कान्तियुक्त शरीरवाले, दैत्यरूपी वन [को
ध्वंस करने] के लिये अग्रिरूप, ज्ञानियोंमें अग्रगण्य, सम्पूर्ण गुणोंके निधान, वानरोंके स्वामी,
श्रीरघुनाथजीके प्रिय भक्त पवनपुत्र श्रीहनुमानूजीको मैं प्रणाम करता हूँ॥ ३॥
जामवंत के बचन सुहाए। सुनि हनुमंत हृदय अति भाए॥
तब लगि मोहि परिखेहु तुम्ह भाई । सहि दुख कंद मूल फल खाई॥

जाम्बवान्‌के सुन्दर वचन सुनकर हनुमानूजीके हृदयको बहुत ही भाये। [वे बोले--]
है भाई! तुमलोग दुःख सहकर, कन्द-मूल-फल खाकर तबतक मेरी राह देखना॥ १॥

जब लगि आवोां सीतहि देखी । होइहि काजु मोहि हरष बिसेषी॥

यह कहि नाइ सबन्हि कहूँ माथा । चलेउ हरषि हियेँ धरि रघुनाथा॥
जबतक मैं सीताजीको देखकर [लौट] न आऊँ। काम अवश्य होगा, क्योंकि मुझे बहुत ही

हर्ष हो रहा है। यह कहकर और सबको मस्तक नवाकर तथा हृदयमें श्रीरघुनाथजीको धारण करके

हनुमानजी हर्षित होकर चले॥ २॥

सिंधु तीर एक भूधर सुंदर। कौतुक कूदि चढ़ेड ता ऊपर॥

बार

In [216]:
for i, book_page in enumerate(ch5_pages):
    if i > 0:
        ch5_pages[i].text = remove_page_header_line(book_page.text)

In [217]:
print(ch5_pages[1].text)



अतुलितबलधामं हेमशैलाभदेहं
दनुजवनकृशानुं ज्ञानिनामग्रगण्यम्‌।
सकलगुणनिधानं वानराणामधीशं

रघुपतिप्रियभक्ते वातजातं नमामि॥ ३॥
अतुल बलके धाम, सोनेके पर्वत (सुमेरु) के समान कान्तियुक्त शरीरवाले, दैत्यरूपी वन [को
ध्वंस करने] के लिये अग्रिरूप, ज्ञानियोंमें अग्रगण्य, सम्पूर्ण गुणोंके निधान, वानरोंके स्वामी,
श्रीरघुनाथजीके प्रिय भक्त पवनपुत्र श्रीहनुमानूजीको मैं प्रणाम करता हूँ॥ ३॥
जामवंत के बचन सुहाए। सुनि हनुमंत हृदय अति भाए॥
तब लगि मोहि परिखेहु तुम्ह भाई । सहि दुख कंद मूल फल खाई॥

जाम्बवान्‌के सुन्दर वचन सुनकर हनुमानूजीके हृदयको बहुत ही भाये। [वे बोले--]
है भाई! तुमलोग दुःख सहकर, कन्द-मूल-फल खाकर तबतक मेरी राह देखना॥ १॥

जब लगि आवोां सीतहि देखी । होइहि काजु मोहि हरष बिसेषी॥

यह कहि नाइ सबन्हि कहूँ माथा । चलेउ हरषि हियेँ धरि रघुनाथा॥
जबतक मैं सीताजीको देखकर [लौट] न आऊँ। काम अवश्य होगा, क्योंकि मुझे बहुत ही

हर्ष हो रहा है। यह कहकर और सबको मस्तक नवाकर तथा हृदयमें श्रीरघुनाथजीको धारण करके

हनुमानजी हर्षित होकर चले॥ २॥

सिंधु तीर एक भूधर सुंदर। कौतुक कूदि चढ़ेड ता ऊपर॥

बार बार रघुबीर सँभारी। 

In [218]:
for book_page in ch5_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

712 शान्‍्त॑ शाश्वतमप्रमेयमनघं निर्वाणशान्तिप्रदं
713 अतुलितबलधामं हेमशैलाभदेहं
714 दो०--हनूमान तेहि परसा कर पुनि कीन्ह प्रनाम।
715 बदन पइठि पुनि बाहेर आवा। मागा बिदा ताहि सिरु नावा॥
716 [शिवजी कहते हैं-- ] हे उमा! इसमें वानर हनुमान्‌की कुछ बड़ाई नहीं है। यह प्रभुका प्रताप
717 भयंकर शरीरवाले करोड़ों योद्धा यत्त करके (बड़ी सावधानीसे ) नगरकी चारों दिशाओंमें (सब
718 हे तात! स्वर्ग और मोक्षके सब सुखोंको तराजूके एक पलड़ेमें रखा जाय, तो भी वे सब
719 लड्ढा तो राक्षसोंक समूहका निवासस्थान है। यहाँ सज्जन (साधु पुरुष) का निवास कहाँ?
720 मेरा तामसी (राक्षस) शरीर होनेसे साधन तो कुछ बनता नहीं और न मनमें श्रीरामचन्द्रजीके
721 विभीषणजीने [माताके दर्शनकी] सब युक्तियाँ (उपाय) कह सुनायीं। तब हनुमानजी विदा
722 हे दशमुख ! सुन, जुगनूके प्रकाशसे कभी कमलिनी खिल सकती है ? जानकीजी फिर कहती हैं--
723 यदि महीनेभरमें यह कहा न माने तो मैं इसे तलवार निकालकर मार डालूँगा॥५॥
724 सीताजी हाथ जोड़कर त्रिजटासे बोलीं-हे माता! तू मेरी विपत्तिकी संगिनी है। जल्दी
725 तब हनुमानूजीने हृदयमें विचारकर [सीताजीके सामने] अँगूठी डाल द

<br><br><br>

# Extracting text for लंकाकाण्ड (Chapter 6)

In [219]:
first_page_idx = 769
last_page_idx = 901

ch6_pages = extract_text_from_page_images(images[first_page_idx: last_page_idx + 1], first_page_idx, 'लंकाकाण्ड')

Processing page 1 / 133
Processing page 2 / 133
Processing page 3 / 133
Processing page 4 / 133
Processing page 5 / 133
Processing page 6 / 133
Processing page 7 / 133
Processing page 8 / 133
Processing page 9 / 133
Processing page 10 / 133
Processing page 11 / 133
Processing page 12 / 133
Processing page 13 / 133
Processing page 14 / 133
Processing page 15 / 133
Processing page 16 / 133
Processing page 17 / 133
Processing page 18 / 133
Processing page 19 / 133
Processing page 20 / 133
Processing page 21 / 133
Processing page 22 / 133
Processing page 23 / 133
Processing page 24 / 133
Processing page 25 / 133
Processing page 26 / 133
Processing page 27 / 133
Processing page 28 / 133
Processing page 29 / 133
Processing page 30 / 133
Processing page 31 / 133
Processing page 32 / 133
Processing page 33 / 133
Processing page 34 / 133
Processing page 35 / 133
Processing page 36 / 133
Processing page 37 / 133
Processing page 38 / 133
Processing page 39 / 133
Processing page 40 / 133
Processin

In [220]:
len(ch6_pages)

133

In [221]:
print(ch6_pages[2].text)

न लट्ढाकाण्ड न 99३

परन्तु आपके शत्रुओंकी स्त्रियोंके आँसुओंकी धारासे यह फिर भर गया और उसीसे खारा

भी हो गया। हनुमानूजीकी यह अत्युक्ति (अलक्जारपूर्ण युक्ति) सुनकर वानर श्रीरघुनाथजीकी ओर
देखकर हर्षित हो गये॥ २॥

जामवंत बोले दोड भाई। नल नीलहि सब कथा सुनाई॥

राम प्रताप सुमिरि मन माहीं। करहु सेतु प्रयास कछु नाहीं॥

जाम्बवानूने नल-नील दोनों भाइयोंको बुलाकर उन्हें सारी कथा कह सुनायी [और

कहा--] मनमें श्रीरामजीके प्रतापको स्मरण करके सेतु तैयार करो, [रामप्रतापसे] कुछ भी परिश्रम
नहीं होगा॥ ३॥

बोलि लिए कपि निकर बहोरी। सकल सुनहु बिनती कछु मोरी॥
राम चरन पंकज उर धरहू। कौतुक एक भालु कपि करहू॥

फिर वानरोंके समूहको बुला लिया [और कहा--] आप सब लोग मेरी कुछ विनती सुनिये।
अपने हृदयमें श्रीरमजीके चरण-कमलोंको धारण कर लीजिये और सब भालू और वानर एक
खेल कीजिये॥ ४॥

धावहु मर्कट बिकट बरूथा। आनहु बिटप गिरिन्ह के जूथा॥
सुनि कपि भालु चले करि हूहा। जय रघुबीर प्रताप समूहा॥
विकट वानरोंके समूह (आप) दौड़ जाइये और वृक्षों तथा पर्वतोंके समूहोंको उखाड़ लाइये।

यह सुनकर वानर और भालू हृह (हुंकार) करके और श्रीरघुनाथजीके प्रता

### Handling Invalid words or characters

In [222]:
for i, book_page in enumerate(ch6_pages):
    ch6_pages[i].text = re.sub(r"(?<=\S)5(?=\S)", "ऽ", book_page.text)
    # Replace invalid words using the dictionary
    for invalid_word, correct_word in word_mappers.items():
        ch6_pages[i].text = book_page.text.replace(invalid_word, correct_word)    

In [223]:
print(ch6_pages[1].text)

७७२ * रामचरितमानस *

शह्ठु और चन्द्रमाकौ-सी कान्तिके अत्यन्त सुन्दर शरीरवाले, व्याप्रचर्मके वस्त्रवाले, कालके
समान [अथवा काले रंगके] भयानक सर्पोंका भूषण धारण करनेवाले, गड़ा और चन्द्रमाके प्रेमी,
काशीपति, कलियुगके पाप-समूहका नाश करनेवाले, कल्याणके कल्पवृक्ष, गुणोंक निधान और
कामदेवको भस्म करनेवाले पार्वतीपति वन्दनीय श्रीशड्डरजीकों मैं नमस्कार करता हूँ॥२॥

यो ददाति सतां शम्भुः कैवल्यमपि दुर्लभम्‌।
खलानां दण्डकृद्योड्सौ शट्डूरः शं तनोतु मे॥३॥
जो सत्पुरुषोंको अत्यन्त दुर्लभ कैवल्यमुक्तितक दे डालते हैं और जो दुष्टोंको दण्ड देनेवाले
हैं, वे कल्याणकारी श्रीशम्भु मेरे कल्याणका विस्तार करें॥ ३॥
दो०--लव निमेष परमानु जुग बरष कलप सर चंड।
भजसि न मन तेहि राम को कालु जासु कोदंड॥

लव, निमेष, परमाणु, वर्ष, युग और कल्प जिनके प्रचण्ड बाण हैं और काल जिनका धनुष
है, हे मन! तू उन श्रीरामजीको क्‍यों नहीं भजता?

सो०--सिंधु बचन सुनि राम सचिव बोलि प्रभु अस कहेउ।
अब बिलंबु केहि काम करहु सेतु उतरे कटकु॥

समुद्रके वचन सुनकर प्रभु श्रीरामजीने मन्त्रियोंको बुलाकर ऐसा कहा--अब विलम्ब किसलिये
हो रहा है? सेतु (पुल) तैयार 

### Handling page headers

In [224]:
for book_page in ch6_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(check_res[1])

॥ श्रीगणेशाय नम: ॥


#### Handling page headers for first chapter page

In [225]:
print(ch6_pages[0].text)

॥ श्रीगणेशाय नम: ॥

श्रीजानकीवल्लभो विजयते

श्रीरासमचरितमानस

घष्ठ सोपान

(_लंकाकाण्ड >
हें लड्लाकाए डझ
श्लोक

रामं॑ कामारिसेव्यं भवभयहरणं कालमत्तेभसिंहं
योगीन्द्रं ज्ञानगम्यं गुणनिधिमजितं निर्गु्णं निर्विकारम्‌।
मायातीत॑ सुरेशं॑ खलवधनिरतं ब्रह्मवृन्देकदेवं

वन्दे कन्दावदातं सरसिजनयनं देवमुर्वीशरूपम्‌॥ १॥

कामदेवके शत्रु शिवजीके सेव्य, भव (जन्म-मृत्यु) के भयको हरनेवाले, कालरूपी मतवाले
हाथीके लिये सिंहके समान, योगियोंके स्वामी (योगीश्वर), ज्ञानके द्वारा जानने योग्य, गुणोंकी
निधि, अजेय, निर्गुण, निर्विकार, मायासे परे, देवताओंके स्वामी, दुष्टोंके वधमें तत्पर, ब्राह्मणवृन्दके
एकमात्र देवता (रक्षक), जलवाले मेघके समान सुन्दर श्याम, कमलके-से नेत्रवाले, पृथ्वीपति
(राजा) के रूपमें परमदेव श्रीरामजीकी मैं वन्दना करता हूँ॥१॥

शड्डेन्द्दाभभतीवसुन्दरतनुं शार्दूलचर्माम्बरं
कालव्यालकरालभूषणधरं गड्ढाशशाडरप्रियम्‌ ।
काशीशं कलिकल्मषौघशमनं कल्याणकल्पद्गुमं
नौमीड्यं गिरिजापतिं गुणनिधिं कन्दर्पह॑ शट्भूरम्‌॥ २॥



In [226]:
init_idx = ch6_pages[0].text.find('श्लोक')
ch6_pages[0].text = ch6_pages[0].text[init_idx + len('श्लोक'):]

In [227]:
print(ch6_pages[0].text)



रामं॑ कामारिसेव्यं भवभयहरणं कालमत्तेभसिंहं
योगीन्द्रं ज्ञानगम्यं गुणनिधिमजितं निर्गु्णं निर्विकारम्‌।
मायातीत॑ सुरेशं॑ खलवधनिरतं ब्रह्मवृन्देकदेवं

वन्दे कन्दावदातं सरसिजनयनं देवमुर्वीशरूपम्‌॥ १॥

कामदेवके शत्रु शिवजीके सेव्य, भव (जन्म-मृत्यु) के भयको हरनेवाले, कालरूपी मतवाले
हाथीके लिये सिंहके समान, योगियोंके स्वामी (योगीश्वर), ज्ञानके द्वारा जानने योग्य, गुणोंकी
निधि, अजेय, निर्गुण, निर्विकार, मायासे परे, देवताओंके स्वामी, दुष्टोंके वधमें तत्पर, ब्राह्मणवृन्दके
एकमात्र देवता (रक्षक), जलवाले मेघके समान सुन्दर श्याम, कमलके-से नेत्रवाले, पृथ्वीपति
(राजा) के रूपमें परमदेव श्रीरामजीकी मैं वन्दना करता हूँ॥१॥

शड्डेन्द्दाभभतीवसुन्दरतनुं शार्दूलचर्माम्बरं
कालव्यालकरालभूषणधरं गड्ढाशशाडरप्रियम्‌ ।
काशीशं कलिकल्मषौघशमनं कल्याणकल्पद्गुमं
नौमीड्यं गिरिजापतिं गुणनिधिं कन्दर्पह॑ शट्भूरम्‌॥ २॥



<br>

#### Handling page headers for rest of the chapter pages

In [228]:
print(ch6_pages[1].text)

७७२ * रामचरितमानस *

शह्ठु और चन्द्रमाकौ-सी कान्तिके अत्यन्त सुन्दर शरीरवाले, व्याप्रचर्मके वस्त्रवाले, कालके
समान [अथवा काले रंगके] भयानक सर्पोंका भूषण धारण करनेवाले, गड़ा और चन्द्रमाके प्रेमी,
काशीपति, कलियुगके पाप-समूहका नाश करनेवाले, कल्याणके कल्पवृक्ष, गुणोंक निधान और
कामदेवको भस्म करनेवाले पार्वतीपति वन्दनीय श्रीशड्डरजीकों मैं नमस्कार करता हूँ॥२॥

यो ददाति सतां शम्भुः कैवल्यमपि दुर्लभम्‌।
खलानां दण्डकृद्योड्सौ शट्डूरः शं तनोतु मे॥३॥
जो सत्पुरुषोंको अत्यन्त दुर्लभ कैवल्यमुक्तितक दे डालते हैं और जो दुष्टोंको दण्ड देनेवाले
हैं, वे कल्याणकारी श्रीशम्भु मेरे कल्याणका विस्तार करें॥ ३॥
दो०--लव निमेष परमानु जुग बरष कलप सर चंड।
भजसि न मन तेहि राम को कालु जासु कोदंड॥

लव, निमेष, परमाणु, वर्ष, युग और कल्प जिनके प्रचण्ड बाण हैं और काल जिनका धनुष
है, हे मन! तू उन श्रीरामजीको क्‍यों नहीं भजता?

सो०--सिंधु बचन सुनि राम सचिव बोलि प्रभु अस कहेउ।
अब बिलंबु केहि काम करहु सेतु उतरे कटकु॥

समुद्रके वचन सुनकर प्रभु श्रीरामजीने मन्त्रियोंको बुलाकर ऐसा कहा--अब विलम्ब किसलिये
हो रहा है? सेतु (पुल) तैयार 

In [229]:
for i, book_page in enumerate(ch6_pages):
    if i > 0:
        ch6_pages[i].text = remove_page_header_line(book_page.text)

In [230]:
print(ch6_pages[1].text)



शह्ठु और चन्द्रमाकौ-सी कान्तिके अत्यन्त सुन्दर शरीरवाले, व्याप्रचर्मके वस्त्रवाले, कालके
समान [अथवा काले रंगके] भयानक सर्पोंका भूषण धारण करनेवाले, गड़ा और चन्द्रमाके प्रेमी,
काशीपति, कलियुगके पाप-समूहका नाश करनेवाले, कल्याणके कल्पवृक्ष, गुणोंक निधान और
कामदेवको भस्म करनेवाले पार्वतीपति वन्दनीय श्रीशड्डरजीकों मैं नमस्कार करता हूँ॥२॥

यो ददाति सतां शम्भुः कैवल्यमपि दुर्लभम्‌।
खलानां दण्डकृद्योड्सौ शट्डूरः शं तनोतु मे॥३॥
जो सत्पुरुषोंको अत्यन्त दुर्लभ कैवल्यमुक्तितक दे डालते हैं और जो दुष्टोंको दण्ड देनेवाले
हैं, वे कल्याणकारी श्रीशम्भु मेरे कल्याणका विस्तार करें॥ ३॥
दो०--लव निमेष परमानु जुग बरष कलप सर चंड।
भजसि न मन तेहि राम को कालु जासु कोदंड॥

लव, निमेष, परमाणु, वर्ष, युग और कल्प जिनके प्रचण्ड बाण हैं और काल जिनका धनुष
है, हे मन! तू उन श्रीरामजीको क्‍यों नहीं भजता?

सो०--सिंधु बचन सुनि राम सचिव बोलि प्रभु अस कहेउ।
अब बिलंबु केहि काम करहु सेतु उतरे कटकु॥

समुद्रके वचन सुनकर प्रभु श्रीरामजीने मन्त्रियोंको बुलाकर ऐसा कहा--अब विलम्ब किसलिये
हो रहा है? सेतु (पुल) तैयार करो, जिसमें सेना उत

In [231]:
for book_page in ch6_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

770 रामं॑ कामारिसेव्यं भवभयहरणं कालमत्तेभसिंहं
771 शह्ठु और चन्द्रमाकौ-सी कान्तिके अत्यन्त सुन्दर शरीरवाले, व्याप्रचर्मके वस्त्रवाले, कालके
772 परन्तु आपके शत्रुओंकी स्त्रियोंके आँसुओंकी धारासे यह फिर भर गया और उसीसे खारा
773 यह (यहाँकी) भूमि परम रमणीय और उत्तम है। इसकी असीम महिमा वर्णन नहीं की जा
774 श्रीरामजीके वचन सबके मनको अच्छे लगे। तदनन्तर वे श्रेष्ठ मुनि अपने-अपने आश्रमोंको
775 प्रभुह्ि बिलोकहिं टरहिं न टारे। मन हरषित सब भए सुखारे॥
776 घूमते-फिरते जहाँ कहीं किसी राक्षसको पा जाते हैं तो सब उसे घेरकर खूब नाच नचाते हैं
777 जिन्होंने [विष्णुरूपसे] अत्यन्त बलवान्‌ मधु और कैटभ [दैत्य] मारे और [वाराह और
778 दो०--अस कहि नयन नीर भरि गहि पद कंपित गात।
779 कानोंसे सबके वचन सुनकर [रावणका पुत्र] प्रहस्त हाथ जोड़कर कहने लगा+--हे
780 यदि वे स्त्री पाकर लौट जाय, तब तो [व्यर्थ] झगड़ा न बढ़ाइये। नहीं तो (यदि न फिरें
781 इहाँ सुबेल सैल रघुबीरा। उतरे सेन सहित अति भीरा॥
782 पूर्व दिशारूपी पर्वतकी गुफामें रहनेवाला, अत्यन्त प्रताप, तेज और बलकी राशि यह चन्द्रमारूपी सिंह
783 पवनपुत्र हनुमानूजीके वचन सुन

<br><br><br>

# Extracting text for उत्तरकाण्ड (Chapter 7)

In [232]:
first_page_idx = 903
last_page_idx = 1045

ch7_pages = extract_text_from_page_images(images[first_page_idx: last_page_idx + 1], first_page_idx, 'उत्तरकाण्ड')

Processing page 1 / 143
Processing page 2 / 143
Processing page 3 / 143
Processing page 4 / 143
Processing page 5 / 143
Processing page 6 / 143
Processing page 7 / 143
Processing page 8 / 143
Processing page 9 / 143
Processing page 10 / 143
Processing page 11 / 143
Processing page 12 / 143
Processing page 13 / 143
Processing page 14 / 143
Processing page 15 / 143
Processing page 16 / 143
Processing page 17 / 143
Processing page 18 / 143
Processing page 19 / 143
Processing page 20 / 143
Processing page 21 / 143
Processing page 22 / 143
Processing page 23 / 143
Processing page 24 / 143
Processing page 25 / 143
Processing page 26 / 143
Processing page 27 / 143
Processing page 28 / 143
Processing page 29 / 143
Processing page 30 / 143
Processing page 31 / 143
Processing page 32 / 143
Processing page 33 / 143
Processing page 34 / 143
Processing page 35 / 143
Processing page 36 / 143
Processing page 37 / 143
Processing page 38 / 143
Processing page 39 / 143
Processing page 40 / 143
Processin

In [233]:
len(ch7_pages)

143

In [234]:
print(ch7_pages[2].text)

#* उत्तरकाण्ड *% ९०७

जौं करनी समुझे प्रभु मोरी। नहिं निस्तार कलप सत कोरी॥
जन अवगुन प्रभु मान न काऊ। दीन बंधु अति मृदुल सुभाऊ॥

[बात भी ठीक ही है, क्योंकि] यदि प्रभु मेरी करनीपर ध्यान दें, तो सौ करोड़
(असंख्य) कल्पोंतक भी मेरा निस्तार (छुटकारा) नहीं हो सकता। [परन्तु आशा इतनी ही
है कि] प्रभु सेवकका अवगुण कभी नहीं मानते। वे दीनबन्धु हैं और अत्यन्त ही कोमल
स्वभावके हैं॥ ३॥

मोरे जियेँ भरोस दृढ़ सोई। मिलिहहिं राम सगुन सुभ होई॥
बीतें अवधि रहहिं जौं प्राना। अधम कवन जग मोहि समाना॥
अतएव मेरे हृदयमें ऐसा पक्का भरोसा है कि श्रीरामजी अवश्य मिलेंगे, [क्योंकि] मुझे शकुन
बड़े शुभ हो रहे हैं। किन्तु अवधि बीत जानेपर यदि मेरे प्राण रह गये तो जगतूमें मेरे समान नीच
कौन होगा 2॥ ४॥
दो०-- राम बिरह सागर महेँ भरत मगन मन होत |
बिप्र रूप धरि पब्नसुत आइ गयउ जनु पोत ॥ १ (क )॥
श्रीरामजीके विरह-समुद्रमें भरतजीका मन डूब रहा था, उसी समय पवनपुत्र हनुमानजी ब्राह्मणका
रूप धरकर इस प्रकार आ गये, मानो [उन्हें डूबनेसे बचानेके लिये] नाव आ गयी हो॥ १ (क)॥
बैठे देखि कुसासन जटा मुकुट कूस गात।
राम राम रघुपति जपत स्त्रवत नयन जलजात

### Handling Invalid words or characters

In [235]:
for i, book_page in enumerate(ch7_pages):
    ch7_pages[i].text = re.sub(r"(?<=\S)5(?=\S)", "ऽ", book_page.text)
    # Replace invalid words using the dictionary
    for invalid_word, correct_word in word_mappers.items():
        ch7_pages[i].text = book_page.text.replace(invalid_word, correct_word)    

In [236]:
print(ch7_pages[1].text)

९०६ * रामचरितमानस *

कुन्दके फूल, चन्द्रमा और शह्लुके समान सुन्दर गौरवर्ण, जगज्जननी श्रीपार्वतीजीके पति,
वाज्छित फलके देनेवाले, [दुःखियोंपर सदा] दया करनेवाले, सुन्दर कमलके समान नेत्रवाले,
कामदेवसे छुड़ानेवाले, [कल्याणकारी] श्रीशड्ररजीको मैं नमस्कार करता हूँ॥ ३॥
दो०--रहा एक दिन अवधि कर अति आरत पुर लोग।
जहँ तहँ सोचहिं नारि नर कूस तन राम बियोग॥
[ श्रीरमजीके लौटनेकी] अवधिका एक ही दिन बाकी रह गया, अतएवं नगरके लोग बहुत
आतुर (अधीर) हो रहे हैं। रामके वियोगमें दुबले हुए स्त्री-पुरुष जहाँ-तहाँ सोच (विचार) कर
रहे हैं [कि क्‍या बात है, श्रीरामजी क्‍यों नहीं आये]।
सगुन होहिं सुंदर सकल मन प्रसन्न सब केर।
प्रभु आगवन जनाव जनु नगर रम्यब चहुं फेर॥
इतनेमें ही सब सुन्दर शकुन होने लगे और सबके मन प्रसन्न हो गये। नगर भी चारों ओरसे
रमणीक हो गया। मानो ये सब-के-सब चिह्न प्रभुके [शुभ] आगमनको जना रहे हैं।
कौसल्यादि मातु सब मन अनंद अस होडक्‍़न्‍"।
आदथउ प्रभु श्री अनुजजुत कहन चहत अब कोड़ ॥
कौसल्या आदि सब माताओंके मनमें ऐसा आनन्द हो रहा है जैसे अभी कोई कहना ही चाहता
है कि सीताजी और लक्ष्मणजीसहित प्रभु श्रीरामचन्द्रज

### Handling page headers

In [237]:
for book_page in ch7_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

904 ॥ श्रीगणेशाय नम: ॥


#### Special Handling of invalid characters header

In [238]:
print(ch7_pages[18].text)

- तत तहफक्‍फऋहफस"सत"स"स"स" त "ख  ख6/ शा ि  उए ऊउऊ फस फ कक तकऋ जउइारर
वेदोंने सबके देखते यह श्रेष्ठ विनती की। फिर वे अन्तर्धान हो गये और ब्रह्मलोकको चले
गये॥ १३ (क)॥
बैनतेय सुनु संभु तब आए जहूँ रघुबीर।
बिनय करत गदगद गिरा पूरित पुलक सरीर॥ १३ (ख)॥
[काकभुशुण्डिजी कहते हैं--] हे गरुड़जी! सुनिये, तब शिवजी वहाँ आये जहाँ श्रीरघुवीर थे
और गदढ़द वाणीसे स्तुति करने लगे। उनका शरीर पुलकावलीसे पूर्ण हो गया--॥ १३ (ख)॥
छं०-- जय राम रमारमनं समनं। भवताप भयाकुल पाहि जनं॥
अवधेस सुरेस रमेस बिभो । सरनागत मागत पाहि प्रभो॥
है राम! हे रमारमण (लक्ष्मीकान्त)! हे जन्म-मरणके संतापका नाश करनेवाले! आपकी जय

हो; आवागमनके भयसे व्याकुल इस सेवककी रक्षा कीजिये। हे अवधपति! हे देवताओंके स्वामी !
है रमापति! हे विभो! मैं शरणागत आपसे यही माँगता हूँ कि हे प्रभो! मेरी रक्षा कीजिये॥ १॥

दससीस बिनासन बीस भुजा। कृत दूरि महा महि भूरि रुजा॥
रजनीचर बूंद पतंग रहे। सर पावक तेज प्रचंड दहे॥

हे दस सिर और बीस भुजाओंवाले रावणका विनाश करके पृथ्वीके सब महान्‌ रोगों (कष्टों)को
दूर करनेवाले श्रीरामजी ! राक्षससमूहरूपी जो पतंगे थे, वे सब आपके बा

#### Changed the check_page_header_line() function above

In [239]:
for book_page in ch7_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

904 ॥ श्रीगणेशाय नम: ॥


#### Handling page headers for first chapter page

In [240]:
print(ch7_pages[0].text)

॥ श्रीगणेशाय नम: ॥

श्रीजानकीवल्लभो विजयते

श्रीरासमचरितमानस

सप्तम सोपान

श्लोक

केकीकण्ठाभनीलं सुरवरविलसद्दिप्रपादाब्जचिह्वं
शोभाढ्यं पीतवस्त्रं सरसिजनयनं सर्वदा सुप्रसन्नम्‌।
पाणौ नाराचचापं कपिनिकरयुतं बन्धुना सेव्यमानं

नौमीड्यं जानकीशं रघुवरमनिशं पुष्पकारूढरामम्‌॥ १॥

मोरके कण्ठकी आभाके समान (हरिताभ) नीलवर्ण, देवताओंमें श्रेष्ठ, ब्राह्मण (भृगुजी) के
चरणकमलके चिहसे सुशोभित, शोभासे पूर्ण, पीताम्बरधारी, कमलनेत्र, सदा परम प्रसन्न, हाथोंमें
बाण और धनुष धारण किये हुए, वानरसमूहसे युक्त, भाई लक्ष्मणजीसे सेवित, स्तुति किये जाने
योग्य, श्रीजानकीजीके पति, रघुकुलश्रेष्ठ, पुष्पकविमानपर सवार श्रीरामचन्द्रजीको मैं निरन्तर
नमस्कार करता हूँ॥१॥

कोसलेन्द्रपदकझ्जमज्जुली कोमलावजमहेशवन्दितौ।

जानकीकरसरोजलालितो चिन्तकस्य मनभूड़सड्लिनौ ॥ २॥

कोसलपुरीके स्वामी श्रीरामचन्द्रजीके सुन्दर और कोमल दोनों चरणकमल ब्रह्माजी और
शिवजीके द्वारा वन्दित हैं, श्रीजानकीजीके करकमलोंसे दुलराये हुए हैं और चिन्तन करनेवालेके
मनरूपी भौरेके नित्य संगी हैं अर्थात्‌ चिन्तन करनेवालोंका मनरूपी भ्रमर सदा उन चरणकमलोंमें
बसा रहता है॥

In [241]:
init_idx = ch7_pages[0].text.find('श्लोक')
ch7_pages[0].text = ch7_pages[0].text[init_idx + len('श्लोक'):]

In [242]:
print(ch7_pages[0].text)



केकीकण्ठाभनीलं सुरवरविलसद्दिप्रपादाब्जचिह्वं
शोभाढ्यं पीतवस्त्रं सरसिजनयनं सर्वदा सुप्रसन्नम्‌।
पाणौ नाराचचापं कपिनिकरयुतं बन्धुना सेव्यमानं

नौमीड्यं जानकीशं रघुवरमनिशं पुष्पकारूढरामम्‌॥ १॥

मोरके कण्ठकी आभाके समान (हरिताभ) नीलवर्ण, देवताओंमें श्रेष्ठ, ब्राह्मण (भृगुजी) के
चरणकमलके चिहसे सुशोभित, शोभासे पूर्ण, पीताम्बरधारी, कमलनेत्र, सदा परम प्रसन्न, हाथोंमें
बाण और धनुष धारण किये हुए, वानरसमूहसे युक्त, भाई लक्ष्मणजीसे सेवित, स्तुति किये जाने
योग्य, श्रीजानकीजीके पति, रघुकुलश्रेष्ठ, पुष्पकविमानपर सवार श्रीरामचन्द्रजीको मैं निरन्तर
नमस्कार करता हूँ॥१॥

कोसलेन्द्रपदकझ्जमज्जुली कोमलावजमहेशवन्दितौ।

जानकीकरसरोजलालितो चिन्तकस्य मनभूड़सड्लिनौ ॥ २॥

कोसलपुरीके स्वामी श्रीरामचन्द्रजीके सुन्दर और कोमल दोनों चरणकमल ब्रह्माजी और
शिवजीके द्वारा वन्दित हैं, श्रीजानकीजीके करकमलोंसे दुलराये हुए हैं और चिन्तन करनेवालेके
मनरूपी भौरेके नित्य संगी हैं अर्थात्‌ चिन्तन करनेवालोंका मनरूपी भ्रमर सदा उन चरणकमलोंमें
बसा रहता है॥२॥

कुन्दइन्दुदरगौरसुन्दर॑ अम्बिकापतिमभीष्टसिद्द्विदम्‌ ।

कारुणीककलकझ्जलोचनं नौ

<br>

#### Handling page headers for rest of the chapter pages

In [243]:
print(ch7_pages[1].text)

९०६ * रामचरितमानस *

कुन्दके फूल, चन्द्रमा और शह्लुके समान सुन्दर गौरवर्ण, जगज्जननी श्रीपार्वतीजीके पति,
वाज्छित फलके देनेवाले, [दुःखियोंपर सदा] दया करनेवाले, सुन्दर कमलके समान नेत्रवाले,
कामदेवसे छुड़ानेवाले, [कल्याणकारी] श्रीशड्ररजीको मैं नमस्कार करता हूँ॥ ३॥
दो०--रहा एक दिन अवधि कर अति आरत पुर लोग।
जहँ तहँ सोचहिं नारि नर कूस तन राम बियोग॥
[ श्रीरमजीके लौटनेकी] अवधिका एक ही दिन बाकी रह गया, अतएवं नगरके लोग बहुत
आतुर (अधीर) हो रहे हैं। रामके वियोगमें दुबले हुए स्त्री-पुरुष जहाँ-तहाँ सोच (विचार) कर
रहे हैं [कि क्‍या बात है, श्रीरामजी क्‍यों नहीं आये]।
सगुन होहिं सुंदर सकल मन प्रसन्न सब केर।
प्रभु आगवन जनाव जनु नगर रम्यब चहुं फेर॥
इतनेमें ही सब सुन्दर शकुन होने लगे और सबके मन प्रसन्न हो गये। नगर भी चारों ओरसे
रमणीक हो गया। मानो ये सब-के-सब चिह्न प्रभुके [शुभ] आगमनको जना रहे हैं।
कौसल्यादि मातु सब मन अनंद अस होडक्‍़न्‍"।
आदथउ प्रभु श्री अनुजजुत कहन चहत अब कोड़ ॥
कौसल्या आदि सब माताओंके मनमें ऐसा आनन्द हो रहा है जैसे अभी कोई कहना ही चाहता
है कि सीताजी और लक्ष्मणजीसहित प्रभु श्रीरामचन्द्रज

In [244]:
for i, book_page in enumerate(ch7_pages):
    if i > 0:
        ch7_pages[i].text = remove_page_header_line(book_page.text)

In [245]:
print(ch7_pages[1].text)



कुन्दके फूल, चन्द्रमा और शह्लुके समान सुन्दर गौरवर्ण, जगज्जननी श्रीपार्वतीजीके पति,
वाज्छित फलके देनेवाले, [दुःखियोंपर सदा] दया करनेवाले, सुन्दर कमलके समान नेत्रवाले,
कामदेवसे छुड़ानेवाले, [कल्याणकारी] श्रीशड्ररजीको मैं नमस्कार करता हूँ॥ ३॥
दो०--रहा एक दिन अवधि कर अति आरत पुर लोग।
जहँ तहँ सोचहिं नारि नर कूस तन राम बियोग॥
[ श्रीरमजीके लौटनेकी] अवधिका एक ही दिन बाकी रह गया, अतएवं नगरके लोग बहुत
आतुर (अधीर) हो रहे हैं। रामके वियोगमें दुबले हुए स्त्री-पुरुष जहाँ-तहाँ सोच (विचार) कर
रहे हैं [कि क्‍या बात है, श्रीरामजी क्‍यों नहीं आये]।
सगुन होहिं सुंदर सकल मन प्रसन्न सब केर।
प्रभु आगवन जनाव जनु नगर रम्यब चहुं फेर॥
इतनेमें ही सब सुन्दर शकुन होने लगे और सबके मन प्रसन्न हो गये। नगर भी चारों ओरसे
रमणीक हो गया। मानो ये सब-के-सब चिह्न प्रभुके [शुभ] आगमनको जना रहे हैं।
कौसल्यादि मातु सब मन अनंद अस होडक्‍़न्‍"।
आदथउ प्रभु श्री अनुजजुत कहन चहत अब कोड़ ॥
कौसल्या आदि सब माताओंके मनमें ऐसा आनन्द हो रहा है जैसे अभी कोई कहना ही चाहता
है कि सीताजी और लक्ष्मणजीसहित प्रभु श्रीरामचन्द्रजी आ गये।
भरत नयन भु

In [246]:
print(ch7_pages[18].text)


वेदोंने सबके देखते यह श्रेष्ठ विनती की। फिर वे अन्तर्धान हो गये और ब्रह्मलोकको चले
गये॥ १३ (क)॥
बैनतेय सुनु संभु तब आए जहूँ रघुबीर।
बिनय करत गदगद गिरा पूरित पुलक सरीर॥ १३ (ख)॥
[काकभुशुण्डिजी कहते हैं--] हे गरुड़जी! सुनिये, तब शिवजी वहाँ आये जहाँ श्रीरघुवीर थे
और गदढ़द वाणीसे स्तुति करने लगे। उनका शरीर पुलकावलीसे पूर्ण हो गया--॥ १३ (ख)॥
छं०-- जय राम रमारमनं समनं। भवताप भयाकुल पाहि जनं॥
अवधेस सुरेस रमेस बिभो । सरनागत मागत पाहि प्रभो॥
है राम! हे रमारमण (लक्ष्मीकान्त)! हे जन्म-मरणके संतापका नाश करनेवाले! आपकी जय

हो; आवागमनके भयसे व्याकुल इस सेवककी रक्षा कीजिये। हे अवधपति! हे देवताओंके स्वामी !
है रमापति! हे विभो! मैं शरणागत आपसे यही माँगता हूँ कि हे प्रभो! मेरी रक्षा कीजिये॥ १॥

दससीस बिनासन बीस भुजा। कृत दूरि महा महि भूरि रुजा॥
रजनीचर बूंद पतंग रहे। सर पावक तेज प्रचंड दहे॥

हे दस सिर और बीस भुजाओंवाले रावणका विनाश करके पृथ्वीके सब महान्‌ रोगों (कष्टों)को
दूर करनेवाले श्रीरामजी ! राक्षससमूहरूपी जो पतंगे थे, वे सब आपके बाणरूपी अग्रिके प्रचण्ड
तेजसे भस्म हो गये॥ २॥

महि. मंडल मंडन चारुतरं।

In [247]:
for book_page in ch7_pages:
    check_res = check_page_header_line(book_page.text)
    if check_res == True:
        pass
    elif not check_res[0]:
        print(book_page.book_page_number, check_res[1])

904 केकीकण्ठाभनीलं सुरवरविलसद्दिप्रपादाब्जचिह्वं
905 कुन्दके फूल, चन्द्रमा और शह्लुके समान सुन्दर गौरवर्ण, जगज्जननी श्रीपार्वतीजीके पति,
906 जौं करनी समुझे प्रभु मोरी। नहिं निस्तार कलप सत कोरी॥
907 रिपु रन जीति सुजस सुर गावत। सीता सहित अनुज प्रभु आवत॥
908 तब हनुमानूजीने भरतजीके चरणोंमें मस्तक नवाकर श्रीरघुनाथजीकी सारी गुणगाथा कही।
909 [ श्रीरामजीके स्वागतके लिये] दही, दूब, गोरोचन, फल, फूल और मह़ुलके मूल नवीन
910 यहाँ (विमानपरसे) सूर्यकुलरूपी कमलके प्रफुल्लित करनेवाले सूर्य श्रीरामजी वानरोंको
911 धाइ धरे गुर चरन सरोरुह। अनुज सहित अति पुलक तनोरुह॥
912 कृपानिधान श्रीरामजी भरतजीसे कुशल पूछते हैं; परन्तु आनन्दवश भरतजीके मुखसे वचन
913 छं०--जनु धेनु बालक बच्छ तजि गृहँ चरन बन परबस गईं।
914 अनेकों प्रकारसे निछावरें करती हैं और हृदयमें परमानन्द तथा हर्ष भर रही हैं। कौसल्याजी
915 सुनि प्रभु बचन मगन सब भए। निमिष निमिष उपजत सुख नए॥
916 तेउ यह चरित देरित्र ठगि रहहीं। उमा तासु गुन नर किमि कहहीं॥
917 दो०--तब मुनि कहेउ सुमंत्र सन सुनत चलेउ हरषाइ।
918 [इधर] सासुओंने जानकीजीको आदरके साथ तुरंत ही स्नान कर

<br><br><br>

# Combine all chapter pages

In [279]:
book_pages = ch1_pages + ch2_pages + ch3_pages + ch4_pages + ch5_pages + ch6_pages + ch7_pages

In [8]:
len(book_pages)

1025

# Combine all chapter texts

In [9]:
complete_text = ""
for book_page in book_pages:
    complete_text += book_page.text + "\n"

# Removing विश्राम from text

In [10]:
all_txts = re.findall(r'^.*विश्राम$', complete_text, re.MULTILINE)
print(all_txts)
print()
print(set([txt.split(',')[0] for txt in all_txts]))

['मँगवाये। श्रीसीताजी, लक्ष्मणजी और रामचन्द्रजीने फलोंको खाया। तब मुनिने उनको [विश्राम']

{'मँगवाये। श्रीसीताजी'}


In [283]:
for i, book_page in enumerate(book_pages):
    book_pages[i].text = book_page.text.replace('नवाह्पारायण', 'नवाह्नपारायण')
    book_pages[i].text = book_page.text.replace('नवाह्रपारायण', 'नवाह्नपारायण')
    book_pages[i].text = book_page.text.replace('नवाह्॒पारायण', 'नवाह्नपारायण')
    

In [284]:
complete_text = ""
for book_page in book_pages:
    complete_text += book_page.text + "\n"
all_txts = re.findall(r'^.*विश्राम$', complete_text, re.MULTILINE)
print(all_txts)
print()
print(set([txt.split(',')[0] for txt in all_txts]))

['मासपारायण, पहला विश्राम', 'मासपारायण, दूसरा विश्राम', 'मासपारायण, तीसरा विश्राम', 'नवाह्नपारायण, पहला विश्राम', 'मासपारायण, चौथा विश्राम', 'मासपारायण, पाँचवाँ विश्राम', 'मासपारायण, छठा विश्राम', 'मासपारायण, सातवाँ विश्राम', 'मासपारायण, आठवाँ विश्राम', 'नवाह्नपारायण, दूसरा विश्राम', 'मासपारायण, नवाँ विश्राम', 'मासपारायण, दसवाँ विश्राम', 'मासपारायण, ग्यारहवाँ विश्राम', 'नवाह्नपारायण, तीसरा विश्राम', 'मासपारायण, बारहवाँ विश्राम', 'मासपारायण, तेरहवाँ विश्राम', 'मासपारायण, चौदहवाँ विश्राम', 'मासपारायण, पंद्रहवाँ विश्राम', 'मासपारायण, सोलहवाँ विश्राम', 'नवाह्नपारायण, चौथा विश्राम', 'मँगवाये। श्रीसीताजी, लक्ष्मणजी और रामचन्द्रजीने फलोंको खाया। तब मुनिने उनको [विश्राम', 'मासपारायण, सत्रहवाँ विश्राम', 'मासपारायण, अठारहवाँ विश्राम', 'मासपारायण, उन्नीसवाँ विश्राम', 'मासपारायण, बीसवाँ विश्राम', 'नवाह्नपारायण, पाँचवाँ विश्राम', 'मासपारायण, इक्कीसवाँ विश्राम', 'नवाह्नपारायण, छठा विश्राम', 'मासपारायण, बाईसवाँ विश्राम', 'मासपारायण, तेईसवाँ विश्राम', 'मासपारायण, चौबीसवाँ विश्राम', 'नवाह्नपारायण, सातव

In [285]:
all_txts = re.findall(r'^(?:मासपारायण|नवाह्नपारायण),.*विश्राम$', complete_text, re.MULTILINE)
print(all_txts)
print()
print(set([txt.split(',')[0] for txt in all_txts]))

['मासपारायण, पहला विश्राम', 'मासपारायण, दूसरा विश्राम', 'मासपारायण, तीसरा विश्राम', 'नवाह्नपारायण, पहला विश्राम', 'मासपारायण, चौथा विश्राम', 'मासपारायण, पाँचवाँ विश्राम', 'मासपारायण, छठा विश्राम', 'मासपारायण, सातवाँ विश्राम', 'मासपारायण, आठवाँ विश्राम', 'नवाह्नपारायण, दूसरा विश्राम', 'मासपारायण, नवाँ विश्राम', 'मासपारायण, दसवाँ विश्राम', 'मासपारायण, ग्यारहवाँ विश्राम', 'नवाह्नपारायण, तीसरा विश्राम', 'मासपारायण, बारहवाँ विश्राम', 'मासपारायण, तेरहवाँ विश्राम', 'मासपारायण, चौदहवाँ विश्राम', 'मासपारायण, पंद्रहवाँ विश्राम', 'मासपारायण, सोलहवाँ विश्राम', 'नवाह्नपारायण, चौथा विश्राम', 'मासपारायण, सत्रहवाँ विश्राम', 'मासपारायण, अठारहवाँ विश्राम', 'मासपारायण, उन्नीसवाँ विश्राम', 'मासपारायण, बीसवाँ विश्राम', 'नवाह्नपारायण, पाँचवाँ विश्राम', 'मासपारायण, इक्कीसवाँ विश्राम', 'नवाह्नपारायण, छठा विश्राम', 'मासपारायण, बाईसवाँ विश्राम', 'मासपारायण, तेईसवाँ विश्राम', 'मासपारायण, चौबीसवाँ विश्राम', 'नवाह्नपारायण, सातवाँ विश्राम', 'मासपारायण, पचीसवाँ विश्राम', 'मासपारायण, छब्बीसवाँ विश्राम', 'मासपारायण, स

In [292]:
for i, book_page in enumerate(book_pages):
    book_pages[i].text = re.sub(r'^(?:मासपारायण|नवाह्नपारायण),.*विश्राम$', "", book_page.text, flags=re.MULTILINE)

In [293]:
complete_text = ""
for book_page in book_pages:
    complete_text += book_page.text + "\n"
all_txts = re.findall(r'^(?:मासपारायण|नवाह्नपारायण),.*विश्राम$', complete_text, re.MULTILINE)
print(all_txts)
print()
print(set([txt.split(',')[0] for txt in all_txts]))

[]

set()


# Check for invalid characters in entire text

In [294]:
complete_text = ""
for book_page in book_pages:
    complete_text += book_page.text + "\n"

In [304]:
characters = []
for c in complete_text:
    characters.appexnd(c)
unique_characters = list(set(characters))
potential_invalid_characters = [char for char in unique_characters if not re.match(r'[\u0900-\u097F]', char)]
print(potential_invalid_characters)

[',', '_', '.', '+', ')', '\n', '“', '-', '\u200c', '?', '!', '2', '"', '7', "'", '3', '9', '|', ';', '*', ' ', ':', '[', '>', ']', '\u200d', '”', '/', '8', '(', '&', '6', '5']


### Allowed Characters

| S.No | Character Name              | Character Symbol | Remarks                                 |
|------|-----------------------------|------------------|-----------------------------------------|
| 1    | Comma                      | `,`              |                 |
| 2    | Parenthesis                | `(` and `)`      |                |
| 3    | New Line Character         | `\n`             |                |
| 4    | Inverted Commas            | `“`, `”`, `"`, `'` |                 |
| 5    | Question Mark              | `?`              |                |
| 6    | Exclamation Sign           | `!`              |                 |
| 7    | Purna Viraam               | `\|`              |                 |
| 8    | Semi Colon                 | `;`              |                 |
| 9    | Asterisk                  | `*`              | Allowed only for word meaning references |
| 10   | Spaces                     | (space)          |               |
| 11   | Hyphens                    | `-` and `--`     |                 |
| 12   | Square Brackets            | `[` and `]`      |                |
| 13   | Devanagari Script Characters | `\u0900`-`\u097F` | |

---

### Not Allowed Characters

| S.No | Character Name              | Character Symbol | Remarks                                   |
|------|-----------------------------|------------------|-------------------------------------------|
| 1    | Colon                      | `:`              | Not allowed (Devanagari विसर्ग `ः` is allowed) |
| 2    | Underscore                 | `_`              | Not allowed                               |
| 3    | Period                     | `.`              | Not allowed                               |
| 4    | Asterisk                   | `*`              | Not allowed unless used for word references |
| 5    | Angle Brackets             | `>`              | Not allowed                               |
| 6    | Slash                      | `/`              | Not allowed                               |
| 7    | Ampersand                  | `&`              | Not allowed                               |
| 8    | English Digits             | `0-9`            | Not allowed                               |

In [320]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[_.+:*>\/&2356789]", line):
            print(i, book_page.book_page_number, line)

0 16 भवानीशड्ूरोौ. वन्दे _ श्रद्धाविश्वासरूपिणौ।
0 16 यमाथअ्ितो हि वक्रोषपि चन्द्र: सर्वत्र वन्द्यते॥ ३॥
1 17 यत्सत्त्वादमृषेव भाति सकल॑ रज्जौ यथाहेभ्भ्रम: ।
1 17 सर्पके भ्रमकी भाँति यह सारा दृश्य-जगत्‌ सत्य ही प्रतीत होता है और जिनके केवल चरण ही
1 17 स्वान्तः:सुखाय तुलसी रघुनाथगाथा-
1 17 अनेक पुराण, वेद और [तन्‍्त्र] शास्त्रसे सम्मत तथा जो रामायणमें वर्णित है और कुछ अन्यत्रसे
1 17 भी उपलब्ध श्रीरघुनाथजीकी कथाको तुलसीदास अपने अन्त:करणके सुखके लिये अत्यन्त मनोहर
1 17 सो०--जो सुमिरत सिधि होइ गन नायक करिबर बदन।
1 17 जिनकी कृपासे गूँगा बहुत सुन्दर बोलनेवाला हो जाता है और लँगड़ा-लूला दुर्गम पहाड़पर
2 18 हैं और जिनके वचन महामोहरूपी घने अन्धकारके नाश करनेके लिये सूर्य-किरणोंके समूह हैं ॥ ५॥
2 18 श्रीगुरु महाराजके चरण-नखोंकी ज्योति मणियोंके प्रकाशके समान है, जिसके स्मरण करते ही
2 18 हृदयमें दिव्य दृष्टि उत्पन्न हो जाती है। वह प्रकाश अज्ञानरूपी अन्धकारका नाश करनेवाला है;
3 19 उसके हृदयमें आते ही हृदयके निर्मल नेत्र खुल जाते हैं और संसाररूपी रात्रिके दोष-दुःख
3 19 सब दिखायी पड़ने लगते हैं--॥ ४॥


## Check for unicode characters \u200c and \u200d

The Unicode characters `\u200c` and `\u200d` are **zero-width** characters. They are commonly used in scripts like Devanagari, Arabic, and Persian for text rendering and character joining. Here's a detailed explanation:

---

### **1. \u200C: Zero Width Non-Joiner (ZWNJ)**  
- **Name:** Zero Width Non-Joiner  
- **Description:**  
  - Prevents two characters that would normally join from forming a ligature.  
  - Keeps the characters visually separate while still being part of the same text.  
- **Use Cases:**  
  - Breaking unwanted ligatures in scripts that support contextual shaping (e.g., Indic scripts like Devanagari or Arabic).  
  - Ensures proper rendering of certain words or syllables.  
- **Example:**  
  In Devanagari, `क` + `्` + `ष` normally forms the ligature `क्ष`.  
  - With ZWNJ: `क\u200cष` → `क्‍ष` (no ligature is formed).

---

### **2. \u200D: Zero Width Joiner (ZWJ)**  
- **Name:** Zero Width Joiner  
- **Description:**  
  - Joins two characters that wouldn't normally form a ligature or modifies how they combine.  
  - Encourages ligature formation or a connected glyph in scripts that support it.  
- **Use Cases:**  
  - Used in emojis and complex script rendering.  
  - Modifies glyphs to render joined forms in Indic and Arabic scripts.  
- **Example:**  
  In Devanagari, `ज` + `्` + `ञ` normally does not form a ligature.  
  - With ZWJ: `ज\u200dञ` → `ज्ञ` (forms the ligature).

---

### Comparison Table:

| **Character** | **Name**                  | **Effect**                                | **Usage**                                     |
|---------------|---------------------------|-------------------------------------------|-----------------------------------------------|
| `\u200C`      | Zero Width Non-Joiner     | Breaks ligature or prevents joining       | Ensures characters remain separate visually. |
| `\u200D`      | Zero Width Joiner         | Forces or modifies joining behavior       | Helps create ligatures or connected forms.   |

### \u200c

In [326]:
counts = 0
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[\u200c]", line):
            counts += 1
            print(i, book_page.book_page_number, line, repr(line))

0 16 याभ्यां विना न पश्यन्ति सिद्धाः स्वान्तःस्थमी श्वरम्‌॥ २॥ 'याभ्यां विना न पश्यन्ति सिद्धाः स्वान्तःस्थमी श्वरम्\u200c॥ २॥'
0 16 वन्दे बोधमयं नित्यं गुरु शड्डूररूपिणम्‌। 'वन्दे बोधमयं नित्यं गुरु शड्डूररूपिणम्\u200c।'
1 17 उद्धवस्थितिसंहारकारिणीं क्लेशहारिणीम्‌। 'उद्धवस्थितिसंहारकारिणीं क्लेशहारिणीम्\u200c।'
1 17 सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्‍लभाम्‌॥ ५॥ 'सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्\u200dलभाम्\u200c॥ ५॥'
1 17 वन्देऽह॑ तमशेषकारणपरं रामाख्यमीशं हरिम्‌॥ ६॥ 'वन्देऽह॑ तमशेषकारणपरं रामाख्यमीशं हरिम्\u200c॥ ६॥'
1 17 सर्पके भ्रमकी भाँति यह सारा दृश्य-जगत्‌ सत्य ही प्रतीत होता है और जिनके केवल चरण ही 'सर्पके भ्रमकी भाँति यह सारा दृश्य-जगत्\u200c सत्य ही प्रतीत होता है और जिनके केवल चरण ही'
1 17 कारण और सबसे श्रेष्ठ) राम कहानेवाले भगवान्‌ हरिकी मैं वन्दना करता हूँ॥६॥ 'कारण और सबसे श्रेष्ठ) राम कहानेवाले भगवान्\u200c हरिकी मैं वन्दना करता हूँ॥६॥'
1 17 नानापुराणनिगमागमसम्मतं यद्‌ 'नानापुराणनिगमागमसम्मतं यद्\u200c'
1 17 चढ़ जाता है, वे कलियुगके सब पापोंको जला डालनेवाले दयालु (भगव

In [327]:
print(counts)

1195


In [328]:
counts = 0
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[्][\u200c]", line):
            counts += 1
            print(i, book_page.book_page_number, line, repr(line))

0 16 याभ्यां विना न पश्यन्ति सिद्धाः स्वान्तःस्थमी श्वरम्‌॥ २॥ 'याभ्यां विना न पश्यन्ति सिद्धाः स्वान्तःस्थमी श्वरम्\u200c॥ २॥'
0 16 वन्दे बोधमयं नित्यं गुरु शड्डूररूपिणम्‌। 'वन्दे बोधमयं नित्यं गुरु शड्डूररूपिणम्\u200c।'
1 17 उद्धवस्थितिसंहारकारिणीं क्लेशहारिणीम्‌। 'उद्धवस्थितिसंहारकारिणीं क्लेशहारिणीम्\u200c।'
1 17 सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्‍लभाम्‌॥ ५॥ 'सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्\u200dलभाम्\u200c॥ ५॥'
1 17 वन्देऽह॑ तमशेषकारणपरं रामाख्यमीशं हरिम्‌॥ ६॥ 'वन्देऽह॑ तमशेषकारणपरं रामाख्यमीशं हरिम्\u200c॥ ६॥'
1 17 सर्पके भ्रमकी भाँति यह सारा दृश्य-जगत्‌ सत्य ही प्रतीत होता है और जिनके केवल चरण ही 'सर्पके भ्रमकी भाँति यह सारा दृश्य-जगत्\u200c सत्य ही प्रतीत होता है और जिनके केवल चरण ही'
1 17 कारण और सबसे श्रेष्ठ) राम कहानेवाले भगवान्‌ हरिकी मैं वन्दना करता हूँ॥६॥ 'कारण और सबसे श्रेष्ठ) राम कहानेवाले भगवान्\u200c हरिकी मैं वन्दना करता हूँ॥६॥'
1 17 नानापुराणनिगमागमसम्मतं यद्‌ 'नानापुराणनिगमागमसम्मतं यद्\u200c'
1 17 चढ़ जाता है, वे कलियुगके सब पापोंको जला डालनेवाले दयालु (भगव

In [329]:
counts

1195

##### All \u200c characters in text are preceeded by character ् to avoid ligatures and hence they all are valid

### \u200d

In [330]:
counts = 0
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[\u200d]", line):
            counts += 1
            print(i, book_page.book_page_number, line, repr(line))

0 16 अक्षरों, अर्थसमूहों, रसों, छन्‍्दों और मंगलोंकी करनेवाली सरस्वतीजी और गणेशजीकी मैं 'अक्षरों, अर्थसमूहों, रसों, छन्\u200d्दों और मंगलोंकी करनेवाली सरस्वतीजी और गणेशजीकी मैं'
1 17 सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्‍लभाम्‌॥ ५॥ 'सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्\u200dलभाम्\u200c॥ ५॥'
1 17 अनेक पुराण, वेद और [तन्‍्त्र] शास्त्रसे सम्मत तथा जो रामायणमें वर्णित है और कुछ अन्यत्रसे 'अनेक पुराण, वेद और [तन्\u200d्त्र] शास्त्रसे सम्मत तथा जो रामायणमें वर्णित है और कुछ अन्यत्रसे'
7 23 जानि पानि जुग जोरि जन बिनती करइक्‍ सप्रीति॥ ४॥ 'जानि पानि जुग जोरि जन बिनती करइक्\u200d सप्रीति॥ ४॥'
12 28 हरि हर पद रति मति न कुतरकी। तिन्‍्ह कहुँ मधुर कथा रघुबर की ॥ 'हरि हर पद रति मति न कुतरकी। तिन्\u200d्ह कहुँ मधुर कथा रघुबर की ॥'
14 30 काष्ठमात्र [चन्दन बनकर] वन्दनीय हो जाता है, फिर क्‍या कोई काठ [की तुच्छता] का विचार 'काष्ठमात्र [चन्दन बनकर] वन्दनीय हो जाता है, फिर क्\u200dया कोई काठ [की तुच्छता] का विचार'
15 31 संसारी मनुष्योंका गुणगान करनेसे सरस्वतीजी सिर धुनकर पछताने लगती हैं [कि मैं क्‍यों 'संसार

In [331]:
print(counts)

540


In [333]:
counts = 0
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[्][\u200d]", line):
            counts += 1
            print(i, book_page.book_page_number, line, repr(line))

0 16 अक्षरों, अर्थसमूहों, रसों, छन्‍्दों और मंगलोंकी करनेवाली सरस्वतीजी और गणेशजीकी मैं 'अक्षरों, अर्थसमूहों, रसों, छन्\u200d्दों और मंगलोंकी करनेवाली सरस्वतीजी और गणेशजीकी मैं'
1 17 सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्‍लभाम्‌॥ ५॥ 'सर्वश्रेयस्करीं सीतां नतोऽहं रामवलल्\u200dलभाम्\u200c॥ ५॥'
1 17 अनेक पुराण, वेद और [तन्‍्त्र] शास्त्रसे सम्मत तथा जो रामायणमें वर्णित है और कुछ अन्यत्रसे 'अनेक पुराण, वेद और [तन्\u200d्त्र] शास्त्रसे सम्मत तथा जो रामायणमें वर्णित है और कुछ अन्यत्रसे'
7 23 जानि पानि जुग जोरि जन बिनती करइक्‍ सप्रीति॥ ४॥ 'जानि पानि जुग जोरि जन बिनती करइक्\u200d सप्रीति॥ ४॥'
12 28 हरि हर पद रति मति न कुतरकी। तिन्‍्ह कहुँ मधुर कथा रघुबर की ॥ 'हरि हर पद रति मति न कुतरकी। तिन्\u200d्ह कहुँ मधुर कथा रघुबर की ॥'
14 30 काष्ठमात्र [चन्दन बनकर] वन्दनीय हो जाता है, फिर क्‍या कोई काठ [की तुच्छता] का विचार 'काष्ठमात्र [चन्दन बनकर] वन्दनीय हो जाता है, फिर क्\u200dया कोई काठ [की तुच्छता] का विचार'
15 31 संसारी मनुष्योंका गुणगान करनेसे सरस्वतीजी सिर धुनकर पछताने लगती हैं [कि मैं क्‍यों 'संसार

In [334]:
print(counts)

540


##### All \u200d characters in text are also preceeded by character ् to add ligatures and hence they all are valid.

## Check for underscore (_)

In [335]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[_]", line):
            print(i, book_page.book_page_number, line)

0 16 भवानीशड्ूरोौ. वन्दे _ श्रद्धाविश्वासरूपिणौ।
32 48 नहिं कलि करम न भगति बिबेकू । राम नाम अवलंबन _ एक्‌॥
61 77 निज अघ समुझि न कछु कहि जाई। तपड्_अवाँ इव उर अधिकाई॥
66 82 जगदातमा महेसु_ पुरारी । जगत जनक सब के हितकारी॥
111 127 राम सच्चिदानंद_ दिनेसा । नहिं तहँ मोह निसा लवलेसा॥
122 138 छीरसिंधु _गवने मुनिनाथा | जहँ बस श्रीनिवास श्रुतिमाथा॥
141 157 पुनि पुनि अस कहि कृपानिधाना। अंतरधान भए_ भगवाना॥
205 221 निसि प्रबेस मुनि आयसु दीन्हा। सबहीं संध्याबंदनु_ कीन्हा॥
236 252 रामरूप राकेसु_ निहारी । बढ़त बीचि पुलकावलि भारी॥
265 281 सब घोड़े बड़े ही सुन्दर और चञ्_ल करनी (चाल) के हैं। वे धरतीपर ऐसे पैर रखते हैं
341 358 दो०--रचि पचि कोटिक कुटिलपन कीन्हेसि कपट प्रबोधु।.._.
351 368 आगें दीखि जरत रिस भारी | मनहूँ_ रोष तरवारि उघारी॥
490 507 प्राननाथु_ रघुनाथ गोसाईं । जो बड़ होत सो राम बड़ाई॥
600 618 मोहाम्भोधरपूगपाटनविधौ_स्वःसम्भवं॑ शह्डूरं
610 628 कह मुनि सुनु रघुबीर कृपाला। संकर_ मानस राजमराला॥
626 644 [सौन्दर्य-माधुर्यनिधि_] प्रभु श्रीरामजीको देखकर राक्षसोंकी सेना थकित रह गयी। वे उनपर
652 670 गुनातीत

##### All underscores are added wrongfully and must be replaced by a single space

In [336]:
invalid_character_mapping = {
    "_": " "
}

In [337]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [338]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[_]", line):
            print(i, book_page.book_page_number, line)

##### No underscores found now

## Check for periods (.)

In [340]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[.]", line):
            print(i, book_page.book_page_number, line)

0 16 भवानीशड्ूरोौ. वन्दे   श्रद्धाविश्वासरूपिणौ।
18 34 मैं भी श्रीरामचरित्रका वर्ण. सहज ही कर सकूँगा]॥ १३॥
18 34 मैं उन सब (श्रेष्ठ कवियों) के चरणकमलोंमें प्रणाम करता हूँ. वे मेरे सब मनोस्थोंको पूरा करें। कलियुगके
20 36 मैं ब्रह्मजीके चरण-रजकी वन्दना करता हूँ जिन्होंने भवसागर बनाया है. जहाँसे एक ओर संतरूपी अमृत,
40 56 रामचरितमानस एहि. नामा। सुनत श्रवन पाइअ बिश्रामा॥
46 62 रघुबर जनम अनंद बधाई। भव तरंग. मनोहरताई॥
55 71 तिन्‍्ह नृपसुतहि कीन्ह परनामा। कहि. सच्चिदानंद परधामा॥
81 97 अस्तुति सुरन्‍्ह कीन्हि अति हेतू। प्रग;टेड. बिषमबान झषकेतू॥
86 102 पृथक पृथक तिन्‍ह कीन्हि प्रसंसा । भए. प्रसन्न चंद्र अवतंसा॥
89 105 सुर समाज सब भाँति अनूपा। नहिं. बरात दूलह अनुरूपा॥
92 108 देवताओंके समाजको देखकर सब मनमें प्रसन्न हुए. और विष्णुभगवान्‌को देखकर तो बहुत ही
93 109 भागि भवन पैठीं अति त्रासा । गए. महेसु जहाँ जनवासा॥
115 131 तब कामदेवके शत्रु, स्वाभाविक ही सुजान, कृपानिधान शिवजी मनमें बहुत ही हर्षित हुए. और
127 143 मर्कट. बदन भयंकर देही। देखत हृदय क्रोध भा तेही॥
128 144 बीचहिं. पंथ मिले दनुजारी | संग र

##### All periods are added wrongfully and must be removed

In [342]:
invalid_character_mapping = {
    "_": " ",
    ".": ""
}

In [343]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [344]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[.]", line):
            print(i, book_page.book_page_number, line)

##### No periods found now

## Check for plus (+)

In [345]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[+]", line):
            print(i, book_page.book_page_number, line)

553 570 दो० >+ऽसुनत जनक आगबनु सबु हरषेउठ अवध समाजु।
758 779 कानोंसे सबके वचन सुनकर [रावणका पुत्र] प्रहस्त हाथ जोड़कर कहने लगा+--हे
790 811 दो०  + 5चानायुथध सर चाप धर जात॒ुधान बल बीर।


##### All plus are added wrongfully and handled differently

In [346]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    "+--": "--",
    "  + 5": " "
}

In [347]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [348]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[+]", line):
            print(i, book_page.book_page_number, line)

##### No plus found now

## Check for digits (\d)

### Digit 2

In [384]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[2]", line):
            print(i, book_page.book_page_number, line)

7 23 प्रेमसे पालिये; परन्तु वे क्या कभी मांसके त्यागी हो सकते हैं ?2॥ १॥
55 71 तरह स्त्रीको खोजेंगे 2॥ १॥
69 85 किया जाय ?2॥ ४॥
107 123 प्रजासहित किस प्रकार अपने धामको गये 2॥ ११०॥
130 146 कैसे मिटेंगे 2॥ २॥
235 251 प्यासा आदमी पानीके बिना शरीर छोड़ दे, तो उसके मर जानेपर अमृतका तालाब भी क्या करेगा 2॥ १॥
259 275 कुशलसे तो हैं? तुमने अपनी आँखोंसे उन्हें अच्छी तरह देखा है न?2॥२॥
310 326 छा गये हैं। श्रीरामचन्द्रजी और सीताजीके दर्शनोंके लिये भला कहिये किसे लालसा न होगी 2॥ २॥
319 335 है तात! मार्गमें जाते हुए तुमने बड़ी भयावनी ताड़का राक्षसीको किस प्रकारसे मारा ?2॥ ४॥
338 355 क्षोभ कैसा 2॥ ४॥
343 360 उसकी याद है कि नहीं 2॥ २॥
346 363 रही हो। राजा उसके पास जाकर कोमल वाणीसे बोले-हे प्राणप्रिये! किसलिये रिसाई (रूठी) हो 2॥ ४॥
353 370 है, वह माताके प्रतिकूल आचरण क्यों कर करेगा 2॥ ४॥
371 388 हो गया 2॥ ४॥
381 398 और नाथ वनके योग्य हैं? आपको तो तपस्या उचित है और मुझको विषय-भोग ?2॥ ४॥
431 448 नचानेवाले हैं। जब वे भी आपके मर्मको नहीं जानते, तब और कौन आपको जाननेवाला है 2॥ १॥
448 465 वे जो भी सामने आता 

#### Characters "?2" and "2" must be replaced by "?"

In [385]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "2": "?"
}

In [386]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [387]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[2]", line):
            print(i, book_page.book_page_number, line)

##### No digit 2 found now

### Digit 3 

In [390]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[3]", line):
            print(i, book_page.book_page_number, line)

63 79 राम नाम सिव सुमिरन लागे। जाने3 सतीं जगतपति जागे॥
134 150 और द्वादशाक्षर मन्त्र (3& नमो भगवते वासुदेवाय) का प्रेमसहित जप करते थे। भगवान्‌
322 338 बोले बामदे3 सब साँची । कीरति कलित लोक तिहुँ माची॥
803 824 धरि लघु रूप गयउ हनुमंता। आने3 भवन समेत तुरंता॥
870 891 यह दुष्ट मारे3 नाथ। भए देव सकल सनाथ॥ २॥
950 972 बोले3ड काकभसुंड बहोरी। नभग नाथ पर प्रीति न थोरी॥


#### Character "3" and "3ड" must be replaced with character "उ" as well as "3&" must be replaced with character "ॐ"

In [391]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ"
}

In [392]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [393]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[3]", line):
            print(i, book_page.book_page_number, line)

##### No digit 3 found now.

### Digit 5

In [394]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[5]", line):
            print(i, book_page.book_page_number, line)

### Digit 6

In [395]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[6]", line):
            print(i, book_page.book_page_number, line)

773 794 अंगदने कहा-6ुम्हारी सच्ची गुणग्राहकता तो मुझे हनुमानूने सुनायी थी। उसने अशोकवनको
841 862 कहा-6तुम्हारी सारी प्रभुता, जैसा तुम कहते हो, बिल्कुल सच है। पर अब व्यर्थ बकवाद न करो,


#### Character "6त" and "6" must be replaced by "त"

In [399]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त"
}

In [400]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [401]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[6]", line):
            print(i, book_page.book_page_number, line)

##### No digit 6 found now.

### Digit 7

In [402]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[7]", line):
            print(i, book_page.book_page_number, line)

14 30 करता है ?7॥ १० (क)॥


#### Character "?7" must be replaced by "?"

In [403]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त"
}

In [404]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [405]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[7]", line):
            print(i, book_page.book_page_number, line)

##### No digit 7 found now.

### Digit 8

In [406]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[8]", line):
            print(i, book_page.book_page_number, line)

979 1001 बिप्र निरच्छ8 लोलुप कामी | निराचार सठ बृषली स्वामी॥


#### Character "8" must be replaced by "र"

In [407]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त",
    "8": "र"
}

In [408]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [409]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[8]", line):
            print(i, book_page.book_page_number, line)

##### No digit 8 found now.

### Digit 9

In [410]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[9]", line):
            print(i, book_page.book_page_number, line)

384 401 लहेउ लाभु तिन्ह जनम कर नतरू जनमु जग जायें ॥ 9७०॥


#### Character "9" must be replaced by ""

In [412]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त",
    "8": "र",
    "9": ""
}

In [413]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [414]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[9]", line):
            print(i, book_page.book_page_number, line)

##### No digit 9 found now.

### Final Check for all digits

In [417]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[2356789]", line):
            print(i, book_page.book_page_number, line)

## Check for Ampersand (&)

In [445]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[&]", line):
            print(i, book_page.book_page_number, line)

#### Already handled while handling for digit "3"

## Check for colon (:)

In [419]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[:]", line):
            print(i, book_page.book_page_number, line)

0 16 यमाथअ्ितो हि वक्रोषपि चन्द्र: सर्वत्र वन्द्यते॥ ३॥
1 17 यत्सत्त्वादमृषेव भाति सकल॑ रज्जौ यथाहेभ्भ्रम: ।
1 17 स्वान्तः:सुखाय तुलसी रघुनाथगाथा-
1 17 भी उपलब्ध श्रीरघुनाथजीकी कथाको तुलसीदास अपने अन्त:करणके सुखके लिये अत्यन्त मनोहर
7 23 लेते हैं और दूसरे (असंत) मिलते हैं तब दारुण दु:ख देते हैं। (अर्थात्‌ संतोंका बिछुड़ना मरनेके
39 55 पुन: हाथ जोड़कर सबकी विनती करता हूँ, जिससे कथाकी रचनामें कोई दोष स्पर्श न करने पावे॥ १॥
50 66 है। प्रात:काल सब उत्साहपूर्वक स्नान करते हैं और फिर परस्पर भगवानके गुणोंकी कथाएँ कहते हैं॥ ४॥
54 70 फिर रहे हैं। जिनके कभी कोई संयोग-वियोग नहीं है, उनमें प्रत्यक्ष विरहका दु:ख देखा गया॥ ४॥
63 79 दक्षसुता सतीजी इस प्रकार बहुत दु:ःखित थीं, उनको इतना दारुण दुःख था कि जिसका
68 84 [और कहा--] हे मुनिवर! आप त्रिकालज्ञ और सर्वज्ञ हैं, आपकी सर्वत्र पहुँच है। अत: आप
84 100 (जिनका पार पाना कठिन है) भगवान्‌ (सम्पूर्ण ऐश्वर्य, धर्म, यश, श्री, ज्ञान और वैराग्यरूप छः:
94 110 हिमाचलकी स्त्री (मैना) को दुः:खी देखकर सारी स्त्रियाँ व्याकुल हो गयीं। मैना अपनी कन्याके
101 117 तब छ: म

#### Character "ः:" and ":" must be replaced by "ः"

In [426]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त",
    "8": "र",
    "9": "",
    "ः:": "ः",
    ":": "ः"
}

In [427]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [430]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[:]", line):
            print(i, book_page.book_page_number, line)

##### No colons found now

## Check for asterisk (*)

In [431]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[*]", line):
            print(i, book_page.book_page_number, line)

389 406 * श्रीरामचन्द्रजी पधारे हैं ', ये प्रिय वचन कहकर मन्त्रीने राजाकों उठाकर बैठाया। सीतासहित
597 614 भरतजीका शरीर दिनोंदिन दुबला होता जाता है। तेज (अन्न, घृत आदिसे उत्पन्न होनेवाला मेद*)
597 614 * संस्कृत-कोषमें 'तेज' का अर्थ मेद मिलता है और यह अर्थ लेनेसे 'घटइ' के अर्थमें भी
638 656 वही दस सिरवाला रावण कुत्तेकी तरह इधर-उधर ताकता हुआ भड़िहाई* (चोरी) के लिये
638 656 * सूना पाकर कुत्ता चुपके-से बर्तन-भाड़ोंमें मुँह डालकर कुछ चुरा ले जाता है उसे, ' भड़िहाई'


#### Only character "* श्री" must be replaced by "'". Rest all asterisks are used for word meaning reference.

In [433]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त",
    "8": "र",
    "9": "",
    "ः:": "ः",
    ":": "ः",
    "* श्री": "' श्री"
}

In [434]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [435]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[*]", line):
            print(i, book_page.book_page_number, line)

597 614 भरतजीका शरीर दिनोंदिन दुबला होता जाता है। तेज (अन्न, घृत आदिसे उत्पन्न होनेवाला मेद*)
597 614 * संस्कृत-कोषमें 'तेज' का अर्थ मेद मिलता है और यह अर्थ लेनेसे 'घटइ' के अर्थमें भी
638 656 वही दस सिरवाला रावण कुत्तेकी तरह इधर-उधर ताकता हुआ भड़िहाई* (चोरी) के लिये
638 656 * सूना पाकर कुत्ता चुपके-से बर्तन-भाड़ोंमें मुँह डालकर कुछ चुरा ले जाता है उसे, ' भड़िहाई'


##### Only word meaning references found now

## Check for greater than sign (>)

In [438]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[>]", line):
            print(i, book_page.book_page_number, line)

79 95 दो० >तुम्ह माया भगवान सिव सकल जगत पितु मातु।


#### Character ">" must be removed.

In [439]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    ">": "",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त",
    "8": "र",
    "9": "",
    "ः:": "ः",
    ":": "ः",
    "* श्री": "' श्री"
}

In [440]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [441]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[>]", line):
            print(i, book_page.book_page_number, line)

##### No greater than sign found now.

## Check for Pipe symbols (|)

In [1100]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[|]", line):
            print(i, book_page.book_page_number, line)

5 21 सो जानब सतसंग प्रभाऊ | लोकहूँ बेद न आन उपाऊ॥
6 22 उदय केत सम हित सब ही के | कुंभभरन सम सोवत नीके॥
7 23 मैं अपनी दिसि कीन्ह निहोरा | तिन्ह निज ओर न लाउब भोरा॥
9 25 सभी पदार्थ ब्रह्माकी सृष्टिमें हैं।| वेद-शास्त्रोंने उनके गुण-दोषोंका विभाग कर दिया है॥ ३--५॥
12 28 हे भाई | जगतूमें तालाबों और नदियोंके समान मनुष्य ही अधिक हैं, जो जल पाकर अपनी ही
13 29 कबित बिबेक एक नहिं मोरें | सत्य कहऊँ लिखि कागद कोरें॥
15 31 नूप किरीट तरुनी तनु पाई | लहहिं सकल सोभा अधिकाई॥
15 31 है जहाँ उसका विचार, प्रचार तथा उसमें कथित आदर्शका ग्रहण और अनुसरण होता है) | कविके
16 32 जे जनमे कलिकाल कराला | करतब बायस बेष मराला॥
19 35 कवि और पण्डितगण | आप जो रामचरित्ररूपी मानसरोवरके सुन्दर हंस हैं, मुझ बालककी
21 37 बंदर अवध पुरी अति पावनि | सरजू सरि कलि कलुष नसावनि॥
22 38 बंद लछिमन पद जलजाता | सीतल सुभग भगत सुखदाता॥
23 39 पुनि मन बचन कर्म रघुनायक | चरन कमल बंदर्ड सब लायक॥
26 42 को बड़ छोट कहत अपराधू | सुनि गुन भेदु समुझिहहिं साधू॥
26 42 अगुन सगुन बिच नाम सुसाखी | उभय प्रबोधक चतुर दुभाषी॥
27 43 जाना चहहिं गूढ़ गति जेऊ |

#### Character "|" must be replaced by "।"

In [1101]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    ">": "",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त",
    "8": "र",
    "9": "",
    "ः:": "ः",
    ":": "ः",
    "* श्री": "' श्री",
    "|": "।"
}

In [1102]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [1103]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[|]", line):
            print(i, book_page.book_page_number, line)

##### No pipe signs found now.

## Check for Double (।) symbols

In [1104]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"।।", line):
            print(i, book_page.book_page_number, line)

9 25 सभी पदार्थ ब्रह्माकी सृष्टिमें हैं।। वेद-शास्त्रोंने उनके गुण-दोषोंका विभाग कर दिया है॥ ३--५॥
344 361 बहुबिधि चेरिहि आदरु देई।। कोपभवन गवनी कैकेई॥
657 675 शत्रुओंका नाश करनेकी जिम्मेवारी मुझपर नहीं है।। ऐसा विचारकर पण्डितजन (बुद्धिमान्‌ लोग)
742 762 अस मैं सुना श्रवन दसकंधर।। पदुम अठारह जूथप बंदर॥
938 960 मैं जिमि कथा सुनी भव मोचनि।। सो प्रसंग सुनु सुमुखि सुलोचनि॥


#### Character "।।" must be replaced by "।"

In [1106]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    ">": "",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त",
    "8": "र",
    "9": "",
    "ः:": "ः",
    ":": "ः",
    "* श्री": "' श्री",
    "|": "।",
    "।।": "।"
}

In [1107]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [1108]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"।।", line):
            print(i, book_page.book_page_number, line)

##### No double ।। found now.

## Check for slash (/)

In [437]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[\/]", line):
            print(i, book_page.book_page_number, line)

5 21 (ऐश्वर्य)/ और भलाई पायी है, सो सब सत्संगका ही प्रभाव समझना चाहिये। वेदोंमें और लोकमें
195 211 (ऐश्वर्य/को देखकर देवता भी थकित (स्तम्भित) हो जाते हैं [मनुष्योंकी तो बात ही क्‍या!]।


#### Character ")/" must be replaced by ")" and "/" must be replaced by " "

In [442]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    ">": "",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त",
    "8": "र",
    "9": "",
    "ः:": "ः",
    ":": "ः",
    "* श्री": "' श्री",
    "|": "।",
    "।।": "।",
    ")/": ")",
    "/": " "
}

In [443]:
for i, book_page in enumerate(book_pages):
    for invalid_char, correct_char in invalid_character_mapping.items():
        book_pages[i].text = book_page.text.replace(invalid_char, correct_char)

In [444]:
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"[\/]", line):
            print(i, book_page.book_page_number, line)

##### No slaces found now

## Check for invalid hindi numberings for padyas

In [272]:
# डः, दोौ
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"\(\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह][^कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह ]\s*\)", line):
            print(i, book_page.book_page_number, line)
        if 'दोौ' in line:
            print(i, book_page.book_page_number, line)

172 188 दोौ०--निज लोकहि बिरंचि गे देवन्ह इहड सिखाइ।
496 513 दोौ०--तनु पुलकेउ हियेँ हरषु सुनि बेनि बचन अनुकूल।
714 734 दोौ०-- प्रततपाल रघुनायक करुना सिंधु खरारि।
831 852 घोर शब्द आकाश और पृथ्वीमें भर (छा) गये हैं। श्रीरामचन्द्रजीकी जय हो, जो सचमुच तृणसे
891 913 हुई नगरकी ओर दोौड़ी हों। प्रभुने अत्यन्त प्रेमसे सब माताओंसे मिलकर उनसे बहुत प्रकारके कोमल
913 935 उज्जल महल ऊपर आकाशको चूम (छू) रहे हैं। महलोंपरके कलश [ अपने दिव्य प्रकाशसे ]
1005 1027 वही [उस ज्ञानदीपककी] परम प्रचण्ड दीपशिखा (लौ) है। [इस प्रकार] जब आत्मानुभवके


## Final Invalid Character mapping

In [457]:
invalid_character_mapping = {
    "_": " ",
    ".": "",
    " >+ऽ": " ",
    ">": "",
    "+--": "--",
    "  + 5": " ",
    "?2": "?",
    "?7": "?",
    "2": "?",
    "3&": "ॐ",
    "3ड": "उ",
    "3": "उ",
    "6त": "त",
    "6": "त",
    "8": "र",
    "9": "",
    "ः:": "ः",
    ":": "ः",
    "* श्री": "' श्री",
    ")/": ")",
    "/": " "
}

In [273]:
# डः, ड-, दोौ
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"\(\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह][^कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह ]\s*\)", line):
            book_pages[i].text = re.sub(r'\(\s*डः\s*\)', '(ङ)', book_page.text)
            book_pages[i].text = re.sub(r'\(\s*ड-\s*\)', '(ङ)', book_page.text)
        book_pages[i].text = book_page.text.replace('दोौ', 'दो')

## Recheck for invalid characters

In [1111]:
complete_text = ""
for book_page in book_pages:
    complete_text += book_page.text + "\n"

In [1112]:
allowed_characters = [
    '\u200c', '\u200d', # Zero width characters of devanagari
    ',',        # Comma
    '(', ')',   # Parenthesis
    '\n',       # New Line Character
    '“', '”',   # Double Inverted Commas
    '"', "'",   # Single and Double Quotes
    '?',        # Question Mark
    '!',        # Exclamation Sign
    ';',        # Semi Colon
    '*',        # Asterisk (only for word meaning references)
    ' ',        # Space
    '-',        # Hyphen
    '[', ']',    # Square Brackets,
]

def is_valid_character(ch):
    if re.match(r'[\u0900-\u097F]', ch):
        return True
    if ch in allowed_characters:
        return True
    return False

In [1113]:
characters = []
for c in complete_text:
    characters.append(c)
unique_characters = list(set(characters))
potential_invalid_characters = [char for char in unique_characters if not is_valid_character(char)]
print(potential_invalid_characters)

[]


In [275]:
# डः, ड-, दोौ
for i, book_page in enumerate(book_pages):
    lines = book_page.text.split('\n')
    for line in lines:
        if re.search(r"\(\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह][^कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह ]\s*\)", line):
            print(i, book_page.book_page_number, line)
        if 'दोौ' in line:
            print(i, book_page.book_page_number, line)

831 852 घोर शब्द आकाश और पृथ्वीमें भर (छा) गये हैं। श्रीरामचन्द्रजीकी जय हो, जो सचमुच तृणसे
913 935 उज्जल महल ऊपर आकाशको चूम (छू) रहे हैं। महलोंपरके कलश [ अपने दिव्य प्रकाशसे ]
1005 1027 वही [उस ज्ञानदीपककी] परम प्रचण्ड दीपशिखा (लौ) है। [इस प्रकार] जब आत्मानुभवके


# Dividing Text into Padyas and their meanings

In [276]:
class Padya:
    """
        पद्य (Padya) refers to poetry or verses in Sanskrit and Hindi literature.
        It encompasses all forms of structured poetic compositions used in texts like Ramcharitmanas.
        A padya will consist of the padya text itself (in awadhi language) and the meaning of the Padya (in hindi language).
        It is a collective term for different types of padyas in ramcharitmanas:
        1. श्लोक : Classical verses often found at the beginning or in specific parts of the Ramcharitmanas, adhering to Sanskrit grammar and meters like Anushtup.
        2. सो० (Soratha): A type of meter with a distinct rhythmic pattern, used for impactful and reflective expressions.
        3. दो० (Doha): A two-line couplet with 13 syllables in each line, used for summarizing key teachings.
        4. छं० (Chand): A quatrain (four-line verse) with a set syllabic structure, often used for storytelling.
        5. चौपाई : Refers to the same poetic form as "छ॰," integral to the narrative flow of the text.
    """
    def __init__(self, text, meaning, padya_type, padya_count, pdf_page_number, book_page_number, chapter_number, chapter_title):
        self.text = text
        self.meaning = meaning
        self.padya_type = padya_type
        self.padya_count = padya_count
        self.pdf_page_number = pdf_page_number
        self.book_page_number = book_page_number
        self.chapter_number = chapter_number
        self.chapter_title = chapter_title
        self.clean_padya_text()
        self.clean_padya_meaning()
        if self.padya_count is not None:
            self.clean_padya_count()

    def __str__(self):
        text_str = ""
        if self.padya_type not in ["श्लोक", "चौपाई"]:
            text_str += self.padya_type + "\n"
        text_str += self.text
        if self.padya_count is None:
            text_str += "\n\n"
        else:
            text_str += " " + self.padya_count + " " + "॥" + "\n\n"
        text_str += self.meaning
        if self.padya_count is not None:
            text_str += " " + self.padya_count + " " + "॥"
        return text_str

    def clean_padya_text(self):
        splits = self.text.split('\n')
        lines = [line.strip() for line in splits if line.strip()]
        for i, line in enumerate(lines):
            lines[i] = re.sub(r"\s*।$", ' ।', lines[i])
            lines[i] = re.sub(r"\s*॥$", ' ॥', lines[i])
            if lines[i][-1] not in ['।', '॥']:
                lines[i] = lines[i].strip() + ' ' + ('।' if i % 2 == 0 else '॥')
        self.text = '\n'.join(lines)
            
    def clean_padya_meaning(self):
        self.meaning = re.sub(r'\n', ' ', self.meaning)
        self.meaning = self.meaning.strip()
        
        if self.meaning[-1] not in ['।', '॥']:
            self.meaning += ' ॥'
        else:
            self.meaning = re.sub(r"\s*।$", ' ॥', self.meaning)
            self.meaning = re.sub(r"\s*॥$", ' ॥', self.meaning)

    def clean_padya_count(self):
        self.padya_count = self.padya_count.strip()
        if '(' in self.padya_count:
            self.padya_count = re.sub(r"\s*\(\s*", ' (', self.padya_count)
            self.padya_count = re.sub(r"\s*\)$", ')', self.padya_count)
            
            
            

In [277]:
print(Padya(
    "वर्णानामर्थसंघानां रसानां छन्दसामपि    ।\n\nमड़लानां च कर्त्तारा बन्दे वाणीविनायकौ",
    "अक्षरों, अर्थसमूहों, रसों, छन्‍्दों और मंगलोंकी करनेवाली सरस्वतीजी और गणेशजीकी मैं वन्दना करता हूँ ।",
    "श्लोक",
    "१७ ( व )  ",
    16,
    "१७ ( व)",
    1,
    "बालकाण्ड"
))
    

वर्णानामर्थसंघानां रसानां छन्दसामपि ।
मड़लानां च कर्त्तारा बन्दे वाणीविनायकौ ॥ १७ (व) ॥

अक्षरों, अर्थसमूहों, रसों, छन्‍्दों और मंगलोंकी करनेवाली सरस्वतीजी और गणेशजीकी मैं वन्दना करता हूँ ॥ १७ (व) ॥


## Shlokas splitting

In [None]:
ch1_pages = book_pages[:325]
ch1_text = '\n'.join([p.text for p in ch1_pages])
print(ch1_text)

In [569]:
shlokas = ch1_text_split[0]
shlokas_split = re.split(r"॥\s*([०१२३४५६७८९]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*॥", shlokas)
for split_txt in shlokas_split:
    print("------------------")
    print(split_txt)

------------------

वर्णानामर्थसंघानां रसानां छन्दसामपि।
मड़लानां च कर्त्तारा बन्दे वाणीविनायकौ
------------------
१
------------------

अक्षरों, अर्थसमूहों, रसों, छन्‍्दों और मंगलोंकी करनेवाली सरस्वतीजी और गणेशजीकी मैं
वन्दना करता हूँ
------------------
१
------------------

भवानीशड्ूरोौ वन्दे   श्रद्धाविश्वासरूपिणौ।
याभ्यां विना न पश्यन्ति सिद्धाः स्वान्तःस्थमी श्वरम्‌
------------------
२
------------------

श्रद्धा और विश्वासके स्वरूप श्रीपार्वतीजी और श्रीशड्डरजीकी मैं वन्दना करता हूँ, जिनके बिना
सिद्धजन अपने अन्तःकरणमें स्थित ईश्वरको नहीं देख सकते
------------------
२
------------------

वन्दे बोधमयं नित्यं गुरु शड्डूररूपिणम्‌।
यमाथअ्ितो हि वक्रोषपि चन्द्रः सर्वत्र वन्द्यते
------------------
३
------------------


ज्ञानमय, नित्य, शड्डूररूपी गुरुकी मैं वन्दना करता हूँ, जिनके आश्रित होनेसे ही टेढ़ा चन्द्रमा
भी सर्वत्र वन्दित होता है
------------------
३
------------------


सीतारामगुणग्रामपुण्यारण्यविहारिणौ ।
वन्दे विशुद्धविज्ञानौ कवीश्वरकपी श्वरौ 
------------------
४
------------

## Test Shlok splitting for other chapters

### Combine Shlok Spliting in a single function

In [582]:
def split_shlokas_of_chapter(ch_pages):
    ch_text = '\n'.join([p.text for p in ch_pages])
    ch_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch_text)
    shlokas = ch_text_split[0]
    shlokas_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", shlokas)
    shlokas_split = shlokas_split[:-1]
    if len(shlokas_split) % 4 != 0:
        for split_txt in shlokas_split:
            print("------------------")
            print(split_txt)
        print(f"Length: {len(shlokas_split)}")
        raise Exception("There is some error in the split")
    return shlokas_split

<br><br>

In [572]:
for split_txt in split_shlokas_of_chapter(ch2_pages):
    print("------------------")
    print(split_txt)

------------------

यस्याड्डले च विभाति भूधरसुता देवापगा मस्तके
भाले बालविधुर्गले च गरलं यस्योरसि व्यालराट।
सोऽयं भूतिविभूषणः सुरवरः सर्वाधिपः सर्वदा
शर्वः सर्वगतः शिवः शशिनिभःः श्रीशड्डरः पातु माम्‌
------------------
१
------------------

जिनकी गोदमें हिमाचलसुता पार्वतीजी, मस्तकपर गद्जाजी, ललाटपर द्वितीयाका चन्द्रमा,
कण्ठमें हलाहल विष और वक्षःस्थलपर सर्पराज शेषजी सुशोभित हैं, वे भस्मसे विभूषित,
देवताओंमें श्रेष्ठ, सर्वेश्वर, संहारकर्ता [या भक्तोंके पापनाशक], सर्वव्यापक, कल्याणरूप, चन्द्रमाके
समान शुभ्रवर्ण श्रीशल्डरजी सदा मेरी रक्षा करें
------------------
१
------------------

प्रसन्‍नतां या न गताभिषेकतस्तथा न मम्ले वनवासदुःखतः।
मुखाम्बुजश्री रघुनन्दनस्य मे सदास्तु सा मज्जुलमड्डलप्रदा
------------------
२
------------------

रघुकुलको आनन्द देनेवाले श्रीरामचन्द्रजीके मुखारविन्दकी जो शोभा राज्याभिषेकसे (राज्याभिषेककी
बात सुनकर) न तो प्रसनन्‍नताको प्राप्त हुई और न वनवासके दुःखसे मलिन ही हुई, वह
(मुखकमलकी छबि) मेरे लिये सदा सुन्दर मड़लोंकी देनेवाली हो
------------------
२
--------------

In [573]:
for split_txt in split_shlokas_of_chapter(ch3_pages):
    print("------------------")
    print(split_txt)

------------------

मूल धर्मतरोरविवेकजलधेः  पूर्णन्दुमानन्ददं
वैराग्याम्बुजभास्करं हाघघनध्वान्तापह॑ तापहम्‌।
मोहाम्भोधरपूगपाटनविधौ स्वःसम्भवं॑ शह्डूरं

वन्दे ब्रहाकुलं॑ कलड्डुशमनं श्रीरामभूपप्रियम्‌
------------------
१
------------------


धर्मरूपी वृक्षेके मूल, विवेकरूपी समुद्रको आनन्द देनेवाले पूर्णचन्द्र, वैराग्यरूपी कमलके
[विकसित करनेवाले] सूर्य, पापरूपी घोर अन्धकारको निश्चय ही मिटानेवाले, तीनों तापोंको
हरनेवाले, मोहरूपी बादलोंके समूहको छिन्न-भिन्न करनेकी विधि (क्रिया)-में आकाशसे उत्पन्न
पवनस्वरूप, ब्रह्माजीके वंशन (आत्मज) तथा कलछ्लनाशक महाराज श्रीरामचन्द्रजीके प्रिय
श्रीशड्ररजीकी मैं वन्दना करता हूँ
------------------
१
------------------


सान्द्रानन्दययोदसौभगतनुं पीताम्बर सुन्दर

पाणौ बाणशरासनं कटिलसत्तृणीरभारं वरम्‌।

राजीवायतलोचनं धृतजटाजूटेन संशोभितं

सीतालक्ष्मणसंयुतं पथिगतं रामाभिरामं भजे
------------------
२
------------------





जिनका शरीर जलयुक्त मेघोंके समान सुन्दर (श्यामवर्ण) एवं आनन्दघन है, जो सुन्दर [वल्कलका]
पीतवस्त्र धारण किये हैं, जिनके हाथोंमें बाण और धनुष हैं

In [575]:
for split_txt in split_shlokas_of_chapter(ch4_pages):
    print("------------------")
    print(split_txt)

------------------

कुन्देन्दीवरसुन्दरवतिबलौ विज्ञानधामावुभौ
शोभाढ्यौ वरधन्विनौ श्रुतिनुतौ गोविप्रवृन्दप्रियौ।
मायामानुषरूपिणौ रघुवरो सद्धर्मवर्मों हितौ
सीतान्वेषणतत्परौ पथिगतौ भक्तिप्रदाौ तौ हि नः
------------------
१
------------------


कुन्दपुष्प और नील कमलके समान सुन्दर गौर एवं श्यामवर्ण, अत्यन्त बलवान, विज्ञानके धाम,
शोभासम्पन्न, श्रेष्ठ धनुर्धर, वेदोंके द्वारा वन्दित, गौ एवं ब्राह्मणोंके समूहके प्रिय [ अथवा प्रेमी |, मायासे
मनुष्यरूप धारण किये हुए, श्रेष्ठ धर्मके लिये कवचस्वरूप, सबके हितकारी, श्रीसीताजीकी खोजमें लगे
हुए, पथिकरूप रघुकुलके श्रेष्ठ श्रीयमजी और श्रीलक्ष्मणजी दोनों भाई निश्चय ही हमें भक्तिप्रद हों
------------------
१
------------------

ब्रह्माम्भोधिसमुद्धवं  कलिमलप्रध्वंसनं॑ चाव्ययं
श्रीमच्छम्भुमुखेन्दुसुन्दरवरे संशोभितं॑ सर्वदा।
संसारामयभेषज॑ सुखकरं श्रीजानकीजीवनं

धन्यास्ते कृतिनः पिबन्ति सततं श्रीरामनामामृतम्‌
------------------
२
------------------


वे सुकृती (पुण्यात्मा पुरुष) धन्य हैं जो वेदरूपी समुद्र [के मथने] से उत्पन्न हुए कलियुगके
मलको सर्वथा नष्ट कर दे

In [580]:
for split_txt in split_shlokas_of_chapter(ch5_pages):
    print("------------------")
    print(split_txt)

------------------

शान्‍्त॑ शाश्वतमप्रमेयमनघं निर्वाणशान्तिप्रदं
ब्रह्माशम्भुफणीन्द्रसेव्यमनिशं वेदान्तवेद्य॑ विभुम्‌।
रामाख्यं जगदीश्वरं सुरगुरुं मायामनुष्यं हरिं
वन्देहहू करुणाकरं रघुवरं भूपालचूडामणिम्‌
------------------
१
------------------

शान्त, सनातन, अप्रमेय (प्रमाणोंसे परे), निष्पाप, मोक्षरूप परमशान्ति देनेवाले, ब्रह्मा, शम्भु
और शेषजीसे निरन्तर सेवित, वेदान्तके द्वारा जाननेयोग्य, सर्वव्यापक, देवताओंमें सबसे बड़े,

मायासे मनुष्यरूपमें दीखनेवाले, समस्त पापोंको हरनेवाले, करुणाकी खान, रघुकुलमें श्रेष्ठ तथा
राजाओंके शिरोमणि, राम कहलानेवाले जगदीश्वरकी मैं वन्दना करता हूँ
------------------
१
------------------


नान्‍या स्पृहा रघुपते हृदयेउस्मदीये
सत्यं वदामि च भवानखिलान्तरात्मा।
भक्ति प्रयच्छ रघुपुड्व निर्भरां मे

कामादिदोषरहितं कुरू मानसं च
------------------
२
------------------

हे रघुनाथजी ! मैं सत्य कहता हूँ और फिर आप सबके अन्तरात्मा ही हैं (सब जानते ही हैं)
कि मेरे हृदयमें दूसरी कोई इच्छा नहीं है। हे रघुकुलकश्रेष्ठ ! मुझे अपनी निर्भरा (पूर्ण) भक्ति दीजिये
और मेरे मनको काम 

In [583]:
for split_txt in split_shlokas_of_chapter(ch6_pages):
    print("------------------")
    print(split_txt)

------------------


रामं॑ कामारिसेव्यं भवभयहरणं कालमत्तेभसिंहं
योगीन्द्रं ज्ञानगम्यं गुणनिधिमजितं निर्गु्णं निर्विकारम्‌।
मायातीत॑ सुरेशं॑ खलवधनिरतं ब्रह्मवृन्देकदेवं

वन्दे कन्दावदातं सरसिजनयनं देवमुर्वीशरूपम्‌
------------------
१
------------------


कामदेवके शत्रु शिवजीके सेव्य, भव (जन्म-मृत्यु) के भयको हरनेवाले, कालरूपी मतवाले
हाथीके लिये सिंहके समान, योगियोंके स्वामी (योगीश्वर), ज्ञानके द्वारा जानने योग्य, गुणोंकी
निधि, अजेय, निर्गुण, निर्विकार, मायासे परे, देवताओंके स्वामी, दुष्टोंके वधमें तत्पर, ब्राह्मणवृन्दके
एकमात्र देवता (रक्षक), जलवाले मेघके समान सुन्दर श्याम, कमलके-से नेत्रवाले, पृथ्वीपति
(राजा) के रूपमें परमदेव श्रीरामजीकी मैं वन्दना करता हूँ
------------------
१
------------------


शड्डेन्द्दाभभतीवसुन्दरतनुं शार्दूलचर्माम्बरं
कालव्यालकरालभूषणधरं गड्ढाशशाडरप्रियम्‌ ।
काशीशं कलिकल्मषौघशमनं कल्याणकल्पद्गुमं
नौमीड्यं गिरिजापतिं गुणनिधिं कन्दर्पह॑ शट्भूरम्‌
------------------
२
------------------




शह्ठु और चन्द्रमाकौ-सी कान्तिके अत्यन्त सुन्दर शरीरवाले, व्याप्रचर्मके वस

In [584]:
for split_txt in split_shlokas_of_chapter(ch7_pages):
    print("------------------")
    print(split_txt)

------------------


केकीकण्ठाभनीलं सुरवरविलसद्दिप्रपादाब्जचिह्वं
शोभाढ्यं पीतवस्त्रं सरसिजनयनं सर्वदा सुप्रसन्नम्‌।
पाणौ नाराचचापं कपिनिकरयुतं बन्धुना सेव्यमानं

नौमीड्यं जानकीशं रघुवरमनिशं पुष्पकारूढरामम्‌
------------------
१
------------------


मोरके कण्ठकी आभाके समान (हरिताभ) नीलवर्ण, देवताओंमें श्रेष्ठ, ब्राह्मण (भृगुजी) के
चरणकमलके चिहसे सुशोभित, शोभासे पूर्ण, पीताम्बरधारी, कमलनेत्र, सदा परम प्रसन्न, हाथोंमें
बाण और धनुष धारण किये हुए, वानरसमूहसे युक्त, भाई लक्ष्मणजीसे सेवित, स्तुति किये जाने
योग्य, श्रीजानकीजीके पति, रघुकुलश्रेष्ठ, पुष्पकविमानपर सवार श्रीरामचन्द्रजीको मैं निरन्तर
नमस्कार करता हूँ
------------------
१
------------------


कोसलेन्द्रपदकझ्जमज्जुली कोमलावजमहेशवन्दितौ।

जानकीकरसरोजलालितो चिन्तकस्य मनभूड़सड्लिनौ 
------------------
२
------------------


कोसलपुरीके स्वामी श्रीरामचन्द्रजीके सुन्दर और कोमल दोनों चरणकमल ब्रह्माजी और
शिवजीके द्वारा वन्दित हैं, श्रीजानकीजीके करकमलोंसे दुलराये हुए हैं और चिन्तन करनेवालेके
मनरूपी भौरेके नित्य संगी हैं अर्थात्‌ चिन्तन करनेव

## Dohas, Chand, and Chaupais

### Helper Functions

In [284]:
def english_to_devanagari(num_str):
    # Mapping English digits to Devanagari digits
    eng_to_dev = {
        '0': '०',
        '1': '१',
        '2': '२',
        '3': '३',
        '4': '४',
        '5': '५',
        '6': '६',
        '7': '७',
        '8': '८',
        '9': '९'
    }
    
    # Replace each digit using the mapping
    devnagari_num = ''.join(eng_to_dev[digit] for digit in num_str if digit in eng_to_dev)
    return devnagari_num

In [285]:
def devanagari_to_english(num_str):
    # Mapping Devanagari digits to English digits
    dev_to_eng = {
        '०': '0',
        '१': '1',
        '२': '2',
        '३': '3',
        '४': '4',
        '५': '5',
        '६': '6',
        '७': '7',
        '८': '8',
        '९': '9',
    }
    
    # Replace each digit using the mapping
    eng_num = ''.join(dev_to_eng[digit] for digit in num_str if digit in dev_to_eng)
    return eng_num


In [286]:
def correct_padya_count(padya_count):
    if 'ड' in padya_count:
        return padya_count.replace('ड', 'ङ')
    return padya_count

In [330]:
def next_padya_count(padya_count):
    hindi_letters = "कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह"
    if '-' in padya_count:
        padya_count = padya_count.split('-')[-1]
    search_res = re.search(r"^\s*([०१२३४५६७८९]+)\s*\(?\s*([कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?)\s*\)?\s*", padya_count)
    if not search_res:
        return None
    main_count = search_res.group(1)
    sub_count = search_res.group(2)
    if sub_count:
        # Keep main count same but give next sub_count
        sub_index = hindi_letters.index(sub_count)
        return f"{main_count} ({hindi_letters[sub_index + 1]})"
    else:
        # Next main count
        main_count = int(devanagari_to_english(main_count))
        return english_to_devanagari(str(main_count + 1))


In [357]:
def compare_padya_counts(padya_count1, padya_count2):
    padya_count1 = correct_padya_count(padya_count1)
    padya_count2 = correct_padya_count(padya_count2)

    if '-' in padya_count1 and '-' not in padya_count2:
        return (padya_count2 in padya_count1)
    if '-' not in padya_count1 and '-' in padya_count2:
        return (padya_count1 in padya_count2)
    search_res1 = re.search(r"^\s*([०१२३४५६७८९]+)\s*\(?\s*([कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?)\s*\)?\s*", padya_count1)
    search_res2 = re.search(r"^\s*([०१२३४५६७८९]+)\s*\(?\s*([कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?)\s*\)?\s*", padya_count2)
    
    if not search_res1:
        raise Exception(f"Error in first count argument: '{padya_count1}'")
    if not search_res2:
        raise Exception(f"Error in second count argument: '{padya_count2}'")
    
    main_count1, main_count2 = search_res1.group(1), search_res2.group(1)
    sub_count1, sub_count2 = search_res1.group(2), search_res2.group(2)
    if main_count1 != main_count2:
        return False
    if sub_count1 != sub_count2:
        return False
    return True

In [358]:
def sort_padya_counts(padya_counts):
    hindi_letters = "कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह"
    def ordering_func(padya_count):
        if '-' in padya_count:
            padya_count = padya_count.split('-')[-1]
        search_res = re.search(r"^\s*([०१२३४५६७८९]+)\s*\(?\s*([कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?)\s*\)?\s*", padya_count)
        if not search_res:
            return float('inf'), 0
        main_count = devanagari_to_english(search_res.group(1))
        sub_count = search_res.group(2) if search_res.group(2) else ''
        sub_count_order = hindi_letters.find(sub_count)
        return int(main_count), sub_count_order
    return sorted(padya_counts, key=ordering_func)

In [359]:
def find_gap_between_padya_counts(padya_count1, padya_count2):
    hindi_letters = "कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह"
    if '-' in padya_count1:
        padya_count1 = padya_count1.split('-')[-1]
    if '-' in padya_count2:
        padya_count2 = padya_count2.split('-')[0]
    search_res1 = re.search(r"^\s*([०१२३४५६७८९]+)\s*\(?\s*([कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?)\s*\)?\s*", padya_count1)
    search_res2 = re.search(r"^\s*([०१२३४५६७८९]+)\s*\(?\s*([कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?)\s*\)?\s*", padya_count2)
    if not search_res1:
        raise Exception(f"Error in first count argument: '{padya_count1}'")
    if not search_res2:
        raise Exception(f"Error in second count argument: '{padya_count2}'")
    
    main_count1, main_count2 = search_res1.group(1), search_res2.group(1)
    sub_count1, sub_count2 = search_res1.group(2), search_res2.group(2)
    if sub_count1 is not None and sub_count1 not in hindi_letters:
        raise Exception(f"Error in part count: '{padya_count1}'")
    if sub_count2 is not None and sub_count2 not in hindi_letters:
        raise Exception(f"Error in part count: '{padya_count2}'")

    main_count1 = int(devanagari_to_english(main_count1))
    main_count2 = int(devanagari_to_english(main_count2))
    
    if sub_count1 and sub_count2:
        if main_count1 == main_count2:
            return abs(hindi_letters.find(sub_count1) - hindi_letters.find(sub_count2))
    return abs(main_count1 - main_count2)    

In [444]:
def clean_padya_text(text):
    splits = text.split('\n')
    lines = [line.strip() for line in splits if line.strip()]
    for i, line in enumerate(lines):
        lines[i] = re.sub(r"\s*।$", ' ।', lines[i])
        lines[i] = re.sub(r"\s*॥$", ' ॥', lines[i])
        if lines[i][-1] not in ['।', '॥']:
            lines[i] = lines[i].strip() + ' ' + ('।' if i % 2 == 0 else '॥')
    text = '\n'.join(lines)
    return text

In [445]:
def get_page_numbers(ref_text, ch_pages):
    ref_text = clean_padya_text(ref_text)
    ref_text = ref_text[:20]
    for page in ch_pages:
        if ref_text in page.text:
            return str(page.book_page_number)
    raise Exception(f"Page number not found for text {ref_text}")

### Chapter 1

In [278]:
ch1_pages = book_pages[:325]
ch1_text = '\n'.join([p.text for p in ch1_pages])
print(ch1_text)
with open('ch1_text.txt', "w") as file:
    file.write(ch1_text)

In [280]:
len(re.findall(r"((?:सो०|दो०|छं०)-{0,2})", ch1_text))

407

In [281]:
ch1_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch1_text)
len(ch1_text_split)

#### Replacement for errors in Chapter 1

In [None]:
direct_indices = [30, 89, 142, 143, 146, 231, 292, 292]
replacements = {
        'महँ लिय महेस जियें जानि॥ २५७॥': 'महँ लिय महेस जियें जानि॥ २५॥',
        'करहिं अपछरा गान॥ ९१२१॥': 'करहिं अपछरा गान॥ ९१॥',
        'राम जनम कर हेतु ॥ १७५२॥': 'राम जनम कर हेतु ॥ १५२॥',
        'कामादि सुख सेवड समय नरेसु ॥ १७४॥': 'कामादि सुख सेवड समय नरेसु ॥ १५४॥',
        'कीन्ह नृपति हरषाइ॥ १५७८॥': 'कीन्ह नृपति हरषाइ॥ १५८॥',
        'बस बचन कहडक्\u200d़ बिलखाइ़ ॥ २०५७ ॥': 'बस बचन कहडक्\u200d़ बिलखाइ़ ॥ २५५ ॥',
        'मोक्ष) पा गये हों॥ ३२०॥': 'मोक्ष) पा गये हों॥ ३२५॥',
        ' हिय\nअनुरूप बर दुलहिनि': 'अनुरूप बर दुलहिनि'
    }
    
replacers = list(replacements.keys())
    
for pg_idx, replacer in enumerate(replacers):
    direct_idx = direct_indices[pg_idx]
    ch1_pages[direct_idx].text = ch1_pages[direct_idx].text.replace(replacer, replacements[replacer])
    
ch1_text = '\n'.join([p.text for p in ch1_pages])
with open('ch1_text.txt', "w") as file:
    file.write(ch1_text)

ch1_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch1_text)

#### Main Function for Padya division of Chapter 1

In [416]:
padyas = []

idx = 0
txt = None
prev_so_do_number = None

while idx < len(ch1_text_split):
    if idx == 0:
        # Handling of shlokas
        shlokas = ch1_text_split[0]
        shlokas_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", shlokas)
        shlokas_split = shlokas_split[:-1]
        prev_shlok_number = None
        jIdx = 0
        while jIdx < len(shlokas_split):
            padya_count = shlokas_split[jIdx + 1]
            padya_count = correct_padya_count(padya_count)
            if jIdx == 0:
                prev_shlok_number = padya_count
                padya_text = shlokas_split[jIdx]
                padya_meaning = shlokas_split[jIdx + 2]
                padya_meaning_count = shlokas_split[jIdx + 3]
                if not compare_padya_counts(padya_meaning_count, padya_count):
                    raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                    inner index {jIdx}, 
                    padya type {"श्लोक"}, 
                    padya count {padya_count}, 
                    expected count {padya_meaning_count},
                    outer index {idx},
                    padya shlokas text \n {shlokas}
                    """)
                print('\n\n---------------------\n\n')
                print(idx, jIdx, 'श्लोक', padya_count)
                enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch1_pages)
                padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "1", "बालकाण्ड")
                padyas.append(padya)
                jIdx += 4
            else:
                expected_shlok_number = next_padya_count(prev_shlok_number)
                if compare_padya_counts(padya_count, expected_shlok_number):
                    padya_text = shlokas_split[jIdx]
                    padya_meaning = shlokas_split[jIdx + 2]
                    padya_meaning_count = shlokas_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {"श्लोक"}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya shlokas text \n {shlokas}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, 'श्लोक', padya_count)
                    enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch1_pages)
                    padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "1", "बालकाण्ड")
                    padyas.append(padya)
                    prev_shlok_number = padya_count
                    jIdx += 4
                else:
                    # Sunderkand handling
                    # In sunderkand, even shlokas have chaupais
                    pass
        idx += 1
    else:
        padya_type_definer = re.search(r"^(सो०|दो०|छं०)-{0,2}$", ch1_text_split[idx])
        if not padya_type_definer:
            raise Exception(f'Padya type not found at index {idx} \n {ch1_text_split[idx]} {ch1_text_split[idx + 1]}')
        padya_type = padya_type_definer.group(1)
        padya_full_text = ch1_text_split[idx + 1]
        padya_full_text_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", padya_full_text)
        padya_full_text_split = padya_full_text_split[:-1]
        if padya_type in ['सो०', 'दो०']:
            prev_chaupai_number = None
            chaupai_flag = False
            jIdx = 0
            while jIdx < len(padya_full_text_split):
                padya_count = padya_full_text_split[jIdx + 1]
                padya_count = correct_padya_count(padya_count)
                if jIdx == 0:
                    prev_so_do_number = padya_count
                    padya_text = padya_full_text_split[jIdx]
                    padya_meaning = padya_full_text_split[jIdx + 2]
                    padya_meaning_count = padya_full_text_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {padya_type}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya full text \n {padya_full_text}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, padya_type, padya_count)
                    enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch1_pages)
                    padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "1", "बालकाण्ड")
                    padyas.append(padya)
                    jIdx += 4
                else:
                    expected_so_do_number = next_padya_count(prev_so_do_number)
                    if not chaupai_flag and compare_padya_counts(padya_count, expected_so_do_number):
                        padya_text = padya_full_text_split[jIdx]
                        padya_meaning = padya_full_text_split[jIdx + 2]
                        padya_meaning_count = padya_full_text_split[jIdx + 3]
                        if not compare_padya_counts(padya_meaning_count, padya_count):
                            raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                            inner index {jIdx}, 
                            padya type {padya_type}, 
                            padya count {padya_count}, 
                            expected count {padya_meaning_count},
                            outer index {idx},
                            padya full text \n {padya_full_text}
                            """)
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch1_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "1", "बालकाण्ड")
                        padyas.append(padya)
                        prev_so_do_number = padya_count
                        jIdx += 4
                    else:
                        chaupai_flag = True
                        if prev_chaupai_number:
                            expected_chaupai_number = next_padya_count(prev_chaupai_number)
                            if not compare_padya_counts(padya_count, expected_chaupai_number):
                                raise Exception(f"""Error: Chaupai number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chaupai_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chaupai_number = expected_chaupai_number
                        chaupai_split = padya_full_text_split[jIdx].split("\n")
                        chaupai_split = [chaupai_line.strip() for chaupai_line in chaupai_split if chaupai_line.strip()]
                        if len(chaupai_split) <= 1:
                            print('Error: Chaupai consist of just one single line')
                        if padya_full_text_split[jIdx].count('॥') < 2:
                            padya_text = '\n'.join(chaupai_split[:1])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[1:])    # Specifically chaupai_meaning
                        elif '-' in padya_count and padya_full_text_split[jIdx].count('॥') == 4:
                            padya_text = '\n'.join(chaupai_split[:4])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[4:])    # Specifically chaupai_meaning
                        else:
                            padya_text = '\n'.join(chaupai_split[:2])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[2:])    # Specifically chaupai_meaning
                        book_page_number = get_page_numbers(padya_text, ch1_pages)
                        padya = Padya(padya_text, padya_meaning, 'चौपाई', padya_count, book_page_number, book_page_number, "1", "बालकाण्ड")
                        padyas.append(padya)
                        jIdx += 2    
                        
        elif padya_type == 'छं०':
            if len(padya_full_text_split) > 0:
                prev_chand_number = None
                jIdx = 0
                while jIdx < len(padya_full_text_split):
                    padya_count = padya_full_text_split[jIdx + 1]
                    padya_count = correct_padya_count(padya_count)
                    if jIdx == 0:
                        prev_chand_number = padya_count
                        chand_split = padya_full_text_split[jIdx].split("\n")
                        chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                        padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                        padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch1_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "1", "बालकाण्ड")
                        padyas.append(padya) 
                    else:
                        expected_chand_number = next_padya_count(prev_chand_number)
                        if not compare_padya_counts(padya_count, expected_chand_number):
                            raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                            inner index {jIdx}, 
                            padya count {padya_count}, 
                            expected count {expected_chand_number},
                            outer index {idx},
                            padya full text \n {padya_full_text}
                            """)
                        prev_chand_number = padya_count
                        chand_split = padya_full_text_split[jIdx].split("\n")
                        chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                        padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                        padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch1_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "1", "बालकाण्ड")
                        padyas.append(padya)
                    jIdx += 2
            else:
                chand_split = padya_full_text.split("\n")
                chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                print('\n\n---------------------\n\n')
                print(idx, 0, padya_type, None)
                enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch1_pages)
                padya = Padya(padya_text, padya_meaning, padya_type, None, book_page_number, book_page_number, "1", "बालकाण्ड")
                padyas.append(padya)                        
        idx += 2



---------------------


0 0 श्लोक १


 




---------------------


0 4 श्लोक २


 




---------------------


0 8 श्लोक ३


 




---------------------


0 12 श्लोक ४


 




---------------------


0 16 श्लोक ५


 




---------------------


0 20 श्लोक ६


 




---------------------


0 24 श्लोक ७


 




---------------------


1 0 सो० १


 




---------------------


1 4 सो० २ 


 




---------------------


1 8 सो० ३


 




---------------------


1 12 सो० ४


 




---------------------


1 16 सो० ५


 




---------------------


3 0 दो० १


 




---------------------


5 0 दो० २


 




---------------------


7 0 दो० ३ ( क )


 




---------------------


7 4 दो० ३ ( ख )


 




---------------------


9 0 दो० ४


 




---------------------


11 0 दो० ५


 




---------------------


13 0 दो० ६


 




---------------------


15 0 दो० ७ ( क )


 




---------------------


15 4 दो० ७ ( ख )


 




---------------------


15 8 दो० ७ ( ग )


 




---------------------


15 12 दो० ७ (घ)


 




---------------------


17 0 दो० ८


 




---------------------


19 0 दो० ९


 




---------------------


21 0 छं० None


 




---------------------


23 0 दो० १० (क )


 




---------------------


23 4 दो० १० ( ख )


 




---------------------


25 0 दो० ११


 




---------------------


27 0 दो० १२


 




---------------------


29 0 दो० १३


 




---------------------


31 0 दो० १४ ( क )


 




---------------------


31 4 दो० १४ ( ख )


 




---------------------


31 8 दो० १४( ग )


 




---------------------


33 0 सो० १४ (घ)


 




---------------------


33 4 सो० १४ (ङ)


 




---------------------


33 8 सो० १४ (च)


 




---------------------


35 0 दो० १४ ( छ )


 




---------------------


37 0 दो० १५


 




---------------------


39 0 सो० १६


 




---------------------


41 0 सो० १७


 




---------------------


43 0 दो० १८ 


 




---------------------


45 0 दो० १९


 




---------------------


47 0 दो० २०


 




---------------------


49 0 दो० २१


 




---------------------


51 0 दो० २२


 




---------------------


53 0 दो० २३


 




---------------------


55 0 दो० २४


 




---------------------


57 0 दो० २५


 




---------------------


59 0 दो० २६


 




---------------------


61 0 दो० २७


 




---------------------


63 0 दो० २८ (क)


 




---------------------


63 4 दो० २८(ख )


 




---------------------


65 0 दो० २९ (क )


 




---------------------


65 4 दो० २९(ख )


 




---------------------


65 8 दो० २९ (ग)


 




---------------------


67 0 दो० ३०( क )


 




---------------------


67 4 दो० ३० ( ख )


 




---------------------


69 0 दो० ३१


 




---------------------


71 0 दो० ३२ (क )


 




---------------------


71 4 दो० ३२( ख )


 




---------------------


73 0 दो० ३३


 




---------------------


75 0 दो० ३४


 




---------------------


77 0 दो० ३५


 




---------------------


79 0 दो० ३६


 




---------------------


81 0 दो० ३७


 




---------------------


83 0 दो० ३८ 


 




---------------------


85 0 दो० ३९


 




---------------------


87 0 दो० ४०


 




---------------------


89 0 दो० ४१


 




---------------------


91 0 दो० ४२


 




---------------------


93 0 दो० ४३ (क )


 




---------------------


93 4 दो० ४३ (ख)


 




---------------------


95 0 दो० ४४


 




---------------------


97 0 दो० ४५


 




---------------------


99 0 दो० ४६


 




---------------------


101 0 दो० ४७


 




---------------------


103 0 दो० ४८ (क )


 




---------------------


105 0 सो० ४८ ( ख )


 




---------------------


107 0 दो० ४९


 




---------------------


109 0 दो० ५०


 




---------------------


111 0 छं० None


 




---------------------


113 0 सो० ५१


 




---------------------


115 0 दो० ५२


 




---------------------


117 0 दो० ५३


 




---------------------


119 0 दो० ५४


 




---------------------


121 0 दो० ५५


 




---------------------


123 0 दो० ५६


 




---------------------


125 0 दो० ५७ ( क )


 




---------------------


127 0 सो० ५७ ( ख )


 




---------------------


129 0 दो० ५८


 




---------------------


131 0 दो० ५९


 




---------------------


133 0 दो० ६०


 
 




---------------------


135 0 दो० ६१


---------------------


137 0 दो० ६२


 




---------------------


139 0 दो० ६३


 




---------------------


141 0 दो० ६४


 




---------------------


143 0 दो० ६५


 
 




---------------------


145 0 दो० ६६


---------------------


147 0 दो० ६७


 




---------------------


149 0 दो० ६८


 




---------------------


151 0 दो० ६९


 




---------------------


153 0 दो० ७०


 




---------------------


155 0 दो० ७१


 




---------------------


157 0 दो० ७२


 




---------------------


159 0 दो० ७३


 




---------------------


161 0 दो० ७४


 




---------------------


163 0 दो० ७५


 
 




---------------------


165 0 दो० ७६


---------------------


167 0 दो० ७७


 




---------------------


169 0 दो० ७८


 




---------------------


171 0 दो० ७९


 




---------------------


173 0 दो० ८०


 




---------------------


175 0 दो० ८१


 




---------------------


177 0 दो० ८२


 




---------------------


179 0 दो० ८३


 




---------------------


181 0 दो० ८४


 




---------------------


183 0 छं० None


 




---------------------


185 0 सो० ८५


 




---------------------


187 0 छं० None


 




---------------------


189 0 दो० ८६ 


 




---------------------


191 0 छं० None


 




---------------------


193 0 दो० ८७


 




---------------------


195 0 दो० ८८


 




---------------------


197 0 दो० ८९


 




---------------------


199 0 दो० ९०


 




---------------------


201 0 दो० ९१


 




---------------------


203 0 दो० ९२


 




---------------------


205 0 छं० None


 




---------------------


207 0 सो० ९३


 




---------------------


209 0 छं० None


 




---------------------


211 0 दो० ९४


 




---------------------


213 0 छं० None


 




---------------------


215 0 दो० ९५


 




---------------------


217 0 छं० None


 




---------------------


219 0 दो० ९६


 




---------------------


221 0 छं० None


 




---------------------


223 0 दो० ९७


 




---------------------


225 0 छं० None


 




---------------------


227 0 दो० ९८


 




---------------------


229 0 छं० None


 




---------------------


231 0 दो० ९९


 




---------------------


233 0 छं० None


 




---------------------


235 0 दो० १००


 




---------------------


237 0 छं० None


 




---------------------


239 0 दो० १०१


 




---------------------


241 0 छं० None


 




---------------------


243 0 दो० १०२


 




---------------------


245 0 छं० None


 




---------------------


247 0 दो० १०३


 




---------------------


249 0 दो० १०४


 




---------------------


251 0 दो० १०५


 




---------------------


253 0 दो० १०६


 




---------------------


255 0 दो० १०७


 




---------------------


257 0 दो० १०८


 




---------------------


259 0 दो० १०९


 




---------------------


261 0 दो० ११०


 




---------------------


263 0 दो० १११


 




---------------------


265 0 दो० ११२


 




---------------------


267 0 दो० ११३


 




---------------------


269 0 दो० ११४


 




---------------------


271 0 सो० ११५


 




---------------------


273 0 दो० ११६ 


 




---------------------


275 0 दो० ११७


 




---------------------


277 0 दो० ११८


 




---------------------


279 0 दो० ११९


 




---------------------


281 0 दो० १२० ( क )


 




---------------------


283 0 सो० १२० ( ख )


 




---------------------


283 4 सो० १२० ( ग )


 




---------------------


283 8 सो० १२० (घ)


 




---------------------


285 0 दो० १२१


 




---------------------


287 0 दो० १२२


 




---------------------


289 0 दो० १२३


 




---------------------


291 0 दो० १२४ ( क )


 




---------------------


293 0 सो० १२४ ( ख )


 




---------------------


295 0 दो० १२५


 




---------------------


297 0 दो० १२६


 




---------------------


299 0 दो० १२७


 




---------------------


301 0 दो० १२८


 




---------------------


303 0 दो० १२९


 




---------------------


305 0 दो० १३०


 




---------------------


307 0 दो० १३१


 




---------------------


309 0 दो० १३२


 




---------------------


311 0 दो० १३३


 




---------------------


313 0 दो० १३४


 




---------------------


315 0 दो० १३५


 




---------------------


317 0 दो० १३६


 




---------------------


319 0 दो० १३७


 




---------------------


321 0 दो० १३८


 




---------------------


323 0 दो० १३९


 




---------------------


325 0 सो० १४०


 




---------------------


327 0 दो० १४१


 




---------------------


329 0 सो० १४२


 




---------------------


331 0 दो० १४३


 




---------------------


333 0 दो० १४४


 




---------------------


335 0 दो० १४५


 




---------------------


337 0 दो० १४६


 




---------------------


339 0 दो० १४७


 




---------------------


341 0 दो० १४८


 




---------------------


343 0 दो० १४९


 




---------------------


345 0 दो० १५०


 




---------------------


347 0 सो० १५१


 




---------------------


349 0 दो० १५२


 




---------------------


351 0 दो० १५३


 




---------------------


353 0 दो० १५४


 




---------------------


355 0 दो० १५५


 




---------------------


357 0 दो० १५६


 




---------------------


359 0 दो० १५७ 


 




---------------------


361 0 दो० १५८


 




---------------------


363 0 दो० १५९ ( क )


 




---------------------


363 4 दो० १५९ ( ख )


 




---------------------


365 0 दो० १६०


 




---------------------


367 0 दो० १६१ (क)


 




---------------------


369 0 सो० १६१ ( ख )


 




---------------------


371 0 दो० १६२


 




---------------------


373 0 सो० १६३


 




---------------------


375 0 दो० १६४


 




---------------------


377 0 दो० १६५


 




---------------------


379 0 दो० १६६


 




---------------------


381 0 दो० १६७


 




---------------------


383 0 दो० १६८


 




---------------------


385 0 दो० १६९


 




---------------------


387 0 दो० १७०


 




---------------------


389 0 दो० १७१


 




---------------------


391 0 दो० १७२


 




---------------------


393 0 दो० १७३


 




---------------------


395 0 दो० १७४


 




---------------------


397 0 दो० १७५


 




---------------------


399 0 दो० १७६ 


 




---------------------


401 0 दो० १७७


 




---------------------


403 0 दो० १७८ ( क )


 




---------------------


403 4 दो० १७८ (ख )


 




---------------------


405 0 दो० १७९


 




---------------------


407 0 दो० १८०


 




---------------------


409 0 दो० १८१


 




---------------------


411 0 दो० १८२ (क )


 




---------------------


411 4 दो० १८२ (ख)


 




---------------------


413 0 छं० None


 




---------------------


415 0 सो० १८३


 




---------------------


417 0 छं० None


 




---------------------


419 0 सो० १८४


 




---------------------


421 0 दो० १८५


 




---------------------


423 0 दो० १८६


 




---------------------


425 0 दो० १८७


 




---------------------


427 0 दो० १८८ 


 




---------------------


429 0 दो० १८९


 




---------------------


431 0 दो० १९०


 




---------------------


433 0 दो० १९१


 




---------------------


435 0 छं० १


 




---------------------


435 2 छं० २


 




---------------------


435 4 छं० ३


 




---------------------


435 6 छं० ४


 




---------------------


437 0 दो० १९२


 




---------------------


439 0 दो० १९३


 




---------------------


441 0 दो० १९४


 




---------------------


443 0 दो० १९५


 




---------------------


445 0 दो० १९६


 




---------------------


447 0 दो० १९७


 




---------------------


449 0 दो० १९८


 




---------------------


451 0 दो० १९९


 




---------------------


453 0 दो० २००


 




---------------------


455 0 दो० २०१


 




---------------------


457 0 दो० २०२


 




---------------------


459 0 दो० २०३


 




---------------------


461 0 दो० २०४


 




---------------------


463 0 दो० २०५


 




---------------------


465 0 दो० २०६


 




---------------------


467 0 दो० २०७


 




---------------------


469 0 दो० २०८ ( क )


 




---------------------


471 0 सो० २०८ ( ख )


 




---------------------


473 0 दो० २०९


 




---------------------


475 0 दो० २१०


 




---------------------


477 0 छं० १


 




---------------------


477 2 छं० २


 




---------------------


477 4 छं० ३


 




---------------------


477 6 छं० ४


 




---------------------


479 0 दो० २११


 




---------------------


481 0 दो० २१२


 




---------------------


483 0 दो० २१३


 




---------------------


485 0 दो० २१४


 




---------------------


487 0 दो० २१५


 




---------------------


489 0 दो० २१६


 




---------------------


491 0 दो० २१७


 




---------------------


493 0 दो० २१८


 




---------------------


495 0 दो० २१९


 




---------------------


497 0 दो० २२०


 




---------------------


499 0 दो० २२१


 




---------------------


501 0 दो० २२२


 




---------------------


503 0 दो० २२३


 




---------------------


505 0 दो० २२४


 




---------------------


507 0 दो० २२५


 




---------------------


509 0 दो० २२६


 




---------------------


511 0 दो० २२७


 




---------------------


513 0 दो० २२८


 




---------------------


515 0 दो० २२९


 




---------------------


517 0 दो० २३०


 




---------------------


519 0 दो० २३१


 




---------------------


521 0 दो० २३२


 




---------------------


523 0 दो० २३३


 




---------------------


525 0 दो० २३४


 




---------------------


527 0 दो० २३५


 




---------------------


529 0 छं० None


 




---------------------


531 0 सो० २३६


 




---------------------


533 0 दो० २३७


 




---------------------


535 0 दो० २३८ 


 




---------------------


537 0 दो० २३९


 




---------------------


539 0 दो० २४० 


 




---------------------


541 0 दो० २४१


 




---------------------


543 0 दो० २४२


 




---------------------


545 0 दो० २४३


 




---------------------


547 0 दो० २४४


 




---------------------


549 0 सो० २४५


 




---------------------


551 0 दो० २४६


 




---------------------


553 0 दो० २४७


 




---------------------


555 0 दो० २४८ 


 




---------------------


557 0 दो० २४९


 




---------------------


559 0 दो० २५०


 




---------------------


561 0 दो० २५१


 




---------------------


563 0 दो० २५२


 




---------------------


565 0 दो० २५३


 




---------------------


567 0 दो० २५४


 




---------------------


569 0 दो० २५५ 


 




---------------------


571 0 दो० २५६


 




---------------------


573 0 दो० २५७


 




---------------------


575 0 दो० २५८ 


 




---------------------


577 0 दो० २५९


 




---------------------


579 0 दो० २६०


 




---------------------


581 0 छं० None


 




---------------------


583 0 सो० २६१


 




---------------------


585 0 दो० २६२


 




---------------------


587 0 दो० २६३


 




---------------------


589 0 सो० २६४


 




---------------------


591 0 दो० २६५


 




---------------------


593 0 दो० २६६


 




---------------------


595 0 दो० २६७


 




---------------------


597 0 दो० २६८ 


 




---------------------


599 0 दो० २६९


 




---------------------


601 0 दो० २७०


 




---------------------


603 0 दो० २७१


 




---------------------


605 0 दो० २७२


 




---------------------


607 0 दो० २७३


 




---------------------


609 0 दो० २७४


 




---------------------


611 0 दो० २७५ 


 




---------------------


613 0 दो० २७६


 




---------------------


615 0 दो० २७७ 


 




---------------------


617 0 दो० २७८


 




---------------------


619 0 दो० २७९


 




---------------------


621 0 दो० २८०


 




---------------------


623 0 दो० २८१


 




---------------------


625 0 दो० २८२


 




---------------------


627 0 दो० २८३


 




---------------------


629 0 दो० २८४


 




---------------------


631 0 दो० २८५


 




---------------------


633 0 दो० २८६


 




---------------------


635 0 दो० २८७


 




---------------------


637 0 दो० २८८


 




---------------------


639 0 दो० २८९


 




---------------------


641 0 दो० २९०


 




---------------------


643 0 दो० २९१


 




---------------------


645 0 दो० २९२


 




---------------------


647 0 दो० २९३


 




---------------------


649 0 दो० २९४


 




---------------------


651 0 सो० २९५


 




---------------------


653 0 दो० २९६


 




---------------------


655 0 दो० २९७


 




---------------------


657 0 दो० २९८ 


 




---------------------


659 0 दो० २९९


 




---------------------


661 0 दो० ३००


 




---------------------


663 0 दो० ३०१


 




---------------------


665 0 दो० ३०२


 




---------------------


667 0 दो० ३०३


 




---------------------


669 0 दो० ३०४


 




---------------------


671 0 दो० ३०५


 




---------------------


673 0 दो० ३०६


 




---------------------


675 0 दो० ३०७


 




---------------------


677 0 दो० ३०८ 


 




---------------------


679 0 दो० ३०९


 




---------------------


681 0 दो० ३१०


 




---------------------


683 0 छं० None


 




---------------------


685 0 सो० ३११


 




---------------------


687 0 दो० ३१२


 




---------------------


689 0 दो० ३१३


 




---------------------


691 0 दो० ३१४


 




---------------------


693 0 दो० ३१५


 




---------------------


695 0 छं० None


 




---------------------


697 0 दो० ३१६


 




---------------------


699 0 छं० None


 




---------------------


701 0 दो० ३१७


 




---------------------


703 0 छं० None


 




---------------------


705 0 दो० ३१८ 


 




---------------------


707 0 छं० None


 




---------------------


709 0 दो० ३१९


 




---------------------


711 0 छं० None


 




---------------------


713 0 दो० ३२०


 




---------------------


715 0 छं० None


 




---------------------


717 0 दो० ३२१


 




---------------------


719 0 छं० None


 




---------------------


721 0 दो० ३२२


 




---------------------


723 0 छं० १


 




---------------------


723 2 छं० २


 




---------------------


725 0 दो० ३२३


 




---------------------


727 0 छं० १


 




---------------------


727 2 छं० २


 




---------------------


727 4 छं० ३


 




---------------------


727 6 छं० ४


 




---------------------


729 0 दो० ३२४


 




---------------------


731 0 छं० १


 




---------------------


731 2 छं० २


 




---------------------


731 4 छं० ३


 




---------------------


731 6 छं० ४


 




---------------------


733 0 दो० ३२५


 




---------------------


735 0 छं० १


 




---------------------


735 2 छं० २


 




---------------------


735 4 छं० ३


 




---------------------


735 6 छं० ४


 




---------------------


737 0 दो० ३२६


 




---------------------


739 0 छं० १


 




---------------------


739 2 छं० २


 




---------------------


739 4 छं० ३


 




---------------------


739 6 छं० ४


 




---------------------


741 0 दो० ३२७


 




---------------------


743 0 दो० ३२८


 




---------------------


745 0 दो० ३२९


 




---------------------


747 0 दो० ३३०


 




---------------------


749 0 दो० ३३१


 




---------------------


751 0 दो० ३३२


 




---------------------


753 0 दो० ३३३


 




---------------------


755 0 दो० ३३४


 




---------------------


757 0 दो० ३३५


 




---------------------


759 0 छं० None


 




---------------------


761 0 सो० ३३६


 




---------------------


763 0 दो० ३३७


 




---------------------


765 0 दो० ३३८


 




---------------------


767 0 दो० ३३९


 




---------------------


769 0 दो० ३४०


 




---------------------


771 0 दो० ३४१


 




---------------------


773 0 दो० ३४२


 




---------------------


775 0 दो० ३४३


 




---------------------


777 0 दो० ३४४


 




---------------------


779 0 दो० ३४५


 




---------------------


781 0 दो० ३४६


 




---------------------


783 0 दो० ३४७


 




---------------------


785 0 दो० ३४८ 


 




---------------------


787 0 दो० ३४९


 




---------------------


789 0 दो० ३५० ( क )


 




---------------------


789 4 दो० ३५० ( ख )


 




---------------------


791 0 दो० ३५१


 




---------------------


793 0 दो० ३५२


 




---------------------


795 0 दो० ३५३


 




---------------------


797 0 दो० ३५४


 




---------------------


799 0 दो० ३५५


 




---------------------


801 0 दो० ३५६


 




---------------------


803 0 दो० ३५७


 




---------------------


805 0 दो० ३५८


 




---------------------


807 0 दो० ३५९


 




---------------------


809 0 दो० ३६०


 




---------------------


811 0 छं० None


 




---------------------


813 0 सो० ३६१


 


#### Checks for Chapter 1

In [417]:
# Check for Counts
print('Number of shlokas: ', len([padya for padya in padyas if padya.padya_type == 'श्लोक']))
print('Number of dohas: ', len([padya for padya in padyas if padya.padya_type == 'दो०']))
print('Number of sorathas: ', len([padya for padya in padyas if padya.padya_type == 'सो०']))
print('Number of chandas: ', len([padya for padya in padyas if padya.padya_type == 'छं०']))
print('Number of chaupais: ', len([padya for padya in padyas if padya.padya_type == 'चौपाई']))

Number of shlokas:  7
Number of dohas:  359
Number of sorathas:  36
Number of chandas:  56
Number of chaupais:  1488


In [418]:
# Check for Shlokas padya counts
shlokas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'श्लोक']
shlokas_padya_counts

['१', '२', '३', '४', '५', '६', '७']

In [419]:
# Check for Dohas & Sorathas padya counts
dohas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'दो०']
sorathas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'सो०']
combined_counts = dohas_padya_counts + sorathas_padya_counts
combined_counts = sort_padya_counts(combined_counts)
print(combined_counts)
count_gaps = [find_gap_between_padya_counts(combined_counts[i - 1], combined_counts[i]) for i in range(1, len(combined_counts))]
print('---------------------------------------')
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

['१', '१', '२', '२', '३ (क)', '३', '३ (ख)', '४', '४', '५', '५', '६', '७ (क)', '७ (ख)', '७ (ग)', '७ (घ)', '८', '९', '१० (क)', '१० (ख)', '११', '१२', '१३', '१४ (क)', '१४ (ख)', '१४ (ग)', '१४ (घ)', '१४ (ङ)', '१४ (च)', '१४ (छ)', '१५', '१६', '१७', '१८', '१९', '२०', '२१', '२२', '२३', '२४', '२५', '२६', '२७', '२८ (क)', '२८ (ख)', '२९ (क)', '२९ (ख)', '२९ (ग)', '३० (क)', '३० (ख)', '३१', '३२ (क)', '३२ (ख)', '३३', '३४', '३५', '३६', '३७', '३८', '३९', '४०', '४१', '४२', '४३ (क)', '४३ (ख)', '४४', '४५', '४६', '४७', '४८ (क)', '४८ (ख)', '४९', '५०', '५१', '५२', '५३', '५४', '५५', '५६', '५७ (क)', '५७ (ख)', '५८', '५९', '६०', '६१', '६२', '६३', '६४', '६५', '६६', '६७', '६८', '६९', '७०', '७१', '७२', '७३', '७४', '७५', '७६', '७७', '७८', '७९', '८०', '८१', '८२', '८३', '८४', '८५', '८६', '८७', '८८', '८९', '९०', '९१', '९२', '९३', '९४', '९५', '९६', '९७', '९८', '९९', '१००', '१०१', '१०२', '१०३', '१०४', '१०५', '१०६', '१०७', '१०८', '१०९', '११०', '१११', '११२', '११३', '११४', '११५', '११६', '११७', '११८', '११९', '१२० (क)', '१२० (ख)

In [420]:
# Check for last sorath and doha
print('Last doha: ', dohas_padya_counts[-1])
print('Last sorath: ', sorathas_padya_counts[-1])

Last doha:  ३६०
Last sorath:  ३६१


In [421]:
# Check for chaupais under each sorath and doha
idx = 0
while idx < len(padyas):
    padya = padyas[idx]
    
    # Check if the current padya is सो० or दो०
    if padya.padya_type in ['सो०', 'दो०']:
        chaupai_counts = []

        # Collect all चौपाई counts under the current सो० or दो०
        jIdx = idx + 1
        while jIdx < len(padyas) and padyas[jIdx].padya_type == 'चौपाई':
            chaupai_counts.append(padyas[jIdx].padya_count)
            jIdx += 1
        
        # Compute gaps if there are at least two चौपाई
        if len(chaupai_counts) > 1:
            count_gaps = [find_gap_between_padya_counts(chaupai_counts[i - 1], chaupai_counts[i]) 
                          for i in range(1, len(chaupai_counts))]
            if not all([count_gap == 1 for count_gap in count_gaps]):
                print(idx)
                print(count_gaps)

        idx = jIdx
    else:
        idx += 1


In [422]:
# Check for chandas
chand_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'छं०']
chand_counts = [count for count in chand_counts if count is not None]
# chand_counts = chand_counts.split('१')
count_gaps = []
for i in range(1, len(chand_counts)):
    first = chand_counts[i - 1]
    second = chand_counts[i]
    if second == '१':
        count_gaps.append(0)
    else:
        count_gaps.append(find_gap_between_padya_counts(chand_counts[i - 1], chand_counts[i]))
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

[1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1]
Any larger gaps?  No


In [423]:
# Check for chands with no chaupai, (checking for exactly 4 lines for the chand)
chands = [padya for padya in padyas if padya.padya_type == 'छं०']
for chand in chands:
    chand_split = chand.text.split("\n")
    chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
    if len(chand_split) != 4:
        print(chand.padya_count, 'Error !!!')
    for txt in chand_split:
        if not txt[-1] == '।' and not txt[-1] == '॥':
            print(chand.padya_count, 'Error !!!', txt)

### Chapter 2

In [489]:
print(book_pages[599].text)



पाप पुंज कुंज मृगराजू। समन सकल संताप समाजू॥

जन रंजन भंजन भव भारू। राम सनेह सुधाकर सारू॥

पापसमूहरूपी हाथीके लिये सिंह है। सारे सन्‍्तापोंके दलका नाश करनेवाला है। भक्तोंको
आनन्द देनेवाला और भवके भार (संसारके दुःख)-का भञ़्न करनेवाला तथा श्रीरामप्रेमरूपी
चन्द्रमाका सार (अमृत) है॥४॥
छं०--सिय राम प्रेम पियूष पूरन होत जनमु न भरत को।
मुनिमन अगम जम नियम सम दम बिषम ब्रत आचरत को ॥
दुख दाह दारिद दंभ दूषन सुजस मिस अपहरत को।
कलिकाल तुलसी से सठन्हि हठि राम सनमुख करत को ॥
श्रीसीतारामजीके प्रेमरूपी अमृतसे परिपूर्ण भरतजीका जन्म यदि न होता तो मुनियोंके मनको
भी अगम यम, नियम, शम, दम आदि कठिन ब्रतोंका आचरण कौन करता? दुःख, सन्ताप,

दरिद्रता, दम्भ आदि दोषोंको अपने सुयशके बहाने कौन हरण करता? तथा कलिकालमें
तुलसीदास-जैसे शठोंको हठपूर्वक कौन श्रीरामजीके सम्मुख करता?

सो०-- भरत चरित करि नेमु तुलसी जो सादर सुनहिं।

सीय राम पद पेमु अवसि होइ भव रस बिरति॥ ३२६॥

तुलसीदासजी कहते हैं--जो कोई भरतजीके चरित्रकों नियमसे आदरपूर्वक सुनेंगे, उनको
अवश्य ही श्रीसीतारामजीके चरणोंमें प्रेम होगा और सांसारिक विषय-रससे बैराग्य होग

In [620]:
ch2_pages = book_pages[325:600]
ch2_text = '\n'.join([p.text for p in ch2_pages])
print(ch2_text)
with open('ch2_text.txt', "w") as file:
    file.write(ch2_text)


यस्याड्डले च विभाति भूधरसुता देवापगा मस्तके
भाले बालविधुर्गले च गरलं यस्योरसि व्यालराट।
सोऽयं भूतिविभूषणः सुरवरः सर्वाधिपः सर्वदा
शर्वः सर्वगतः शिवः शशिनिभःः श्रीशड्डरः पातु माम्‌॥ १॥
जिनकी गोदमें हिमाचलसुता पार्वतीजी, मस्तकपर गद्जाजी, ललाटपर द्वितीयाका चन्द्रमा,
कण्ठमें हलाहल विष और वक्षःस्थलपर सर्पराज शेषजी सुशोभित हैं, वे भस्मसे विभूषित,
देवताओंमें श्रेष्ठ, सर्वेश्वर, संहारकर्ता [या भक्तोंके पापनाशक], सर्वव्यापक, कल्याणरूप, चन्द्रमाके
समान शुभ्रवर्ण श्रीशल्डरजी सदा मेरी रक्षा करें॥ १॥
प्रसन्‍नतां या न गताभिषेकतस्तथा न मम्ले वनवासदुःखतः।
मुखाम्बुजश्री रघुनन्दनस्य मे सदास्तु सा मज्जुलमड्डलप्रदा॥ २॥
रघुकुलको आनन्द देनेवाले श्रीरामचन्द्रजीके मुखारविन्दकी जो शोभा राज्याभिषेकसे (राज्याभिषेककी
बात सुनकर) न तो प्रसनन्‍नताको प्राप्त हुई और न वनवासके दुःखसे मलिन ही हुई, वह
(मुखकमलकी छबि) मेरे लिये सदा सुन्दर मड़लोंकी देनेवाली हो॥२॥
नीलाम्बुजश्यामलकोमलाडुं सीतासमारोपितवामभागम्‌।
पाणौ महासायकचारुचापं नमामि राम॑ रघुवंशनाथम्‌। ॥। ३॥




नीले कमलके समान श्याम और कोमल जिनके अछ् हैं, श्रीसीताजी जिन

In [621]:
len(re.findall(r"((?:सो०|दो०|छं०)-{0,2})", ch2_text))

339

In [622]:
ch2_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch2_text)
len(ch2_text_split)

679

#### Replacement for errors in Chapter 2

In [583]:
direct_indices = [1, 1, 7, 45, 55, 63, 91, 96, 134, 179, 180, 210, 211, 212, 222]
replacements = {
        'बिमल जसु जो दायकु फल चारि॥': 'बिमल जसु जो दायकु फल चारि॥ ०॥',
        '(धर्म, अर्थ, काम, मोक्षको) देनेवाला है।': '(धर्म, अर्थ, काम, मोक्षको) देनेवाला है॥ ०॥',
        'देखिहें मनु जनि करसि मलान॥ ७५३॥': 'देखिहें मनु जनि करसि मलान॥ ५३॥',
        'सुरसदन सम परनसाल सुख मूल॥ ६५७॥': 'सुरसदन सम परनसाल सुख मूल॥ ६५॥',
        'मनहु भाग मृगु भाग बस॥ ७७॥': 'मनहु भाग मृगु भाग बस॥ ७५॥',
        'जल जो सरीर सम स्याम॥ २१०९॥': 'जल जो सरीर सम स्याम॥ १०९॥',
        'बर लसत स्वेद कन जाल॥ १५१५७५॥।': 'बर लसत स्वेद कन जाल॥ ११५॥',
        'बिधि सन कछु न बसाइ॥ १६१५१॥': 'बिधि सन कछु न बसाइ॥ १६१॥',
        'आश्रम पिंजराँ राखे भा भिनुसार॥ २१५७॥': 'आश्रम पिंजराँ राखे भा भिनुसार॥ २१५॥',
        'राम कह जस भा भरतहि जात॥ २१५६॥': 'राम कह जस भा भरतहि जात॥ २१६॥',
        'मोर भए पीन पावस प्रथम॥ २०१॥': 'मोर भए पीन पावस प्रथम॥ २५१॥',
        'मगन जस मीनहि सलिल सँकोच ॥ २७५२॥': 'मगन जस मीनहि सलिल सँकोच ॥ २५२॥',
        'महाजन सचिव सब जुरे सभासद आइ॥ २०३॥': 'महाजन सचिव सब जुरे सभासद आइ॥ २५३॥',
        'सुमंगल सूल जग भरत चरन अनुरागु॥ २६५७॥': 'सुमंगल सूल जग भरत चरन अनुरागु॥ २६५॥',
        'कमलके समान दोनों हाथोंको जोड़कर श्रीरामजी बोले--': 'कमलके समान दोनों हाथोंको जोड़कर श्रीरामजी बोले-- ॥ २॥'
    }
replacers = list(replacements.keys())
    
for pg_idx, replacer in enumerate(replacers):
    direct_idx = direct_indices[pg_idx]
    ch2_pages[direct_idx].text = ch2_pages[direct_idx].text.replace(replacer, replacements[replacer])
    
ch2_text = '\n'.join([p.text for p in ch2_pages])
with open('ch2_text.txt', "w") as file:
    file.write(ch2_text)

ch2_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch2_text)

#### Main Function for Padya division of Chapter 2

In [598]:
padyas = []

In [599]:
idx = 0
txt = None
prev_so_do_number = None

while idx < len(ch2_text_split):
    if idx == 0:
        # Handling of shlokas
        shlokas = ch2_text_split[0]
        shlokas_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", shlokas)
        shlokas_split = shlokas_split[:-1]
        prev_shlok_number = None
        jIdx = 0
        while jIdx < len(shlokas_split):
            padya_count = shlokas_split[jIdx + 1]
            padya_count = correct_padya_count(padya_count)
            if jIdx == 0:
                prev_shlok_number = padya_count
                padya_text = shlokas_split[jIdx]
                padya_meaning = shlokas_split[jIdx + 2]
                padya_meaning_count = shlokas_split[jIdx + 3]
                if not compare_padya_counts(padya_meaning_count, padya_count):
                    raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                    inner index {jIdx}, 
                    padya type {"श्लोक"}, 
                    padya count {padya_count}, 
                    expected count {padya_meaning_count},
                    outer index {idx},
                    padya shlokas text \n {shlokas}
                    """)
                print('\n\n---------------------\n\n')
                print(idx, jIdx, 'श्लोक', padya_count)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch2_pages)
                padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "2", "अयोध्याकाण्ड")
                padyas.append(padya)
                jIdx += 4
            else:
                expected_shlok_number = next_padya_count(prev_shlok_number)
                if compare_padya_counts(padya_count, expected_shlok_number):
                    padya_text = shlokas_split[jIdx]
                    padya_meaning = shlokas_split[jIdx + 2]
                    padya_meaning_count = shlokas_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {"श्लोक"}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya shlokas text \n {shlokas}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, 'श्लोक', padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch2_pages)
                    padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "2", "अयोध्याकाण्ड")
                    padyas.append(padya)
                    prev_shlok_number = padya_count
                    jIdx += 4
                else:
                    # Sunderkand handling
                    # In sunderkand, even shlokas have chaupais
                    pass
        idx += 1
    else:
        padya_type_definer = re.search(r"^(सो०|दो०|छं०)-{0,2}$", ch2_text_split[idx])
        if not padya_type_definer:
            raise Exception(f'Padya type not found at index {idx} \n {ch2_text_split[idx]} {ch2_text_split[idx + 1]}')
        padya_type = padya_type_definer.group(1)
        padya_full_text = ch2_text_split[idx + 1]
        padya_full_text_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", padya_full_text)
        padya_full_text_split = padya_full_text_split[:-1]

        if padya_type in ['सो०', 'दो०']:
            prev_chaupai_number = None
            chaupai_flag = False
            jIdx = 0
            while jIdx < len(padya_full_text_split):
                padya_count = padya_full_text_split[jIdx + 1]
                padya_count = correct_padya_count(padya_count)
                if jIdx == 0:
                    prev_so_do_number = padya_count
                    padya_text = padya_full_text_split[jIdx]
                    padya_meaning = padya_full_text_split[jIdx + 2]
                    padya_meaning_count = padya_full_text_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {padya_type}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya full text \n {padya_full_text}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, padya_type, padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch2_pages)
                    padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "2", "अयोध्याकाण्ड")
                    padyas.append(padya)
                    jIdx += 4
                else:
                    expected_so_do_number = next_padya_count(prev_so_do_number)
                    if prev_so_do_number == "०":
                        chaupai_flag = True
                    if not chaupai_flag and compare_padya_counts(padya_count, expected_so_do_number):
                        padya_text = padya_full_text_split[jIdx]
                        padya_meaning = padya_full_text_split[jIdx + 2]
                        padya_meaning_count = padya_full_text_split[jIdx + 3]
                        if not compare_padya_counts(padya_meaning_count, padya_count):
                            raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                            inner index {jIdx}, 
                            padya type {padya_type}, 
                            padya count {padya_count}, 
                            expected count {padya_meaning_count},
                            outer index {idx},
                            padya full text \n {padya_full_text}
                            """)
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        # enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch2_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "2", "अयोध्याकाण्ड")
                        padyas.append(padya)
                        prev_so_do_number = padya_count
                        jIdx += 4
                    else:
                        chaupai_flag = True
                        if prev_chaupai_number:
                            expected_chaupai_number = next_padya_count(prev_chaupai_number)
                            if not compare_padya_counts(padya_count, expected_chaupai_number):
                                raise Exception(f"""Error: Chaupai number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chaupai_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chaupai_number = expected_chaupai_number
                        chaupai_split = padya_full_text_split[jIdx].split("\n")
                        chaupai_split = [chaupai_line.strip() for chaupai_line in chaupai_split if chaupai_line.strip()]
                        if len(chaupai_split) <= 1:
                            print('Error: Chaupai consist of just one single line')
                        if padya_full_text_split[jIdx].count('॥') < 2:
                            padya_text = '\n'.join(chaupai_split[:1])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[1:])    # Specifically chaupai_meaning
                        elif '-' in padya_count and padya_full_text_split[jIdx].count('॥') == 4:
                            padya_text = '\n'.join(chaupai_split[:4])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[4:])    # Specifically chaupai_meaning
                        else:
                            padya_text = '\n'.join(chaupai_split[:2])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[2:])    # Specifically chaupai_meaning
                        book_page_number = get_page_numbers(padya_text, ch2_pages)
                        padya = Padya(padya_text, padya_meaning, 'चौपाई', padya_count, book_page_number, book_page_number, "2", "अयोध्याकाण्ड")
                        padyas.append(padya)
                        jIdx += 2    
                        
        elif padya_type == 'छं०':
            if len(padya_full_text_split) > 0:
                prev_chand_number = None
                jIdx = 0
                while jIdx < len(padya_full_text_split):
                    padya_count = padya_full_text_split[jIdx + 1]
                    padya_count = correct_padya_count(padya_count)
                    if jIdx == 0:
                        prev_chand_number = padya_count
                        chand_split = padya_full_text_split[jIdx].split("\n")
                        chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                        padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                        padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        # enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch2_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "2", "अयोध्याकाण्ड")
                        padyas.append(padya) 
                    else:
                        expected_chand_number = next_padya_count(prev_chand_number)
                        if not compare_padya_counts(padya_count, expected_chand_number):
                            raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                            inner index {jIdx}, 
                            padya count {padya_count}, 
                            expected count {expected_chand_number},
                            outer index {idx},
                            padya full text \n {padya_full_text}
                            """)
                        prev_chand_number = padya_count
                        chand_split = padya_full_text_split[jIdx].split("\n")
                        chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                        padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                        padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        # enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch2_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "2", "अयोध्याकाण्ड")
                        padyas.append(padya)
                    jIdx += 2
            else:
                chand_split = padya_full_text.split("\n")
                chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                print('\n\n---------------------\n\n')
                print(idx, 0, padya_type, None)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch2_pages)
                padya = Padya(padya_text, padya_meaning, padya_type, None, book_page_number, book_page_number, "2", "अयोध्याकाण्ड")
                padyas.append(padya)                        
        idx += 2



---------------------


0 0 श्लोक १


---------------------


0 4 श्लोक २


---------------------


0 8 श्लोक ३


---------------------


1 0 दो० ०


---------------------


3 0 दो० १


---------------------


5 0 दो० २


---------------------


7 0 दो० ३


---------------------


9 0 दो० ४


---------------------


11 0 दो० ५


---------------------


13 0 दो० ६


---------------------


15 0 दो० ७


---------------------


17 0 दो० ८ 


---------------------


19 0 दो० ९


---------------------


21 0 दो० १०


---------------------


23 0 दो० ११


---------------------


25 0 दो० १२


---------------------


27 0 दो० १३


---------------------


29 0 दो० १४


---------------------


31 0 दो० १५


---------------------


33 0 दो० १६


---------------------


35 0 दो० १७


---------------------


37 0 दो० १८ 


---------------------


39 0 दो० १९


---------------------


41 0 दो० २०


---------------------


43 0 दो० २१


---------------------


45 0 दो० २२


---------------------



#### Checks for Chapter 2

In [600]:
# Check for Counts
print('Number of shlokas: ', len([padya for padya in padyas if padya.padya_type == 'श्लोक']))
print('Number of dohas: ', len([padya for padya in padyas if padya.padya_type == 'दो०']))
print('Number of sorathas: ', len([padya for padya in padyas if padya.padya_type == 'सो०']))
print('Number of chandas: ', len([padya for padya in padyas if padya.padya_type == 'छं०']))
print('Number of chaupais: ', len([padya for padya in padyas if padya.padya_type == 'चौपाई']))

Number of shlokas:  3
Number of dohas:  314
Number of sorathas:  13
Number of chandas:  12
Number of chaupais:  1304


In [601]:
# Check for Shlokas padya counts
shlokas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'श्लोक']
shlokas_padya_counts

['१', '२', '३']

In [602]:
# Check for Dohas & Sorathas padya counts
dohas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'दो०']
sorathas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'सो०']
combined_counts = dohas_padya_counts + sorathas_padya_counts
combined_counts = sort_padya_counts(combined_counts)
print(combined_counts)
count_gaps = [find_gap_between_padya_counts(combined_counts[i - 1], combined_counts[i]) for i in range(1, len(combined_counts))]
print('---------------------------------------')
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

['०', '१', '२', '३', '४', '५', '६', '७', '८', '९', '१०', '११', '१२', '१३', '१४', '१५', '१६', '१७', '१८', '१९', '२०', '२१', '२२', '२३', '२४', '२५', '२६', '२७', '२८', '२९', '३०', '३१', '३२', '३३', '३४', '३५', '३६', '३७', '३८', '३९', '४०', '४१', '४२', '४३', '४४', '४५', '४६', '४७', '४८', '४९', '५०', '५१', '५२', '५३', '५४', '५५', '५६', '५७', '५८', '५९', '६०', '६१', '६२', '६३', '६४', '६५', '६६', '६७', '६८', '६९', '७०', '७१', '७२', '७३', '७४', '७५', '७६', '७७', '७८', '७९', '८०', '८१', '८२', '८३', '८४', '८५', '८६', '८७', '८८', '८९', '९०', '९१', '९२', '९३', '९४', '९५', '९६', '९७', '९८', '९९', '१००', '१०१', '१०२', '१०३', '१०४', '१०५', '१०६', '१०७', '१०८', '१०९', '११०', '१११', '११२', '११३', '११४', '११५', '११६', '११७', '११८', '११९', '१२०', '१२१', '१२२', '१२३', '१२४', '१२५', '१२६', '१२७', '१२८', '१२९', '१३०', '१३१', '१३२', '१३३', '१३४', '१३५', '१३६', '१३७', '१३८', '१३९', '१४०', '१४१', '१४२', '१४३', '१४४', '१४५', '१४६', '१४७', '१४८', '१४९', '१५०', '१५१', '१५२', '१५३', '१५४', '१५५', '१५६', '१५७', '१५

In [603]:
# Check for last sorath and doha
print('Last doha: ', dohas_padya_counts[-1])
print('Last sorath: ', sorathas_padya_counts[-1])

Last doha:  ३२५
Last sorath:  ३२६


In [604]:
# Check for chaupais under each sorath and doha
idx = 0
while idx < len(padyas):
    padya = padyas[idx]
    
    # Check if the current padya is सो० or दो०
    if padya.padya_type in ['सो०', 'दो०']:
        chaupai_counts = []

        # Collect all चौपाई counts under the current सो० or दो०
        jIdx = idx + 1
        while jIdx < len(padyas) and padyas[jIdx].padya_type == 'चौपाई':
            chaupai_counts.append(padyas[jIdx].padya_count)
            jIdx += 1
        
        # Compute gaps if there are at least two चौपाई
        if len(chaupai_counts) > 1:
            count_gaps = [find_gap_between_padya_counts(chaupai_counts[i - 1], chaupai_counts[i]) 
                          for i in range(1, len(chaupai_counts))]
            if not all([count_gap == 1 for count_gap in count_gaps]):
                print(idx)
                print(count_gaps)

        idx = jIdx
    else:
        idx += 1


In [605]:
# Check for chandas
chand_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'छं०']
chand_counts = [count for count in chand_counts if count is not None]
count_gaps = []
for i in range(1, len(chand_counts)):
    first = chand_counts[i - 1]
    second = chand_counts[i]
    if second == '१':
        count_gaps.append(0)
    else:
        count_gaps.append(find_gap_between_padya_counts(chand_counts[i - 1], chand_counts[i]))
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

[]
Any larger gaps?  No


In [606]:
# Check for chands with no chaupai, (checking for exactly 4 lines for the chand)
chands = [padya for padya in padyas if padya.padya_type == 'छं०']
for chand in chands:
    chand_split = chand.text.split("\n")
    chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
    if len(chand_split) != 4:
        print(chand.padya_count, 'Error !!!')
    for txt in chand_split:
        if not txt[-1] == '।' and not txt[-1] == '॥':
            print(chand.padya_count, 'Error !!!', txt)

<br>

### Chapter 3

In [614]:
book_pages[660].text

"\n\nमुनि सुनु साधुन्ह के गुन जेते। कहि न सकहिं सारद श्रुति तेते॥\nसदा मेरी लीलाओंको गाते-सुनते हैं और बिना ही कारण दूसरोंके हितमें लगे रहनेवाले होते\nहैं। हे मुनि! सुनो, संतोंके जितने गुण हैं, उनको सरस्वती और वेद भी नहीं कह सकते॥ ४॥\n\nछं०--कहि सक न सारद सेष नारद सुनत पद पंकज गहे।\nअस दीनबंधु कृपाल अपने भगत गुन निज मुख कहे ॥\nसिरु नाइ बारहिं बार चरनन्हि ब्रह्मपुर नारद गए।\nते धन्य तुलसीदास आस बिहाइ जे हरि रँग रेए॥\n'शेष और शारदा भी नहीं कह सकते' यह सुनते ही नारदजीने श्रीरमजीके चरणकमल पकड़\nलिये। दीनबन्धु कृपालु प्रभुने इस प्रकार अपने श्रीमुखसे अपने भक्तोंके गुण कहे | भगवान्\u200cके चरणोंमें\n\nबार-बार सिर नवाकर नारदजी ब्रह्मलोकको चले गये। तुलसीदासजी कहते हैं कि वे पुरुष धन्य\nहैं, जो सब आशा छोड़कर केवल श्रीहरिके रंगमें रँग गये हैं।\n\nदो०--रावनारि जसु पावन गावहिं सुनहिं जे लोग।\nराम भगति दृढ़ पावहिं बिनु बिराग जप जोग॥ ४६ ( क )॥\nजो लोग रावणके शत्रु श्रीरमजीका पवित्र यश गावेंगे और सुनेंगे, वे वैराग्य, जप और योगके\nबिना ही श्रीरामजीकी दृढ़ भक्ति पावेंगे॥ ४६ (क)॥\n\nदीप सिखा सम जुबति तन 

In [623]:
ch3_pages = book_pages[600:661]
ch3_text = '\n'.join([p.text for p in ch3_pages])
print(ch3_text)
with open('ch3_text.txt', "w") as file:
    file.write(ch3_text)


मूल धर्मतरोरविवेकजलधेः  पूर्णन्दुमानन्ददं
वैराग्याम्बुजभास्करं हाघघनध्वान्तापह॑ तापहम्‌।
मोहाम्भोधरपूगपाटनविधौ स्वःसम्भवं॑ शह्डूरं

वन्दे ब्रहाकुलं॑ कलड्डुशमनं श्रीरामभूपप्रियम्‌॥ १॥

धर्मरूपी वृक्षेके मूल, विवेकरूपी समुद्रको आनन्द देनेवाले पूर्णचन्द्र, वैराग्यरूपी कमलके
[विकसित करनेवाले] सूर्य, पापरूपी घोर अन्धकारको निश्चय ही मिटानेवाले, तीनों तापोंको
हरनेवाले, मोहरूपी बादलोंके समूहको छिन्न-भिन्न करनेकी विधि (क्रिया)-में आकाशसे उत्पन्न
पवनस्वरूप, ब्रह्माजीके वंशन (आत्मज) तथा कलछ्लनाशक महाराज श्रीरामचन्द्रजीके प्रिय
श्रीशड्ररजीकी मैं वन्दना करता हूँ॥ १॥

सान्द्रानन्दययोदसौभगतनुं पीताम्बर सुन्दर

पाणौ बाणशरासनं कटिलसत्तृणीरभारं वरम्‌।

राजीवायतलोचनं धृतजटाजूटेन संशोभितं

सीतालक्ष्मणसंयुतं पथिगतं रामाभिरामं भजे॥ २॥




जिनका शरीर जलयुक्त मेघोंके समान सुन्दर (श्यामवर्ण) एवं आनन्दघन है, जो सुन्दर [वल्कलका]
पीतवस्त्र धारण किये हैं, जिनके हाथोंमें बाण और धनुष हैं, कमर उत्तम तरकसके भारसे सुशोभित
है, कमलके समान विशाल नेत्र हैं और मस्तकपर जटाजूट धारण किये हैं, उन अत्यन्त शोभायमान
श्रीसीताजी और

In [624]:
len(re.findall(r"((?:सो०|दो०|छं०)-{0,2})", ch3_text))

59

In [625]:
ch3_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch3_text)
वे महामूढ़ [उन्हें सुनकर] मोहको प्राप्त होते हैं।

119

#### Replacement for errors in Chapter 3

In [678]:
direct_indices = [1, 1, 5, 28, 37, 44]
replacements = {
        'बिमूढ़ जे हरि बिमुख न धर्म रति॥': 'बिमूढ़ जे हरि बिमुख न धर्म रति॥ ०॥',
        'वे महामूढ़ [उन्हें सुनकर] मोहको प्राप्त होते हैं।': 'वे महामूढ़ [उन्हें सुनकर] मोहको प्राप्त होते हैं॥ ०॥',
        'भवार्णवे। वितर्क वीचि संकुले। ७ ॥': 'भवार्णवे। वितर्क वीचि संकुले॥ ७ ॥',
        'लरहिं धर धरु धरु करहिं भयकर गिरा ॥': 'लरहिं धर धरु धरु करहिं भयकर गिरा ॥ १॥',
        'मुनि दुर्लभ गति दीन्हि सुजाना॥ ९॥': 'मुनि दुर्लभ गति दीन्हि सुजाना॥',
        'रामु कृपाल बाहु बिसाल भव भय मोचनं॥': 'रामु कृपाल बाहु बिसाल भव भय मोचनं॥ १॥'
    }
replacers = list(replacements.keys())
    
for pg_idx, replacer in enumerate(replacers):
    direct_idx = direct_indices[pg_idx]
    ch3_pages[direct_idx].text = ch3_pages[direct_idx].text.replace(replacer, replacements[replacer])
    
ch3_text = '\n'.join([p.text for p in ch3_pages])

with open('ch3_text.txt', "w") as file:
    file.write(ch3_text)

ch3_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch3_text)

#### Main Function for Padya division of Chapter 3

In [679]:
padyas = []

In [680]:
idx = 0
txt = None
prev_so_do_number = None

while idx < len(ch3_text_split):
    if idx == 0:
        # Handling of shlokas
        shlokas = ch3_text_split[0]
        shlokas_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", shlokas)
        shlokas_split = shlokas_split[:-1]
        prev_shlok_number = None
        jIdx = 0
        while jIdx < len(shlokas_split):
            padya_count = shlokas_split[jIdx + 1]
            padya_count = correct_padya_count(padya_count)
            if jIdx == 0:
                prev_shlok_number = padya_count
                padya_text = shlokas_split[jIdx]
                padya_meaning = shlokas_split[jIdx + 2]
                padya_meaning_count = shlokas_split[jIdx + 3]
                if not compare_padya_counts(padya_meaning_count, padya_count):
                    raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                    inner index {jIdx}, 
                    padya type {"श्लोक"}, 
                    padya count {padya_count}, 
                    expected count {padya_meaning_count},
                    outer index {idx},
                    padya shlokas text \n {shlokas}
                    """)
                print('\n\n---------------------\n\n')
                print(idx, jIdx, 'श्लोक', padya_count)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch3_pages)
                padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                padyas.append(padya)
                jIdx += 4
            else:
                expected_shlok_number = next_padya_count(prev_shlok_number)
                if compare_padya_counts(padya_count, expected_shlok_number):
                    padya_text = shlokas_split[jIdx]
                    padya_meaning = shlokas_split[jIdx + 2]
                    padya_meaning_count = shlokas_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {"श्लोक"}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya shlokas text \n {shlokas}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, 'श्लोक', padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch3_pages)
                    padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                    padyas.append(padya)
                    prev_shlok_number = padya_count
                    jIdx += 4
                else:
                    # Sunderkand handling
                    # In sunderkand, even shlokas have chaupais
                    pass
        idx += 1
    else:
        padya_type_definer = re.search(r"^(सो०|दो०|छं०)-{0,2}$", ch3_text_split[idx])
        if not padya_type_definer:
            raise Exception(f'Padya type not found at index {idx} \n {ch3_text_split[idx]} {ch3_text_split[idx + 1]}')
        padya_type = padya_type_definer.group(1)
        padya_full_text = ch3_text_split[idx + 1]
        padya_full_text_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", padya_full_text)
        padya_full_text_split = padya_full_text_split[:-1]

        if padya_type in ['सो०', 'दो०']:
            prev_chaupai_number = None
            chaupai_flag = False
            jIdx = 0
            while jIdx < len(padya_full_text_split):
                padya_count = padya_full_text_split[jIdx + 1]
                padya_count = correct_padya_count(padya_count)
                if jIdx == 0:
                    prev_so_do_number = padya_count
                    padya_text = padya_full_text_split[jIdx]
                    padya_meaning = padya_full_text_split[jIdx + 2]
                    padya_meaning_count = padya_full_text_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {padya_type}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya full text \n {padya_full_text}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, padya_type, padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch3_pages)
                    padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                    padyas.append(padya)
                    jIdx += 4
                else:
                    expected_so_do_number = next_padya_count(prev_so_do_number)
                    if prev_so_do_number == "०":
                        chaupai_flag = True
                    if not chaupai_flag and compare_padya_counts(padya_count, expected_so_do_number):
                        padya_text = padya_full_text_split[jIdx]
                        padya_meaning = padya_full_text_split[jIdx + 2]
                        padya_meaning_count = padya_full_text_split[jIdx + 3]
                        if not compare_padya_counts(padya_meaning_count, padya_count):
                            raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                            inner index {jIdx}, 
                            padya type {padya_type}, 
                            padya count {padya_count}, 
                            expected count {padya_meaning_count},
                            outer index {idx},
                            padya full text \n {padya_full_text}
                            """)
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        # enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch3_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                        padyas.append(padya)
                        prev_so_do_number = padya_count
                        jIdx += 4
                    else:
                        chaupai_flag = True
                        if prev_chaupai_number:
                            expected_chaupai_number = next_padya_count(prev_chaupai_number)
                            if not compare_padya_counts(padya_count, expected_chaupai_number):
                                raise Exception(f"""Error: Chaupai number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chaupai_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chaupai_number = expected_chaupai_number
                        chaupai_split = padya_full_text_split[jIdx].split("\n")
                        chaupai_split = [chaupai_line.strip() for chaupai_line in chaupai_split if chaupai_line.strip()]
                        if len(chaupai_split) <= 1:
                            print('Error: Chaupai consist of just one single line')
                        if padya_full_text_split[jIdx].count('॥') < 2:
                            padya_text = '\n'.join(chaupai_split[:1])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[1:])    # Specifically chaupai_meaning
                        elif '-' in padya_count and padya_full_text_split[jIdx].count('॥') == 4:
                            padya_text = '\n'.join(chaupai_split[:4])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[4:])    # Specifically chaupai_meaning
                        else:
                            padya_text = '\n'.join(chaupai_split[:2])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[2:])    # Specifically chaupai_meaning
                        book_page_number = get_page_numbers(padya_text, ch3_pages)
                        padya = Padya(padya_text, padya_meaning, 'चौपाई', padya_count, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                        padyas.append(padya)
                        jIdx += 2    
                        
        elif padya_type == 'छं०':
            if len(padya_full_text_split) > 0:
                prev_chand_number = None
                jIdx = 0
                last_chand_number = int(devanagari_to_english(padya_full_text_split[-1]))
                if (len(padya_full_text_split) // last_chand_number) == 4:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch3_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch3_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                            padyas.append(padya)
                        jIdx += 4
                        
                else:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch3_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch3_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                            padyas.append(padya)
                        jIdx += 2
            else:
                chand_split = padya_full_text.split("\n")
                chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                if len(chand_split) <= 4:
                    padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                else:
                    padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                print('\n\n---------------------\n\n')
                print(idx, 0, padya_type, None)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch3_pages)
                padya = Padya(padya_text, padya_meaning, padya_type, None, book_page_number, book_page_number, "3", "अरण्यकाण्ड")
                padyas.append(padya)                        
        idx += 2



---------------------


0 0 श्लोक १


---------------------


0 4 श्लोक २


---------------------


1 0 सो० ०


---------------------


3 0 दो० १


---------------------


5 0 सो० २


---------------------


7 0 सो० ३


---------------------


9 0 छं० १


---------------------


9 4 छं० २


---------------------


9 8 छं० ३


---------------------


9 12 छं० ४


---------------------


9 16 छं० ५


---------------------


9 20 छं० ६


---------------------


9 24 छं० ७ 


---------------------


9 28 छं० ८ 


---------------------


9 32 छं० ९ 


---------------------


9 36 छं० १०


---------------------


9 40 छं० ११


---------------------


9 44 छं० १२


---------------------


11 0 दो० ४


---------------------


13 0 सो० ५ ( क )


---------------------


13 4 सो० ५ ( ख )


---------------------


15 0 छं० None


---------------------


17 0 दो० ६ ( क )


---------------------


19 0 सो० ६ ( ख )


---------------------


21 0 दो० ७


---------------------


23 0 दो० ८


--------

#### Checks for Chapter 3

In [681]:
# Check for Counts
print('Number of shlokas: ', len([padya for padya in padyas if padya.padya_type == 'श्लोक']))
print('Number of dohas: ', len([padya for padya in padyas if padya.padya_type == 'दो०']))
print('Number of sorathas: ', len([padya for padya in padyas if padya.padya_type == 'सो०']))
print('Number of chandas: ', len([padya for padya in padyas if padya.padya_type == 'छं०']))
print('Number of chaupais: ', len([padya for padya in padyas if padya.padya_type == 'चौपाई']))

Number of shlokas:  2
Number of dohas:  50
Number of sorathas:  8
Number of chandas:  33
Number of chaupais:  262


In [682]:
# Check for Shlokas padya counts
shlokas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'श्लोक']
shlokas_padya_counts

['१', '२']

In [683]:
# Check for Dohas & Sorathas padya counts
dohas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'दो०']
sorathas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'सो०']
combined_counts = dohas_padya_counts + sorathas_padya_counts
combined_counts = sort_padya_counts(combined_counts)
print(combined_counts)
count_gaps = [find_gap_between_padya_counts(combined_counts[i - 1], combined_counts[i]) for i in range(1, len(combined_counts))]
print('---------------------------------------')
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

['०', '१', '२', '३', '४', '५ (क)', '५ (ख)', '६ (क)', '६ (ख)', '७', '८', '९', '१०', '११', '१२', '१३', '१४', '१५', '१६', '१७', '१८', '१९ (क)', '१९ (ख)', '२० (क)', '२० (ख)', '२१ (क)', '२१ (ख)', '२२', '२३', '२४', '२५', '२६', '२७', '२८', '२९ (क)', '२९ (ख)', '३०', '३१', '३२', '३३', '३४', '३५', '३६', '३७ (क)', '३७ (ख)', '३८ (क)', '३८ (ख)', '३९ (क)', '३९ (ख)', '४०', '४१', '४२ (क)', '४२ (ख)', '४३', '४४', '४५', '४६ (क)', '४६ (ख)']
---------------------------------------
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Any larger gaps?  No


In [684]:
# Check for last sorath and doha
print('Last doha: ', dohas_padya_counts[-1])
print('Last sorath: ', sorathas_padya_counts[-1])

Last doha:  ४६ (ख)
Last sorath:  २१ (क)


In [685]:
# Check for chaupais under each sorath and doha
idx = 0
while idx < len(padyas):
    padya = padyas[idx]
    
    # Check if the current padya is सो० or दो०
    if padya.padya_type in ['सो०', 'दो०']:
        chaupai_counts = []

        # Collect all चौपाई counts under the current सो० or दो०
        jIdx = idx + 1
        while jIdx < len(padyas) and padyas[jIdx].padya_type == 'चौपाई':
            chaupai_counts.append(padyas[jIdx].padya_count)
            jIdx += 1
        
        # Compute gaps if there are at least two चौपाई
        if len(chaupai_counts) > 1:
            count_gaps = [find_gap_between_padya_counts(chaupai_counts[i - 1], chaupai_counts[i]) 
                          for i in range(1, len(chaupai_counts))]
            if not all([count_gap == 1 for count_gap in count_gaps]):
                print(idx)
                print(count_gaps)

        idx = jIdx
    else:
        idx += 1


In [686]:
# Check for chandas
chand_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'छं०']
chand_counts = [count for count in chand_counts if count is not None]
count_gaps = []
for i in range(1, len(chand_counts)):
    first = chand_counts[i - 1]
    second = chand_counts[i]
    if second == '१':
        count_gaps.append(0)
    else:
        count_gaps.append(find_gap_between_padya_counts(chand_counts[i - 1], chand_counts[i]))
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1]
Any larger gaps?  No


In [688]:
# Check for chands with no chaupai, (checking for exactly 4 lines for the chand)
chands = [padya for padya in padyas if padya.padya_type == 'छं०']
for chand in chands:
    chand_split = chand.text.split("\n")
    chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
    if len(chand_split) != 4:
        print(chand.padya_count, 'Error !!!', chand)
    for txt in chand_split:
        if not txt[-1] == '।' and not txt[-1] == '॥':
            print(chand.padya_count, 'Error !!!', txt)

१ Error !!! छं०
नमामि भक्त वत्सलं। कृपालु शील कोमलं ।
भजामि ते पदांबुजं। अकामिनां स्वधामदं ॥ १ ॥

हे भक्तवत्सल! हे कृपालु! हे कोमल स्वभाववाले! मैं आपको नमस्कार करता हूँ। निष्काम पुरुषोंको अपना परमधाम देनेवाले आपके चरणकमलोंको मैं भजता हूँ ॥ १ ॥
२ Error !!! छं०
निकाम श्याम सुंदरे। भवांबुनाथ मंदरं ।
प्रफुल्ल कंज लोचनं | मदादि दोष मोचनं ॥ २ ॥

आप नितान्‍त सुन्दर श्याम, संसार [आवागमन] रूपी समुद्रको मथनेके लिये मन्दराचलरूप, फूले हुए कमलके समान नेत्रोंवाले और मद आदि दोषोंसे छुड़ानेवाले हैं ॥ २ ॥
३ Error !!! छं०
प्रलंब बाहु॒विक्रमं। प्रभोऽप्रमेय वैभवं ।
निषंग चाप सायकं। धरं॑ बत्रिलोक नायकं ॥ ३ ॥

हे प्रभो! आपकी लंबी भुजाओंका पराक्रम और आपका ऐश्वर्य अप्रमेय (बुद्धिके परे अथवा असीम) है। आप तरकस और धनुष-बाण धारण करनेवाले तीनों लोकोंके स्वामी, ॥ ३ ॥
४ Error !!! छं०
दिनेश वंश मंडनं। महेश चाप खंडनं ।
मुनींद्र संत रंजनं। सुरारि बूंद भंजनं ॥ ४ ॥

सूर्यवंशके भूषण, महादेवजीके धनुषको तोड़नेवाले, मुनिराजों और संतोंको आनन्द देनेवाले तथा देवताओंके शत्रु असुरोंक समूहका नाश करनेवाले हैं ॥ ४ ॥
५ Error !!! छं०


#### Chapter 3 ends

### Chapter 4

In [689]:
book_pages[691].text

'\n\nएतना करहु तात तुम्ह जाई। सीतहि देखि कहहु सुधि आई॥\nतब निज भुज बल राजिवनैना। कौतुक लागि संग कपि सेना॥\n\n[जाम्बवान्\u200cने कहा--] हे तात! तुम जाकर इतना ही करो कि सीताजीको देखकर लौट आओ\nऔर उनकी खबर कह दो। फिर कमलनयन श्रीरामजी अपने बाहुबलसे [ही राक्षसोंका संहार कर\nसीताजीको ले आयेंगे, केवल] खेलके लिये ही वे वानरोंकी सेना साथ लेंगे॥६॥\n\nछं०--कपि सेन संग सँघारि निसिचर रामु सीतहि आनिहैं।\nत्रैलोक पावन सुजसु सुर मुनि नारदादि बखानिहेँ॥\n\nजो सुनत गावत कहत समुझत परम पद नर पावई।\nरघुबीर पद पाथोज मधुकर दास तुलसी गावई॥\nवानरोंकी सेना साथ लेकर राक्षसोंका संहार करके श्रीरामजी सीताजीको ले आयेंगे। तब देवता\nऔर नारदादि मुनि भगवानके तीनों लोकोंको पवित्र करनेवाले सुन्दर यशका बखान करेंगे, जिसे\n\nसुनने, गाने, कहने और समझनेसे मनुष्य परमपद पाते हैं और जिसे श्रीरघुवीरके चरणकमलका\nमधुकर (भ्रमर) तुलसीदास गाता है।\n\nदो०-- भव भेषज रघुनाथ जसु सुनहिंजे नर अरु नारि।\nतिन्ह कर सकल मनोरथ सिद्ध करहिं त्रिसिरारि॥ ३० ( क )॥\n\nश्रीरघुवीरका यश भव (जन्म-मरण)-रूपी रोगकी [अचूक] दवा है। जो पुरुष और स्त्री इसे\nसुनेंग

In [690]:
ch4_pages = book_pages[661:692]
ch4_text = '\n'.join([p.text for p in ch4_pages])
print(ch4_text)
with open('ch4_text.txt', "w") as file:
    file.write(ch4_text)


कुन्देन्दीवरसुन्दरवतिबलौ विज्ञानधामावुभौ
शोभाढ्यौ वरधन्विनौ श्रुतिनुतौ गोविप्रवृन्दप्रियौ।
मायामानुषरूपिणौ रघुवरो सद्धर्मवर्मों हितौ
सीतान्वेषणतत्परौ पथिगतौ भक्तिप्रदाौ तौ हि नः॥ १॥

कुन्दपुष्प और नील कमलके समान सुन्दर गौर एवं श्यामवर्ण, अत्यन्त बलवान, विज्ञानके धाम,
शोभासम्पन्न, श्रेष्ठ धनुर्धर, वेदोंके द्वारा वन्दित, गौ एवं ब्राह्मणोंके समूहके प्रिय [ अथवा प्रेमी |, मायासे
मनुष्यरूप धारण किये हुए, श्रेष्ठ धर्मके लिये कवचस्वरूप, सबके हितकारी, श्रीसीताजीकी खोजमें लगे
हुए, पथिकरूप रघुकुलके श्रेष्ठ श्रीयमजी और श्रीलक्ष्मणजी दोनों भाई निश्चय ही हमें भक्तिप्रद हों॥ १॥
ब्रह्माम्भोधिसमुद्धवं  कलिमलप्रध्वंसनं॑ चाव्ययं
श्रीमच्छम्भुमुखेन्दुसुन्दरवरे संशोभितं॑ सर्वदा।
संसारामयभेषज॑ सुखकरं श्रीजानकीजीवनं

धन्यास्ते कृतिनः पिबन्ति सततं श्रीरामनामामृतम्‌॥ २॥

वे सुकृती (पुण्यात्मा पुरुष) धन्य हैं जो वेदरूपी समुद्र [के मथने] से उत्पन्न हुए कलियुगके
मलको सर्वथा नष्ट कर देनेवाले, अविनाशी, भगवान्‌ श्रीशम्भुके सुन्दर एवं श्रेष्ठ मुखरूपी चन्द्रमामें
सदा शोभायमान, जन्म-मरणरूपी रोगके औषध, सबको सुख देनेवाल

In [691]:
len(re.findall(r"((?:सो०|दो०|छं०)-{0,2})", ch4_text))

34

In [846]:
ch4_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch4_text)
len(ch4_text_split)

69

#### Replacement for errors in Chapter 4

In [813]:
direct_indices = [1, 1, 1, 1, 11]
replacements = {
        'बस संभु भवानि सो कासी सेइअ कस न॥': 'बस संभु भवानि सो कासी सेइअ कस न॥ १॥',
        'उसका सेवन क्‍यों न किया जाय?': 'उसका सेवन क्‍यों न किया जाय?॥ १॥',
        'मंद को कृपाल संकर सरिस॥': 'मंद को कृपाल संकर सरिस॥ २॥',
        'उनके समान कृपालु [और] कौन है?': 'उनके समान कृपालु [और] कौन है?॥ २॥',
        'मैं अब भी पापी ही रहा ?॥ १॥': 'मैं अब भी पापी ही रहा ?॥ ९॥'
    }
replacers = list(replacements.keys())
    
for pg_idx, replacer in enumerate(replacers):
    direct_idx = direct_indices[pg_idx]
    ch4_pages[direct_idx].text = ch4_pages[direct_idx].text.replace(replacer, replacements[replacer])
    
ch4_text = '\n'.join([p.text for p in ch4_pages])

with open('ch4_text.txt', "w") as file:
    file.write(ch4_text)

ch4_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch4_text)

#### Main Function for Padya division of Chapter 4

In [814]:
padyas = []

In [815]:
idx = 0
txt = None
prev_so_do_number = None

while idx < len(ch4_text_split):
    if idx == 0:
        # Handling of shlokas
        shlokas = ch4_text_split[0]
        shlokas_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", shlokas)
        shlokas_split = shlokas_split[:-1]
        prev_shlok_number = None
        jIdx = 0
        while jIdx < len(shlokas_split):
            padya_count = shlokas_split[jIdx + 1]
            padya_count = correct_padya_count(padya_count)
            if jIdx == 0:
                prev_shlok_number = padya_count
                padya_text = shlokas_split[jIdx]
                padya_meaning = shlokas_split[jIdx + 2]
                padya_meaning_count = shlokas_split[jIdx + 3]
                if not compare_padya_counts(padya_meaning_count, padya_count):
                    raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                    inner index {jIdx}, 
                    padya type {"श्लोक"}, 
                    padya count {padya_count}, 
                    expected count {padya_meaning_count},
                    outer index {idx},
                    padya shlokas text \n {shlokas}
                    """)
                print('\n\n---------------------\n\n')
                print(idx, jIdx, 'श्लोक', padya_count)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch4_pages)
                padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                padyas.append(padya)
                jIdx += 4
            else:
                expected_shlok_number = next_padya_count(prev_shlok_number)
                if compare_padya_counts(padya_count, expected_shlok_number):
                    padya_text = shlokas_split[jIdx]
                    padya_meaning = shlokas_split[jIdx + 2]
                    padya_meaning_count = shlokas_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {"श्लोक"}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya shlokas text \n {shlokas}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, 'श्लोक', padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch4_pages)
                    padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                    padyas.append(padya)
                    prev_shlok_number = padya_count
                    jIdx += 4
                else:
                    # Sunderkand handling
                    # In sunderkand, even shlokas have chaupais
                    pass
        idx += 1
    else:
        padya_type_definer = re.search(r"^(सो०|दो०|छं०)-{0,2}$", ch4_text_split[idx])
        if not padya_type_definer:
            raise Exception(f'Padya type not found at index {idx} \n {ch4_text_split[idx]} {ch4_text_split[idx + 1]}')
        padya_type = padya_type_definer.group(1)
        padya_full_text = ch4_text_split[idx + 1]
        padya_full_text_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", padya_full_text)
        padya_full_text_split = padya_full_text_split[:-1]

        if padya_type in ['सो०', 'दो०']:
            prev_chaupai_number = None
            chaupai_flag = False
            jIdx = 0
            while jIdx < len(padya_full_text_split):
                padya_count = padya_full_text_split[jIdx + 1]
                padya_count = correct_padya_count(padya_count)
                if jIdx == 0:
                    prev_so_do_number = padya_count
                    padya_text = padya_full_text_split[jIdx]
                    padya_meaning = padya_full_text_split[jIdx + 2]
                    padya_meaning_count = padya_full_text_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {padya_type}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya full text \n {padya_full_text}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, padya_type, padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch4_pages)
                    padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                    padyas.append(padya)
                    jIdx += 4
                else:
                    expected_so_do_number = next_padya_count(prev_so_do_number)
                    if prev_so_do_number == "०":
                        chaupai_flag = True
                    if not chaupai_flag and compare_padya_counts(padya_count, expected_so_do_number):
                        padya_text = padya_full_text_split[jIdx]
                        padya_meaning = padya_full_text_split[jIdx + 2]
                        padya_meaning_count = padya_full_text_split[jIdx + 3]
                        if not compare_padya_counts(padya_meaning_count, padya_count):
                            raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                            inner index {jIdx}, 
                            padya type {padya_type}, 
                            padya count {padya_count}, 
                            expected count {padya_meaning_count},
                            outer index {idx},
                            padya full text \n {padya_full_text}
                            """)
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        # enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch4_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                        padyas.append(padya)
                        prev_so_do_number = padya_count
                        jIdx += 4
                    else:
                        chaupai_flag = True
                        if prev_chaupai_number:
                            expected_chaupai_number = next_padya_count(prev_chaupai_number)
                            if not compare_padya_counts(padya_count, expected_chaupai_number):
                                raise Exception(f"""Error: Chaupai number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chaupai_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chaupai_number = expected_chaupai_number
                        chaupai_split = padya_full_text_split[jIdx].split("\n")
                        chaupai_split = [chaupai_line.strip() for chaupai_line in chaupai_split if chaupai_line.strip()]
                        if len(chaupai_split) <= 1:
                            print('Error: Chaupai consist of just one single line')
                        if padya_full_text_split[jIdx].count('॥') < 2:
                            padya_text = '\n'.join(chaupai_split[:1])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[1:])    # Specifically chaupai_meaning
                        elif '-' in padya_count and padya_full_text_split[jIdx].count('॥') == 4:
                            padya_text = '\n'.join(chaupai_split[:4])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[4:])    # Specifically chaupai_meaning
                        else:
                            padya_text = '\n'.join(chaupai_split[:2])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[2:])    # Specifically chaupai_meaning
                        book_page_number = get_page_numbers(padya_text, ch4_pages)
                        padya = Padya(padya_text, padya_meaning, 'चौपाई', padya_count, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                        padyas.append(padya)
                        jIdx += 2    
                        
        elif padya_type == 'छं०':
            if len(padya_full_text_split) > 0:
                prev_chand_number = None
                jIdx = 0
                last_chand_number = int(devanagari_to_english(padya_full_text_split[-1]))
                if (len(padya_full_text_split) // last_chand_number) == 4:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch4_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch4_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                            padyas.append(padya)
                        jIdx += 4
                        
                else:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch4_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch4_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                            padyas.append(padya)
                        jIdx += 2
            else:
                chand_split = padya_full_text.split("\n")
                chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                if len(chand_split) <= 4:
                    padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                else:
                    padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                print('\n\n---------------------\n\n')
                print(idx, 0, padya_type, None)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch4_pages)
                padya = Padya(padya_text, padya_meaning, padya_type, None, book_page_number, book_page_number, "4", "किष्किन्धाकाण्ड")
                padyas.append(padya)                        
        idx += 2



---------------------


0 0 श्लोक १


---------------------


0 4 श्लोक २


---------------------


1 0 सो० १


---------------------


1 4 सो० २


---------------------


3 0 दो० १


---------------------


5 0 दो० २


---------------------


7 0 दो० ३


---------------------


9 0 दो० ४


---------------------


11 0 दो० ५


---------------------


13 0 दो० ६


---------------------


15 0 दो० ७


---------------------


17 0 दो० ८


---------------------


19 0 दो० ९


---------------------


21 0 छं० १


---------------------


21 2 छं० २


---------------------


23 0 दो० १०


---------------------


25 0 दो० ११


---------------------


27 0 दो० १२


---------------------


29 0 दो० १३


---------------------


31 0 दो० १४


---------------------


33 0 दो० १५ (क )


---------------------


33 4 दो० १५ ( ख )


---------------------


35 0 दो० १६


---------------------


37 0 दो० १७


---------------------


39 0 दो० १८


---------------------


41 0 दो० १९


------------------

#### Checks for Chapter 4

In [816]:
# Check for Counts
print('Number of shlokas: ', len([padya for padya in padyas if padya.padya_type == 'श्लोक']))
print('Number of dohas: ', len([padya for padya in padyas if padya.padya_type == 'दो०']))
print('Number of sorathas: ', len([padya for padya in padyas if padya.padya_type == 'सो०']))
print('Number of chandas: ', len([padya for padya in padyas if padya.padya_type == 'छं०']))
print('Number of chaupais: ', len([padya for padya in padyas if padya.padya_type == 'चौपाई']))

Number of shlokas:  2
Number of dohas:  31
Number of sorathas:  3
Number of chandas:  3
Number of chaupais:  154


In [817]:
# Check for Shlokas padya counts
shlokas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'श्लोक']
shlokas_padya_counts

['१', '२']

In [818]:
# Check for Dohas & Sorathas padya counts
dohas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'दो०']
sorathas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'सो०']
combined_counts = dohas_padya_counts + sorathas_padya_counts
combined_counts = sort_padya_counts(combined_counts)
print(combined_counts)
count_gaps = [find_gap_between_padya_counts(combined_counts[i - 1], combined_counts[i]) for i in range(1, len(combined_counts))]
print('---------------------------------------')
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

['१', '१', '२', '२', '३', '४', '५', '६', '७', '८', '९', '१०', '११', '१२', '१३', '१४', '१५ (क)', '१५ (ख)', '१६', '१७', '१८', '१९', '२०', '२१', '२२', '२३', '२४', '२५', '२६', '२७', '२८', '२९', '३० (क)', '३० (ख)']
---------------------------------------
[0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Any larger gaps?  No


In [819]:
# Check for last sorath and doha
print('Last doha: ', dohas_padya_counts[-1])
print('Last sorath: ', sorathas_padya_counts[-1])

Last doha:  ३० (क)
Last sorath:  ३० (ख)


In [820]:
# Check for chaupais under each sorath and doha
idx = 0
while idx < len(padyas):
    padya = padyas[idx]
    
    # Check if the current padya is सो० or दो०
    if padya.padya_type in ['सो०', 'दो०']:
        chaupai_counts = []

        # Collect all चौपाई counts under the current सो० or दो०
        jIdx = idx + 1
        while jIdx < len(padyas) and padyas[jIdx].padya_type == 'चौपाई':
            chaupai_counts.append(padyas[jIdx].padya_count)
            jIdx += 1
        
        # Compute gaps if there are at least two चौपाई
        if len(chaupai_counts) > 1:
            count_gaps = [find_gap_between_padya_counts(chaupai_counts[i - 1], chaupai_counts[i]) 
                          for i in range(1, len(chaupai_counts))]
            if not all([count_gap == 1 for count_gap in count_gaps]):
                print(idx)
                print(count_gaps)

        idx = jIdx
    else:
        idx += 1


In [832]:
# Check for chandas
chand_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'छं०']
chand_counts = [count for count in chand_counts if count is not None]
count_gaps = []
for i in range(1, len(chand_counts)):
    first = chand_counts[i - 1]
    second = chand_counts[i]
    if second == '१':
        count_gaps.append(0)
    else:
        count_gaps.append(find_gap_between_padya_counts(chand_counts[i - 1], chand_counts[i]))
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

[1]
Any larger gaps?  No


In [833]:
# Check for chands with no chaupai, (checking for exactly 4 lines for the chand)
chands = [padya for padya in padyas if padya.padya_type == 'छं०']
for chand in chands:
    chand_split = chand.text.split("\n")
    chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
    if len(chand_split) != 4:
        print(chand.padya_count, 'Error !!!', chand)
    for txt in chand_split:
        if not txt[-1] == '।' and not txt[-1] == '॥':
            print(chand.padya_count, 'Error !!!', txt)

#### Chapter 4 ends

<br>

### Chapter 5

In [842]:
book_pages[748].text

'\n\nसमुद्र अपने घर चला गया, श्रीरघुनाथजीको यह मत (उसकी सलाह ) अच्छा लगा। यह चरित्र\nकलियुगके पापोंको हरनेवाला है, इसे तुलसीदासने अपनी बुद्धिके अनुसार गाया है। श्रीरघुनाथजीके\nगुणसमूह सुखके धाम, सन्देहका नाश करनेवाले और विषादका दमन करनेवाले हैं। अरे मूर्ख मन!\nतू संसारका सब आशा-भरोसा त्यागकर निरन्तर इन्हें गा और सुन।\nदो०--सकल सुमंगल दायक रघुनायक गुन गान।\n\nसादर सुनहिं ते तरहिं भव सिंधु बिना जलजान॥ ६०॥\n\nश्रीरघुनाथजीका गुणगान सम्पूर्ण सुन्दर मड़लोंका देनेवाला है। जो इसे आदरसहित सुनेंगे, वे\n\nबिना किसी जहाज (अन्य साधन) के ही भवसागरकों तर जायँगे॥६०॥\n\n\n\nइति श्रीमद्रामचरितमानसे सकलकलिकलुषविध्वंसने पञ्ञमः सोपानः समाप्तः।\nकलियुगके समस्त पापोंका नाश करनेवाले श्रीरामचरितमानसका\nयह पाँचवाँ सोपान समाप्त हुआ।\n( सुन्दरकाण्ड समाप्त )\n\n'

In [843]:
ch5_pages = book_pages[692:749]
ch5_text = '\n'.join([p.text for p in ch5_pages])
print(ch5_text)
with open('ch5_text.txt', "w") as file:
    file.write(ch5_text)


शान्‍्त॑ शाश्वतमप्रमेयमनघं निर्वाणशान्तिप्रदं
ब्रह्माशम्भुफणीन्द्रसेव्यमनिशं वेदान्तवेद्य॑ विभुम्‌।
रामाख्यं जगदीश्वरं सुरगुरुं मायामनुष्यं हरिं
वन्देहहू करुणाकरं रघुवरं भूपालचूडामणिम्‌॥ १॥
शान्त, सनातन, अप्रमेय (प्रमाणोंसे परे), निष्पाप, मोक्षरूप परमशान्ति देनेवाले, ब्रह्मा, शम्भु
और शेषजीसे निरन्तर सेवित, वेदान्तके द्वारा जाननेयोग्य, सर्वव्यापक, देवताओंमें सबसे बड़े,

मायासे मनुष्यरूपमें दीखनेवाले, समस्त पापोंको हरनेवाले, करुणाकी खान, रघुकुलमें श्रेष्ठ तथा
राजाओंके शिरोमणि, राम कहलानेवाले जगदीश्वरकी मैं वन्दना करता हूँ॥ १॥

नान्‍या स्पृहा रघुपते हृदयेउस्मदीये
सत्यं वदामि च भवानखिलान्तरात्मा।
भक्ति प्रयच्छ रघुपुड्व निर्भरां मे

कामादिदोषरहितं कुरू मानसं च॥२॥
हे रघुनाथजी ! मैं सत्य कहता हूँ और फिर आप सबके अन्तरात्मा ही हैं (सब जानते ही हैं)
कि मेरे हृदयमें दूसरी कोई इच्छा नहीं है। हे रघुकुलकश्रेष्ठ ! मुझे अपनी निर्भरा (पूर्ण) भक्ति दीजिये
और मेरे मनको काम आदि दोषोंसे रहित कीजिये॥ २॥




अतुलितबलधामं हेमशैलाभदेहं
दनुजवनकृशानुं ज्ञानिनामग्रगण्यम्‌।
सकलगुणनिधानं वानराणामधीशं

रघुपतिप्रिय

In [844]:
len(re.findall(r"((?:सो०|दो०|छं०)-{0,2})", ch5_text))

63

In [847]:
ch5_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch5_text)
len(ch5_text_split)

127

#### Replacement for errors in Chapter 5

In [899]:
direct_indices = [19, 33, 52]
replacements = {
        'ब्रह्मसर मानउेँ महिमा मिट अपार॥ १५९॥': 'ब्रह्मसर मानउेँ महिमा मिट अपार॥ १९॥',
        'खान फल भालु बिपुल कपि बीर॥ ३५७॥': 'खान फल भालु बिपुल कपि बीर॥ ३५॥',
        'महेशकी शरण जानेपर भी नहीं\nबचेगा॥ ५६ ॥ (क) ॥': 'महेशकी शरण जानेपर भी नहीं\nबचेगा॥ ५६ (क) ॥'
    }
replacers = list(replacements.keys())
    
for pg_idx, replacer in enumerate(replacers):
    direct_idx = direct_indices[pg_idx]
    ch5_pages[direct_idx].text = ch5_pages[direct_idx].text.replace(replacer, replacements[replacer])
    
ch5_text = '\n'.join([p.text for p in ch5_pages])

with open('ch5_text.txt', "w") as file:
    file.write(ch5_text)

ch5_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch5_text)

#### Main Function for Padya division of Chapter 5

In [900]:
padyas = []

In [901]:
idx = 0
txt = None
prev_so_do_number = None

while idx < len(ch5_text_split):
    if idx == 0:
        # Handling of shlokas
        shlokas = ch5_text_split[0]
        shlokas_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", shlokas)
        shlokas_split = shlokas_split[:-1]
        prev_shlok_number = None
        prev_shlok_chaupai_number = None
        shlok_chaupai_flag = False
        jIdx = 0
        while jIdx < len(shlokas_split):
            padya_count = shlokas_split[jIdx + 1]
            padya_count = correct_padya_count(padya_count)
            if jIdx == 0:
                prev_shlok_number = padya_count
                padya_text = shlokas_split[jIdx]
                padya_meaning = shlokas_split[jIdx + 2]
                padya_meaning_count = shlokas_split[jIdx + 3]
                if not compare_padya_counts(padya_meaning_count, padya_count):
                    raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                    inner index {jIdx}, 
                    padya type {"श्लोक"}, 
                    padya count {padya_count}, 
                    expected count {padya_meaning_count},
                    outer index {idx},
                    padya shlokas text \n {shlokas}
                    """)
                print('\n\n---------------------\n\n')
                print(idx, jIdx, 'श्लोक', padya_count)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch5_pages)
                padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                padyas.append(padya)
                jIdx += 4
            else:
                expected_shlok_number = next_padya_count(prev_shlok_number)
                if not shlok_chaupai_flag and compare_padya_counts(padya_count, expected_shlok_number):
                    padya_text = shlokas_split[jIdx]
                    padya_meaning = shlokas_split[jIdx + 2]
                    padya_meaning_count = shlokas_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {"श्लोक"}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya shlokas text \n {shlokas}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, 'श्लोक', padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch5_pages)
                    padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                    padyas.append(padya)
                    prev_shlok_number = padya_count
                    jIdx += 4
                else:
                    shlok_chaupai_flag = True
                    if prev_shlok_chaupai_number:
                        expected_shlok_chaupai_number = next_padya_count(prev_shlok_chaupai_number)
                        if not compare_padya_counts(padya_count, expected_shlok_chaupai_number):
                            raise Exception(f"""Error: Shlok Chaupai number count mismatch\n 
                            inner index {jIdx}, 
                            padya count {padya_count}, 
                            expected count {expected_shlok_chaupai_number},
                            outer index {idx},
                            padya shlokas text \n {shlokas}
                            """)
                        prev_shlok_chaupai_number = expected_shlok_chaupai_number
                    else:
                        prev_shlok_chaupai_number = padya_count
                    shlok_chaupai_split = shlokas_split[jIdx].split("\n")
                    shlok_chaupai_split = [chaupai_line.strip() for chaupai_line in shlok_chaupai_split if chaupai_line.strip()]
                    if len(shlok_chaupai_split) <= 1:
                        print('Error: Shlok Chaupai consist of just one single line')
                    if shlokas_split[jIdx].count('॥') < 2:
                        padya_text = '\n'.join(shlok_chaupai_split[:1])    # Specifically chaupai_text
                        padya_meaning = ' '.join(shlok_chaupai_split[1:])    # Specifically chaupai_meaning
                    else:
                        padya_text = '\n'.join(shlok_chaupai_split[:2])    # Specifically chaupai_text
                        padya_meaning = ' '.join(shlok_chaupai_split[2:])    # Specifically chaupai_meaning
                    book_page_number = get_page_numbers(padya_text, ch5_pages)
                    padya = Padya(padya_text, padya_meaning, 'चौपाई', padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                    padyas.append(padya)
                    jIdx += 2    
        idx += 1
    else:
        padya_type_definer = re.search(r"^(सो०|दो०|छं०)-{0,2}$", ch5_text_split[idx])
        if not padya_type_definer:
            raise Exception(f'Padya type not found at index {idx} \n {ch5_text_split[idx]} {ch5_text_split[idx + 1]}')
        padya_type = padya_type_definer.group(1)
        padya_full_text = ch5_text_split[idx + 1]
        padya_full_text_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", padya_full_text)
        padya_full_text_split = padya_full_text_split[:-1]

        if padya_type in ['सो०', 'दो०']:
            prev_chaupai_number = None
            chaupai_flag = False
            jIdx = 0
            while jIdx < len(padya_full_text_split):
                padya_count = padya_full_text_split[jIdx + 1]
                padya_count = correct_padya_count(padya_count)
                if jIdx == 0:
                    prev_so_do_number = padya_count
                    padya_text = padya_full_text_split[jIdx]
                    padya_meaning = padya_full_text_split[jIdx + 2]
                    padya_meaning_count = padya_full_text_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {padya_type}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya full text \n {padya_full_text}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, padya_type, padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch5_pages)
                    padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                    padyas.append(padya)
                    jIdx += 4
                else:
                    expected_so_do_number = next_padya_count(prev_so_do_number)
                    if prev_so_do_number == "०":
                        chaupai_flag = True
                    if not chaupai_flag and compare_padya_counts(padya_count, expected_so_do_number):
                        padya_text = padya_full_text_split[jIdx]
                        padya_meaning = padya_full_text_split[jIdx + 2]
                        padya_meaning_count = padya_full_text_split[jIdx + 3]
                        if not compare_padya_counts(padya_meaning_count, padya_count):
                            raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                            inner index {jIdx}, 
                            padya type {padya_type}, 
                            padya count {padya_count}, 
                            expected count {padya_meaning_count},
                            outer index {idx},
                            padya full text \n {padya_full_text}
                            """)
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        # enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch5_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                        padyas.append(padya)
                        prev_so_do_number = padya_count
                        jIdx += 4
                    else:
                        chaupai_flag = True
                        if prev_chaupai_number:
                            expected_chaupai_number = next_padya_count(prev_chaupai_number)
                            if not compare_padya_counts(padya_count, expected_chaupai_number):
                                raise Exception(f"""Error: Chaupai number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chaupai_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chaupai_number = expected_chaupai_number
                        else:
                            prev_chaupai_number = padya_count
                        chaupai_split = padya_full_text_split[jIdx].split("\n")
                        chaupai_split = [chaupai_line.strip() for chaupai_line in chaupai_split if chaupai_line.strip()]
                        if len(chaupai_split) <= 1:
                            print('Error: Chaupai consist of just one single line')
                        if padya_full_text_split[jIdx].count('॥') < 2:
                            padya_text = '\n'.join(chaupai_split[:1])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[1:])    # Specifically chaupai_meaning
                        elif '-' in padya_count and padya_full_text_split[jIdx].count('॥') == 4:
                            padya_text = '\n'.join(chaupai_split[:4])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[4:])    # Specifically chaupai_meaning
                        else:
                            padya_text = '\n'.join(chaupai_split[:2])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[2:])    # Specifically chaupai_meaning
                        book_page_number = get_page_numbers(padya_text, ch5_pages)
                        padya = Padya(padya_text, padya_meaning, 'चौपाई', padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                        padyas.append(padya)
                        jIdx += 2    
                        
        elif padya_type == 'छं०':
            if len(padya_full_text_split) > 0:
                prev_chand_number = None
                jIdx = 0
                last_chand_number = int(devanagari_to_english(padya_full_text_split[-1]))
                if (len(padya_full_text_split) // last_chand_number) == 4:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch5_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch5_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                            padyas.append(padya)
                        jIdx += 4
                        
                else:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch5_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch5_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                            padyas.append(padya)
                        jIdx += 2
            else:
                chand_split = padya_full_text.split("\n")
                chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                if len(chand_split) <= 4:
                    padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                else:
                    padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                print('\n\n---------------------\n\n')
                print(idx, 0, padya_type, None)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch5_pages)
                padya = Padya(padya_text, padya_meaning, padya_type, None, book_page_number, book_page_number, "5", "सुन्दरकाण्ड")
                padyas.append(padya)                        
        idx += 2



---------------------


0 0 श्लोक १


---------------------


0 4 श्लोक २


---------------------


0 8 श्लोक ३


---------------------


1 0 दो० १


---------------------


3 0 दो० २


---------------------


5 0 छं० १


---------------------


5 2 छं० २


---------------------


5 4 छं० ३


---------------------


7 0 दो० ३


---------------------


9 0 दो० ४


---------------------


11 0 दो० ५


---------------------


13 0 दो० ६


---------------------


15 0 दो० ७


---------------------


17 0 दो० ८


---------------------


19 0 दो० ९


---------------------


21 0 दो० १०


---------------------


23 0 दो० ११


---------------------


25 0 सो० १२


---------------------


27 0 दो० १३


---------------------


29 0 दो० १४


---------------------


31 0 दो० १५


---------------------


33 0 दो० १६


---------------------


35 0 दो० १७


---------------------


37 0 दो० १८


---------------------


39 0 दो० १९


---------------------


41 0 दो० २०


---------------------


43 0 

#### Checks for Chapter 5

In [902]:
# Check for Counts
print('Number of shlokas: ', len([padya for padya in padyas if padya.padya_type == 'श्लोक']))
print('Number of dohas: ', len([padya for padya in padyas if padya.padya_type == 'दो०']))
print('Number of sorathas: ', len([padya for padya in padyas if padya.padya_type == 'सो०']))
print('Number of chandas: ', len([padya for padya in padyas if padya.padya_type == 'छं०']))
print('Number of chaupais: ', len([padya for padya in padyas if padya.padya_type == 'चौपाई']))

Number of shlokas:  3
Number of dohas:  62
Number of sorathas:  1
Number of chandas:  6
Number of chaupais:  271


In [903]:
# Check for Shlokas padya counts
shlokas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'श्लोक']
shlokas_padya_counts

['१', '२', '३']

In [904]:
# Check for Dohas & Sorathas padya counts
dohas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'दो०']
sorathas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'सो०']
combined_counts = dohas_padya_counts + sorathas_padya_counts
combined_counts = sort_padya_counts(combined_counts)
print(combined_counts)
count_gaps = [find_gap_between_padya_counts(combined_counts[i - 1], combined_counts[i]) for i in range(1, len(combined_counts))]
print('---------------------------------------')
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

['१', '२', '३', '४', '५', '६', '७', '८', '९', '१०', '११', '१२', '१३', '१४', '१५', '१६', '१७', '१८', '१९', '२०', '२१', '२२', '२३', '२४', '२५', '२६', '२७', '२८', '२९', '३०', '३१', '३२', '३३', '३४', '३५', '३६', '३७', '३८', '३९ (क)', '३९ (ख)', '४०', '४१', '४२', '४३', '४४', '४५', '४६', '४७', '४८', '४९ (क)', '४९ (ख)', '५०', '५१', '५२', '५३', '५४', '५५', '५६ (क)', '५६ (ख)', '५७', '५८', '५९', '६०']
---------------------------------------
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Any larger gaps?  No


In [905]:
# Check for last sorath and doha
print('Last doha: ', dohas_padya_counts[-1])
print('Last sorath: ', sorathas_padya_counts[-1])

Last doha:  ६०
Last sorath:  १२


In [906]:
# Check for chaupais under each sorath and doha
idx = 0
while idx < len(padyas):
    padya = padyas[idx]
    
    # Check if the current padya is सो० or दो०
    if padya.padya_type in ['सो०', 'दो०']:
        chaupai_counts = []

        # Collect all चौपाई counts under the current सो० or दो०
        jIdx = idx + 1
        while jIdx < len(padyas) and padyas[jIdx].padya_type == 'चौपाई':
            chaupai_counts.append(padyas[jIdx].padya_count)
            jIdx += 1
        
        # Compute gaps if there are at least two चौपाई
        if len(chaupai_counts) > 1:
            count_gaps = [find_gap_between_padya_counts(chaupai_counts[i - 1], chaupai_counts[i]) 
                          for i in range(1, len(chaupai_counts))]
            if not all([count_gap == 1 for count_gap in count_gaps]):
                print(idx)
                print(count_gaps)

        idx = jIdx
    else:
        idx += 1


In [908]:
# Check for chandas
chand_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'छं०']
chand_counts = [count for count in chand_counts if count is not None]
count_gaps = []
for i in range(1, len(chand_counts)):
    first = chand_counts[i - 1]
    second = chand_counts[i]
    if second == '१':
        count_gaps.append(0)
    else:
        count_gaps.append(find_gap_between_padya_counts(chand_counts[i - 1], chand_counts[i]))
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

[1, 1, 0, 1]
Any larger gaps?  No


In [909]:
# Check for chands with no chaupai, (checking for exactly 4 lines for the chand)
chands = [padya for padya in padyas if padya.padya_type == 'छं०']
for chand in chands:
    chand_split = chand.text.split("\n")
    chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
    if len(chand_split) != 4:
        print(chand.padya_count, 'Error !!!', chand)
    for txt in chand_split:
        if not txt[-1] == '।' and not txt[-1] == '॥':
            print(chand.padya_count, 'Error !!!', txt)

#### Chapter 5 ends

<br>

### Chapter 6

In [912]:
book_pages[881].text

'\n\nसब भाँति अधम निषाद सो हरि भरत ज्यों उर लाइयो।\nमतिमंद तुलसीदास सो प्रभु मोह बस बिसराइयो॥\nयह रावनारि चरित्र पावन राम पद रतिप्रद सदा।\nकामादिहर बिग्यानकर सुर सिद्ध मुनि गावहिं मुदा॥\nसब प्रकारसे नीच उस निषादकों भगवान्\u200cने भरतजीकी भाँति हृदयसे लगा लिया। तुलसीदासजी\nकहते हैं--इस मन्दबुद्धिने (मैंने) मोहबश उस प्रभुको भुला दिया। रावणके शत्रुका यह पवित्र\nकरनेवाला चरित्र सदा ही श्रीरामजीके चरणोंमें प्रीति उत्पन्न करनेवाला है। यह कामादि विकारोंका\nहरनेवाला और [भगवान्\u200cके स्वरूपका] विशेष ज्ञान उत्पन्न करनेवाला है। देवता, सिद्ध और मुनि\nआनन्दित होकर इसे गाते हैं॥ २॥\nदो०--समर बिजय रघुबीर के चरित जे सुनहिं सुजान।\nबिजय बिबेक बिभूति नित तिन्हहि देहिं भगवान॥ १२१ (क )॥\nजो सुजान लोग श्रीरघुवीरकी समरविजयसम्बन्धी लीलाकों सुनते हैं, उनको भगवान्\u200c नित्य\nविजय, विवेक और विभूति (ऐश्वर्य) देते हैं॥ १२१ (क)॥\nयह कलिकाल मलायतन मन करि देखु बिचार।\n\nश्रीरघुनाथ नाम तजि नाहिन आन अधार॥ १२१ (ख)॥\n\nअरे मन! विचार करके देख! यह कलिकाल पापोंका घर है। इसमें श्रीरधुनाथजीके नामको\nछोड़कर [पापोंसे बचनेक

In [913]:
ch6_pages = book_pages[749:882]
ch6_text = '\n'.join([p.text for p in ch6_pages])
print(ch6_text)
with open('ch6_text.txt', "w") as file:
    file.write(ch6_text)



रामं॑ कामारिसेव्यं भवभयहरणं कालमत्तेभसिंहं
योगीन्द्रं ज्ञानगम्यं गुणनिधिमजितं निर्गु्णं निर्विकारम्‌।
मायातीत॑ सुरेशं॑ खलवधनिरतं ब्रह्मवृन्देकदेवं

वन्दे कन्दावदातं सरसिजनयनं देवमुर्वीशरूपम्‌॥ १॥

कामदेवके शत्रु शिवजीके सेव्य, भव (जन्म-मृत्यु) के भयको हरनेवाले, कालरूपी मतवाले
हाथीके लिये सिंहके समान, योगियोंके स्वामी (योगीश्वर), ज्ञानके द्वारा जानने योग्य, गुणोंकी
निधि, अजेय, निर्गुण, निर्विकार, मायासे परे, देवताओंके स्वामी, दुष्टोंके वधमें तत्पर, ब्राह्मणवृन्दके
एकमात्र देवता (रक्षक), जलवाले मेघके समान सुन्दर श्याम, कमलके-से नेत्रवाले, पृथ्वीपति
(राजा) के रूपमें परमदेव श्रीरामजीकी मैं वन्दना करता हूँ॥१॥

शड्डेन्द्दाभभतीवसुन्दरतनुं शार्दूलचर्माम्बरं
कालव्यालकरालभूषणधरं गड्ढाशशाडरप्रियम्‌ ।
काशीशं कलिकल्मषौघशमनं कल्याणकल्पद्गुमं
नौमीड्यं गिरिजापतिं गुणनिधिं कन्दर्पह॑ शट्भूरम्‌॥ २॥



शह्ठु और चन्द्रमाकौ-सी कान्तिके अत्यन्त सुन्दर शरीरवाले, व्याप्रचर्मके वस्त्रवाले, कालके
समान [अथवा काले रंगके] भयानक सर्पोंका भूषण धारण करनेवाले, गड़ा और चन्द्रमाके प्रेमी,
काशीपति, कलियुगके पाप-समूहका न

In [915]:
len(re.findall(r"((?:सो०|दो०|छं०)-{0,2})", ch6_text))

162

In [914]:
ch6_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch6_text)
len(ch6_text_split)

325

#### Replacement for errors in Chapter 6

In [979]:
direct_indices = [1, 1, 1, 1, 1, 1, 54, 118, 118, 120, 124, 127]
replacements = replacements = {
    'राम को कालु जासु कोदंड॥': 'राम को कालु जासु कोदंड॥ ०(क) ॥',
    'श्रीरामजीको क्\u200dयों नहीं भजता?': 'श्रीरामजीको क्\u200dयों नहीं भजता?॥ ०(क) ॥',
    'बिलंबु केहि काम करहु सेतु उतरे कटकु॥': 'बिलंबु केहि काम करहु सेतु उतरे कटकु॥ ०(ख) ॥',
    'सेतु (पुल) तैयार करो, जिसमें सेना उतरे।': 'सेतु (पुल) तैयार करो, जिसमें सेना उतरे॥ ०(ख) ॥',
    'सेतु नर चढ़ि भव सागर तरहिं॥': 'सेतु नर चढ़ि भव सागर तरहिं॥ ०(ग) ॥',
    'संसाररूपी समुद्रसे पार हो जाते हैं।': 'संसाररूपी समुद्रसे पार हो जाते हैं॥ ०(ग) ॥',
    'नाम गिरि औषधी जाहु पवनसुत लेन॥ ५०॥': 'नाम गिरि औषधी जाहु पवनसुत लेन॥ ५५॥',
    'गुन सागर नागर नाथ बिभो॥': 'गुन सागर नागर नाथ बिभो॥ १ ॥',
    'खगनाथ जथा करि कोप गहा॥': 'खगनाथ जथा करि कोप गहा॥ २ ॥',
    'बिलोकत लोचन नहीं अघात॥ १११५१॥': 'बिलोकत लोचन नहीं अघात॥ १११॥',
    'पुलकिततनगदगदगिराँबिनय करत त्रिपुरारि। ११४ ( ख )॥': 'पुलकिततनगदगदगिराँबिनय करत त्रिपुरारि॥ ११४ ( ख )॥',
    'अनन्य प्रेम होनेपर करते\nहैं॥ ११५७ (ख)॥': 'अनन्य प्रेम होनेपर करते\nहैं॥ ११७ (ख)॥'
}
replacers = list(replacements.keys())
    
for pg_idx, replacer in enumerate(replacers):
    direct_idx = direct_indices[pg_idx]
    ch6_pages[direct_idx].text = ch6_pages[direct_idx].text.replace(replacer, replacements[replacer])
    
ch6_text = '\n'.join([p.text for p in ch6_pages])

with open('ch6_text.txt', "w") as file:
    file.write(ch6_text)

ch6_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch6_text)

#### Main Function for Padya division of Chapter 6

In [980]:
padyas = []

In [981]:
idx = 0
txt = None
prev_so_do_number = None

while idx < len(ch6_text_split):
    if idx == 0:
        # Handling of shlokas
        shlokas = ch6_text_split[0]
        shlokas_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", shlokas)
        shlokas_split = shlokas_split[:-1]
        prev_shlok_number = None
        prev_shlok_chaupai_number = None
        shlok_chaupai_flag = False
        jIdx = 0
        while jIdx < len(shlokas_split):
            padya_count = shlokas_split[jIdx + 1]
            padya_count = correct_padya_count(padya_count)
            if jIdx == 0:
                prev_shlok_number = padya_count
                padya_text = shlokas_split[jIdx]
                padya_meaning = shlokas_split[jIdx + 2]
                padya_meaning_count = shlokas_split[jIdx + 3]
                if not compare_padya_counts(padya_meaning_count, padya_count):
                    raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                    inner index {jIdx}, 
                    padya type {"श्लोक"}, 
                    padya count {padya_count}, 
                    expected count {padya_meaning_count},
                    outer index {idx},
                    padya shlokas text \n {shlokas}
                    """)
                print('\n\n---------------------\n\n')
                print(idx, jIdx, 'श्लोक', padya_count)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch6_pages)
                padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                padyas.append(padya)
                jIdx += 4
            else:
                expected_shlok_number = next_padya_count(prev_shlok_number)
                if not shlok_chaupai_flag and compare_padya_counts(padya_count, expected_shlok_number):
                    padya_text = shlokas_split[jIdx]
                    padya_meaning = shlokas_split[jIdx + 2]
                    padya_meaning_count = shlokas_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {"श्लोक"}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya shlokas text \n {shlokas}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, 'श्लोक', padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch6_pages)
                    padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                    padyas.append(padya)
                    prev_shlok_number = padya_count
                    jIdx += 4
                else:
                    shlok_chaupai_flag = True
                    if prev_shlok_chaupai_number:
                        expected_shlok_chaupai_number = next_padya_count(prev_shlok_chaupai_number)
                        if not compare_padya_counts(padya_count, expected_shlok_chaupai_number):
                            raise Exception(f"""Error: Shlok Chaupai number count mismatch\n 
                            inner index {jIdx}, 
                            padya count {padya_count}, 
                            expected count {expected_shlok_chaupai_number},
                            outer index {idx},
                            padya shlokas text \n {shlokas}
                            """)
                        prev_shlok_chaupai_number = expected_shlok_chaupai_number
                    else:
                        prev_shlok_chaupai_number = padya_count
                    shlok_chaupai_split = shlokas_split[jIdx].split("\n")
                    shlok_chaupai_split = [chaupai_line.strip() for chaupai_line in shlok_chaupai_split if chaupai_line.strip()]
                    if len(shlok_chaupai_split) <= 1:
                        print('Error: Shlok Chaupai consist of just one single line')
                    if shlokas_split[jIdx].count('॥') < 2:
                        padya_text = '\n'.join(shlok_chaupai_split[:1])    # Specifically chaupai_text
                        padya_meaning = ' '.join(shlok_chaupai_split[1:])    # Specifically chaupai_meaning
                    else:
                        padya_text = '\n'.join(shlok_chaupai_split[:2])    # Specifically chaupai_text
                        padya_meaning = ' '.join(shlok_chaupai_split[2:])    # Specifically chaupai_meaning
                    book_page_number = get_page_numbers(padya_text, ch6_pages)
                    padya = Padya(padya_text, padya_meaning, 'चौपाई', padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                    padyas.append(padya)
                    jIdx += 2    
        idx += 1
    else:
        padya_type_definer = re.search(r"^(सो०|दो०|छं०)-{0,2}$", ch6_text_split[idx])
        if not padya_type_definer:
            raise Exception(f'Padya type not found at index {idx} \n {ch6_text_split[idx]} {ch6_text_split[idx + 1]}')
        padya_type = padya_type_definer.group(1)
        padya_full_text = ch6_text_split[idx + 1]
        padya_full_text_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", padya_full_text)
        padya_full_text_split = padya_full_text_split[:-1]

        if padya_type in ['सो०', 'दो०']:
            prev_chaupai_number = None
            chaupai_flag = False
            jIdx = 0
            while jIdx < len(padya_full_text_split):
                padya_count = padya_full_text_split[jIdx + 1]
                padya_count = correct_padya_count(padya_count)
                if jIdx == 0:
                    prev_so_do_number = padya_count
                    padya_text = padya_full_text_split[jIdx]
                    padya_meaning = padya_full_text_split[jIdx + 2]
                    padya_meaning_count = padya_full_text_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {padya_type}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya full text \n {padya_full_text}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, padya_type, padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch6_pages)
                    padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                    padyas.append(padya)
                    jIdx += 4
                else:
                    expected_so_do_number = next_padya_count(prev_so_do_number)
                    if prev_so_do_number == "०":
                        chaupai_flag = True
                    if not chaupai_flag and compare_padya_counts(padya_count, expected_so_do_number):
                        padya_text = padya_full_text_split[jIdx]
                        padya_meaning = padya_full_text_split[jIdx + 2]
                        padya_meaning_count = padya_full_text_split[jIdx + 3]
                        if not compare_padya_counts(padya_meaning_count, padya_count):
                            raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                            inner index {jIdx}, 
                            padya type {padya_type}, 
                            padya count {padya_count}, 
                            expected count {padya_meaning_count},
                            outer index {idx},
                            padya full text \n {padya_full_text}
                            """)
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        # enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch6_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                        padyas.append(padya)
                        prev_so_do_number = padya_count
                        jIdx += 4
                    else:
                        chaupai_flag = True
                        if prev_chaupai_number:
                            expected_chaupai_number = next_padya_count(prev_chaupai_number)
                            if not compare_padya_counts(padya_count, expected_chaupai_number):
                                raise Exception(f"""Error: Chaupai number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chaupai_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chaupai_number = expected_chaupai_number
                        else:
                            prev_chaupai_number = padya_count
                        chaupai_split = padya_full_text_split[jIdx].split("\n")
                        chaupai_split = [chaupai_line.strip() for chaupai_line in chaupai_split if chaupai_line.strip()]
                        if len(chaupai_split) <= 1:
                            print('Error: Chaupai consist of just one single line')
                        if padya_full_text_split[jIdx].count('॥') < 2:
                            padya_text = '\n'.join(chaupai_split[:1])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[1:])    # Specifically chaupai_meaning
                        elif '-' in padya_count and padya_full_text_split[jIdx].count('॥') == 4:
                            padya_text = '\n'.join(chaupai_split[:4])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[4:])    # Specifically chaupai_meaning
                        else:
                            padya_text = '\n'.join(chaupai_split[:2])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[2:])    # Specifically chaupai_meaning
                        book_page_number = get_page_numbers(padya_text, ch6_pages)
                        padya = Padya(padya_text, padya_meaning, 'चौपाई', padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                        padyas.append(padya)
                        jIdx += 2    
                        
        elif padya_type == 'छं०':
            if len(padya_full_text_split) > 0:
                prev_chand_number = None
                jIdx = 0
                last_chand_number = int(devanagari_to_english(padya_full_text_split[-1]))
                if (len(padya_full_text_split) // last_chand_number) == 4:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch6_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch6_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                            padyas.append(padya)
                        jIdx += 4
                        
                else:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch6_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch6_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                            padyas.append(padya)
                        jIdx += 2
            else:
                chand_split = padya_full_text.split("\n")
                chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                if len(chand_split) <= 4:
                    padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                else:
                    padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                print('\n\n---------------------\n\n')
                print(idx, 0, padya_type, None)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch6_pages)
                padya = Padya(padya_text, padya_meaning, padya_type, None, book_page_number, book_page_number, "6", "लंकाकाण्ड")
                padyas.append(padya)                        
        idx += 2



---------------------


0 0 श्लोक १


---------------------


0 4 श्लोक २


---------------------


0 8 श्लोक ३


---------------------


1 0 दो० ०(क)


---------------------


3 0 सो० ०(ख)


---------------------


3 4 सो० ०(ग)


---------------------


5 0 दो० १


---------------------


7 0 दो० २


---------------------


9 0 दो० ३


---------------------


11 0 दो० ४


---------------------


13 0 दो० ५


---------------------


15 0 दो० ६


---------------------


17 0 दो० ७


---------------------


19 0 दो० ८


---------------------


21 0 दो० ९


---------------------


23 0 दो० १०


---------------------


25 0 दो० ११ (क )


---------------------


25 4 दो० ११ ( ख )


---------------------


27 0 दो० १२ ( क )


---------------------


27 4 दो० १२ ( ख )


---------------------


29 0 दो० १३ (क )


---------------------


29 4 दो० १३ (ख)


---------------------


31 0 दो० १४


---------------------


33 0 दो० १५ (क)


---------------------


33 4 दो० १५ ( ख )


---------------

#### Checks for Chapter 6

In [983]:
# Check for Counts
print('Number of shlokas: ', len([padya for padya in padyas if padya.padya_type == 'श्लोक']))
print('Number of dohas: ', len([padya for padya in padyas if padya.padya_type == 'दो०']))
print('Number of sorathas: ', len([padya for padya in padyas if padya.padya_type == 'सो०']))
print('Number of chandas: ', len([padya for padya in padyas if padya.padya_type == 'छं०']))
print('Number of chaupais: ', len([padya for padya in padyas if padya.padya_type == 'चौपाई']))

Number of shlokas:  3
Number of dohas:  150
Number of sorathas:  9
Number of chandas:  70
Number of chaupais:  568


In [984]:
# Check for Shlokas padya counts
shlokas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'श्लोक']
shlokas_padya_counts

['१', '२', '३']

In [985]:
# Check for Dohas & Sorathas padya counts
dohas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'दो०']
sorathas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'सो०']
combined_counts = dohas_padya_counts + sorathas_padya_counts
combined_counts = sort_padya_counts(combined_counts)
print(combined_counts)
count_gaps = [find_gap_between_padya_counts(combined_counts[i - 1], combined_counts[i]) for i in range(1, len(combined_counts))]
print('---------------------------------------')
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

['० (क)', '० (ख)', '० (ग)', '१', '२', '३', '४', '५', '६', '७', '८', '९', '१०', '११ (क)', '११ (ख)', '१२ (क)', '१२ (ख)', '१३ (क)', '१३ (ख)', '१४', '१५ (क)', '१५ (ख)', '१६ (क)', '१६ (ख)', '१७ (क)', '१७ (ख)', '१८', '१९', '२०', '२१', '२२ (क)', '२२ (ख)', '२३ (क)', '२३ (ख)', '२३ (ग)', '२३ (घ)', '२३ (ङ)', '२३ (च)', '२४', '२५', '२६', '२७', '२८', '२९', '३०', '३१ (क)', '३१ (ख)', '३२ (क)', '३२ (ख)', '३३ (क)', '३३ (ख)', '३४ (क)', '३४ (ख)', '३५ (क)', '३५ (ख)', '३६', '३७', '३८ (क)', '३८ (ख)', '३९', '४०', '४१', '४२', '४३', '४४', '४५', '४६', '४७', '४८ (क)', '४८ (ख)', '४९', '५०', '५१', '५२', '५३', '५४', '५५', '५६', '५७', '५८', '५९', '६० (क)', '६० (ख)', '६१', '६२', '६३', '६४', '६५', '६६', '६७', '६८', '६९', '७०', '७१', '७२', '७३', '७४ (क)', '७४ (ख)', '७५', '७६', '७७', '७८', '७९', '८० (क)', '८० (ख)', '८० (ग)', '८१', '८२', '८३', '८४', '८५', '८६', '८७', '८८', '८९', '९०', '९१', '९२', '९३', '९४', '९५', '९६', '९७', '९८', '९९', '१००', '१०१ क', '१०१ ख', '१०२', '१०३', '१०४', '१०५', '१०६', '१०७', '१०८', '१०९ (क)', 

In [986]:
# Check for last sorath and doha
print('Last doha: ', dohas_padya_counts[-1])
print('Last sorath: ', sorathas_padya_counts[-1])

Last doha:  १२१ (ख)
Last sorath:  ६१


In [987]:
# Check for chaupais under each sorath and doha
idx = 0
while idx < len(padyas):
    padya = padyas[idx]
    
    # Check if the current padya is सो० or दो०
    if padya.padya_type in ['सो०', 'दो०']:
        chaupai_counts = []

        # Collect all चौपाई counts under the current सो० or दो०
        jIdx = idx + 1
        while jIdx < len(padyas) and padyas[jIdx].padya_type == 'चौपाई':
            chaupai_counts.append(padyas[jIdx].padya_count)
            jIdx += 1
        
        # Compute gaps if there are at least two चौपाई
        if len(chaupai_counts) > 1:
            count_gaps = [find_gap_between_padya_counts(chaupai_counts[i - 1], chaupai_counts[i]) 
                          for i in range(1, len(chaupai_counts))]
            if not all([count_gap == 1 for count_gap in count_gaps]):
                print(idx)
                print(count_gaps)

        idx = jIdx
    else:
        idx += 1


In [988]:
# Check for chandas
chand_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'छं०']
chand_counts = [count for count in chand_counts if count is not None]
count_gaps = []
for i in range(1, len(chand_counts)):
    first = chand_counts[i - 1]
    second = chand_counts[i]
    if second == '१':
        count_gaps.append(0)
    else:
        count_gaps.append(find_gap_between_padya_counts(chand_counts[i - 1], chand_counts[i]))
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

[1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1]
Any larger gaps?  No


In [989]:
# Check for chands with no chaupai, (checking for exactly 4 lines for the chand)
chands = [padya for padya in padyas if padya.padya_type == 'छं०']
for chand in chands:
    chand_split = chand.text.split("\n")
    chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
    if len(chand_split) != 4:
        print(chand.padya_count, 'Error !!!', chand)
    for txt in chand_split:
        if not txt[-1] == '।' and not txt[-1] == '॥':
            print(chand.padya_count, 'Error !!!', txt)

१ Error !!! छं०
जब कीन्ह तेहिं पाषंड। भए प्रगट जंतु प्रचंड ।
बेताल भूत पिसाच | कर धरें धनु नाराच ॥ १ ॥

जब उसने पाखण्ड (माया) रचा, तब भयड्लर जीव प्रकट हो गये। बेताल, भूत और पिशाच हाथोंमें धनुष-बाण लिये प्रकट हुए! ॥ १ ॥
२ Error !!! छं०
जोगिनि गहें करबाल। एक हाथ मनुज कपाल ।
करि सद्य सोनित पान। नाचहिं करहिं बहु गान ॥ २ ॥

योगिनियाँ एक हाथमें तलवार और दूसरे हाथमें मनुष्यकी खोपड़ी लिये ताजा खून पीकर नाचने और बहुत तरहके गीत गाने लगीं ॥ २ ॥
३ Error !!! छं०
धरू मारु बोलहिं घोर । रहि पूरि धुनि चहुँ ओर ।
मुख बाड़ धावहिं खान । तब लगे कीस परान ॥ ३ ॥

वे “पकड़ो, मारो' आदि घोर शब्द बोल रही हैं। चारों ओर (सब दिशाओंमें) यह ध्वनि भर गयी। वे मुख फैलाकर खाने दौड़ती हैं। तब वानर भागने लगे ॥ ३ ॥
४ Error !!! छं०
जहँ जाहिं मर्कट भागि। तहँ बरत देखहिं आगि ।
भए बिकल बानर भालु। पुनि लाग बरषे बालु ॥ ४ ॥

वानर भागकर जहाँ भी जाते हैं, वहीं आग जलती देखते हैं। वानर-भालू व्याकुल हो गये। फिर रावण बालू बरसाने लगा ॥ ४ ॥
५ Error !!! छं०
जहँ तहँ थंकित करि कीस। गर्जेउ बहुरि दससीस ।
लछिमन कपीस समेत। भए सकल बीर अचेत ॥ ५ ॥

वा

#### Chapter 6 ends

### Chapter 7

In [993]:
book_pages[1024].text

'\n\nश्रीमद्रामचरित्रमानसमिदं भक्\u200d्त्यावगाहन्ति ये\nते संसारपतड्रघोरकिरणैर्दहान्ति नो मानवाः॥ २॥\n\nयह श्रीरामचरितमानस पुण्यरूप, पापोंका हरण करनेवाला, सदा कल्याणकारी, विज्ञान और\nभक्तिको देनेवाला, माया, मोह और मलका नाश करनेवाला, परम निर्मल प्रेमरूपी जलसे परिपूर्ण\nतथा मंगलमय है। जो मनुष्य भक्तिपूर्वक इस मानससरोवरमें गोता लगाते हैं, वे संसाररूपी सूर्यकी\nअति प्रचण्ड किरणोंसे नहीं जलते॥ २॥\n\n\n\nइति श्रीमद्रामचरितमानसे सकलकलिकलुषविध्वंसने सप्तमः सोपानः समाप्तः।\nकलियुगके समस्त पापोंका नाश करनेवाले श्रीरामचरितमानसका\nयह सातवाँ सोपान समाप्त हुआ।\n\n'

In [994]:
ch7_pages = book_pages[882:]
ch7_text = '\n'.join([p.text for p in ch7_pages])
print(ch7_text)
with open('ch7_text.txt', "w") as file:
    file.write(ch7_text)



केकीकण्ठाभनीलं सुरवरविलसद्दिप्रपादाब्जचिह्वं
शोभाढ्यं पीतवस्त्रं सरसिजनयनं सर्वदा सुप्रसन्नम्‌।
पाणौ नाराचचापं कपिनिकरयुतं बन्धुना सेव्यमानं

नौमीड्यं जानकीशं रघुवरमनिशं पुष्पकारूढरामम्‌॥ १॥

मोरके कण्ठकी आभाके समान (हरिताभ) नीलवर्ण, देवताओंमें श्रेष्ठ, ब्राह्मण (भृगुजी) के
चरणकमलके चिहसे सुशोभित, शोभासे पूर्ण, पीताम्बरधारी, कमलनेत्र, सदा परम प्रसन्न, हाथोंमें
बाण और धनुष धारण किये हुए, वानरसमूहसे युक्त, भाई लक्ष्मणजीसे सेवित, स्तुति किये जाने
योग्य, श्रीजानकीजीके पति, रघुकुलश्रेष्ठ, पुष्पकविमानपर सवार श्रीरामचन्द्रजीको मैं निरन्तर
नमस्कार करता हूँ॥१॥

कोसलेन्द्रपदकझ्जमज्जुली कोमलावजमहेशवन्दितौ।

जानकीकरसरोजलालितो चिन्तकस्य मनभूड़सड्लिनौ ॥ २॥

कोसलपुरीके स्वामी श्रीरामचन्द्रजीके सुन्दर और कोमल दोनों चरणकमल ब्रह्माजी और
शिवजीके द्वारा वन्दित हैं, श्रीजानकीजीके करकमलोंसे दुलराये हुए हैं और चिन्तन करनेवालेके
मनरूपी भौरेके नित्य संगी हैं अर्थात्‌ चिन्तन करनेवालोंका मनरूपी भ्रमर सदा उन चरणकमलोंमें
बसा रहता है॥२॥

कुन्दइन्दुदरगौरसुन्दर॑ अम्बिकापतिमभीष्टसिद्द्विदम्‌ ।

कारुणीककलकझ्जलोचनं नौ

In [995]:
len(re.findall(r"((?:सो०|दो०|छं०)-{0,2})", ch7_text))

153

In [996]:
ch7_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch7_text)
len(ch7_text_split)

307

#### Replacement for errors in Chapter 7

In [1079]:
direct_indices = [1, 1, 1, 1, 1, 1, 1, 1, 14, 55, 107, 141, 141, 141, 141, 141, 141, 142, 142]
replacements = {
    'नर कूस तन राम बियोग॥': 'नर कूस तन राम बियोग॥ १ ॥',
    'है, श्रीरामजी क्\u200dयों नहीं आये]।': 'है, श्रीरामजी क्\u200dयों नहीं आये]॥ १ ॥',
    'जनाव जनु नगर रम्यब चहुं फेर॥': 'जनाव जनु नगर रम्यब चहुं फेर॥ २ ॥',
    'प्रभुके [शुभ] आगमनको जना रहे हैं।': 'प्रभुके [शुभ] आगमनको जना रहे हैं॥ २ ॥',
    'अनुजजुत कहन चहत अब कोड़ ॥': 'अनुजजुत कहन चहत अब कोड़ ॥ ३ ॥',
    'लक्ष्मणजीसहित प्रभु श्रीरामचन्द्रजी आ गये।': 'लक्ष्मणजीसहित प्रभु श्रीरामचन्द्रजी आ गये॥ ३ ॥',
    'सगुन मन हरष अति लागे करन बिचार॥': 'सगुन मन हरष अति लागे करन बिचार॥ ४ ॥',
    'मनमें अत्यन्त हर्ष हुआ और वे विचार करने लगे--': 'मनमें अत्यन्त हर्ष हुआ और वे विचार करने लगे--॥ ४ ॥',
    '(जीवन) सफल समझकर हर्षित हुईं॥ ११५ (ख)॥': '(जीवन) सफल समझकर हर्षित हुईं॥ ११ (ख)॥',
    'केहि कारन पायठ काक सरीर॥ "५४॥': 'केहि कारन पायठ काक सरीर॥ ५४॥',
    'श्लोक-रुद्राष्ट्रमिंदं प्रोक्त विप्रेण हरतोषये।\nये पठन्ति नरा भकत्या तेषां शम्भुः प्रसीदति॥ ९॥': 'रुद्राष्ट्रमिंदं प्रोक्त विप्रेण हरतोषये॥\nये पठन्ति नरा भकत्या तेषां शम्भुः प्रसीदति॥',
    'श्लोक -- य त्पूर्व प्रभुणा कृतं सुकविना श्रीशम्भुना दुर्गमं': 'य त्पूर्व प्रभुणा कृतं सुकविना श्रीशम्भुना दुर्गमं।',
    'श्रीमद्रामपदाब्जभक्तिमनिशं प्राप्त्ये तु रामायणम्\u200c।': 'श्रीमद्रामपदाब्जभक्तिमनिशं प्राप्त्ये तु रामायणम्\u200c॥',
    'तद्रघुनाथनामनिरतं स्वान्तस्तमःशान्तये': 'तद्रघुनाथनामनिरतं स्वान्तस्तमःशान्तये।',
    'भाषाबद्धमिदं चकार तुलसीदासस्तथा मानसम्‌॥ १॥': 'भाषाबद्धमिदं चकार तुलसीदासस्तथा मानसम्‌॥',
    'पुण्यं पापहरं सदा शिवकरं विज्ञानभक्तिप्रदं': 'पुण्यं पापहरं सदा शिवकरं विज्ञानभक्तिप्रदं।',
    'मायामोहमलापहं सुविमलं प्रेमाम्बुपूर शुभम्\u200c।': 'मायामोहमलापहं सुविमलं प्रेमाम्बुपूर शुभम्\u200c॥',
    'श्रीमद्रामचरित्रमानसमिदं भक्\u200d्त्यावगाहन्ति ये': 'श्रीमद्रामचरित्रमानसमिदं भक्\u200d्त्यावगाहन्ति ये।',
    'ते संसारपतड्रघोरकिरणैर्दहान्ति नो मानवाः॥ २॥': 'ते संसारपतड्रघोरकिरणैर्दहान्ति नो मानवाः॥'
}
replacers = list(replacements.keys())
    
for pg_idx, replacer in enumerate(replacers):
    direct_idx = direct_indices[pg_idx]
    ch7_pages[direct_idx].text = ch7_pages[direct_idx].text.replace(replacer, replacements[replacer])
    
ch7_text = '\n'.join([p.text for p in ch7_pages])

with open('ch7_text.txt', "w") as file:
    file.write(ch7_text)

ch7_text_split = re.split(r"((?:सो०|दो०|छं०)-{0,2})", ch7_text)

#### Main Function for Padya division of Chapter 7

In [1086]:
padyas = []

In [1087]:
idx = 0
txt = None
prev_so_do_number = None
chapter_number = 7

while idx < len(ch7_text_split):
    if idx == 0:
        # Handling of shlokas
        shlokas = ch7_text_split[0]
        shlokas_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", shlokas)
        shlokas_split = shlokas_split[:-1]
        prev_shlok_number = None
        prev_shlok_chaupai_number = None
        shlok_chaupai_flag = False
        jIdx = 0
        while jIdx < len(shlokas_split):
            padya_count = shlokas_split[jIdx + 1]
            padya_count = correct_padya_count(padya_count)
            if jIdx == 0:
                prev_shlok_number = padya_count
                padya_text = shlokas_split[jIdx]
                padya_meaning = shlokas_split[jIdx + 2]
                padya_meaning_count = shlokas_split[jIdx + 3]
                if not compare_padya_counts(padya_meaning_count, padya_count):
                    raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                    inner index {jIdx}, 
                    padya type {"श्लोक"}, 
                    padya count {padya_count}, 
                    expected count {padya_meaning_count},
                    outer index {idx},
                    padya shlokas text \n {shlokas}
                    """)
                print('\n\n---------------------\n\n')
                print(idx, jIdx, 'श्लोक', padya_count)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch7_pages)
                padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                padyas.append(padya)
                jIdx += 4
            else:
                expected_shlok_number = next_padya_count(prev_shlok_number)
                if not shlok_chaupai_flag and compare_padya_counts(padya_count, expected_shlok_number):
                    padya_text = shlokas_split[jIdx]
                    padya_meaning = shlokas_split[jIdx + 2]
                    padya_meaning_count = shlokas_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error in Shlokas: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {"श्लोक"}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya shlokas text \n {shlokas}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, 'श्लोक', padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch7_pages)
                    padya = Padya(padya_text, padya_meaning, 'श्लोक', padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                    padyas.append(padya)
                    prev_shlok_number = padya_count
                    jIdx += 4
                else:
                    shlok_chaupai_flag = True
                    if prev_shlok_chaupai_number:
                        expected_shlok_chaupai_number = next_padya_count(prev_shlok_chaupai_number)
                        if not compare_padya_counts(padya_count, expected_shlok_chaupai_number):
                            raise Exception(f"""Error: Shlok Chaupai number count mismatch\n 
                            inner index {jIdx}, 
                            padya count {padya_count}, 
                            expected count {expected_shlok_chaupai_number},
                            outer index {idx},
                            padya shlokas text \n {shlokas}
                            """)
                        prev_shlok_chaupai_number = expected_shlok_chaupai_number
                    else:
                        prev_shlok_chaupai_number = padya_count
                    shlok_chaupai_split = shlokas_split[jIdx].split("\n")
                    shlok_chaupai_split = [chaupai_line.strip() for chaupai_line in shlok_chaupai_split if chaupai_line.strip()]
                    if len(shlok_chaupai_split) <= 1:
                        print('Error: Shlok Chaupai consist of just one single line')
                    if shlokas_split[jIdx].count('॥') < 2:
                        padya_text = '\n'.join(shlok_chaupai_split[:1])    # Specifically chaupai_text
                        padya_meaning = ' '.join(shlok_chaupai_split[1:])    # Specifically chaupai_meaning
                    else:
                        padya_text = '\n'.join(shlok_chaupai_split[:2])    # Specifically chaupai_text
                        padya_meaning = ' '.join(shlok_chaupai_split[2:])    # Specifically chaupai_meaning
                    book_page_number = get_page_numbers(padya_text, ch7_pages)
                    padya = Padya(padya_text, padya_meaning, 'चौपाई', padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                    padyas.append(padya)
                    jIdx += 2    
        idx += 1
    else:
        padya_type_definer = re.search(r"^(सो०|दो०|छं०)-{0,2}$", ch7_text_split[idx])
        if not padya_type_definer:
            raise Exception(f'Padya type not found at index {idx} \n {ch7_text_split[idx]} {ch7_text_split[idx + 1]}')
        padya_type = padya_type_definer.group(1)
        padya_full_text = ch7_text_split[idx + 1]
        padya_full_text_split = re.split(r"॥\s*[।]*\s*([०१२३४५६७८९-]+\s*\(?\s*[कखगघङचछजझञटठडढणतथदधनपफबभमयरलवशषसह]?\s*\)?)\s*[।]*\s*॥", padya_full_text)
        padya_full_text_split = padya_full_text_split[:-1]

        if padya_type in ['सो०', 'दो०']:
            prev_chaupai_number = None
            chaupai_flag = False
            jIdx = 0
            while jIdx < len(padya_full_text_split):
                padya_count = padya_full_text_split[jIdx + 1]
                padya_count = correct_padya_count(padya_count)
                if jIdx == 0:
                    prev_so_do_number = padya_count
                    padya_text = padya_full_text_split[jIdx]
                    padya_meaning = padya_full_text_split[jIdx + 2]
                    padya_meaning_count = padya_full_text_split[jIdx + 3]
                    if not compare_padya_counts(padya_meaning_count, padya_count):
                        raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                        inner index {jIdx}, 
                        padya type {padya_type}, 
                        padya count {padya_count}, 
                        expected count {padya_meaning_count},
                        outer index {idx},
                        padya full text \n {padya_full_text}
                        """)
                    print('\n\n---------------------\n\n')
                    print(idx, jIdx, padya_type, padya_count)
                    # enteryt = input()
                    book_page_number = get_page_numbers(padya_text, ch7_pages)
                    padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                    padyas.append(padya)
                    jIdx += 4
                else:
                    expected_so_do_number = next_padya_count(prev_so_do_number)
                    if prev_so_do_number == "०":
                        chaupai_flag = True
                    if not chaupai_flag and compare_padya_counts(padya_count, expected_so_do_number):
                        padya_text = padya_full_text_split[jIdx]
                        padya_meaning = padya_full_text_split[jIdx + 2]
                        padya_meaning_count = padya_full_text_split[jIdx + 3]
                        if not compare_padya_counts(padya_meaning_count, padya_count):
                            raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                            inner index {jIdx}, 
                            padya type {padya_type}, 
                            padya count {padya_count}, 
                            expected count {padya_meaning_count},
                            outer index {idx},
                            padya full text \n {padya_full_text}
                            """)
                        print('\n\n---------------------\n\n')
                        print(idx, jIdx, padya_type, padya_count)
                        # enteryt = input()
                        book_page_number = get_page_numbers(padya_text, ch7_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                        padyas.append(padya)
                        prev_so_do_number = padya_count
                        jIdx += 4
                    else:
                        chaupai_flag = True
                        if prev_chaupai_number:
                            expected_chaupai_number = next_padya_count(prev_chaupai_number)
                            if not compare_padya_counts(padya_count, expected_chaupai_number):
                                raise Exception(f"""Error: Chaupai number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chaupai_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chaupai_number = expected_chaupai_number
                        else:
                            prev_chaupai_number = padya_count
                        chaupai_split = padya_full_text_split[jIdx].split("\n")
                        chaupai_split = [chaupai_line.strip() for chaupai_line in chaupai_split if chaupai_line.strip()]
                        padya_type = 'चौपाई'
                        if chapter_number == 7 and idx in [253, 305]:
                            padya_type = 'श्लोक'
                        if len(chaupai_split) <= 1:
                            print('Error: Chaupai consist of just one single line')
                        if padya_full_text_split[jIdx].count('॥') < 2:
                            padya_text = '\n'.join(chaupai_split[:1])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[1:])    # Specifically chaupai_meaning
                        elif chapter_number == 7 and idx == 305:
                            padya_text = '\n'.join(chaupai_split[:4])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[4:])    # Specifically chaupai_meaning    
                        elif '-' in padya_count and padya_full_text_split[jIdx].count('॥') == 4:
                            padya_text = '\n'.join(chaupai_split[:4])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[4:])    # Specifically chaupai_meaning
                        else:
                            padya_text = '\n'.join(chaupai_split[:2])    # Specifically chaupai_text
                            padya_meaning = ' '.join(chaupai_split[2:])    # Specifically chaupai_meaning
                        book_page_number = get_page_numbers(padya_text, ch7_pages)
                        padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                        padyas.append(padya)
                        jIdx += 2    
                        
        elif padya_type == 'छं०':
            if len(padya_full_text_split) > 0:
                prev_chand_number = None
                jIdx = 0
                last_chand_number = int(devanagari_to_english(padya_full_text_split[-1]))
                if (len(padya_full_text_split) // last_chand_number) == 4:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch7_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            padya_text = padya_full_text_split[jIdx]    # Specifically chand_text      
                            padya_meaning = padya_full_text_split[jIdx + 2]    # Specifically chand_meaning
                            padya_meaning_count = padya_full_text_split[jIdx + 3]    # Specifically chand_meaning_count
                            if not compare_padya_counts(padya_meaning_count, padya_count):
                                raise Exception(f"""Error: Padya count does not match the count of its meaning\n 
                                inner index {jIdx}, 
                                padya type {padya_type}, 
                                padya count {padya_count}, 
                                expected count {padya_meaning_count},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch7_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                            padyas.append(padya)
                        jIdx += 4
                        
                else:
                    while jIdx < len(padya_full_text_split):
                        padya_count = padya_full_text_split[jIdx + 1]
                        padya_count = correct_padya_count(padya_count)
                        if jIdx == 0:
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch7_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                            padyas.append(padya) 
                        else:
                            expected_chand_number = next_padya_count(prev_chand_number)
                            if not compare_padya_counts(padya_count, expected_chand_number):
                                raise Exception(f"""Error: Multi line Chand: Chand number count mismatch\n 
                                inner index {jIdx}, 
                                padya count {padya_count}, 
                                expected count {expected_chand_number},
                                outer index {idx},
                                padya full text \n {padya_full_text}
                                """)
                            prev_chand_number = padya_count
                            chand_split = padya_full_text_split[jIdx].split("\n")
                            chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                            if len(chand_split) <= 4:
                                padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                            else:
                                padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                                padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                            print('\n\n---------------------\n\n')
                            print(idx, jIdx, padya_type, padya_count)
                            # enteryt = input()
                            book_page_number = get_page_numbers(padya_text, ch7_pages)
                            padya = Padya(padya_text, padya_meaning, padya_type, padya_count, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                            padyas.append(padya)
                        jIdx += 2
            else:
                chand_split = padya_full_text.split("\n")
                chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
                if len(chand_split) <= 4:
                    padya_text = '\n'.join(chand_split[:2])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[2:])    # Specifically chand_meaning
                else:
                    padya_text = '\n'.join(chand_split[:4])    # Specifically chand_text      
                    padya_meaning = ' '.join(chand_split[4:])    # Specifically chand_meaning
                print('\n\n---------------------\n\n')
                print(idx, 0, padya_type, None)
                # enteryt = input()
                book_page_number = get_page_numbers(padya_text, ch7_pages)
                padya = Padya(padya_text, padya_meaning, padya_type, None, book_page_number, book_page_number, "7", "उत्तरकाण्ड")
                padyas.append(padya)                        
        idx += 2



---------------------


0 0 श्लोक १


---------------------


0 4 श्लोक २


---------------------


0 8 श्लोक ३


---------------------


1 0 दो० १ 


---------------------


1 4 दो० २ 


---------------------


1 8 दो० ३ 


---------------------


1 12 दो० ४ 


---------------------


3 0 दो० १ (क )


---------------------


3 4 दो० १ ( ख )


---------------------


5 0 छं० None


---------------------


7 0 दो० २ ( क )


---------------------


9 0 सो० २ ( ख )


---------------------


11 0 दो० ३ (क )


---------------------


11 4 दो० ३ ( ख )


---------------------


11 8 दो० ३ ( ग )


---------------------


13 0 दो० ४ (क )


---------------------


13 4 दो० ४ (ख )


---------------------


15 0 छं० १


---------------------


15 2 छं० २


---------------------


17 0 दो० ५


---------------------


19 0 छं० None


---------------------


21 0 दो० ६ ( क )


---------------------


21 4 दो० ६ ( ख )


---------------------


23 0 दो० ७


---------------------


25 0 दो० ८ ( क )




#### Checks for Chapter 7

In [1089]:
# Check for Counts
print('Number of shlokas: ', len([padya for padya in padyas if padya.padya_type == 'श्लोक']))
print('Number of dohas: ', len([padya for padya in padyas if padya.padya_type == 'दो०']))
print('Number of sorathas: ', len([padya for padya in padyas if padya.padya_type == 'सो०']))
print('Number of chandas: ', len([padya for padya in padyas if padya.padya_type == 'छं०']))
print('Number of chaupais: ', len([padya for padya in padyas if padya.padya_type == 'चौपाई']))

Number of shlokas:  14
Number of dohas:  207
Number of sorathas:  17
Number of chandas:  39
Number of chaupais:  595


In [1117]:
# Check for Shlokas padya counts
shlokas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'श्लोक']
print(shlokas_padya_counts)
for i, count in enumerate(shlokas_padya_counts):
    if count == '१':
        continue
    if find_gap_between_padya_counts(shlokas_padya_counts[i-1], shlokas_padya_counts[i]) != 1:
        print('Error: Shlokas are discontinuous')
        # print(shlokas_padya_counts)
        break

['१', '२', '३', '१', '२', '३', '४', '५', '६', '७', '८', '९', '१', '२']


In [1091]:
# Check for Shlokas padyas of Chapter 7
shlokas_padyas = [padya for padya in padyas if padya.padya_type == 'श्लोक']
for padya in shlokas_padyas:
    print(padya)
    print("---------")

केकीकण्ठाभनीलं सुरवरविलसद्दिप्रपादाब्जचिह्वं ।
शोभाढ्यं पीतवस्त्रं सरसिजनयनं सर्वदा सुप्रसन्नम्‌ ।
पाणौ नाराचचापं कपिनिकरयुतं बन्धुना सेव्यमानं ।
नौमीड्यं जानकीशं रघुवरमनिशं पुष्पकारूढरामम्‌ ॥ १ ॥

मोरके कण्ठकी आभाके समान (हरिताभ) नीलवर्ण, देवताओंमें श्रेष्ठ, ब्राह्मण (भृगुजी) के चरणकमलके चिहसे सुशोभित, शोभासे पूर्ण, पीताम्बरधारी, कमलनेत्र, सदा परम प्रसन्न, हाथोंमें बाण और धनुष धारण किये हुए, वानरसमूहसे युक्त, भाई लक्ष्मणजीसे सेवित, स्तुति किये जाने योग्य, श्रीजानकीजीके पति, रघुकुलश्रेष्ठ, पुष्पकविमानपर सवार श्रीरामचन्द्रजीको मैं निरन्तर नमस्कार करता हूँ ॥ १ ॥
---------
कोसलेन्द्रपदकझ्जमज्जुली कोमलावजमहेशवन्दितौ ।
जानकीकरसरोजलालितो चिन्तकस्य मनभूड़सड्लिनौ ॥ २ ॥

कोसलपुरीके स्वामी श्रीरामचन्द्रजीके सुन्दर और कोमल दोनों चरणकमल ब्रह्माजी और शिवजीके द्वारा वन्दित हैं, श्रीजानकीजीके करकमलोंसे दुलराये हुए हैं और चिन्तन करनेवालेके मनरूपी भौरेके नित्य संगी हैं अर्थात्‌ चिन्तन करनेवालोंका मनरूपी भ्रमर सदा उन चरणकमलोंमें बसा रहता है ॥ २ ॥
---------
कुन्दइन्दुदरगौरसुन्दर॑ अम्बिकापतिमभीष्टसिद्द्वि

In [1092]:
# Check for Dohas & Sorathas padya counts
dohas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'दो०']
sorathas_padya_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'सो०']
combined_counts = dohas_padya_counts + sorathas_padya_counts
combined_counts = sort_padya_counts(combined_counts)
print(combined_counts)
count_gaps = [find_gap_between_padya_counts(combined_counts[i - 1], combined_counts[i]) for i in range(1, len(combined_counts))]
print('---------------------------------------')
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

['१', '१ (क)', '१ (ख)', '२', '२ (क)', '२ (ख)', '३', '३ (क)', '३ (ख)', '३ (ग)', '४', '४ (क)', '४ (ख)', '५', '६ (क)', '६ (ख)', '७', '८ (क)', '८ (ख)', '९ (क)', '९ (ख)', '१० (क)', '१० (ख)', '११ (क)', '११ (ख)', '११ (ग)', '१२ (क)', '१२ (ख)', '१२ (ग)', '१३ (क)', '१३ (ख)', '१४ (क)', '१४ (ख)', '१५', '१६', '१७ (क)', '१७ (ख)', '१८ (क)', '१८ (ख)', '१९ (क)', '१९ (ख)', '१९ (ग)', '२०', '२१', '२२', '२३', '२४', '२५', '२६', '२७', '२८', '२९', '३०', '३१', '३२', '३३', '३४', '३५', '३६', '३७', '३८', '३९', '४०', '४१', '४२', '४३', '४४', '४५', '४६', '४७', '४८', '४९', '५०', '५१', '५२ (क)', '५२ (ख)', '५३', '५४', '५५', '५६', '५७', '५८', '५९', '६०', '६१', '६२ (क)', '६२ (ख)', '६३ (क)', '६३ (ख)', '६४', '६५', '६६ (क)', '६६ (ख)', '६७ (क)', '६७ (ख)', '६८ (क)', '६८ (ख)', '६९ (क)', '६९ (ख)', '७० (क)', '७० (ख)', '७१ (क)', '७१ (ख)', '७२ (क)', '७२ (ख)', '७३ (क)', '७३ (ख)', '७४ (क)', '७४ (ख)', '७५ (क)', '७५ (ख)', '७६', '७७ (क)', '७७ (ख)', '७८ (क)', '७८ (ख)', '७९ (क)', '७९ (ख)', '८० (क)', '८० (ख)', '८१ (क)', '८१ (ख)', '८२ (क)'

In [1093]:
# Check for last sorath and doha
print('Last doha: ', dohas_padya_counts[-1])
print('Last sorath: ', sorathas_padya_counts[-1])

Last doha:  १३० (ख)
Last sorath:  ११७ (घ)


In [1094]:
# Check for chaupais under each sorath and doha
idx = 0
while idx < len(padyas):
    padya = padyas[idx]
    
    # Check if the current padya is सो० or दो०
    if padya.padya_type in ['सो०', 'दो०']:
        chaupai_counts = []

        # Collect all चौपाई counts under the current सो० or दो०
        jIdx = idx + 1
        while jIdx < len(padyas) and padyas[jIdx].padya_type == 'चौपाई':
            chaupai_counts.append(padyas[jIdx].padya_count)
            jIdx += 1
        
        # Compute gaps if there are at least two चौपाई
        if len(chaupai_counts) > 1:
            count_gaps = [find_gap_between_padya_counts(chaupai_counts[i - 1], chaupai_counts[i]) 
                          for i in range(1, len(chaupai_counts))]
            if not all([count_gap == 1 for count_gap in count_gaps]):
                print(idx)
                print(count_gaps)

        idx = jIdx
    else:
        idx += 1


In [1095]:
# Check for chandas
chand_counts = [padya.padya_count for padya in padyas if padya.padya_type == 'छं०']
chand_counts = [count for count in chand_counts if count is not None]
count_gaps = []
for i in range(1, len(chand_counts)):
    first = chand_counts[i - 1]
    second = chand_counts[i]
    if second == '१':
        count_gaps.append(0)
    else:
        count_gaps.append(find_gap_between_padya_counts(chand_counts[i - 1], chand_counts[i]))
print(count_gaps)
print('Any larger gaps? ', 'Yes' if not all([count_gap <= 1 for count_gap in count_gaps]) else 'No')

[1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1]
Any larger gaps?  No


In [1096]:
# Check for chands with no chaupai, (checking for exactly 4 lines for the chand)
chands = [padya for padya in padyas if padya.padya_type == 'छं०']
for chand in chands:
    chand_split = chand.text.split("\n")
    chand_split = [chand_line.strip() for chand_line in chand_split if chand_line.strip()]
    if len(chand_split) != 4:
        print(chand.padya_count, 'Error !!!', chand)
    for txt in chand_split:
        if not txt[-1] == '।' and not txt[-1] == '॥':
            print(chand.padya_count, 'Error !!!', txt)

५ Error !!! छं०
बहु रोग बियोगन्हि लोग हए। भवदंघ्रि निरादर के फल ए ॥
भव सिंधु अगाध परे नर ते। पद पंकज प्रेम न जे करते ॥ ५ ॥

लोग बहुत-से रोगों और वियोगों (दुःखों) से मारे हुए हैं। ये सब आपके चरणोंके निरादरके फल हैं। जो मनुष्य आपके चरणकमलोंमें प्रेम नहीं करते, वे अथाह भवसागरमें पड़े हैं ॥ ५ ॥
८ Error !!! छं०
करि प्रेम निरंतर नेम लिए। पद पंकज सेवत सुद्ध हिएँ ॥
सम मानि निराद आदरही। सब संत सुखी बिचरंति मही ॥ ८ ॥

वे प्रेमपूर्वक्त नियम लेकर निरन्तर शुद्ध हृदयसे आपके चरणकमलोंकी सेवा करते रहते हैं और निरादर और आदरको समान मानकर वे सब संत सुखी होकर पृथ्वीपर विचरते हैं ॥ ८ ॥
४ Error !!! छं०
इरिषा परुषाच्छः लोलुपता। भरि पूरि रही समता बिगता ॥
सब लोग बियोग बिसोक हए। बरनाश्रम धर्म अचार गए ॥ ४ ॥

ईर्ष्या (डाह ), कड़वे वचन और लालच भरपूर हो रहे हैं, समता चली गयी। सब लोग वियोग और विशेष शोकसे भरे पड़े हैं। वर्णाश्रम-धर्मके आचरण नष्ट हो गये ॥ ४ ॥


#### Chapter 7 ends

In [1078]:
# Page finder
[(i, pg.book_page_number) for i, pg in enumerate(ch7_pages) if 'श्रीमद्रामचरित्रमानसमिदं भक्\u200d्त्यावगाहन्ति ये' in pg.text]

[(142, 1046)]

## Saving to Pickle

In [680]:
import pickle

# Save the object to a file
with open("ramcharitmanas_list.pkl", "wb") as file:
    pickle.dump(book_pages, file)

print("Object saved to file.")


Object saved to file.


## Loading from Pickle

In [2]:
class Page:
    def __init__(self, book_page_number, chapter_title, text):
        self.book_page_number = book_page_number
        self.chapter_title = chapter_title
        self.text = text

    def __str__(self):
        return f"Page Number: {self.book_page_number}\n\n\n{self.text}"


import pickle
# Load the object from the file
with open("ramcharitmanas_list.pkl", "rb") as file:
    book_pages = pickle.load(file)

1025