In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

In [2]:
def remove_after_last_full_stop_or_question(sentence):
    # Find the position of the last full stop or question mark
    position_dot = sentence.rfind('.')
    position_question = sentence.rfind('?')
    
    # Determine the position of the last occurrence of either character
    position = max(position_dot, position_question)
    
    # If either character is found, slice the string up to that position
    if position != -1:
        return sentence[:position + 1]  # Include the full stop or question mark in the result
    else:
        return sentence  # No full stop or question mark found, return the original sentence


In [3]:
def split_sentences(texts):
    # This regular expression matches periods, question marks, and exclamation points followed by spaces, newlines, or end of string
    sentence_endings = re.compile(r'(?<=[.?])\s+')

    # Split each text into sentences and flatten the result into a single list
    sentences = []
    for text in texts:
        # Split the text into sentences
        split_text = sentence_endings.split(text)
        # Remove any empty strings resulting from the split
        split_text = [sentence.strip() for sentence in split_text if sentence.strip()]
        sentences.extend(split_text)
    
    return sentences


In [4]:
def remove_before_said(sentence):
    # Define the keyword to look for
    keyword = ": "
    
    # Find the position of the keyword
    position = sentence.find(keyword)
    
    # If the keyword is found, slice the string from the end of the keyword onwards
    if position != -1:
        return sentence[position + len(keyword):]
    else:
        return sentence  # If the keyword is not found, return the original sentence

In [5]:
eng_data = []

In [6]:
eng_dict = {}

In [7]:
for i in range(1,19):
    eng_url = f"https://www.holy-bhagavad-gita.org/chapter/{i}/en"
    eng_html = requests.get(eng_url)
    eng_soup = BeautifulSoup(eng_html.content,'html.parser')
    eng_intro = [t.text for t in (eng_soup.find("div",attrs={'class':'chapterIntro'})).find_all('p')]
    eng_intro = split_sentences(eng_intro)
    eng_data += eng_intro

    eng_verses = [t.text for t in (eng_soup.find("div",attrs={'class':'listItems'})).find_all('p')]
    eng_verses = [i[42:] for i in eng_verses]
    eng_verses = [remove_after_last_full_stop_or_question(i) for i in eng_verses]
    eng_verses = split_sentences(eng_verses)
    eng_verses = [remove_before_said(i) for i in eng_verses]
    eng_data += eng_verses

    eng_dict[i] = {'i':len(eng_intro),'v':len(eng_verses)}

In [9]:
eng_data

['The Bhagavad Gita, or the song of God, was revealed by Lord Shree Krishna to Arjun on the threshold of the epic war of Mahabharata.',
 'A decisive battle between two sets of cousins, the Kauravas and the Pandavas, was just about to commence on the battlefield of Kurukshetra.',
 'A detailed account of the reasons that led to such a colossal war; is given under Introduction-The Setting of the Bhagavad Gita.',
 'The Bhagavad Gita is primarily a conversation between Lord Shree Krishna and Arjun.',
 'However, the first chapter begins with a dialogue between King Dhritarashtra and his minister Sanjay.',
 'Dhritarashtra being blind, could not leave his palace in Hastinapur but was eager to know the ongoings of the battlefield.',
 'Sanjay was a disciple of Sage Ved Vyas, the author of the epic Mahabharata and several other Hindu scriptures.',
 'Sage Ved Vyas possessed a mystic ability to see and hear events occurring in distant places.',
 'He had bestowed upon Sanjay the miraculous power of 

In [10]:
def HINDI_remove_after_last_full_stop_or_question(sentence):
    # Find the position of the last full stop or question mark
    position_dot = sentence.rfind('।')
    position_question = sentence.rfind('?')
    
    # Determine the position of the last occurrence of either character
    position = max(position_dot, position_question)
    
    # If either character is found, slice the string up to that position
    if position != -1:
        return sentence[:position + 1]  # Include the full stop or question mark in the result
    else:
        return sentence  # No full stop or question mark found, return the original sentence


In [11]:
def HINDI_split_sentences(texts):
    # This regular expression matches periods, question marks, and exclamation points followed by spaces, newlines, or end of string
    sentence_endings = re.compile(r'(?<=[।?])\s+')

    # Split each text into sentences and flatten the result into a single list
    sentences = []
    for text in texts:
        # Split the text into sentences
        split_text = sentence_endings.split(text)
        # Remove any empty strings resulting from the split
        split_text = [sentence.strip() for sentence in split_text if sentence.strip()]
        sentences.extend(split_text)
    
    return sentences


In [12]:
hin_data = []
hin_dict = {}

In [13]:
for i in range(1,19):
    hin_url = f"https://www.holy-bhagavad-gita.org/chapter/{i}/hi"
    hin_html = requests.get(hin_url)
    hin_soup = BeautifulSoup(hin_html.content,'html.parser')
    hin_intro = [t.text for t in (hin_soup.find("div",attrs={'class':'chapterIntro'})).find_all('p')]
    hin_intro = HINDI_split_sentences(hin_intro)
    hin_data += hin_intro

    hin_verses = [t.text for t in (hin_soup.find("div",attrs={'class':'listItems'})).find_all('p')]
    hin_verses = [i[42:] for i in hin_verses]
    hin_verses = [HINDI_remove_after_last_full_stop_or_question(i) for i in hin_verses]
    hin_verses = HINDI_split_sentences(hin_verses)
    hin_verses = [remove_before_said(i) for i in hin_verses]
    hin_data += hin_verses

    hin_dict[i] = {'i':len(hin_intro),'v':len(hin_verses)}

In [15]:
hin_data

['भगवद्गीता का उपदेश एक ही वंश के दो परिवारों के चचेरे भाइयों कौरव और पाण्डवों के मध्य हुए महाभारत के युद्ध की रणभूमि पर दिया गया।',
 "इस पुस्तक के परिचय से संबंधित प्रारम्भिक पृष्ठों में उल्लिखित 'गीता का परिवेश' खण्ड में उन घटनाओं का विस्तृत रूप से वर्णन किया गया है जिनके कारण यह महायुद्ध हुआ।",
 'भगवद्गीता का प्रकटीकरण राजा धृतराष्ट्र और उसके मंत्री संजय के बीच हुए वार्तालाप से आरम्भ होता है।',
 'चूंकि धृतराष्ट्र नेत्रहीन था इसलिए वह व्यक्तिगत रूप से युद्ध में उपस्थित नहीं हो सका।',
 'अत: संजय उसे युद्धभूमि पर घट रही घटनाओं का पूर्ण सजीव विवरण सुना रहा था।',
 'संजय महाभारत के प्रख्यात रचयिता वेदव्यास का शिष्य था।',
 'ऋषि वेदव्यास ऐसी चमत्कारिक शक्ति से संपन्न थे जिससे वह दूर-दूर तक घट रही घटनाओं को प्रत्यक्ष रूप से देखने में समर्थ थे।',
 'अपने गुरु की अनुकंपा से संजय ने भी दूरदृष्टि की दिव्य चमत्कारिक शक्ति प्राप्त की थी।',
 'इस प्रकार से वह युद्ध भूमि में घटित सभी घटनाओं को दूर से देख सका।',
 'धृतराष्ट्र ने कहाः हे संजय! कुरुक्षेत्र की पवित्र भूमि पर युद्ध करने की इच्छा से एकत्रित 

In [17]:
from googletrans import Translator
translator = Translator()

In [18]:
def translate_text(text, dest_lang):
    return translator.translate(text, dest=dest_lang).text

In [30]:
punj_data = [translate_text(i,'pa') for i in eng_data]

In [31]:
hin_data = [translate_text(i,'hi') for i in eng_data]

In [32]:
print(len(punj_data))
print(len(hin_data))

1431
1431


In [33]:
punj_data

['ਭਗਵਾਨਾ ਗੀਤਾ, ਜਾਂ ਪਰਮੇਸ਼ੁਰ ਦਾ ਗੀਤ, ਮਹਾਂਭਾਰਤ ਦੀ ਮਹਾਂਮਾਰੀ ਦੀ ਲੜਾਈ ਦੇ ਹੱਦ ਤਕ ਅਰਜੁਨ ਨੂੰ ਅਰਜੁਨ ਤੋਂ ਪਤਾ ਚੱਲਿਆ.',
 'ਚਚੇਰੇ ਭਰਾਵਾਂ ਦੇ ਦੋ ਸਮੂਹਾਂ, ਕੌਰਵਸ ਅਤੇ ਪੰਡਵਸ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਨਿਰਣਾਇਕ ਲੜਾਈ ਸਿਰਫ ਕੁਰੂਕਸ਼ੇਤਰ ਦੇ ਯੁੱਧ ਦੇ ਮੈਦਾਨ ਵਿੱਚ ਸ਼ੁਰੂ ਹੋਣ ਵਾਲੀ ਸੀ.',
 'ਇਸ ਤਰ੍ਹਾਂ ਦੇ ਕਾਰਨਾਂ ਦਾ ਕਾਰਨ ਇਹ ਹੈ ਕਿ ਅਜਿਹੀ ਭਾਰੀ ਯੁੱਧ ਲੈ ਕੇ;ਜਾਣ-ਪਛਾਣ ਅਧੀਨ ਦਿੱਤਾ ਗਿਆ ਹੈ - ਭਗਵਾਦ ਗੀਤਾ ਦੀ ਸਥਾਪਨਾ.',
 'ਭਗਵਾਨਾ ਗੀਤਾ ਮੁੱਖ ਤੌਰ ਤੇ ਪ੍ਰਭੂ ਸ਼੍ਰੀ ਕ੍ਰਿਸ਼ਨਾ ਅਤੇ ਅਰਜੁਨ ਵਿਚਕਾਰ ਗੱਲਬਾਤ ਹੈ.',
 'ਹਾਲਾਂਕਿ, ਪਹਿਲਾ ਅਧਿਆਇ ਰਾਜਾ ਧ੍ਰਿਤਾਰਸ਼ਟਰ ਅਤੇ ਉਸਦੇ ਮੰਤਰੀ ਸੰਜੇ ਦੇ ਵਿਚਕਾਰ ਗੱਲਬਾਤ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ.',
 'ਧੰਨਤਰਸ਼ੋ ਅੰਨ੍ਹਾ ਹੋ ਕੇ, ਉਸ ਦਾ ਮਹਿਲ ਹਸਟਿਨਾਪੁਰ ਵਿਚ ਨਹੀਂ ਛੱਡ ਸਕਦਾ ਪਰ ਲੜਾਈ ਦੇ ਮੈਦਾਨਾਂ ਦੀ ਪਾਲਣਾ ਨੂੰ ਜਾਣਨ ਲਈ ਉਤਸੁਕ ਸੀ.',
 'ਸੰਜੇ ਮਹਾਂਕਾਵਿ ਮਹਾਂਭਾਰਤ ਦੇ ਲੇਖਕ ਸੇਜ ਵੇਡੀ ਵਾਇਸ ਦੇ ਇੱਕ ਚੇਲੇ ਸਨ, ਜੋ ਕਿ ਹੋਰ ਹਿੰਦੂ ਸ਼ਾਸਤਰਾਂ ਦਾ ਚੇਲਾ ਸੀ.',
 'ਸੇਜ ਵੇਡੀ ਵੀਡਾਂ ਨੇ ਦੂਰ ਦੇ ਸਥਾਨਾਂ ਵਿੱਚ ਹੋਣ ਵਾਲੀਆਂ ਘਟਨਾਵਾਂ ਨੂੰ ਵੇਖਣ ਅਤੇ ਸੁਣਨ ਦੀ ਇੱਕ ਰਹੱਸਵਾਦੀ ਯੋਗਤਾ ਰੱਖੀ.',
 'ਉਸਨੇ ਸੰਜੇ ਨੂੰ ਦੂਰ ਦੀ ਨਜ਼ਰ ਦੀ ਚਮਤਕਾਰੀ ਸ਼ਕਤੀ ਦਿੱਤੀ ਸੀ.',
 'ਇਸ ਲਈ ਸੰਜੇ ਦੇਖ ਕੇ ਸੁਣ ਸਕਦੇ ਸਨ, ਜੋ ਕੁਰੂਕਸ਼ੇਤਰ ਦੇ ਲੜਾਈ ਦੇ ਮੈਦਾਨ ਵਿਚ ਫੈਲਿਆ ਹੋਇਆ ਸੀ, ਅਤੇ ਉਸ 

In [34]:
hin_data

['भगवान गीता, या भगवान के गीत, भगवान श्री कृष्ण ने महाभारत के महाकाव्य युद्ध की दहलीज पर अर्जुन को प्रकट किया था।',
 'चचेरे भाई, कौरवों और पांडवों के दो सेटों के बीच एक निर्णायक लड़ाई, कुरुक्षेत्र के युद्ध के मैदान पर शुरू होने वाली थी।',
 'उन कारणों का एक विस्तृत विवरण जो इस तरह के एक विशाल युद्ध का कारण बना;परिचय के तहत दिया गया है-भगवद गीता की स्थापना।',
 'भगवद गीता मुख्य रूप से भगवान श्री कृष्ण और अर्जुन के बीच एक बातचीत है।',
 'हालाँकि, पहला अध्याय राजा धृतराष्ट्र और उनके मंत्री संजय के बीच एक संवाद के साथ शुरू होता है।',
 'धृतराष्ट्र अंधे होने के नाते, हस्तिनापुर में अपना महल नहीं छोड़ सकता था, लेकिन युद्ध के मैदान के क्षेत्र को जानने के लिए उत्सुक था।',
 'संजय सेज वेद व्यास के शिष्य थे, जो महाकाव्य महाभारत के लेखक और कई अन्य हिंदू शास्त्र थे।',
 'ऋषि वेद व्यास के पास दूर के स्थानों में होने वाली घटनाओं को देखने और सुनने के लिए एक रहस्यवादी क्षमता थी।',
 'उन्होंने संजय को दूर की दृष्टि की चमत्कारी शक्ति प्रदान की थी।',
 'इसलिए, संजय देख और सुन सकता था, कुरुक्षेट्रा के युद्ध के मै

In [36]:
with open("punjabi.txt", "w", encoding="utf-8") as output:
    for i in punj_data:
        output.write(i+ '\n')

In [37]:
with open("hindi.txt", "w", encoding="utf-8") as output:
    for i in hin_data:
        output.write(i+ '\n')