# **The Five Great Epics of Tamil Literature.**

# **Step 1: Importing Required Libraries**

In [7]:
import requests
from bs4 import BeautifulSoup
from langdetect import detect
import re

import nltk
from nltk.tokenize import word_tokenize
from indicnlp.tokenize.indic_tokenize import trivial_tokenize

# Download the punkt tokenizer
#nltk.download('punkt')

# **Step 2: Web Scraping Setup and Extraction**

In [None]:
# A web scraper class to fetch and parse HTML content from a given URL
class WebScraper:
    def __init__(self, url):
        self.url = url

    def scrape(self):
        page = requests.get(self.url)
        soup = BeautifulSoup(page.text, 'html.parser')
        return soup

url = "https://www.tamilhistory.co.in/2020/10/five-great-epics-tamil-literature-silappatikaram-manimegalai-civaka-cintamani-kundalakesi-valayapathi.html"
scraper = WebScraper(url)
Soup = scraper.scrape()
print(Soup.prettify())

# **Step 3: Extracting Text from the Page**

In [9]:
# This function extracts the title, headings (h2), and paragraphs (p) from a BeautifulSoup object.
def extract_text_from_page(Soup):

    # Extracting title from the page
    title = Soup.title.text if Soup.title else ''

    # Extracting headings from the page
    headings = Soup.find_all('b')
    heading = [heading.text for heading in headings]

   # Extracting paragraphs from the page
    paragraphs = Soup.find_all('div', class_ ="post-body post-content")
    paragraph = [paragraph.text for paragraph in paragraphs]

    return title, heading, paragraph

title, headings, paragraphs = extract_text_from_page(Soup)

# **Step 4: Printing Extracted Content(Title, paragraphs)**

In [10]:
# print the title
print(f'Title : {title.strip()}')

Title : ஐம்பெருங் காப்பியங்கள் யாவை | The Five Great Epics of Tamil Literature.


In [11]:
# print the headings
print(f'Headings : {headings}')

Headings : ['காப்பியச் சுருக்கம் சிலப்பதிகாரம்:', 'மணிமேகலை:', 'குண்டலகேசி:', 'வளையாபதி:', 'சீவக சிந்தாமணி:']


In [12]:
# print the paragraph
paragraphs

['முற்காலத்தில் தமிழில் எழுதப்பட்ட சிலப்பதிகாரம், மணிமேகலை, குண்டலகேசி, வளையாபதி, சீவக சிந்தாமணி என்னும் காப்பியங்கள் ஒருங்கே ஐம்பெருங் காப்பியங்கள் என அறியப்படுகின்றன. இவற்றுள் சிலப்பதிகாரமும் மணிமேகலையும் சங்கம் மருவிய காலத்தில் தோன்றியவை. ஏனையவை சோழர் காலத்தில் தோன்றியவையாகும்.இவ் ஐந்தனுள் சிறப்புத் தகுதி வாய்ந்தவை சிலப்பதிகாரமும், மணிமேகலையும் ஆகும். இவை இரண்டையும் இரட்டைக் காப்பியங்கள் என்று குறிப்பிடுவார்கள். இவ்விரண்டும் கதை நிகழ்ச்சியில் ஒன்றுடன் ஒன்று தொடர்புடையவை. மேலும் சமகாலத்தில் தோன்றியவை. ஏனையவை சோழர் காலத்தில் தோன்றியவையாகும்.அணிகலப் பெயர்கள்இந்த நூலின் பெயர்கள் அணிகலன்களின் பெயரால் அமைந்துள்ளன.சிலப்பதிகாரம்:சிலம்பு என்பது மகளிர் அணியும் காலணி – கண்ணகியின் சிலம்பால் அதிகரித்த வரலாறுமணிமேகலை:ஆடை நழுவாமலிருக்க மகளிர் இடுப்பில் அணியும் அணி – இத்தொடர் அன்மொழித்தொகையாக அதனை அணிந்த பெண்ணை உணர்த்தும். இந்தப் பெயர் இடப்பட்ட பெண்ணின் வரலாறு.குண்டலகேசி:குண்டலம் என்பது மகளிர் அணியும் காதுவளையம். – குண்டலமும் கூந்தல் அழகும் கொண்டவள் குண்டலகேசி – குண்டலகேசி என்பவளின் வரலாறு கூறும் ந

# **Step 5: Detecting Language of the Text(Tamil)**

In [13]:
# 'ta' for Tamil
def is_target_language(text, target_language='ta'):
    return detect(text) == target_language

# Filter paragraphs based on the desired language
desired_language_paragraphs = [paragraph for paragraph in paragraphs if is_target_language(paragraph)]

# Now `desired_language_paragraphs` contains paragraphs in the specified language
desired_language_paragraphs

['முற்காலத்தில் தமிழில் எழுதப்பட்ட சிலப்பதிகாரம், மணிமேகலை, குண்டலகேசி, வளையாபதி, சீவக சிந்தாமணி என்னும் காப்பியங்கள் ஒருங்கே ஐம்பெருங் காப்பியங்கள் என அறியப்படுகின்றன. இவற்றுள் சிலப்பதிகாரமும் மணிமேகலையும் சங்கம் மருவிய காலத்தில் தோன்றியவை. ஏனையவை சோழர் காலத்தில் தோன்றியவையாகும்.இவ் ஐந்தனுள் சிறப்புத் தகுதி வாய்ந்தவை சிலப்பதிகாரமும், மணிமேகலையும் ஆகும். இவை இரண்டையும் இரட்டைக் காப்பியங்கள் என்று குறிப்பிடுவார்கள். இவ்விரண்டும் கதை நிகழ்ச்சியில் ஒன்றுடன் ஒன்று தொடர்புடையவை. மேலும் சமகாலத்தில் தோன்றியவை. ஏனையவை சோழர் காலத்தில் தோன்றியவையாகும்.அணிகலப் பெயர்கள்இந்த நூலின் பெயர்கள் அணிகலன்களின் பெயரால் அமைந்துள்ளன.சிலப்பதிகாரம்:சிலம்பு என்பது மகளிர் அணியும் காலணி – கண்ணகியின் சிலம்பால் அதிகரித்த வரலாறுமணிமேகலை:ஆடை நழுவாமலிருக்க மகளிர் இடுப்பில் அணியும் அணி – இத்தொடர் அன்மொழித்தொகையாக அதனை அணிந்த பெண்ணை உணர்த்தும். இந்தப் பெயர் இடப்பட்ட பெண்ணின் வரலாறு.குண்டலகேசி:குண்டலம் என்பது மகளிர் அணியும் காதுவளையம். – குண்டலமும் கூந்தல் அழகும் கொண்டவள் குண்டலகேசி – குண்டலகேசி என்பவளின் வரலாறு கூறும் ந

# **Step 7: Cleaning and Normalizing Text Data**

In [14]:
def normalize_text(text_list):
    # Define a pattern to remove HTML tags
    html_pattern = re.compile(r'<.*?>')

    # List of common Tamil stopwords
    tamil_stopwords = [
        "அது", "அவர்கள்", "அவள்", "அவை", "அவன்", "அங்கு", "அப்படி", "அப்போ", "அவனது",
        "ஆக", "ஆகவே", "ஆனால்", "ஆவது", "அட", "அதை", "அதன்", "அந்த", "அப்போது", "அருகில்",
        "அல்லது", "இது", "இவர்கள்", "இவள்", "இவை", "இவன்", "இவனது", "இங்கு", "இப்படி",
        "இப்போது", "இதில்", "இதனால்", "இதற்காக", "இந்த", "இந்தத்", "இங்கே", "இதை", "இன்னும்",
        "இன்றைக்கு", "என", "என்", "எனக்கு", "என்னை", "என்பது", "எனவே", "என்ன", "என்னும்",
        "என்னால்", "என்பதால்", "எப்போதும்", "எவனும்", "எவர்", "எவர்கள்", "எவை", "எது",
        "எதற்கு", "எதையாவது", "எதுவும்", "எந்த", "எப்படி", "எப்போது", "ஒரு", "ஏன்",
        "ஏற்கனவே", "எல்லாம்", "எல்லோரும்", "எனினும்", "மற்றும்", "மிகவும்", "நான்", "நாங்கள்",
        "நாம்", "நீ", "நீங்கள்", "உள்ள", "உள்ளது", "உள்ளன", "உள்ளது", "உதவ", "உதவிய",
        "உதவுவது", "ஏற்கனவே", "கீழ்", "மேல்", "மேலும்", "மேற்கே", "சரி", "பின்பு", "மீண்டும்",
        "அப்பொழுது"
      ]
    normalized_texts = []

    for text in text_list:
        # Remove HTML tags
        clean_text = re.sub(html_pattern, '', text)

        # Remove specified characters and punctuation
        clean_text = re.sub(r'[-()"\[\]{}<>.,!?:;]', '', clean_text)

        # Remove extra whitespace
        clean_text = re.sub(r'\s+', ' ', clean_text).strip()

        # Tokenize the text using trivial tokenize
        tokens = trivial_tokenize(clean_text)

        # Remove stopwords
        filtered_tokens = [word for word in tokens if word not in tamil_stopwords]

        # Join tokens back into a single string
        normalized_text = ' '.join(filtered_tokens)

        # Append normalized text to the list
        normalized_texts.append(clean_text)

    return normalized_texts


# Normalize the text
normalized_texts = normalize_text(desired_language_paragraphs)

# **Step 8: Finalizing the Normalized Text**

In [15]:
# Print the normalized texts
normalized_texts

['முற்காலத்தில் தமிழில் எழுதப்பட்ட சிலப்பதிகாரம் மணிமேகலை குண்டலகேசி வளையாபதி சீவக சிந்தாமணி என்னும் காப்பியங்கள் ஒருங்கே ஐம்பெருங் காப்பியங்கள் என அறியப்படுகின்றன இவற்றுள் சிலப்பதிகாரமும் மணிமேகலையும் சங்கம் மருவிய காலத்தில் தோன்றியவை ஏனையவை சோழர் காலத்தில் தோன்றியவையாகும்இவ் ஐந்தனுள் சிறப்புத் தகுதி வாய்ந்தவை சிலப்பதிகாரமும் மணிமேகலையும் ஆகும் இவை இரண்டையும் இரட்டைக் காப்பியங்கள் என்று குறிப்பிடுவார்கள் இவ்விரண்டும் கதை நிகழ்ச்சியில் ஒன்றுடன் ஒன்று தொடர்புடையவை மேலும் சமகாலத்தில் தோன்றியவை ஏனையவை சோழர் காலத்தில் தோன்றியவையாகும்அணிகலப் பெயர்கள்இந்த நூலின் பெயர்கள் அணிகலன்களின் பெயரால் அமைந்துள்ளனசிலப்பதிகாரம்சிலம்பு என்பது மகளிர் அணியும் காலணி – கண்ணகியின் சிலம்பால் அதிகரித்த வரலாறுமணிமேகலைஆடை நழுவாமலிருக்க மகளிர் இடுப்பில் அணியும் அணி – இத்தொடர் அன்மொழித்தொகையாக அதனை அணிந்த பெண்ணை உணர்த்தும் இந்தப் பெயர் இடப்பட்ட பெண்ணின் வரலாறுகுண்டலகேசிகுண்டலம் என்பது மகளிர் அணியும் காதுவளையம் – குண்டலமும் கூந்தல் அழகும் கொண்டவள் குண்டலகேசி – குண்டலகேசி என்பவளின் வரலாறு கூறும் நூல்வளையாபதிவளையல் அண