# **Government Portal - Chennai Nulagam**

## **Step 1: Importing Required Libraries**

In [46]:
import requests
from bs4 import BeautifulSoup
from langdetect import detect
import re
import nltk
from nltk.tokenize import word_tokenize
from indicnlp.tokenize.indic_tokenize import trivial_tokenize

# Download the punkt tokenizer
#nltk.download('punkt')

## **Step 2: Web Scraping Setup and Extraction**

In [47]:
# A web scraper class to fetch and parse HTML content from a given URL
class WebScraper:
    def __init__(self, url):
        self.url = url

    def scrape(self):
        page = requests.get(self.url)
        soup = BeautifulSoup(page.text, 'html.parser')
        return soup

url = "https://www.chennailibrary.com/siteinfo/aboutus.html"
scraper = WebScraper(url)
Soup = scraper.scrape()
print(Soup.prettify())

<!DOCTYPE html>
<html lang="ta">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, minimum-scale=1, initial-scale=1" name="viewport"/>
  <meta content="G.Chandrasekaran" name="Author"/>
  <link href="https://www.chennailibrary.com/favicon.ico" rel="shortcut icon"/>
  <style media="all">
   @font-face {
    font-family: "NotoSansTamil-Regular"; 
    src: url("https://www.chennailibrary.com/fonts/NotoSansTamil-Regular.ttf");
	font-display: swap;
  }

body {margin: 0px auto; text-align:center;font-family: 'NotoSansTamil-Regular', sans-serif; font-size: 13px; line-height:1.8; padding: 10px ;border: 0; background-color:#ffffff;}	

#stickyheader {position: fixed; top: 0;background: #ffffff; width:100%; padding-top: 0px; height:95px;  font-size: 13px; line-height:1.8; z-index:99;}

#header {position: relative; left:0px; top:105px; width:auto;height:auto; padding:0px;  background-repeat:no-repeat; overflow: visible;}

#contentlayer {position: relative;  margin-

## **Step 3: Extracting Text from the Page**

In [48]:
# This function extracts the title, headings (h2), and paragraphs (p) from a BeautifulSoup object.
def extract_text_from_page(Soup):

    # Extracting title from the page
    title = Soup.title.text if Soup.title else ''

   # Extracting paragraphs from the page
    paragraph = Soup.find('div', class_ ="f2 textjustify")
    paragraph = paragraph.text if paragraph else ''

    return title, paragraph

title, paragraph = extract_text_from_page(Soup)

## **Step 4: Printing Extracted Content(Title, paragraphs)**

In [49]:
# print the title
print(f'Title : {title.strip()}')

Title : எங்களைப் பற்றி - About us - சென்னை நூலகம் - ChennaiLibrary.com


In [50]:
# print the paragraph
paragraph

'\r\n\r\n\r\nஅன்புடையீர்!\r\n\r\n\xa0\xa0\xa0\xa0\xa02006 செப்டம்பர் 25ஆம் தேதி உதயமாகியுள்ள எமது இந்த சென்னைநூலகம் (www.chennailibrary.com) இணையதளம்  தமிழ் நூல்களை முற்றிலும் இலவசமாக வழங்குவதற்காக உருவாக்கப்பட்டுள்ளதாகும்.  முன்பு எமது சென்னைநெட்வொர்க்.காம் இணைய தளத்தின் ஒரு பகுதியாக இயங்கி வந்த தமிழ் சேவைகள் அனைத்தும் இந்த புதிய இணையதளத்திற்கு மாற்றப்பட்டுள்ளன.\r\n\r\n\xa0\xa0\xa0\xa0\xa0சென்னைநெட்வொர்க்.காம் தளத்திலிருந்து பிரித்து தமிழ் நூல்களுக்கென தனியாக இணையதளம் துவங்கவும், பின்னர் அவ்வாறு தனி இணையதளம் துவங்கிய போது அதற்கு ஏற்ற பெயரினை தேர்வு செய்யவும், இந்த தளம் செயல்படத் துவங்கியதும், அதற்கு தேவையான பல்வேறு ஆலோசனைகளைக் கூறியும், வழிநடத்தியவர் தேன்கூடு நிறுவனரும், தமிழ் ஆர்வலருமான காலஞ்சென்ற திரு சாகரன் என்னும் கல்யாண் (ஜூலை 22 1975 - பிப்ரவரி 11 2007) ஆவார். இந்த தளம் அவர் விருப்பம் போல் ஆல் போல் பெருகி வளர்ந்துவரும் நிலையில் அதைக் கண்டு மனங்குளிர அவர் இவ்வுலகில் இல்லை என்பது நமக்கு மிகுந்த வருத்தமளிக்கும் விஷயமாகும்.\r\n\r\n\xa0\xa0\xa0\xa0\xa0இந்த தளத்தில் வெளியிடப்பட்டுள்ள 

## **Step 5: Detecting Language of the Text(Tamil)**

In [51]:
from langdetect import detect, LangDetectException

# 'ta' for Tamil
def is_target_language(paragraph):
    try:
        return detect(paragraph) == 'ta'
    except LangDetectException:
        return False

def filter_paragraph(paragraph):
    # Split the paragraph into words
    words = paragraph.split()

    # Filter words based on the desired language
    filtered_words = [word for word in words if is_target_language(word)]

    # Join the filtered words back into a single string
    return ' '.join(filtered_words)


# Get the filtered paragraph
desired_language_words  = filter_paragraph(paragraph)

desired_language_words

'அன்புடையீர்! செப்டம்பர் 25ஆம் தேதி உதயமாகியுள்ள எமது இந்த சென்னைநூலகம் இணையதளம் தமிழ் நூல்களை முற்றிலும் இலவசமாக வழங்குவதற்காக உருவாக்கப்பட்டுள்ளதாகும். முன்பு எமது சென்னைநெட்வொர்க்.காம் இணைய தளத்தின் ஒரு பகுதியாக இயங்கி வந்த தமிழ் சேவைகள் அனைத்தும் இந்த புதிய இணையதளத்திற்கு மாற்றப்பட்டுள்ளன. சென்னைநெட்வொர்க்.காம் தளத்திலிருந்து பிரித்து தமிழ் நூல்களுக்கென தனியாக இணையதளம் துவங்கவும், பின்னர் அவ்வாறு தனி இணையதளம் துவங்கிய போது அதற்கு ஏற்ற பெயரினை தேர்வு செய்யவும், இந்த தளம் செயல்படத் துவங்கியதும், அதற்கு தேவையான பல்வேறு ஆலோசனைகளைக் கூறியும், வழிநடத்தியவர் தேன்கூடு நிறுவனரும், தமிழ் ஆர்வலருமான காலஞ்சென்ற திரு சாகரன் என்னும் கல்யாண் (ஜூலை பிப்ரவரி ஆவார். இந்த தளம் அவர் விருப்பம் போல் ஆல் போல் பெருகி வளர்ந்துவரும் நிலையில் அதைக் கண்டு மனங்குளிர அவர் இவ்வுலகில் இல்லை என்பது நமக்கு மிகுந்த வருத்தமளிக்கும் விஷயமாகும். இந்த தளத்தில் வெளியிடப்பட்டுள்ள நூல்கள் அனைத்தும் என்னுடைய தனிமனித ஆர்வத்தின் பேரிலும் உழைப்பின் பேரிலும் வெளியிடப்பட்டவையே ஆகும். அக்டோபர் 1ஆம் தேதி முதல் சென்னைநெட்வொர்க்.காம

## **Step 7: Cleaning and Normalizing Text Data**

In [52]:
import re
from indicnlp.tokenize.indic_tokenize import trivial_tokenize

def normalize_text(paragraph):
    # Define a pattern to remove HTML tags
    html_pattern = re.compile(r'<.*?>')

    # List of common Tamil stopwords
    tamil_stopwords = [
        "அது", "அவர்கள்", "அவள்", "அவை", "அவன்", "அங்கு", "அப்படி", "அப்போ", "அவனது",
        "ஆக", "ஆகவே", "ஆனால்", "ஆவது", "அட", "அதை", "அதன்", "அந்த", "அப்போது", "அருகில்",
        "அல்லது", "இது", "இவர்கள்", "இவள்", "இவை", "இவன்", "இவனது", "இங்கு", "இப்படி",
        "இப்போது", "இதில்", "இதனால்", "இதற்காக", "இந்த", "இந்தத்", "இங்கே", "இதை", "இன்னும்",
        "இன்றைக்கு", "என", "என்", "எனக்கு", "என்னை", "என்பது", "எனவே", "என்ன", "என்னும்",
        "என்னால்", "என்பதால்", "எப்போதும்", "எவனும்", "எவர்", "எவர்கள்", "எவை", "எது",
        "எதற்கு", "எதையாவது", "எதுவும்", "எந்த", "எப்படி", "எப்போது", "ஒரு", "ஏன்",
        "ஏற்கனவே", "எல்லாம்", "எல்லோரும்", "எனினும்", "மற்றும்", "மிகவும்", "நான்", "நாங்கள்",
        "நாம்", "நீ", "நீங்கள்", "உள்ள", "உள்ளது", "உள்ளன", "உள்ளது", "உதவ", "உதவிய",
        "உதவுவது", "ஏற்கனவே", "கீழ்", "மேல்", "மேலும்", "மேற்கே", "சரி", "பின்பு", "மீண்டும்",
        "அப்பொழுது"
      ]

    # Remove HTML tags
    clean_text = re.sub(html_pattern, '', paragraph)

    # Remove specified characters and punctuation
    clean_text = re.sub(r'[-()"\[\]{}<>.,!?:;]', '', clean_text)

    # Remove extra whitespace
    clean_text = re.sub(r'\s+', ' ', clean_text).strip()

    # Tokenize the text using trivial tokenize
    tokens = trivial_tokenize(clean_text)

    # Remove stopwords
    filtered_tokens = [word for word in tokens if word not in tamil_stopwords]

    # Join tokens back into a single string
    normalized_text = ' '.join(filtered_tokens)

    return normalized_text

# Normalize the paragraph
normalized_paragraph = normalize_text(desired_language_words)

## **Step 8: Finalizing the Normalized Text**

In [53]:
# Print the normalized texts
normalized_paragraph

'அன்புடையீர் செப்டம்பர் 25ஆம் தேதி உதயமாகியுள்ள எமது சென்னைநூலகம் இணையதளம் தமிழ் நூல்களை முற்றிலும் இலவசமாக வழங்குவதற்காக உருவாக்கப்பட்டுள்ளதாகும் முன்பு எமது சென்னைநெட்வொர்க்காம் இணைய தளத்தின் பகுதியாக இயங்கி வந்த தமிழ் சேவைகள் அனைத்தும் புதிய இணையதளத்திற்கு மாற்றப்பட்டுள்ளன சென்னைநெட்வொர்க்காம் தளத்திலிருந்து பிரித்து தமிழ் நூல்களுக்கென தனியாக இணையதளம் துவங்கவும் பின்னர் அவ்வாறு தனி இணையதளம் துவங்கிய போது அதற்கு ஏற்ற பெயரினை தேர்வு செய்யவும் தளம் செயல்படத் துவங்கியதும் அதற்கு தேவையான பல்வேறு ஆலோசனைகளைக் கூறியும் வழிநடத்தியவர் தேன்கூடு நிறுவனரும் தமிழ் ஆர்வலருமான காலஞ்சென்ற திரு சாகரன் கல்யாண் ஜூலை பிப்ரவரி ஆவார் தளம் அவர் விருப்பம் போல் ஆல் போல் பெருகி வளர்ந்துவரும் நிலையில் அதைக் கண்டு மனங்குளிர அவர் இவ்வுலகில் இல்லை நமக்கு மிகுந்த வருத்தமளிக்கும் விஷயமாகும் தளத்தில் வெளியிடப்பட்டுள்ள நூல்கள் அனைத்தும் என்னுடைய தனிமனித ஆர்வத்தின் பேரிலும் உழைப்பின் பேரிலும் வெளியிடப்பட்டவையே ஆகும் அக்டோபர் 1ஆம் தேதி முதல் சென்னைநெட்வொர்க்காம் இணையதளத்தின் இயங்கி வந்த சென்னைநூலகம்காம் உள்ளிட்ட எமது அ