# **News websites in Tamil - BBC Tamil**

# **Step 1: Importing Required Libraries**

In [2]:
import requests
from bs4 import BeautifulSoup
from langdetect import detect
import re
import nltk
from indicnlp.tokenize.indic_tokenize import trivial_tokenize

# Download the punkt tokenizer
#nltk.download('punkt')


# **Step 2: Web Scraping Setup and Extraction**

In [3]:
# A web scraper class to fetch and parse HTML content from a given URL
class WebScraper:
    def __init__(self, url):
        self.url = url

    def scrape(self):
        page = requests.get(self.url)
        soup = BeautifulSoup(page.text, 'html.parser')
        return soup

url = "https://www.bbc.com/tamil/articles/cdje4levdveo"
scraper = WebScraper(url)
Soup = scraper.scrape()
print(Soup.prettify())

<!DOCTYPE html>
<html class="no-js" dir="ltr" lang="ta">
 <head>
  <title data-react-helmet="true">
   Canada India: கனடா வாழ் தமிழர்களின் தற்போதைய நிலை என்ன? - BBC News தமிழ்
  </title>
  <meta content="IE=edge" data-react-helmet="true" http-equiv="X-UA-Compatible"/>
  <meta charset="utf-8" data-react-helmet="true"/>
  <meta content="noodp, noydir, max-image-preview:large" data-react-helmet="true" name="robots"/>
  <meta content="#B80000" data-react-helmet="true" name="theme-color"/>
  <meta content="width=device-width, initial-scale=1, minimum-scale=1" data-react-helmet="true" name="viewport"/>
  <meta content="BBC News தமிழ்" data-react-helmet="true" name="apple-mobile-web-app-title"/>
  <meta content="BBC News தமிழ்" data-react-helmet="true" name="application-name"/>
  <meta content="இந்தியாவுக்கும் கனடாவுக்கும் இடையிலான ராஜ்ஜீய உறவுகளில் பதற்றம் நிலவி வருகிறது. கனடிய பிரதமர் ஜஸ்டின் ட்ரூடோவின் குற்றச்சாட்டுகள் அபத்தமானவை என்று இந்தியா நிராகரித்துள்ளது. இதற்கிடையே இரு நாடுகளுக்கு இ

# **Step 3: Extracting Text from the Page**

In [4]:
# This function extracts the title, headings (h2), and paragraphs (p) from a BeautifulSoup object.
def extract_text_from_page(Soup):

    # Extracting title from the page
    title = Soup.title.text if Soup.title else ''

    # Extracting headings from the page
    headings = Soup.find_all('h2')
    heading = [heading.text for heading in headings]

   # Extracting paragraphs from the page
    paragraphs = Soup.find_all('p')
    paragraph = [paragraph.text for paragraph in paragraphs]

    return title, heading, paragraph

title, headings, paragraphs = extract_text_from_page(Soup)

# **Step 4: Printing Extracted Content(Title, headings, paragraphs)**

In [5]:
# print the title
print(f'Title : {title}')

Title : Canada India: கனடா வாழ் தமிழர்களின் தற்போதைய நிலை என்ன? - BBC News தமிழ்


In [6]:
# printing all the headings one by one
for index, heading in enumerate(headings, start=1):
    print(f"heading {index}: {heading}\n")

heading 1: இந்தியா - கனடா பதற்றம் தினசரி வாழ்வை பாதிக்கிறதா?

heading 2: சலசலப்புகளை ஏற்படுத்திய சமீபத்திய நிகழ்வுகள்

heading 3: 'கனடாவுக்கு இந்தியர்கள் முக்கியம்'

heading 4: 'அதிரடி நடவடிக்கைகள் இருக்காது'

heading 5: 'காலப்போக்கில் சீராகிவிடும்'

heading 6: தொடர்புடைய தலைப்புகள்

heading 7: முக்கிய செய்திகள்

heading 8: சிறப்புச் செய்திகள்

heading 9: அதிகம் படிக்கப்பட்டது



In [7]:
# printing all the paragraphs one by one
for index, paragraph in enumerate(paragraphs, start=1):
    print(f"Paragraph {index}: {paragraph}\n")

Paragraph 1: பட மூலாதாரம், Getty Images

Paragraph 2: இந்தியாவுக்கும் கனடாவுக்கும் இடையிலான ராஜ்ஜீய உறவுகளில் பதற்றம் நிலவி வருகிறது. இந்த மோதல் தற்காலிகமானது என்று நிபுணர்கள் கூறுகின்றனர். 

Paragraph 3: காலிஸ்தான் ஆதரவு தலைவர் படுகொலைக்கு இந்திய முகவர்கள் காரணம் என்று கனடா பிரதமர் ஜஸ்டின் ட்ரூடோ குற்றம்சாட்டும் நிலையில், இந்தக் குற்றச்சாட்டுகள் அபத்தமானவை என்றும் அரசியல் நோக்கம் கொண்டவை என்றும் இந்தியா நிராகரித்துள்ளது.

Paragraph 4: உயர்மட்ட மோதல்கள் இருந்தாலும், தங்கள் அன்றாட வாழ்க்கையில் உடனடி தாக்கத்தை உணரவில்லை என, கனடாவில் வசிக்கும் இந்தியர்கள் கூறுகின்றனர். உயர் கல்வியைத் தொடரும் மாணவர்களில் இருந்து திறன் மிக்க தொழிலாளர்கள் வரை, பெரும்பாலானவர்கள் இந்த நெருக்கடியை இரு அரசுகளுக்கு இடையிலான ஒரு விஷயமாகவே பார்க்கிறார்கள்.

Paragraph 5: "சில நிச்சயமற்ற தன்மை உள்ளது, ஆனால் நாங்கள் எந்தப் பிரச்னையையும் எதிர்கொள்ளவில்லை" என்று பிராம்ப்டனில் உள்ள பொறியாளர் முகமது இஷ்ரத் கூறுகிறார்.

Paragraph 6: கனடாவின் தொழிலாளர் மற்றும் குடியேற்ற தேவைகளில் இந்தியா முக்கியப் பங்கு வகிக்கிறது. இரு நாடு

# **Step 5: Detecting Language of the Text(Tamil)**

In [8]:
# 'ta' for Tamil
def is_target_language(text, target_language='ta'):
    return detect(text) == target_language

# Filter paragraphs based on the desired language
desired_language_paragraphs = [paragraph for paragraph in paragraphs if is_target_language(paragraph)]

# Now `desired_language_paragraphs` contains paragraphs in the specified language
desired_language_paragraphs

['பட மூலாதாரம், Getty Images',
 'இந்தியாவுக்கும் கனடாவுக்கும் இடையிலான ராஜ்ஜீய உறவுகளில் பதற்றம் நிலவி வருகிறது. இந்த மோதல் தற்காலிகமானது என்று நிபுணர்கள் கூறுகின்றனர். ',
 'காலிஸ்தான் ஆதரவு தலைவர் படுகொலைக்கு இந்திய முகவர்கள் காரணம் என்று கனடா பிரதமர் ஜஸ்டின் ட்ரூடோ குற்றம்சாட்டும் நிலையில், இந்தக் குற்றச்சாட்டுகள் அபத்தமானவை என்றும் அரசியல் நோக்கம் கொண்டவை என்றும் இந்தியா நிராகரித்துள்ளது.',
 'உயர்மட்ட மோதல்கள் இருந்தாலும், தங்கள் அன்றாட வாழ்க்கையில் உடனடி தாக்கத்தை உணரவில்லை என, கனடாவில் வசிக்கும் இந்தியர்கள் கூறுகின்றனர். உயர் கல்வியைத் தொடரும் மாணவர்களில் இருந்து திறன் மிக்க தொழிலாளர்கள் வரை, பெரும்பாலானவர்கள் இந்த நெருக்கடியை இரு அரசுகளுக்கு இடையிலான ஒரு விஷயமாகவே பார்க்கிறார்கள்.',
 '"சில நிச்சயமற்ற தன்மை உள்ளது, ஆனால் நாங்கள் எந்தப் பிரச்னையையும் எதிர்கொள்ளவில்லை" என்று பிராம்ப்டனில் உள்ள பொறியாளர் முகமது இஷ்ரத் கூறுகிறார்.',
 'கனடாவின் தொழிலாளர் மற்றும் குடியேற்ற தேவைகளில் இந்தியா முக்கியப் பங்கு வகிக்கிறது. இரு நாடுகளும் பொருளாதார ரீதியாகவும் சமூக ரீதியாகவும் நெருக்கமாக இருப்

# **Step 7: Cleaning and Normalizing Text Data**

In [9]:
def normalize_text(text_list):
    # Define a pattern to remove HTML tags
    html_pattern = re.compile(r'<.*?>')

    # Define phrases to remove (advertisements and irrelevant content)
    ads_phrases = [
        r'பட மூலாதாரம், Getty Images',
        r'© 2024 பிபிசி. வெளியார் இணைய தளங்களின் உள்ளடக்கத்துக்கு பிபிசி பொறுப்பாகாது.',
        r'(சமூக ஊடகங்களில் பிபிசி தமிழ் ஃபேஸ்புக், இன்ஸ்டாகிராம், எக்ஸ் \(டிவிட்டர்\) மற்றும் யூட்யூப் பக்கங்கள் மூலம் எங்களுடன் இணைந்திருங்கள்.)',
        r'இது, பிபிசிக்காக கலெக்டிவ் நியூஸ்ரூம் வெளியீடு',
        r'பட மூலாதாரம், IMD Website',
        r'பட மூலாதாரம், Reuters',
        r'பட மூலாதாரம், X/TP Sreenivasan',
        r'பட மூலாதாரம், X/VenuRajamony'
    ]

    # List of common Tamil stopwords
    tamil_stopwords = [
        "அது", "அவர்கள்", "அவள்", "அவை", "அவன்", "அங்கு", "அப்படி", "அப்போ", "அவனது",
        "ஆக", "ஆகவே", "ஆனால்", "ஆவது", "அட", "அதை", "அதன்", "அந்த", "அப்போது", "அருகில்",
        "அல்லது", "இது", "இவர்கள்", "இவள்", "இவை", "இவன்", "இவனது", "இங்கு", "இப்படி",
        "இப்போது", "இதில்", "இதனால்", "இதற்காக", "இந்த", "இந்தத்", "இங்கே", "இதை", "இன்னும்",
        "இன்றைக்கு", "என", "என்", "எனக்கு", "என்னை", "என்பது", "எனவே", "என்ன", "என்னும்",
        "என்னால்", "என்பதால்", "எப்போதும்", "எவனும்", "எவர்", "எவர்கள்", "எவை", "எது",
        "எதற்கு", "எதையாவது", "எதுவும்", "எந்த", "எப்படி", "எப்போது", "ஒரு", "ஏன்",
        "ஏற்கனவே", "எல்லாம்", "எல்லோரும்", "எனினும்", "மற்றும்", "மிகவும்", "நான்", "நாங்கள்",
        "நாம்", "நீ", "நீங்கள்", "உள்ள", "உள்ளது", "உள்ளன", "உள்ளது", "உதவ", "உதவிய",
        "உதவுவது", "ஏற்கனவே", "கீழ்", "மேல்", "மேலும்", "மேற்கே", "சரி", "பின்பு", "மீண்டும்",
        "அப்பொழுது"
      ]

    # Combine phrases into a single regex pattern
    ads_pattern = '|'.join(ads_phrases)

    normalized_texts = []

    for text in text_list:
        # Remove HTML tags
        clean_text = re.sub(html_pattern, '', text)

        # Remove ads or unnecessary elements
        clean_text = re.sub(ads_pattern, '', clean_text)

        # Remove specified characters and punctuation
        clean_text = re.sub(r'[-()"\[\]{}<>.,!?:;]', '', clean_text)

        # Remove extra whitespace
        clean_text = re.sub(r'\s+', ' ', clean_text).strip()

        # Tokenize the text using trivial tokenize
        tokens = trivial_tokenize(clean_text)

        # Remove stopwords
        filtered_tokens = [word for word in tokens if word not in tamil_stopwords]

        # Join tokens back into a single string
        normalized_text = ' '.join(filtered_tokens)

        # Append normalized text to the list
        normalized_texts.append(clean_text)

    return normalized_texts

# **Step 8: Finalizing the Normalized Text**

In [10]:
# Normalize the text
normalized_texts = normalize_text(desired_language_paragraphs)

# Print the normalized texts with an index
for index, normalized_text in enumerate(normalized_texts, start=1):
    if normalized_text:
        print(f"paragraph {index}: {normalized_text}\n")

paragraph 2: இந்தியாவுக்கும் கனடாவுக்கும் இடையிலான ராஜ்ஜீய உறவுகளில் பதற்றம் நிலவி வருகிறது இந்த மோதல் தற்காலிகமானது என்று நிபுணர்கள் கூறுகின்றனர்

paragraph 3: காலிஸ்தான் ஆதரவு தலைவர் படுகொலைக்கு இந்திய முகவர்கள் காரணம் என்று கனடா பிரதமர் ஜஸ்டின் ட்ரூடோ குற்றம்சாட்டும் நிலையில் இந்தக் குற்றச்சாட்டுகள் அபத்தமானவை என்றும் அரசியல் நோக்கம் கொண்டவை என்றும் இந்தியா நிராகரித்துள்ளது

paragraph 4: உயர்மட்ட மோதல்கள் இருந்தாலும் தங்கள் அன்றாட வாழ்க்கையில் உடனடி தாக்கத்தை உணரவில்லை என கனடாவில் வசிக்கும் இந்தியர்கள் கூறுகின்றனர் உயர் கல்வியைத் தொடரும் மாணவர்களில் இருந்து திறன் மிக்க தொழிலாளர்கள் வரை பெரும்பாலானவர்கள் இந்த நெருக்கடியை இரு அரசுகளுக்கு இடையிலான ஒரு விஷயமாகவே பார்க்கிறார்கள்

paragraph 5: சில நிச்சயமற்ற தன்மை உள்ளது ஆனால் நாங்கள் எந்தப் பிரச்னையையும் எதிர்கொள்ளவில்லை என்று பிராம்ப்டனில் உள்ள பொறியாளர் முகமது இஷ்ரத் கூறுகிறார்

paragraph 6: கனடாவின் தொழிலாளர் மற்றும் குடியேற்ற தேவைகளில் இந்தியா முக்கியப் பங்கு வகிக்கிறது இரு நாடுகளும் பொருளாதார ரீதியாகவும் சமூக ரீதியாகவும் நெருக்கமாக 