# **Wikipedia in Kannada**

# **Step 1: Importing Required Libraries**

In [3]:
import requests
from bs4 import BeautifulSoup
from langdetect import detect
import re

import nltk
from indicnlp.tokenize.indic_tokenize import trivial_tokenize

# Download the punkt tokenizer
#nltk.download('punkt')

# **Step 2: Web Scraping Setup and Extraction**

In [4]:
# A web scraper class to fetch and parse HTML content from a given URL
class WebScraper:
    def __init__(self, url):
        self.url = url

    def scrape(self):
        page = requests.get(self.url)
        soup = BeautifulSoup(page.text, 'html.parser')
        return soup

url = "https://kn.wikipedia.org/wiki/%E0%B2%AE%E0%B3%81%E0%B2%96%E0%B3%8D%E0%B2%AF_%E0%B2%AA%E0%B3%81%E0%B2%9F"
scraper = WebScraper(url)
Soup = scraper.scrape()
print(Soup.prettify())

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-disabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-disabled skin-theme-clientpref-day vector-toc-not-available" dir="ltr" lang="kn">
 <head>
  <meta charset="utf-8"/>
  <title>
   ವಿಕಿಪೀಡಿಯ
  </title>
  <script>
   (function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 v

# **Step 3: Extracting Text from the Page**

In [5]:
# This function extracts the title, headings (h2), and paragraphs (p) from a BeautifulSoup object.
def extract_text_from_page(Soup):

    # Extracting title from the page
    title = Soup.title.text if Soup.title else ''

    # Extracting headings from the page
    headings = Soup.find_all('h2')
    heading = [heading.text for heading in headings]

   # Extracting paragraphs from the page
    paragraph = Soup.find('div', id="mp-upper")
    paragraph = paragraph.get_text() if paragraph else ''

    return title, heading, paragraph

title, headings, paragraph = extract_text_from_page(Soup)

# **Step 4: Printing Extracted Content(Title, paragraphs)**

In [6]:
#print the title
print(f'Title : {title.strip()}')

Title : ವಿಕಿಪೀಡಿಯ


In [7]:
# printing all the paragraph one by one
paragraph

"\n\nವಿಶೇಷ ಲೇಖನ\nಕನ್ನಡ ಅಕ್ಷರಮಾಲೆ 'ಅ'\nಕನ್ನಡ ಅಕ್ಷರಮಾಲೆಯು ಬ್ರಾಹ್ಮಿ ಲಿಪಿಯಿಂದ ಬೆಳೆದು ಬಂದಿದೆ. ಇದನ್ನು ಸ್ವರಗಳು, ಅನುಸ್ವಾರ, ವಿಸರ್ಗ, ವ್ಯಂಜನಗಳು, ಅವರ್ಗೀಯ ವ್ಯಂಜನಗಳೆಂದು ವಿಭಾಗಿಸಲಾಗಿದೆ. ಕನ್ನಡ ಅಕ್ಷರಮಾಲೆಯನ್ನು ಕನ್ನಡ ವರ್ಣಮಾಲೆಯೆಂದು ಕರೆಯಲಾಗುತ್ತದೆ. ನಾವು ಮಾತನಾಡುವ ಮಾತುಗಳೆಲ್ಲ ವಾಕ್ಯ ವಾಕ್ಯಗಳಾಗಿರುತ್ತವೆ. ವಾಕ್ಯಗಳು ಪದಗಳಿಂದ ಕೂಡಿರುತ್ತವೆ. ಪದಗಳು ಅಕ್ಷರಗಳಿಂದ ಕೂಡಿರುತ್ತವೆ. ಉದಾಹರಣೆಗೆ, ನಾನು ಶಾಲೆಗೆ ಹೋಗಿ ಬರುವೆನು. ಈ ವಾಕ್ಯದಲ್ಲಿ ನಾನು, ಶಾಲೆಗೆ, ಹೋಗಿ, ಬರುವೆನು, ಹೀಗೆ ನಾಲ್ಕು ಪದಗಳಿವೆ. ಒಂದೊಂದು ಪದದಲ್ಲೂ ಹಲವು ಅಕ್ಷರಗಳಿವೆ. ನಾನು ಎಂಬ ಪದದಲ್ಲಿ ನ್+ಆ+ನ್+ಉ ಎಂಬ ಧ್ವನಿಮಾ ವ್ಯವಸ್ಥೆಯ ಬೇರೆ ಬೇರೆ ಅಕ್ಷರಗಳಿವೆ. ಹೀಗೆ ಕನ್ನಡ ಭಾಷೆಯನ್ನು ಮಾತನಾಡುವಾಗ ಬಳಸುವ ಅಕ್ಷರಗಳ ಮಾಲೆಗೆ ವರ್ಣಮಾಲೆ ಅಥವಾ ಅಕ್ಷರಮಾಲೆ ಎಂದು ಕರೆಯುತ್ತೇವೆ. \nನಮ್ಮ ಹೊಸ ಲೇಖನಗಳಿಂದ...\n\n\n\n\n\nಕನ್ನಡ ವಿಶ್ವಕೋಶದ ಸದಸ್ಯರಿಂದ ರಚಿಸಲ್ಪಟ್ಟ ಹೊಸ ಲೇಖನಗಳಿಂದ ಕೆಲವು ಸ್ವಾರಸ್ಯಕರ ಸಂಗತಿಗಳು:\n\n\nವಂಶವೃಕ್ಷ_(ಕಾದಂಬರಿ) ೧೯೬೫ರಲ್ಲಿ ಬಿಡುಗಡೆಯಾದ ಡಾ. ಎಸ್\u200c.ಎಲ್. ಭೈರಪ್ಪನವರ ಕನ್ನಡ ಕಾದಂಬರಿ. ಸಮಾಜದ ಕಟ್ಟು ಪಾಡನ್ನು ಮುರಿದು ಹೊಸ ಜೀವನಕ್ಕೆ ನಾಂದಿ ಹಾಡುವ ಸಶಕ್ತ ಪಾತ್ರಗಳಿಂದ, ಖ್ಯಾತಿ ಪಡೆದ ಕೃತಿ.\nಕಪ್ಪು ಶಿಲೀಂಧ್ರ ಮ್ಯೂಕೋರ್ಮೈಕೋಸಿಸ್ (ಕಪ್ಪು ಶಿಲೀಂದ್ರ) ಎನ್ನುವುದು ಶಿಲೀಂದ್ರಗಳಿಂದ ಉ

# **Step 5: Detecting Language of the Text(Tamil)**

In [8]:
from langdetect import detect, LangDetectException
# 'kn' for Hindi
def is_target_language(paragraph):
    try:
        return detect(paragraph) == 'kn'
    except LangDetectException:
        return False

def filter_paragraph(paragraph):
    # Split the paragraph into words
    words = paragraph.split()

    # Filter words based on the desired language
    filtered_words = [word for word in words if is_target_language(word)]

    # Join the filtered words back into a single string
    return ' '.join(filtered_words)


# Get the filtered paragraph
desired_language_words  = filter_paragraph(paragraph)

desired_language_words

"ವಿಶೇಷ ಲೇಖನ ಕನ್ನಡ ಅಕ್ಷರಮಾಲೆ 'ಅ' ಕನ್ನಡ ಅಕ್ಷರಮಾಲೆಯು ಬ್ರಾಹ್ಮಿ ಲಿಪಿಯಿಂದ ಬೆಳೆದು ಬಂದಿದೆ. ಇದನ್ನು ಸ್ವರಗಳು, ಅನುಸ್ವಾರ, ವಿಸರ್ಗ, ವ್ಯಂಜನಗಳು, ಅವರ್ಗೀಯ ವ್ಯಂಜನಗಳೆಂದು ವಿಭಾಗಿಸಲಾಗಿದೆ. ಕನ್ನಡ ಅಕ್ಷರಮಾಲೆಯನ್ನು ಕನ್ನಡ ವರ್ಣಮಾಲೆಯೆಂದು ಕರೆಯಲಾಗುತ್ತದೆ. ನಾವು ಮಾತನಾಡುವ ಮಾತುಗಳೆಲ್ಲ ವಾಕ್ಯ ವಾಕ್ಯಗಳಾಗಿರುತ್ತವೆ. ವಾಕ್ಯಗಳು ಪದಗಳಿಂದ ಕೂಡಿರುತ್ತವೆ. ಪದಗಳು ಅಕ್ಷರಗಳಿಂದ ಕೂಡಿರುತ್ತವೆ. ಉದಾಹರಣೆಗೆ, ನಾನು ಶಾಲೆಗೆ ಹೋಗಿ ಬರುವೆನು. ಈ ವಾಕ್ಯದಲ್ಲಿ ನಾನು, ಶಾಲೆಗೆ, ಹೋಗಿ, ಬರುವೆನು, ಹೀಗೆ ನಾಲ್ಕು ಪದಗಳಿವೆ. ಒಂದೊಂದು ಪದದಲ್ಲೂ ಹಲವು ಅಕ್ಷರಗಳಿವೆ. ನಾನು ಎಂಬ ಪದದಲ್ಲಿ ನ್+ಆ+ನ್+ಉ ಎಂಬ ಧ್ವನಿಮಾ ವ್ಯವಸ್ಥೆಯ ಬೇರೆ ಬೇರೆ ಅಕ್ಷರಗಳಿವೆ. ಹೀಗೆ ಕನ್ನಡ ಭಾಷೆಯನ್ನು ಮಾತನಾಡುವಾಗ ಬಳಸುವ ಅಕ್ಷರಗಳ ಮಾಲೆಗೆ ವರ್ಣಮಾಲೆ ಅಥವಾ ಅಕ್ಷರಮಾಲೆ ಎಂದು ಕರೆಯುತ್ತೇವೆ. ನಮ್ಮ ಹೊಸ ಲೇಖನಗಳಿಂದ... ಕನ್ನಡ ವಿಶ್ವಕೋಶದ ಸದಸ್ಯರಿಂದ ರಚಿಸಲ್ಪಟ್ಟ ಹೊಸ ಲೇಖನಗಳಿಂದ ಕೆಲವು ಸ್ವಾರಸ್ಯಕರ ಸಂಗತಿಗಳು: ವಂಶವೃಕ್ಷ_(ಕಾದಂಬರಿ) ೧೯೬೫ರಲ್ಲಿ ಬಿಡುಗಡೆಯಾದ ಡಾ. ಎಸ್\u200c.ಎಲ್. ಭೈರಪ್ಪನವರ ಕನ್ನಡ ಕಾದಂಬರಿ. ಸಮಾಜದ ಕಟ್ಟು ಪಾಡನ್ನು ಮುರಿದು ಹೊಸ ಜೀವನಕ್ಕೆ ನಾಂದಿ ಹಾಡುವ ಸಶಕ್ತ ಪಾತ್ರಗಳಿಂದ, ಖ್ಯಾತಿ ಪಡೆದ ಕೃತಿ. ಕಪ್ಪು ಶಿಲೀಂಧ್ರ ಮ್ಯೂಕೋರ್ಮೈಕೋಸಿಸ್ (ಕಪ್ಪು ಶಿಲೀಂದ್ರ) ಎನ್ನುವುದು ಶಿಲೀಂದ್ರಗಳಿಂದ ಉಂಟಾಗುವ ಸೋಂಕು. ಸಾಮಾನ್ಯವಾಗಿ

# **Step 7: Cleaning and Normalizing Text Data**

In [9]:
import re
from indicnlp.tokenize.indic_tokenize import trivial_tokenize

def normalize_text(paragraph):
    # Define a pattern to remove HTML tags
    html_pattern = re.compile(r'<.*?>')

    # List of common kannada stopwords
    kannada_stopwords = [
    'ಅದು', 'ಅವರ', 'ಅವನು', 'ಇದು', 'ನಾನು', 'ಅಲ್ಲಿ', 'ಅವರು', 'ಅದರ', 'ಈ', 'ನೀವು', 'ಅವಳು',
    'ಇದನ್ನು', 'ಅದೇ', 'ನಾನು', 'ನಿಮ್ಮ', 'ಅದನ್ನು', 'ಆಗ', 'ಇಲ್ಲಿ', 'ಅವನು', 'ನಾವು', 'ನೀವು',
    'ಮತ್ತು', 'ಅವರ', 'ಈದು', 'ಅವು', 'ಇದಕ್ಕೆ', 'ಅವರ', 'ಇತರ', 'ಎಲ್ಲಾ', 'ಅಲ್ಲ', 'ಅದಕ್ಕೆ',
    'ಆದರೆ', 'ಅವರನ್ನು', 'ಇನ್ನೂ', 'ಅವುಗಳನ್ನು', 'ಅವರಿಂದ', 'ಅವರನ್ನು', 'ಇಲ್ಲ', 'ಎಲ್ಲೂ', 'ನಾನು',
    'ಇನ್ನೂ', 'ಮತ್ತು', 'ಇನ್ನು', 'ಅವರಿಂದ', 'ಅವನು', 'ಇಲ್ಲ', 'ಈ', 'ಅವರು', 'ಎಲ್ಲಾ', 'ಅದರ',
    'ನೀವು', 'ಇನ್ನೂ', 'ಇವರು', 'ಅವರ', 'ನಾನು', 'ಅದನ್ನು', 'ನಾವು', 'ನಿಮ್ಮ', 'ಆಗ', 'ಮತ್ತು',
    'ಇವು', 'ಅವನು', 'ಅವರು', 'ಇವರ', 'ಅದರಿಂದ', 'ಅದೂ', 'ಅದಕ್ಕೆ', 'ಅದೇ', 'ಅವರ', 'ಇದನ್ನು',
    'ಅವರನ್ನು', 'ಅದರ', 'ಅದು', 'ಅವರು', 'ಅವು', 'ಇದು', 'ಇಲ್ಲ', 'ಅವರು', 'ಇನ್ನು', 'ಅವನ',
    'ಇದು', 'ಆಗ', 'ಅದರಿಂದ', 'ಅವರ', 'ಈದು', 'ಅವರು', 'ಅವರು', 'ನಾನು', 'ನೀವು', 'ಅದಕ್ಕೆ',
    'ಅದರ', 'ನಾನು', 'ಅದನ್ನು', 'ಆಗ', 'ಅದರಿಂದ', 'ಇವು', 'ಅವರ', 'ಇನ್ನೂ', 'ಅವರು', 'ಅದು',
    'ಇವು', 'ಅವನು', 'ಅದಕ್ಕೆ', 'ಅವರು', 'ನೀವು', 'ಅದನ್ನು', 'ಅದಕ್ಕೆ', 'ಅದರಿಂದ', 'ಅದೇ',
    'ನೀವು', 'ಆಗ', 'ಇನ್ನು', 'ಅದಕ್ಕೆ', 'ಆಗ', 'ಇಲ್ಲ', 'ಅದನ್ನು', 'ಇನ್ನು', 'ಅದಕ್ಕೆ', 'ಅವರು',
    'ಅದನ್ನು', 'ಅದರಲ್ಲಿ', 'ನೀವು', 'ಅದರಿಂದ', 'ಅದನ್ನು', 'ಇಲ್ಲ', 'ಅದನ್ನು', 'ಆಗ', 'ಅದಕ್ಕೆ',
    'ಅದು', 'ಇಲ್ಲ', 'ಅದನ್ನು', 'ಅದರ', 'ಅದರ', 'ಅದರಲ್ಲಿ', 'ಅದನ್ನು', 'ಅದು', 'ಅದರ', 'ಅವರು',
    'ಅದನ್ನು', 'ಅದರಲ್ಲಿ', 'ಅದರ', 'ಅದು', 'ಅದಕ್ಕೆ', 'ಆಗ', 'ಅದನ್ನು', 'ಅದರಲ್ಲಿ', 'ಇಲ್ಲ', 'ಅವರು'
    ]

    # Remove HTML tags
    clean_text = re.sub(html_pattern, '', paragraph)

    # Remove specified characters and punctuation
    clean_text = re.sub(r'[-()"\[\]{}<>.,!?:;]', '', clean_text)

    # Remove extra whitespace
    clean_text = re.sub(r'\s+', ' ', clean_text).strip()

    # Tokenize the text using trivial tokenize
    tokens = trivial_tokenize(clean_text)

    # Remove stopwords
    filtered_tokens = [word for word in tokens if word not in kannada_stopwords]

    # Join tokens back into a single string
    normalized_text = ' '.join(filtered_tokens)

    return normalized_text

# Normalize the paragraph
normalized_paragraph = normalize_text(desired_language_words)

# **Step 8: Finalizing the Normalized Text**

In [10]:
# Print the normalized texts with an index
normalized_paragraph

"ವಿಶೇಷ ಲೇಖನ ಕನ್ನಡ ಅಕ್ಷರಮಾಲೆ ' ಅ ' ಕನ್ನಡ ಅಕ್ಷರಮಾಲೆಯು ಬ್ರಾಹ್ಮಿ ಲಿಪಿಯಿಂದ ಬೆಳೆದು ಬಂದಿದೆ ಸ್ವರಗಳು ಅನುಸ್ವಾರ ವಿಸರ್ಗ ವ್ಯಂಜನಗಳು ಅವರ್ಗೀಯ ವ್ಯಂಜನಗಳೆಂದು ವಿಭಾಗಿಸಲಾಗಿದೆ ಕನ್ನಡ ಅಕ್ಷರಮಾಲೆಯನ್ನು ಕನ್ನಡ ವರ್ಣಮಾಲೆಯೆಂದು ಕರೆಯಲಾಗುತ್ತದೆ ಮಾತನಾಡುವ ಮಾತುಗಳೆಲ್ಲ ವಾಕ್ಯ ವಾಕ್ಯಗಳಾಗಿರುತ್ತವೆ ವಾಕ್ಯಗಳು ಪದಗಳಿಂದ ಕೂಡಿರುತ್ತವೆ ಪದಗಳು ಅಕ್ಷರಗಳಿಂದ ಕೂಡಿರುತ್ತವೆ ಉದಾಹರಣೆಗೆ ಶಾಲೆಗೆ ಹೋಗಿ ಬರುವೆನು ವಾಕ್ಯದಲ್ಲಿ ಶಾಲೆಗೆ ಹೋಗಿ ಬರುವೆನು ಹೀಗೆ ನಾಲ್ಕು ಪದಗಳಿವೆ ಒಂದೊಂದು ಪದದಲ್ಲೂ ಹಲವು ಅಕ್ಷರಗಳಿವೆ ಎಂಬ ಪದದಲ್ಲಿ ನ್ + ಆ + ನ್ + ಉ ಎಂಬ ಧ್ವನಿಮಾ ವ್ಯವಸ್ಥೆಯ ಬೇರೆ ಬೇರೆ ಅಕ್ಷರಗಳಿವೆ ಹೀಗೆ ಕನ್ನಡ ಭಾಷೆಯನ್ನು ಮಾತನಾಡುವಾಗ ಬಳಸುವ ಅಕ್ಷರಗಳ ಮಾಲೆಗೆ ವರ್ಣಮಾಲೆ ಅಥವಾ ಅಕ್ಷರಮಾಲೆ ಎಂದು ಕರೆಯುತ್ತೇವೆ ನಮ್ಮ ಹೊಸ ಲೇಖನಗಳಿಂದ ಕನ್ನಡ ವಿಶ್ವಕೋಶದ ಸದಸ್ಯರಿಂದ ರಚಿಸಲ್ಪಟ್ಟ ಹೊಸ ಲೇಖನಗಳಿಂದ ಕೆಲವು ಸ್ವಾರಸ್ಯಕರ ಸಂಗತಿಗಳು ವಂಶವೃಕ್ಷ _ ಕಾದಂಬರಿ ೧೯೬೫ರಲ್ಲಿ ಬಿಡುಗಡೆಯಾದ ಡಾ ಎಸ್\u200cಎಲ್ ಭೈರಪ್ಪನವರ ಕನ್ನಡ ಕಾದಂಬರಿ ಸಮಾಜದ ಕಟ್ಟು ಪಾಡನ್ನು ಮುರಿದು ಹೊಸ ಜೀವನಕ್ಕೆ ನಾಂದಿ ಹಾಡುವ ಸಶಕ್ತ ಪಾತ್ರಗಳಿಂದ ಖ್ಯಾತಿ ಪಡೆದ ಕೃತಿ ಕಪ್ಪು ಶಿಲೀಂಧ್ರ ಮ್ಯೂಕೋರ್ಮೈಕೋಸಿಸ್ ಕಪ್ಪು ಶಿಲೀಂದ್ರ ಎನ್ನುವುದು ಶಿಲೀಂದ್ರಗಳಿಂದ ಉಂಟಾಗುವ ಸೋಂಕು ಸಾಮಾನ್ಯವಾಗಿ ಮಣ್ಣು ಹಳೆಯ ಕಟ್ಟಡಗಳ ಮೇಲೆ ಒದ್ದೆಯಾದ ಗೋಡೆಗಳು ಇತ್ಯಾದಿಗಳಿಂದ