# **Blogs and Articles - Story of MBA Chai wala in Hindi**

# **Step 1: Importing Required Libraries**

In [2]:
import requests
from bs4 import BeautifulSoup
from langdetect import detect
import re
import nltk
from nltk.tokenize import word_tokenize
from indicnlp.tokenize.indic_tokenize import trivial_tokenize

# Download the punkt tokenizer
#nltk.download('punkt'

# **Step 2: Web Scraping Setup and Extraction**

In [3]:
# A web scraper class to fetch and parse HTML content from a given URL
class WebScraper:
    def __init__(self, url):
        self.url = url

    def scrape(self):
        page = requests.get(self.url)
        soup = BeautifulSoup(page.text, 'html.parser')
        return soup

url = "https://www.hindisahityadarpan.in/2022/01/story-of-mba-chai-wala-in-hindi.html"
scraper = WebScraper(url)
Soup = scraper.scrape()
print(Soup.prettify())

<!DOCTYPE html>
<html class="v2" dir="ltr" lang="hi" xmlns="http://www.w3.org/1999/xhtml" xmlns:b="http://www.google.com/2005/gml/b" xmlns:data="http://www.google.com/2005/gml/data" xmlns:expr="http://www.google.com/2005/gml/expr">
 <!--
<head>
<link href='https://www.blogger.com/static/v1/widgets/3566091532-css_bundle_v2.css' rel='stylesheet' type='text/css'/>

-->
 <head>
  <meta content="F8F0243854756842C33D9F95EF1F9859" name="msvalidate.01"/>
  <meta content="f6962aa6ed28040bd569d9b090be8f0e" name="p:domain_verify"/>
  <!--Browser Color Meta Tags-->
  <meta content="#0000FF" name="theme-color"/>
  <meta content="yes" name="apple-mobile-web-app-capable"/>
  <meta content="#0000FF" name="apple-mobile-web-app-status-bar-style"/>
  <meta content="#0000FF" name="msapplication-navbutton-color"/>
  <!--Browser Color Meta Tags-->
  <link as="style" href="https://cdn.jsdelivr.net/gh/tiennguyenvan/cdn/fontawesome/6.2.0/css/all.min.css" onload="this.onload=null;this.rel='stylesheet'" rel="pre

# **Step 3: Extracting Text from the Page**

In [4]:
# This function extracts the title, headings (h2), and paragraphs (p) from a BeautifulSoup object.
def extract_text_from_page(Soup):

    # Extracting title from the page
    title = Soup.title.text if Soup.title else ''

   # Extracting paragraphs from the page
    paragraph = Soup.find('div', class_ ="post-body-inner")
    paragraph = paragraph.get_text() if paragraph else ''

    return title, paragraph

title, paragraph = extract_text_from_page(Soup)

# **Step 4: Printing Extracted Content(Title, paragraphs)**

In [5]:
# print the title
print(f'Title : {title.strip()}')

Title : Story of MBA chai Wala in Hindi | A Young Entrepreneur | हिंदी साहित्य मार्गदर्शन


In [6]:
# print the paragrah
paragraph

'What happens When a Young MBA Guy Drops Out College to Become A Chai Wala | A Real Story Of An Young Ahmedabadi Entrepreneur In Hindi.आज हम बात करेंगे श्री नरेंद्र मोदी जी के बाद देश के दूसरे सबसे मशहूर चाय वाले की \'प्रफुल्ल बिल्लोरे\' जिन्हें लोग MBA चाय वाला नाम से भी जानते है |२०१४ ये वह वर्ष है जिसे आप शायद लोकसभा चुनाव और सत्ता परिवर्तन के लिए याद करते हो |पर इसी साल भारत का Future Millionaire अहमदाबाद में आपने सफर की शुरु वात कर चूका था | MBA\xa0 में Admission पाने की ख्वाहिश से लेकर, MBA चाय वाला को एक ब्रांड बनाने तक, चाय वाला कहकर चिढ़ाए जाने से लेकर लाखों युवाओं की प्रेरणा बन ने तक, प्रफुल्ल बिल्लोरे की ज़िन्दगी आपने आप में पूरी काहानी है, सपनों की, संघर्षों की और सफलता की |वर्ष २०१४ अहमदाबाद:- प्रफुल्ल \' नाम का एक साधारण सा लड़का आपने साधारण से सपनों के साथ MBA Entrance Exam की तैयारी में लगा हुआ था | हर ग्रैजुएट लड़के तरह प्रफुल्ल का सपना भी किसी बड़े से MBA College में Admission लेकर एक ठीक-ठाक सी तनख्वाह और एक सामान्य सी जीवन शैली हासिल करना था | पर नियति को कुछ और ही मंजूर

# **Step 5: Detecting Language of the Text - Hindi**

In [7]:
from langdetect import detect, LangDetectException

# 'Hi' for Hindi
def is_target_language(paragraph):
    try:
        return detect(paragraph) == 'hi'
    except LangDetectException:
        return False

def filter_paragraph(paragraph):
    # Split the paragraph into words
    words = paragraph.split()

    # Filter words based on the desired language
    filtered_words = [word for word in words if is_target_language(word)]

    # Join the filtered words back into a single string
    return ' '.join(filtered_words)


# Get the filtered paragraph
desired_language_words  = filter_paragraph(paragraph)

desired_language_words

'हम करेंगे नरेंद्र जी के बाद के दूसरे सबसे मशहूर की जिन्हें लोग से भी जानते है वह है जिसे शायद और परिवर्तन के लिए करते |पर इसी भारत का अहमदाबाद में आपने सफर की कर था में की से लेकर, को बनाने तक, कहकर जाने से लेकर लाखों युवाओं की बन तक, की आपने में पूरी है, सपनों की, संघर्षों की और सफलता की अहमदाबाद:- का आपने से सपनों के साथ की में हुआ था ग्रैजुएट लड़के तरह का भी किसी बड़े से में लेकर सी और सी जीवन शैली करना था पर को कुछ और मंजूर था बस यही से शुरू चुकी थी की बनने की दिनों दिन में घंटे में लिप्त साथ बस किताबों का सवाल और की जो था बस यही था कोई दोस्त और यही सब की पूरी बन चुके थे मेहनत और दो कोशिशें इसी के साथ हज़ारों की प्यालियाँ अब पूरी तरह से टूट था की मेहनत और किसी भी पर नहीं पहुंच उस आपने कमरे का बंद किया और दिन-पूरी रहा इसी तरह अगले दो निकल गए कोई नहीं था की वह में करेगा |जब लगातार सालों तक किसी की कोशिश करें और वह आपको मिले ताब ऐसा महसूस करते है जैसा कुछ नहीं और सब ख़त्म है परंतु जीवन का अंत नहीं यही है जानने का और का की हम कर सकते है |उस भी यही किया आपने से कहा की अब वह में कभी किताबों

# **Step 7: Cleaning and Normalizing Text Data**

In [8]:
import re
from indicnlp.tokenize.indic_tokenize import trivial_tokenize

def normalize_text(paragraph):
    # Define a pattern to remove HTML tags
    html_pattern = re.compile(r'<.*?>')

    # List of common Hindi stopwords
    hindi_stop_words = [
        "है", "थे", "हो", "हैं", "मैं", "तुम", "वह", "यह", "जो", "की",
        "के", "का", "है", "से", "पर", "और", "या", "नहीं", "तो", "अगर",
        "लेकिन", "हम", "आप", "उनका", "उसका", "इन", "उन", "कुछ", "बहुत",
        "सभी", "इसी", "उस", "जब", "जहां", "कब", "फिर", "जैसे", "अपने",
        "अपना", "इसमें", "इसलिए", "नहीं", "अब", "तो", "तक", "क्या",
        "कौन", "किस", "किसका", "किसकी"
    ]

    # Remove HTML tags
    clean_text = re.sub(html_pattern, '', paragraph)

    # Remove specified characters and punctuation
    clean_text = re.sub(r'[-()"\[\]{}<>.,!?:;]', '', clean_text)

    # Remove extra whitespace
    clean_text = re.sub(r'\s+', ' ', clean_text).strip()

    # Tokenize the text using trivial tokenize
    tokens = trivial_tokenize(clean_text)

    # Remove stopwords
    filtered_tokens = [word for word in tokens if word not in hindi_stop_words]

    # Join tokens back into a single string
    normalized_text = ' '.join(filtered_tokens)

    return normalized_text

# Normalize the paragraph
normalized_paragraph = normalize_text(desired_language_words)


# **Step 8: Finalizing the Normalized Text**

In [9]:
# Print the normalized texts
normalized_paragraph

'करेंगे नरेंद्र जी बाद दूसरे सबसे मशहूर जिन्हें लोग भी जानते जिसे शायद परिवर्तन लिए करते | भारत अहमदाबाद में आपने सफर कर था में लेकर को बनाने कहकर जाने लेकर लाखों युवाओं बन आपने में पूरी सपनों संघर्षों सफलता अहमदाबाद आपने सपनों साथ में हुआ था ग्रैजुएट लड़के तरह भी किसी बड़े में लेकर सी सी जीवन शैली करना था को मंजूर था बस यही शुरू चुकी थी बनने दिनों दिन में घंटे में लिप्त साथ बस किताबों सवाल था बस यही था कोई दोस्त यही सब पूरी बन चुके मेहनत दो कोशिशें साथ हज़ारों प्यालियाँ पूरी तरह टूट था मेहनत किसी भी पहुंच आपने कमरे बंद किया दिनपूरी रहा तरह अगले दो निकल गए कोई था में करेगा | लगातार सालों किसी कोशिश करें आपको मिले ताब ऐसा महसूस करते जैसा सब ख़त्म परंतु जीवन अंत यही जानने कर सकते | भी यही किया आपने कहा में कभी किताबों को निकल सफर सफर में में मिला था अहमदाबाद सवाल यूँ में करना भी इस सफर कई अरब पतियों पढ़ी अरब पतियों आपने जीवन में में वेटर किया था भी यही करने में वेटर उसे घंटा मिलता था यहाँ सिख रहा था को जान रहा था था लिए लेकर बनाने तरह करता रहा दिन सवाल ऐसी लोग को आवाज़ लगाकर कोई थी जान था उसे 