In [27]:
import requests
from bs4 import BeautifulSoup
from googlesearch import search
import pdfplumber
from IPython.display import display
import ipywidgets as widgets
from selenium import webdriver
import webbrowser
from IPython.display import clear_output

In [2]:
class ScrapeData():
    """
    Python tool to scrap text data from different languages. 3 options available:
    
    - scrape from link: provided with a link, the tool scrapes through the text body from the webpage 
      corresponding to the link.
      
    - scrape from keyword: provided with a keyword, the tool performs a google search and retrieves text from 
      a priority domain webpage(eg: wikipedia) or top google search result.
      
    - scrape from document: provided with a pdf document, the tools accesses the text using pdfplumber 
      python package. Note that some portion of the text may not be returned properly.
    """
    
    def __init__(self):
        """
        Initialise parameters for google search and priority website 
        """
        
        self.parser = 'html.parser'
        self.tld = 'co.in'
        self.search_num = 10
        self.search_stop = 10
        self.pause = 2
        self.search_priority = 'wikipedia'
        self.auto_return_index = 0
    
    def read_from_link(self, link, replace_list=['\n']):
        """
        This function accesses the text content from a webpage link using beautiful soup. To clean the text, 
        provide the list of charecters to be removed in replace_list.
        """
        page = requests.get(link)
        soup = BeautifulSoup(page.content, self.parser)
        data = []
        for i in range(len(soup.find_all('p'))):
            text = soup.find_all('p')[i].get_text()
            for j in range(len(replace_list)):
                text = text.replace(replace_list[j],'')
            if len(text)>0:
                data.append(text)
        return data
    
    def google_search(self, search_keyword, priority=None):
        """
        This function performs google search on the input keyword. Priority can be provided to a particular 
        website (Eg: wikipedia) 
        """
        search_links = []
        for link in search(search_keyword, 
                           tld=self.tld, 
                           num=self.search_num, 
                           stop=self.search_stop, 
                           pause=self.pause):
            search_links.append(link)
            
            if priority is not None:
                if self.search_priority in link:
                    return link
        return search_links[self.auto_return_index]
                
    
    def read_from_doc(self, document):
        """
        This function extracts text from pdf using pdfplumber tool.
        """
        data = []
        with pdfplumber.open(document) as pdf:
            for i in range(len(pdf.pages)):
                page = pdf.pages[i]
                text = page.extract_text()
                if text is not None:
                    text = text.replace('\n', ' ')
                    data.append(text) 
        return data
    
    def read_page(self, search_keyword=None, link=None, document=None):
        if search_keyword == link == document == None:
            raise Exception('Provide link, keyword or document to scrape from')
            
        if search_keyword is not None:
            keyword_link = self.google_search(search_keyword, priority=self.search_priority)
            text = self.read_from_link(keyword_link)
            return(text)
            
        if link:
            text = self.read_from_link(link)
            return(text)
                
        if document:
            text = self.read_from_doc(document)
            print(f'{len(text)} pages found')
            return(text)
            
scrape_tool = ScrapeData()

<b>Read from list of links with gui</b>

In [74]:
links = ['https://en.wikipedia.org/wiki/Agriculture', 'https://www.bbc.com/hindi/india-56901831',
        'https://en.wikipedia.org/wiki/Main_Page']
nextButton = widgets.Button(description = 'Next')
approve = widgets.Button(description = 'approve')
reject = widgets.Button(description = 'reject')
output = widgets.Output()

# display(nextButton, output)
# display(approve, output)
# display(reject, output)
display(widgets.HBox((nextButton, approve,reject )), output)
class Args():
    def __init__(self):
        self.linkIdx = 0
        self.approvedList = []
        self.defaultColor  = '#EEEEEE'
        self.approvedColor = 'lightgreen'
        self.rejectedColor = '#ECC020'
def on_button_clicked_approve(b):
    with output:
        approve.style.button_color = args.approvedColor
        reject.style.button_color = args.defaultColor
        if len(args.approvedList) != args.linkIdx:
            args.approvedList.append(True)
        else:
            args.approvedList[args.linkIdx-1] = True
            
def on_button_clicked_reject(b):
    with output:
        approve.style.button_color = args.defaultColor
        reject.style.button_color = args.rejectedColor
        if len(args.approvedList) != args.linkIdx:
            args.approvedList.append(False)
        else:
            args.approvedList[args.linkIdx-1] = False
            
def on_button_clicked(b):
    with output:
        reject.style.button_color = args.defaultColor
        approve.style.button_color = args.defaultColor
        print('Extracting..')
#         text = scrape_tool.read_page(links[args.linkIdx])
        clear_output()
#         print(text)
#         webbrowser.open(links[args.linkIdx])
        args.linkIdx += 1
        print(args.approvedList)
args = Args()
approve.on_click(on_button_clicked_approve)
reject.on_click(on_button_clicked_reject)
nextButton.on_click(on_button_clicked)

HBox(children=(Button(description='Next', style=ButtonStyle()), Button(description='approve', style=ButtonStyl…

Output()

<b>Read from english website</b>

In [3]:
scrape_tool.read_page(link='https://en.wikipedia.org/wiki/Agriculture')

['Agriculture is the practice of cultivating plants and livestock.[1] Agriculture was the key development in the rise of sedentary human civilization, whereby farming of domesticated species created food surpluses that enabled people to live in cities. The history of agriculture began thousands of years ago. After gathering wild grains beginning at least 105,000 years ago, nascent farmers began to plant them around 11,500 years ago. Pigs, sheep, and cattle were domesticated over 10,000 years ago. Plants were independently cultivated in at least 11 regions of the world. Industrial agriculture based on large-scale monoculture in the twentieth century came to dominate agricultural output, though about 2\xa0billion people still depended on subsistence agriculture.',
 'Modern agronomy, plant breeding, agrochemicals such as pesticides and fertilizers, and technological developments have sharply increased crop yields, while causing widespread ecological and environmental damage. Selective bre

<b>Read from english keyword</b>

In [4]:
scrape_tool.read_page(search_keyword='agriculture')

['Agriculture is the science, art and practice of cultivating plants and livestock.[1] Agriculture was the key development in the rise of sedentary human civilization, whereby farming of domesticated species created food surpluses that enabled people to live in cities. The history of agriculture began thousands of years ago. After gathering wild grains beginning at least 105,000 years ago, nascent farmers began to plant them around 11,500 years ago. Pigs, sheep, and cattle were domesticated over 10,000 years ago. Plants were independently cultivated in at least 11 regions of the world. Industrial agriculture based on large-scale monoculture in the twentieth century came to dominate agricultural output, though about 2\xa0billion people still depended on subsistence agriculture.',
 'Modern agronomy, plant breeding, agrochemicals such as pesticides and fertilizers, and technological developments have sharply increased crop yields, while causing widespread ecological and environmental dama

<b>Read from english pdf document</b>

In [None]:
scrape_tool.read_page(document='document_name.pdf')

<b>Read from hindi webpage</b>

In [6]:
# scrape_tool.read_page(link="https://hi.wikipedia.org/wiki/%E0%A4%95%E0%A5%83%E0%A4%B7%E0%A4%BF")
scrape_tool.read_page(link="https://www.bbc.com/hindi/india-56901831")

['इमेज स्रोत, AFP',
 '"मैंने इस तरह के डरावने हालात इससे पहले कभी नहीं देखे थे. मुझे तो यक़ीन भी नहीं हो रहा है कि हमलोग भारत की राजधानी में हैं." यह कहना था जयंत मल्होत्रा का.',
 'उन्होंने बीबीसी से बात करते हुए कहा, "लोगों को ऑक्सीजन नहीं मिल रही है और वो जानवरों की तरह मर रहे हैं.\'\'',
 'कोरोना वायरस के लक्षण क्या हैं और कैसे कर सकते हैं बचाव',
 'कोरोना वैक्सीन: वो बातें जो आपको जाननी चाहिए',
 'जयंत मल्होत्रा दिल्ली के एक श्मशान घाट में लोगों के अंतिम संस्कार में मदद करते हैं. दिल्ली के क़रीब-क़रीब सारे अस्पताल कोरोना मरीज़ों की रोज़ बढ़ती तादाद से जूझ रहे हैं. ',
 'समाप्त',
 'सोमवार को भारत में लगातार पाँचवे दिन भी तीन लाख से ज़्यादा नए मामले सामने आए हैं. इस समय दुनिया में सबसे ज़्यादा मामले रोज़ाना भारत में आ रहे हैं.',
 'हालंकि मंगलवार को कोरोना संक्रमितों की संख्या में क़रीब 30 हज़ार की कमी देखी गई.',
 'पिछले दो हफ़्ते में भारत में कोरोना संक्रमितों की संख्या में अप्रत्याशित उछाल देखी जा रही है वहीं चीन, अमेरिका और यूरोप के कई देशों में इस दौरान कोरोना से मरने वालों की संख्या 

<b>Read from hindi document</b>

In [7]:
scrape_tool.read_page(document='RedRidingHood-H-2mb.pdf')

18 pages found


['  येड याइडडगॊ  हड ु सी. योज़ा, हहदॊ ी : विदषू क   ',
 '  येड याइडडगॊ  हड ु सी. योज़ा, हहदॊ ी : विदषू क   ',
 'ककसी ज़भाने भें एक फड़ी प्मायी रड़की  यहती थी. उसे अऩनी नानी के  घय जाना फेहद  ऩसॊद था. एक हदन नानी ने उसे एक फड़ी  खास बेंट दी.  ',
 'नानी ने उसके  लरए एक रार  यॊग का ऊनी चोगा लसरा जजसभें  लसय ढॊकने के  लरए एक टोऩी बी  थी.   उसे िो ड्रसे  फहुत ऩसॊद आई.   िो अफ जहाॉ बी जाती उस रार ड्रसे  को ऩहनकय जाती.  ',
 'उसे िो ड्रसे  इतनी ऩसॊद आई, कक िो सोते  सभम बी उसे नहीॊ उतायती थी. कपय रोगों ने  उसे येड याइडडगॊ  हुड फरु ाना शरूु  कय हदमा.  ',
 'एक हदन येड याइडडगॊ  हुड की भाॉ ने उससे कहा,  “देखो तुम्हायी नानी की तबफमत कु छ ख़याफ है.”  येड याइडडगॊ  हुड ने तुयॊत नानी के  ऩास जाने की  अऩनी इच्छा ज़ाहहय की.   “ठीक है, जॊगर िारी ऩगडडॊ ी ऩय ही चरना.   इधय-उधय भत जाना,” भाॉ ने उसे सभझाते हुए कहा.   येड याइडडगॊ  ने भाॉ से िसै ा ही  कयने का िादा ककमा.  ',
 'कु छ देय फाद उसकी भरु ाक़ात  एक बेडड़मे से हुई.  कपय येड याइडडगॊ  हुड जॊगर की ऩगडडॊ ी ऩय कू दती हुई गई.  उसने फहुत सािधानी फयती औय ऩगडडॊ ी से इधय-उध

<b>Read from kannada webpage</b>

In [8]:
# scrape_tool.read_page(link="https://kn.wikipedia.org/wiki/%E0%B2%B8%E0%B2%BE%E0%B2%B5%E0%B2%AF%E0%B2%B5_%E0%B2%AC%E0%B3%87%E0%B2%B8%E0%B2%BE%E0%B2%AF")
scrape_tool.read_page(link="https://kannada.asianetnews.com/karnataka-districts/bjp-mla-g-somashekara-reddy-talks-lockdown-in-karnataka-grg-qs9n0r")

['ಏಪ್ರಿಲ್ 27 ರಿಂದ 14 ದಿನ ಜನತಾ ಕರ್ಫ್ಯೂ| ನಾನು ಲಾಕ್\u200cಡೌನ್\u200c ವಿರೋಧಿಯಲ್ಲ. ಆದರೆ, ಇದರಿಂದ ಬಡವರು, ಕೂಲಿಕಾರರ ಮೇಲಾಗುವ ಪರಿಣಾಮಗಳನ್ನು ಅರಿಯಬೇಕಿತ್ತು| ಸರ್ಕಾರ ಈ ಬಗ್ಗೆ ಮತ್ತೊಮ್ಮೆ ಯೋಚಿಸಬೇಕು: ಸೋಮಶೇಖರ ರೆಡ್ಡಿ| \xa0',
 'ಬಳ್ಳಾರಿ(ಏ.28): ಜನತಾ ಕರ್ಫ್ಯೂ ಹಾಗೂ ಲಾಕ್\u200cಡೌನ್\u200cನಿಂದ ಬಡವರಿಗೆ ತೀವ್ರ ಸಮಸ್ಯೆಯಾಗಲಿದೆ. ರಾಜ್ಯ ಸರ್ಕಾರ ಲಾಕ್\u200cಡೌನ್\u200c ಮಾಡುವ ಮುಂಚೆ ಯೋಚನೆ ಮಾಡಬೇಕಿತ್ತು ಎಂದು ನಗರ ಶಾಸಕ ಜಿ. ಸೋಮಶೇಖರ ರೆಡ್ಡಿ ಅಸಮಾಧಾನ ವ್ಯಕ್ತಪಡಿಸಿದ್ದಾರೆ.',
 'ಮಂಗಳವಾರ ನಗರದಲ್ಲಿ ಸುದ್ದಿಗಾರರ ಜತೆ ಮಾತನಾಡಿದ ಅವರು, ನಾನು ಲಾಕ್\u200cಡೌನ್\u200c ವಿರೋಧಿಯಲ್ಲ. ಆದರೆ, ಇದರಿಂದ ಬಡವರು, ಕೂಲಿಕಾರರ ಮೇಲಾಗುವ ಪರಿಣಾಮಗಳನ್ನು ಅರಿಯಬೇಕಿತ್ತು ಎಂದರಲ್ಲದೆ, ಸರ್ಕಾರ ಈ ಬಗ್ಗೆ ಮತ್ತೊಮ್ಮೆ ಯೋಚಿಸಬೇಕು ಎಂದರು.',
 '14 ದಿನ ಕರ್ನಾಟಕ ಲಾಕ್\u200cಡೌನ್: ಏನಿರುತ್ತೆ? ಏನಿರಲ್ಲ? ಇಲ್ಲಿದೆ ಮಾಹಿತಿ',
 'ರಾಜ್ಯದಲ್ಲಿ ಕೊರೋನಾ ಸೋಂಕು ವ್ಯಾಪಕವಾಗಿ ಹರಡುತ್ತಿರುವುದರಿಂದ ನಿನ್ನೆಯಿಂದ(ಏಪ್ರಿಲ್ 27 ರಿಂದ 14 ದಿನ ಕರ್ನಾಟಕವನ್ನು ಲಾಕ್\u200bಡೌನ್ ಮಾಡಲು ಮುಖ್ಯಮಂತ್ರಿ ಬಿ.ಎಸ್.ಯಡಿಯೂರಪ್ಪ ನಿರ್ಧಾರ ತೆಗೆದುಕೊಂಡಿದ್ದರು.\xa0\xa0',
 'Last Updated Apr 28, 2021, 2:18 PM IST',
 'ಭಾರತದಲ್ಲಿ ಆರೋಗ್ಯದ ತುರ್ತು ಪರಿಸ್ಥಿತಿ,  ಹರಿದು ಬಂತು ಅಂತಾರಾಷ್ಟ್ರೀಯ ಮಟ್ಟದ ನೆರವಿನ ಮಹ