#### **Web Scraping**

Web Scraping deals with information retrieval, newsgathering, web monitoring, competitive marketing and more. The use of web scraping makes accessing the vast amount of information online, easy and simple. It is a faster and simpler than manually extracting data from websites.

**Key Consideration**

1.   News Portal: Considered ekantipur(https://ekantipur.com/) news portal of Nepal to scrape news
2.   Package: For parsing Web site HTML content and extracting information:
     use - beautifulsoup4
3.   HTTP GET request : use urllib3


**Import packages**

In [None]:
from bs4 import BeautifulSoup as BS
import urllib3
import pandas as pd
from datetime import datetime as dt

In [None]:
# Mount Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Change directory
import os
os.chdir("/content/drive/My Drive/Web Scraping")

Mounted at /content/drive


**Test Sample:**
<article class="normal"><div class="teaser offset"><h2><a href="/news/2023/07/25/169027791591964744.html">निर्वाचन खर्च विवरण नबुझाउने उम्मेदवारलाई आयोगले तोक्यो जरिवाना</a></h2><div class="author"><a href="https://ekantipur.com/author/author-14301">कान्तिपुर संवाददाता</a></div><p>गत वर्षको प्रतिनिधिसभा तथा प्रदेशसभा निर्वाचनमा खर्च विवरण सार्वजनिक नगर्ने उम्मेदवारहरूलाई निर्वाचन आयोगले कारबाहीको तयारी गरेको छ&nbsp;। प्रतिनिधिसभातर्फ १ हजार ३७ जना र प्रदेशसभातर्फ १ हजार ३ सय ९८ जना उम्मेदवारलाई खर्च विवरण नबुझाएको भन्दै कारबाही गर्न लागेको हो&nbsp;। </p></div><div class="image"><figure><a href="/news/2023/07/25/169027791591964744.html"><img alt="" src="https://assets-cdn-api.kantipurdaily.com/thumb.php?src=https://assets-cdn.kantipurdaily.com/uploads/source/news/kantipur/2023/third-party/election-commision-1772023012058-1000x0.jpg&amp;w=300&amp;h=0"></a></figure></div><div class="meta-links"><a style="cursor:pointer;" class="saveNewsLink" attr-newsid="9630528" onclick="saveNews('9630528',this,'2023-07-25');"><i class="icon-save"></i> संग्रह</a><a class="shareText" style="cursor:pointer;" onclick="fbShare('https://ekantipur.com/news/2023/07/25/169027791591964744.html','निर्वाचन खर्च विवरण नबुझाउने उम्मेदवारलाई आयोगले तोक्यो जरिवाना');"> <i class="icon-share"></i> सेयर</a></div></article>

'''


**Read URL’s content**

In [None]:
news_url = "https://ekantipur.com/news"

http = urllib3.PoolManager()
http.addheaders = [('User-agent', 'Mozilla/61.0')]
web_page = http.request('GET', news_url)
soup = BS(web_page.data, 'html5lib')

In [None]:
# loop through all <article class="normal"> found in the webpage

for row in soup.select(".normal"):
  # title is of h2 element
  title = row.find("h2")

  # get title text
  title_text=title.text

  # extract the href attribute of `a` of a title i.e. URL of the link
  link= news_url.split("/news")[0]+title.a.get("href")

  # description is on p element
  description = row.find("p").text
  break
link, title_text, description


('https://ekantipur.com/news/2023/07/25/169027791591964744.html',
 'निर्वाचन खर्च विवरण नबुझाउने उम्मेदवारलाई आयोगले तोक्यो जरिवाना',
 'गत वर्षको प्रतिनिधिसभा तथा प्रदेशसभा निर्वाचनमा खर्च विवरण सार्वजनिक नगर्ने उम्मेदवारहरूलाई निर्वाचन आयोगले कारबाहीको तयारी गरेको छ\xa0। प्रतिनिधिसभातर्फ १ हजार ३७ जना र प्रदेशसभातर्फ १ हजार ३ सय ९८ जना उम्मेदवारलाई खर्च विवरण नबुझाएको भन्दै कारबाही गर्न लागेको हो\xa0। ')

**Find the news content**

In [None]:
news_article = http.request('GET', link)
news_article_soup = BS(news_article.data, 'html5lib')
news_article_content=""
for content in news_article_soup.select_one(".row").findAll("p"):
  content = str(content).split(">")[1].split("<")[0]
  if len(content)==0:
    break
  else:
    news_article_content+=content

news_article_content

'काठमाडौँ — गत वर्षको प्रतिनिधिसभा तथा प्रदेशसभा निर्वाचनमा खर्च विवरण सार्वजनिक नगर्ने उम्मेदवारहरूलाई निर्वाचन आयोगले कारबाहीको तयारी गरेको छ\xa0। प्रतिनिधिसभातर्फ १ हजार ३७ जना र प्रदेशसभातर्फ १ हजार ३ सय ९८ जना उम्मेदवारलाई खर्च विवरण नबुझाएको भन्दै कारबाही गर्न लागेको हो\xa0।प्रतिनिधिसभा र प्रदेशसभातर्फ गरी जम्मा २ हजार ४ सय ३५ जनालाई आयोगले १५/१५ हजारका दरले जरिवाना तिर्न निर्देशन दिएको छ\xa0। साथै सात दिनभित्र खर्च विवरण बुझाउन पनि आयोगले निर्देशन दिएको छ\xa0।आयोगले बुधबार एक सूचना जारी गर्दै खर्च विवरण नबुझाउने उम्मेदवारहरूलाई जरिवाना तोकेको हो\xa0। यससँगै खर्च विवरण बुझाउनेहरूको पनि नामावली आयोगले सार्वजनिक गरेको छ\xa0। हालसम्म प्रतिनिधिसभाका २ हजार ३ सय ७३ जना र प्रदेशसभाका ५ हजार ५ सय ६१ जना उम्मेदवारले मात्रै खर्च विवरण बुझाएको पनि आयोगले जनाएको छ\xa0।नेपाली कांग्रेसका गगन थापा, राष्ट्रिय स्वतन्त्र पार्टीकी सोविता गौतम, माओवादी केन्द्रकी ओनसरी घर्तीसहितका सांसदहरूको नाम पनि खर्च विवरण नबुझाउनेहरूको सूचीमा छ\xa0।यस्तै आयोगले ७४ जना उम्मेदवारहरूसँग निर्वाचन आयोगले स्पष्टीकरण 

**Custom functions:**
1.  Scrap News: scrap_news_articles()
  *   This function will extract all the news into a dataframe, save the records into a .CSV file for data analysis

2. Create Database Connection:create_db_connection()
  *   This function will create a database connection to the SQLite database
      specified by the file (dbfile)

3. Create databse table and insert records:create_table_records()
  * This function establish a connection to the SQLite database using connection object,create a cursor object. Using cursor create the table and insert records

4. Save News:saved_scrap_news_articles()
  *   This function will use SQLite database engine to create a table and store the extracted news
  *   This function will require the daily news dataframe as input to update the table

5. Select records from table :select_all_records()
   *  This function will use the database connection, cursor object to fetch all the recods from the database table

In [None]:
# CF:1
def scrap_news_articles(category='news'):

    category = news_url.split("/")[-1]

    if category=='news':
        news_article_dict = {'Title': [], "URL": [], "Date":[],
                              "Content":[]}

        news_page = http.request('GET', news_url)
        news_soup = BS(news_page.data, 'html5lib')

        for row in news_soup.select(".normal"):
          # title is of h2 element
          news_article_title = row.find("h2")
          # get title text
          news_article_text=news_article_title.text
          #URL of the link
          news_article_link=news_article_title.a.get("href")

          if news_article_link.split(":")[0]!="https":

            news_article_link=news_url.split(f"/{category}")[0]+news_article_title.a.get("href")

            news_article_text=news_article_title.text

          news_article_page = http.request('GET', news_article_link)
          news_article_soup = BS(news_article_page.data, 'html5lib')

          # News Date
          news_article_date = news_article_soup.find("time").text
          # News Content
          news_article_content=""
          for content in news_article_soup.select_one(".row").findAll("p"):
            content = str(content).split(">")[1].split("<")[0]
            if len(content)==0:
              break
            else:
              news_article_content+=content

          news_article_content = news_article_content
          # append news article into the dictionary
          news_article_dict["Title"].append(news_article_text)
          news_article_dict["URL"].append(news_article_link)
          news_article_dict["Date"].append(news_article_date)
          news_article_dict["Content"].append(news_article_content)

    # News Data transfered into a dataframe
    ekantipur_news_df = pd.DataFrame(news_article_dict, columns=list(news_article_dict.keys()))
    # Save to a .CSV file
    datewise_news=str(dt.now().date())
    ekantipur_news_df.to_csv(f"/content/drive/MyDrive/Web Scraping/{datewise_news}.csv")
    return ekantipur_news_df


In [None]:
# Scrap daily news
daily_news_df = scrap_news_articles()

In [None]:
#CF:2
def create_db_connection():
  """
   :param dbfile: .CSV file filepath
   :return: Connection object or None
  """
  import sqlite3
  from sqlite3 import Error
  conn = None
  try:
      daily_news_fpat="/content/drive/MyDrive/Web Scraping/datewise_news.csv"
      # establish a connection to the SQLite database
      news_conn = sqlite3.connect('/content/drive/MyDrive/Web Scraping/NPL_DailyNews.sqlite')
  except Error as e:
      print(e)

  return news_conn

In [None]:
#CF:3
def create_table_records(news_conn, daily_news_df):
  """
   :param db connection : connection object
   :return: Cursor object or None
  """
  import sqlite3
  from sqlite3 import Error
  news_cursor = None
  try:

      # create a Cursor object
      news_conn_cur = news_conn.cursor()
      news_conn_cur.execute('''DROP TABLE IF EXISTS NPL_DailyNews''')
      # create DB table
      news_conn_cur.execute('''CREATE TABLE NPL_DailyNews (id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
                    Title TEXT, URL TEXT,Date TEXT,Content TEXT)''')

      # iterate through all the records
      for rec, news_article in daily_news_df.iterrows():
        title=news_article.Title
        url = news_article.URL
        date=news_article.Date
        content = news_article.Content
        # Insert records into the table
        news_conn_cur.execute('''INSERT INTO NPL_DailyNews(Title,URL,Date,Content)VALUES(?,?,?,?)''',
                                      (title, url, date,content))

  except Error as e:
      print(e)

  return news_conn_cur

In [None]:
#CF:4
def saved_scrap_news_articles(daily_news_df):
  if daily_news_df.empty:
    print('DataFrame is empty!')
  else:
    # create a database connection
    news_article_conn = create_db_connection()
    # update database table
    news_article_conn_cur = create_table_records(news_article_conn,daily_news_df)

    # Commit and close the cursor
    news_article_conn.commit()
    news_article_conn_cur.close()

In [None]:
# Save recods
saved_news_cur = saved_scrap_news_articles(daily_news_df)

In [None]:
#CF:5
def select_all_records(news_conn):
    """
    Query all rows
    :param conn: Connection object
    :return:
    """
    news_cur = news_conn.cursor()
    news_cur.execute("SELECT * FROM NPL_DailyNews")

    news_rows = news_cur.fetchall()

    for row in news_rows:
        print(row)


In [None]:
# Fetch records
select_all_records(news_conn)

(1, 'डीएसपी ठगबहादुर केसी बर्खास्त\xa0', 'https://ekantipur.com/news/2023/07/25/169029747947067025.html', 'श्रावण ९, २०८०', 'काठमाडौँ — इलाका प्रहरी कार्यालय बुटवलका निलम्बित प्रहरी नायव उपरीक्षक (डीएसपी) ठगबहादुर केसी बर्खास्त भएका छन्\xa0।\xa0प्रहरी प्रधान कार्यालयको सिफारिसमा केसीलाई गृहमन्त्रीस्तरीय निर्णयबाट मंगलबार बर्खास्त गरिएको हो\xa0। प्रहरी प्रधान कार्यालयको आन्तरिक छानबिनबाट गम्भीर आचरण उल्लंघन गरेर प्रहरी ऐनविपरीत कार्य गरेको देखिएको भन्दै जागिरबाट हटाउन सोमबार गृह मन्त्रालयसमक्ष सिफारिस गरिएको हो\xa0।केसीले बुटवलका सुन व्यवसायीबाट ३५ तोला सुन फिर्ता गर्ने सर्तमा ८ लाख ५० हजार रुपैयाँ घुस लिएको र सुनसमेत फिर्ता नगरेको प्रहरी प्रधान कार्यालयको छानबिन टोलीले ठहर गरेको थियो\xa0। उनको छानबिनका लागि प्रहरी वरिष्ठ उपरीक्षक चन्द्रकुवेर खापुङको संयोजकत्वमा ५ सदस्यीय छानबिन समिति गठन गरिएको थियो\xa0।केसीलाई गत पुस ११ गते इलाका प्रहरी कार्यालय बुटवलको निवासबाट सुन, ९ लाख ५० हजार रुपैयाँको चेक र ८ लाख ५० हजार रुपैयाँ नगदसहित सीआईबीको टोलीले पक्राउ गरेको थियो\xa0। शक्तिको आडमा बुटवलमा