# BBC Burmese Webscraper (3): Scraping Contents of One Page
by <a href="https://www.linkedin.com/in/la-wun-nannda-b047681b5/">`La Wun Nannda`</a>

## Setup

In [1]:
# import libraries
from bs4 import BeautifulSoup # this module helps in web scrapping
import requests  # this module helps us to download a web page
import pandas as pd

In [2]:
# webscrape the main page
url = "https://www.bbc.com/burmese/topics/c9wpm0en9jdt"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html5lib')

# find all anchors elements
news_headers_soup = soup.find_all("a", {"class":"focusIndicatorDisplayBlock"})

## Scraping Content of One Header

In [3]:
# this time, we get the link instead of header 
url = news_headers_soup[1].attrs['href']

In [4]:
# create a new soup for that link
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html5lib')
soup

<!DOCTYPE html>
<html class="no-js" dir="ltr" lang="my"><head><title data-react-helmet="true">ဘင်္ဂလားဒေ့ရှ် - ရဲ ပစ်သတ်မှုခံခဲ့ရတဲ့ဆန္ဒပြ ကျောင်းသား  - BBC News မြန်မာ</title><meta content="IE=edge" data-react-helmet="true" http-equiv="X-UA-Compatible"/><meta charset="utf-8" data-react-helmet="true"/><meta content="noodp, noydir, max-image-preview:large" data-react-helmet="true" name="robots"/><meta content="#B80000" data-react-helmet="true" name="theme-color"/><meta content="width=device-width, initial-scale=1, minimum-scale=1" data-react-helmet="true" name="viewport"/><meta content="BBC News မြန်မာ" data-react-helmet="true" name="apple-mobile-web-app-title"/><meta content="BBC News မြန်မာ" data-react-helmet="true" name="application-name"/><meta content="အသက် ၂၂ နှစ်အရွယ် အဘူ ဆာယိဒ် ဘင်္ဂလားဒေ့ရှ်နိုင်ငံထဲက ဆန္ဒပြပွဲတစ်ခုမှာ အသေပစ်ခတ်ခံခဲ့ရပြီးတဲ့နောက် နိုင်ငံထဲက ကျောင်းသားဆန္ဒပြပွဲရဲ့ပြယုဂ်ဖြစ်လာပါတယ်။" data-react-helmet="true" name="description"/><meta content="1609039196070050" da

In [5]:
# scraping content of a header
burmese_content = ""
alphabets = ['a', 'b', 'c', 'd', 'e',
            'f', 'g', 'h', 'i', 'j',
            'k', 'l', 'm', 'n', 'o',
            'p', 'q', 'r', 's', 't',
            'u', 'v', 'w', 'x', 'y',
            'z']

symbols = ["\'", "(", ")"]

for p_element in soup.find_all("p"):
    try: # None Type can cause error
        content = p_element.string.strip()
        for char in content:
            if (char.lower() in alphabets) or (char in symbols): # do not add non-Burmese characters or symbols
                continue
            print(char, type(char))
            burmese_content += char # add Burmese characters only
    except:
        pass

အ <class 'str'>
ဘ <class 'str'>
ူ <class 'str'>
  <class 'str'>
ဆ <class 'str'>
ာ <class 'str'>
ယ <class 'str'>
ိ <class 'str'>
ဒ <class 'str'>
် <class 'str'>
ဟ <class 'str'>
ာ <class 'str'>
  <class 'str'>
ဘ <class 'str'>
င <class 'str'>
် <class 'str'>
္ <class 'str'>
ဂ <class 'str'>
လ <class 'str'>
ာ <class 'str'>
း <class 'str'>
ဒ <class 'str'>
ေ <class 'str'>
့ <class 'str'>
ရ <class 'str'>
ှ <class 'str'>
် <class 'str'>
န <class 'str'>
ိ <class 'str'>
ု <class 'str'>
င <class 'str'>
် <class 'str'>
င <class 'str'>
ံ <class 'str'>
က <class 'str'>
  <class 'str'>
က <class 'str'>
ျ <class 'str'>
ေ <class 'str'>
ာ <class 'str'>
င <class 'str'>
် <class 'str'>
း <class 'str'>
သ <class 'str'>
ာ <class 'str'>
း <class 'str'>
တ <class 'str'>
ွ <class 'str'>
ေ <class 'str'>
ရ <class 'str'>
ဲ <class 'str'>
့ <class 'str'>
ဆ <class 'str'>
န <class 'str'>
္ <class 'str'>
ဒ <class 'str'>
ပ <class 'str'>
ြ <class 'str'>
ပ <class 'str'>
ွ <class 'str'>
ဲ <class 'str'>
တ <class 'str'>
ွ <class

In [6]:
# check scraped Burmese content
burmese_content

'အဘူ ဆာယိဒ်ဟာ ဘင်္ဂလားဒေ့ရှ်နိုင်ငံက ကျောင်းသားတွေရဲ့ဆန္ဒပြပွဲတွေ ပြယုဂ်ဖြစ်လာပါတယ်။အသက် ၂၂ နှစ်အရွယ် ဒီလူငယ်ဟာ ပြိုင်ဘက်ကျောင်းသားတွေကြား အုတ်ခဲတွေနဲ့ထု၊ ဝါရင်းတုတ်တွေလည်း ပါတဲ့ အပြန်လှန် ရန်ဖြစ်နေကြတဲ့ နိုင်ငံတဝန်းက ထိပ်တိုက်တွေ့မှုတွေအတွင်း သေဆုံးသူ ၆ ဦးထဲမှာ တစ်ဦးအပါအဝင် ဖြစ်ပါတယ်။ ရဲတပ်ဖွဲ့ကတော့ လူစုလူဝေးတွေကို ဖယ်ရှားဖို့ မျက်ရည်ယို ဗုံးတွေနဲ့ ရာဘာကျည်တွေသုံးပြီး လူစုခွဲခဲ့ပါတယ်။တချို့အစိုးရဝန်ထမ်းအလုပ်တွေကို ၁၉၇၁ ခုနှစ်မှာ ပါကစ္စတန်ကနေ လွတ်လွတ်ရေးရအောင်တိုက်ပေးခဲ့ကြတဲ့ စစ်ပွဲသူရဲကောင်းတွေရဲ့ဆွေမျိုးတွေအတွက် ထားရှိပေးမယ့်စနစ်ကို ဆန့်ကျင်တဲ့အနေနဲ့ ဘင်္ဂလားဒေ့ရှ် တက္ကသိုလ်ကျောင်းသားတွေ စုဝေးဆန္ဒပြနေကြတာ သီတင်းပတ်နဲ့ချီ ကြာမြင့်နေပြီဖြစ်ပါတယ်။အဘူ ဆာယိဒ် ရဲ့ ဘင်္ဂလားဒေ့ရှ် ရဲတပ်ဖွဲ့နဲ့ ထိပ်တိုက်တွေ့တဲ့အခါ လက်ကို ဆန့်တန်းပြနေတဲ့ပုံကိုတော့ လူမှုကွန်ရက်မှာ မျှဝေပြောဆိုနေကြပါတယ်။ဆာယိဒ်ရဲ့ မိသားစုကတော့ သူ့သေဆုံးမှုအတွက် ရဲမှာ တာဝန်ရှိတယ်လို့ ပြောပါတယ်။ မိသားစုရဲ့ ပြောဆိုချက်ကိုလည်း အာဏာပိုင်တွေက စတင်စုံစမ်းနေပြီဖြစ်ပါတယ်။ဘင်္ဂလားဒေ့ရှ် အနောက်မြောက်ပိုင်းက ရန်ပူမြို့မှာတော့ ရဲမင်းကြီး မဟာမ

## Scraping Contents of One Page (Multiple Headers)

In [7]:
# function to get soup with URL input
def web_scraper(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html5lib')
    return soup

In [8]:
# function to get each content within a header
def get_contents_per_page(headers_soup):
    contents_per_page = []
    '''Get a link, make a soup, extract data, and repeat until all headers in one page is applied.'''
    for a_element in headers_soup: # anchor element in soup filtered by headers
        content_url = a_element.attrs['href'] # get link from anchor element
        content_soup = web_scraper(content_url) # pass link to get new soup
        content_element = content_scraper(content_url, content_soup) # new soup is used for content scraping
        contents_per_page.append(content_element)
    return contents_per_page

In [9]:
# function to extract Burmese content from a content url
def content_scraper(content_url, soup):
    burmese_content = ""
    alphabets = ['a', 'b', 'c', 'd', 'e',
                'f', 'g', 'h', 'i', 'j',
                'k', 'l', 'm', 'n', 'o',
                'p', 'q', 'r', 's', 't',
                'u', 'v', 'w', 'x', 'y',
                'z']
    
    symbols = ["\'", "(", ")"]
    
    for p_element in soup.find_all("p"):
        try: # None Type can cause error
            content = p_element.string.strip()
            for char in content:
                if (char.lower() in alphabets) or (char in symbols): # do not add non-Burmese characters or symbols
                    continue
                burmese_content += char # add Burmese characters only
        except:
            pass
    return burmese_content

## Final Evaluation

In [10]:
# test
contents_per_page = get_contents_per_page(news_headers_soup)
contents_per_page

['ဗီယက်နမ်ရဲ့ သက်တမ်းရှည် ကွန်မြူနစ်ပါတီခေါင်းဆောင် ငုယင် ဖူချောင်း အချိန် အတော်ကြာ ဝေဒနာ ခံစားရပြီးနောက် အသက် ၈ဝ မှာ ကွယ်လွန်ခဲ့ပါတယ်။ ဒါဟာ နိုင်ငံရေးခေတ်တခု အဆုံးသတ်တာပါ။သူ့ကျန်းမာရေးကို ဂရုစိုက်ဖို့ ရာထူးက ဆင်းပြီး တာဝန်ကို ဗီယက်နမ်သမ္မတ တိုလမ်းဆီကို လွှဲပြောင်းပေလိုက်ပြီလို့ ဗီယက်နမ်အစိုးရက ကြေညာပြီး ရက်ပိုင်းအတွင်းမှာပဲ မစ္စတာချောင်း အနိစ္စရောက်ခဲ့တာပါ။၂၀၁၁ မှာ ပါတီ အထွေထွေအတွင်းရေးမှူး တာဝန်ကို သူစယူပြီး တခါတရံ သမ္မတတာဝန်ပါ ပူးတွဲယူခဲ့ပါတယ်။ အဲဒီနောက် မစ္စတာချောင်း ဆယ်စုနှစ်တွေအတွင်း ဗီယက်နမ်မှာ အာဏာအရှိဆုံး ခေါင်းဆောင် ဖြစ်လာခဲ့ပါတယ်။ဗီယက်နမ် စီးပွားရေးကို တဟုန်ထိုး တက်လာအောင် သူ ကြီးကြပ်ခဲ့တဲ့အပြင် ခြစားမှု တိုက်ဖျက်ရေး စီမံချက်ကိုလည်း ပြင်းပြင်းထန်ထန် ဆောင်ရွက်ခဲ့ပါတယ်။ဗီယက်နမ် ကွန်မြူနစ် ခေါင်းဆောင်ပိုင်း နိုင်ငံရေး မတည်မငြိမ် ဖြစ်နေချိန်မှာ မစ္စတာ ချောင်း ကွယ်လွန်ခဲ့ပါတယ်။ ဒီလပိုင်းအတွင်း ထိပ်တန်း ခေါင်းဆောင်သုံးယောက်  အမှားအယွင်း လုပ်ခဲ့တယ် ဆိုတဲ့ တိတိကျကျ မဖော်ပြတဲ့ စွပ်စွဲမှုတွေနဲ့ ရာထူးက နုတ်ထွက်ခဲ့ကြပါတယ်။ငုယင် ဖူချောင်း  အသက်ကြီးပြီး ပြင်းပြင်းထန်ထန် နာမကျန်းလို့ ကွယ်လ