# BBC Burmese Webscraper
by <a href="https://www.linkedin.com/in/la-wun-nannda-b047681b5/">`La Wun Nannda`</a>

## Initial Setup

In [1]:
# import libraries
from bs4 import BeautifulSoup # this module helps in web scrapping
import requests  # this module helps us to download a web page
import pandas as pd

In [2]:
# define BBC URL
static_url = "https://www.bbc.com/burmese/topics/c9wpm0en9jdt"

In [3]:
# get html content from URL
response = requests.get(static_url)
print(response.content)

b'<!doctype html><html lang="my" class="no-js" dir="ltr"><head><title data-react-helmet="true">\xe1\x80\x80\xe1\x80\xaf\xe1\x80\x94\xe1\x80\xba\xe1\x80\x9e\xe1\x80\xbd\xe1\x80\x9a\xe1\x80\xba\xe1\x80\x85\xe1\x80\xae\xe1\x80\xb8\xe1\x80\x95\xe1\x80\xbd\xe1\x80\xac\xe1\x80\xb8 - BBC News \xe1\x80\x99\xe1\x80\xbc\xe1\x80\x94\xe1\x80\xba\xe1\x80\x99\xe1\x80\xac</title><meta data-react-helmet="true" http-equiv="X-UA-Compatible" content="IE=edge"/><meta data-react-helmet="true" charSet="utf-8"/><meta data-react-helmet="true" name="robots" content="noodp, noydir, max-image-preview:large"/><meta data-react-helmet="true" name="theme-color" content="#B80000"/><meta data-react-helmet="true" name="viewport" content="width=device-width, initial-scale=1, minimum-scale=1"/><meta data-react-helmet="true" name="apple-mobile-web-app-title" content="BBC News \xe1\x80\x99\xe1\x80\xbc\xe1\x80\x94\xe1\x80\xba\xe1\x80\x99\xe1\x80\xac"/><meta data-react-helmet="true" name="application-name" content="BBC News 

In [4]:
# Use BeautifulSoup() to create a BeautifulSoup object from a response text content
soup = BeautifulSoup(response.content, 'html5lib')

In [5]:
# check the title to validate
print(soup.title)

<title data-react-helmet="true">ကုန်သွယ်စီးပွား - BBC News မြန်မာ</title>


In [6]:
# check the whole soup
soup

<!DOCTYPE html>
<html class="no-js" dir="ltr" lang="my"><head><title data-react-helmet="true">ကုန်သွယ်စီးပွား - BBC News မြန်မာ</title><meta content="IE=edge" data-react-helmet="true" http-equiv="X-UA-Compatible"/><meta charset="utf-8" data-react-helmet="true"/><meta content="noodp, noydir, max-image-preview:large" data-react-helmet="true" name="robots"/><meta content="#B80000" data-react-helmet="true" name="theme-color"/><meta content="width=device-width, initial-scale=1, minimum-scale=1" data-react-helmet="true" name="viewport"/><meta content="BBC News မြန်မာ" data-react-helmet="true" name="apple-mobile-web-app-title"/><meta content="BBC News မြန်မာ" data-react-helmet="true" name="application-name"/><meta content="" data-react-helmet="true" name="description"/><meta content="1609039196070050" data-react-helmet="true" property="fb:app_id"/><meta content="mydfaj4vz8t5psneihy4nm6ff52fac" data-react-helmet="true" name="facebook-domain-verification"/><meta content="yes" data-react-helmet=

## Data Formatting

In [7]:
# our headers are within the anchor elements
news_anchors_soup = soup.find_all('a')
news_anchors_soup

[<a aria-labelledby="BrandLink-topPage" class="focusIndicatorRemove bbc-1x4x290 e10yv9r11" href="/burmese" id="topPage"><svg aria-hidden="true" class="bbc-1jefi8v e10yv9r10" focusable="false" height="32" id="brandSvgHeader" viewBox="140 140 1261 145" xmlns="http://www.w3.org/2000/svg"><g fill-rule="evenodd" stroke="#000" stroke-width=".335" style="stroke:#fff"><path d="M1231.328 254.024c0 7.828-1.641 13.446-4.88 16.694-3.107 3.108-8.82 4.682-16.984 4.682h-5.028c-8.163 0-13.876-1.576-16.984-4.682-3.239-3.248-4.88-8.864-4.88-16.694v-82.607c0-7.96 1.641-13.642 4.872-16.884 1.455-1.396 3.27-2.469 5.387-3.19 2.223-.746 4.072-1.183 5.505-1.3 1.562-.131 3.579-.199 5.999-.199h5.335c2.408 0 4.425.068 5.995.2 1.433.116 3.258.568 5.423 1.346 2.083.742 3.845 1.856 5.242 3.32 1.39 1.388 2.59 3.143 3.565 5.218 1.247 2.643 1.433 3.878 1.433 4.378v1.529h8.095v-1.53c0-2.046-.641-4.559-1.905-7.465a25.668 25.668 0 00-5.146-7.712c-4.814-4.89-11.758-7.37-20.636-7.37h-9.476c-8.993 0-16 2.44-20.82 7.252-4.62

In [8]:
# filter news header with class
news_headers_soup = soup.find_all("a", {"class":"focusIndicatorDisplayBlock"})
news_headers_soup

[<a class="focusIndicatorDisplayBlock bbc-uk8dsi e1d658bg0" href="https://www.bbc.com/burmese/articles/c51y9451245o">‘ကျွန်တော်လက်ထဲ ဘာလက်နက်မှမရှိဘူး’- ပစ်သတ်ခံခဲ့ရတဲ့ ဘင်္ဂလားဒေ့ရှ်ဆန္ဒပြကျောင်းသား</a>,
 <a class="focusIndicatorDisplayBlock bbc-uk8dsi e1d658bg0" href="https://www.bbc.com/burmese/articles/crgl26y9w32o">ဘန်ကောက် ဟိုတယ်ထဲ သေဆုံးသူ ၆ ဦးရဲ့သွေးထဲမှာ ဆိုင်ယာနိုက် တွေ့</a>,
 <a class="focusIndicatorDisplayBlock bbc-uk8dsi e1d658bg0" href="https://www.bbc.com/burmese/articles/cxw2x1me8jeo">ထိုင်းဗီဇာမလိုဘဲ ပြည်တွင်းဝင်ခွင့် နိုင်ငံ ၃၀ ကျော်ကို တိုးပေး</a>,
 <a class="focusIndicatorDisplayBlock bbc-uk8dsi e1d658bg0" href="https://www.bbc.com/burmese/articles/c8vdgm579jyo">ရိုးမရဲ့ ဘီလျံနာသူဌေးကြီး ဆာ့ချ်ပန်းကို စစ်ကောင်စီက စစ်ဆေးနေ</a>,
 <a class="focusIndicatorDisplayBlock bbc-uk8dsi e1d658bg0" href="https://www.bbc.com/burmese/articles/c51y89571nqo">ဘီလျံနာ သူဌေးတွေရဲ့ ငပလီ သောက</a>,
 <a class="focusIndicatorDisplayBlock bbc-uk8dsi e1d658bg0" href="https://www.bbc.com/burme

In [9]:
# get date and time
datetime_soup = soup.find_all("time", {"class":"promo-timestamp"})
datetime_soup

[<time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-18">လွန်ခဲ့သော တစ်နာရီ က</time>,
 <time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-17">၁၇ ဇူလိုင် ၂၀၂၄</time>,
 <time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-13">၁၃ ဇူလိုင် ၂၀၂၄</time>,
 <time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-11">၁၁ ဇူလိုင် ၂၀၂၄</time>,
 <time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-07">၇ ဇူလိုင် ၂၀၂၄</time>,
 <time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-06">၆ ဇူလိုင် ၂၀၂၄</time>,
 <time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-05">၅ ဇူလိုင် ၂၀၂၄</time>,
 <time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-04">၄ ဇူလိုင် ၂၀၂၄</time>,
 <time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-03">၃ ဇူလိုင် ၂၀၂၄</time>,
 <time class="promo-timestamp bbc-11pkra2 e1mklfmt0" datetime="2024-07-03">၃ ဇူလိုင် ၂၀၂၄</time>,
 <time clas

In [10]:
# gather information

# lists to store information
news_headers = []
datetime = []

if len(news_headers_soup)==len(datetime_soup): # if the lengths are the same, start adding them to the lists
    for i in range(len(news_headers_soup)): # get index

        # list 1 for news headers
        try: # for news headers without video tag # video tagged ones will cause errors
            news_headers.append(news_headers_soup[i].string.strip()) # convert 'BeautifulSoup string' to 'Python string' # add content to list 1
        except AttributeError: # # for news headers with video tag
            # list() is used to convert 'BeautifulSoup tag' object to 'list' to enable iteration 
            news_headers.append(list(news_headers_soup[i].span)[1].strip()) # convert 'BeautifulSoup string' to 'Python string' # add content to list 1

        # list 2 for date and time
        datetime.append(datetime_soup[i].string.strip()) # convert 'BeautifulSoup string' to 'Python string' # add content to list 2
        
    if (len(news_headers)==len(news_headers_soup)) & (len(datetime)==len(datetime_soup)): # if everything is added to two lists
        print("Done")

Done


In [11]:
news_headers

['‘ကျွန်တော်လက်ထဲ ဘာလက်နက်မှမရှိဘူး’- ပစ်သတ်ခံခဲ့ရတဲ့ ဘင်္ဂလားဒေ့ရှ်ဆန္ဒပြကျောင်းသား',
 'ဘန်ကောက် ဟိုတယ်ထဲ သေဆုံးသူ ၆ ဦးရဲ့သွေးထဲမှာ ဆိုင်ယာနိုက် တွေ့',
 'ထိုင်းဗီဇာမလိုဘဲ ပြည်တွင်းဝင်ခွင့် နိုင်ငံ ၃၀ ကျော်ကို တိုးပေး',
 'ရိုးမရဲ့ ဘီလျံနာသူဌေးကြီး ဆာ့ချ်ပန်းကို စစ်ကောင်စီက စစ်ဆေးနေ',
 'ဘီလျံနာ သူဌေးတွေရဲ့ ငပလီ သောက',
 'ဇူလိုင် ၆ ရက် နိုင်ငံတဝန်းသတင်းအနှစ်ချုပ် - ဒုတိယဗိုလ်ချုပ်မှူးကြီးစိုးဝင်း တရုတ်ကို သွားရောက်',
 'ဗြိတိသျှ ဝန်ကြီးချုပ်သစ် ဆာ ကီယာစတာမာ ဘယ်လိုလူလဲ',
 'ပြည်ပနေ တရုတ်တွေ လိမ်လည်မှုတွေနဲ့ ရင်ဆိုင်နေရ',
 'စဉ့်ကူးမြို့နယ်ထဲမှာ စစ်ကောင်စီ လေကြောင်းက ပစ်ခတ်နေ',
 'ထိပ်တန်း ဘဏ်တွေ အပါအဝင် ဘဏ် ၇ ခု အရေးယူခံရ',
 'ပြင်သစ်ရွေးကောက်ပွဲ လက်ယာစွန်းတွေ ဦးဆောင်',
 'ကုန်သည်ကို ဖမ်းရုံနဲ့ ဆန်ဈေးကို ထိန်းနိုင်မလား',
 'စစ်မှုထမ်း - ထိုင်းမှာ အလုပ်အကိုင်သိန်းချီရှိနေပေမဲ့ မြန်မာလူငယ်တွေ အလုပ်လက်မဲ့ဖြစ်နေတာ ဘာကြောင့်လဲ',
 'ဇွန် ၂၉ ရက် နိုင်ငံတဝန်းသတင်းအနှစ်ချုပ် - ဗိုလ်ချုပ်မှုးကြီးမင်းအောင်လှိုင် နဲ့ စစ်ဗိုလ်ချုပ်တချို့ကို ဖမ်းဝရမ်းထုတ်ဖို့ အာဂျင်တီးနားဥပဒေအရာရှိ လျှောက်ထား',
 'အားသွင်းဖို့ အ

In [12]:
datetime

['လွန်ခဲ့သော တစ်နာရီ က',
 '၁၇ ဇူလိုင် ၂၀၂၄',
 '၁၃ ဇူလိုင် ၂၀၂၄',
 '၁၁ ဇူလိုင် ၂၀၂၄',
 '၇ ဇူလိုင် ၂၀၂၄',
 '၆ ဇူလိုင် ၂၀၂၄',
 '၅ ဇူလိုင် ၂၀၂၄',
 '၄ ဇူလိုင် ၂၀၂၄',
 '၃ ဇူလိုင် ၂၀၂၄',
 '၃ ဇူလိုင် ၂၀၂၄',
 '၁ ဇူလိုင် ၂၀၂၄',
 '၁ ဇူလိုင် ၂၀၂၄',
 '၃၀ ဇွန် ၂၀၂၄',
 '၂၉ ဇွန် ၂၀၂၄',
 '၂၉ ဇွန် ၂၀၂၄',
 '၂၆ ဇွန် ၂၀၂၄',
 '၂၅ ဇွန် ၂၀၂၄',
 '၂၃ ဇွန် ၂၀၂၄',
 '၁၆ ဇွန် ၂၀၂၄',
 '၁၅ ဇွန် ၂၀၂၄',
 '၁၄ ဇွန် ၂၀၂၄',
 '၁၁ ဇွန် ၂၀၂၄',
 '၈ ဇွန် ၂၀၂၄',
 '၇ ဇွန် ၂၀၂၄']

## Pandas Integration and Exporting to Spreadsheet

In [13]:
# prepare dictionary
BBC = {}
BBC['News Header'] = news_headers
BBC['Time'] = datetime 

In [14]:
# build a dataframe
df = pd.DataFrame({key:pd.Series(value) for key, value in BBC.items()})

In [15]:
# check a dataframe
df

Unnamed: 0,News Header,Time
0,‘ကျွန်တော်လက်ထဲ ဘာလက်နက်မှမရှိဘူး’- ပစ်သတ်ခံခဲ...,လွန်ခဲ့သော တစ်နာရီ က
1,ဘန်ကောက် ဟိုတယ်ထဲ သေဆုံးသူ ၆ ဦးရဲ့သွေးထဲမှာ ဆိ...,၁၇ ဇူလိုင် ၂၀၂၄
2,ထိုင်းဗီဇာမလိုဘဲ ပြည်တွင်းဝင်ခွင့် နိုင်ငံ ၃၀ ...,၁၃ ဇူလိုင် ၂၀၂၄
3,ရိုးမရဲ့ ဘီလျံနာသူဌေးကြီး ဆာ့ချ်ပန်းကို စစ်ကော...,၁၁ ဇူလိုင် ၂၀၂၄
4,ဘီလျံနာ သူဌေးတွေရဲ့ ငပလီ သောက,၇ ဇူလိုင် ၂၀၂၄
5,ဇူလိုင် ၆ ရက် နိုင်ငံတဝန်းသတင်းအနှစ်ချုပ် - ဒု...,၆ ဇူလိုင် ၂၀၂၄
6,ဗြိတိသျှ ဝန်ကြီးချုပ်သစ် ဆာ ကီယာစတာမာ ဘယ်လိုလူလဲ,၅ ဇူလိုင် ၂၀၂၄
7,ပြည်ပနေ တရုတ်တွေ လိမ်လည်မှုတွေနဲ့ ရင်ဆိုင်နေရ,၄ ဇူလိုင် ၂၀၂၄
8,စဉ့်ကူးမြို့နယ်ထဲမှာ စစ်ကောင်စီ လေကြောင်းက ပစ်...,၃ ဇူလိုင် ၂၀၂၄
9,ထိပ်တန်း ဘဏ်တွေ အပါအဝင် ဘဏ် ၇ ခု အရေးယူခံရ,၃ ဇူလိုင် ၂၀၂၄


In [16]:
# export to .csv
df.to_csv('BBC_webscraped.csv', index=False)

# export to excel
df.to_excel('BBC_webscraped.xlsx', index=False)

## Conclusion

I find that CSV file is not displaying the Burmese font correctly which is not the case in Excel file format.