# Lesson 7—Fetching data online

Version 1.0. Prepared by [Makzan](https://makzan.net). Updated at 2021 March.

In this series, we will use 3 lectures to learn fetching data online. This includes:

- Finding patterns in URL
- Open web URL
- Downloading files in Python
- Fetch data with API
- **Web scraping with Requests and BeautifulSoup**
- Web automation with Selenium
- Converting Wikipedia tabular data into CSV

In this lesson, we will learn to download web page and parse the HTML to extract the data we need. We will use `requests` and `BeautifulSoup`. `Requests` downloads the web page HTML file and `BeautifulSoup` parses the HTML into tree structure for us to access and extract data.

## Web Scraping

1. Querying web page
1. Parse the DOM tree
1. Get the data we want from the HTML code

In [8]:
import datetime

print (datetime.date.today().strftime('%Y-%m-%d'))
print (datetime.date.today().strftime('%Y年%m月%d日'))
print (datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
print (datetime.datetime.now().strftime('%H:%M:%S'))


2023-04-23
2023年04月23日
2023-04-23 09:54:27
09:54:27


In [10]:
from bs4 import BeautifulSoup
import requests


res = requests.get("https://news.gov.mo/home/zh-hant")
soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5"):
    print(h5.text.strip())


宣傳視頻
紀念《中華人民共和國澳門特別行政區基本法》頒佈三十周年宣傳視頻二
紀念《中華人民共和國澳門特別行政區基本法》頒佈三十周年宣傳視頻一
勞工局鼓勵企業積極參與“喜見・樂聘”殘疾人士就業配對會
「WTT 澳門冠軍賽 2023 ─ 由銀河娛樂集團呈獻」明演冠軍戰 王楚欽馬龍陳夢王曼昱決戰爭冠
民防行動中心自5月1日起增加查詢求助熱線電話號碼“113”
“水晶魚2023”民防演習 提升本澳應急聯動效能
行政長官：澳葡友好合作關係開創新篇章
教青局舉辦“織理想･創未來”職業技術教育推廣日
經濟財政司司長李偉農帶領澳門企業家代表團參觀位於波爾圖的“旅遊+”項目
“水晶魚2023”颱風演習－保安司司長、聯合行動指揮官黃少澤向記者總結演習成效
“水晶魚2023”颱風演習－清除路面障礙物
“水晶魚2023”颱風演習－警犬隊搜救
“水晶魚2023”颱風演習－消防局對颱風期間發生的交通意外事故開展救援行動。
【新聞局】行政長官賀一誠在里斯本向傳媒總結葡萄牙訪問行程
【新聞局】“水晶魚2023”颱風演習 — 路線2
【新聞局】“水晶魚2023”颱風演習 — 路線1
【新聞局】行政長官勉勵在葡澳生積極融入國家和澳門發展大局
【回顧齊齊葡橫琴站精彩時刻】2023年婆仔屋站將於4月28至30日舉行！
【新聞局】行政長官賀一誠出席在里斯本舉行的澳門特別行政區政府招待酒會
【新聞局】行政長官與聯合國世界旅遊組織秘書長會面
【新聞局】行政長官展開訪葡行程　推介澳門新發展新機遇　促進澳葡經貿旅遊合作
【消費者委員會】誠信店講解會 - 澳門美容業商會及離島工商業聯合會專場


## Extra: Fetching with try-except

In [36]:
from bs4 import BeautifulSoup
import requests

try:
    res = requests.get("https://news.gov.mo/home/zh-hant")
except requests.exceptions.ConnectionError:
    print("Error: Invalid URL or Connection Lost.")
    exit()

soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5"):
    print(h5.text.strip())


社會工作局新任正副局長就職
－記者會快訊（過去兩天澳門居民入境珠海豁免隔離醫學觀察的網上申請系統運作良好）－
當事人需就沒有在訴訟程序中適時採取防禦手段承擔後果
新型冠狀病毒感染應變協調中心查詢熱線統計數字(6月22日 08:00至16:00)
－記者會快訊（北京疫情）－
－記者會快訊（出入境及市面情況）－
－記者會快訊（6月19-21日共新增354名入境人士須作醫學觀察）－
－記者會快訊（有867人在指定酒店作醫學觀察）－
托兒所友善措施首日運作暢順
－記者會快訊（本澳最新疫情）－
“消費補貼計劃”中期報告新聞發佈會
行政長官賀一誠與香港特區政府保安局局長李家超一行會面
行政長官賀一誠會見澳門理工學院校董會一行
澳門歷史名人足跡（攝影：周文來）
經香港國際機場返澳的居民今日下午乘坐特別渡輪服務抵達氹仔北安碼頭
新城A區B4地段公共房屋建造工程 - 基礎及地庫公開開標
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
【澳門都市更新股份有限公司】祐漢七棟樓群入戶調查
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(19-06)
【新聞局】市政署人員到冷凍倉庫、批發市場和街市採取樣本作新冠病毒核酸檢測
【新聞局】經香港國際機場返澳的居民乘搭首班特別渡輪抵達氹仔北安碼頭
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(17-06)
【新聞局】心出發-遊澳門新聞發佈會16-06
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(15-06)
【新聞局】行政長官 賀一誠 栽種幼樹 宣揚珍惜大自然




焯公亭 記華商 抗疫貢獻
夜香行業七十年代式微 垃圾處理三十年前變天
病疫影響城市規劃
澳門藝術界 為抗疫打氣
非強制央積金2020年度預算盈餘特別分配款項名單公佈
明起重新開放澳門居民入境珠海豁免隔離預約系統        獲批人士可 7天內入境珠海獲豁免隔離
“心出發‧遊澳門”明日起接受報名　冀逐步恢復旅遊業活動
－記者會快訊（“心出發‧遊澳門”本地遊活動的統籌及詳情）－
明起珠海對本澳合資格人士入境暫不實施集中醫學隔離安排 應變協調中心提醒市民留意獲批的開始日期及提早填報資料
百億抗疫援助基金計劃款項6月16日起發放
兩項防浸設備資助計劃月杪結束，呼籲商戶如有需要及早申請
【圖文包】常住珠海

In [44]:
from bs4 import BeautifulSoup
import requests


res = requests.get("https://www.gcs.gov.mo/news/list/zh-hant/news/?2")
soup = BeautifulSoup(res.text, "html.parser")

table_news = soup.select_one("table")
for news_headline in table_news.select('a.baseInfo'):
    nl = news_headline.select_one('span.txt')
    print(nl.getText().strip(),'\n')
0
   
    # Fetch the content
    href = news_headline["href"]
    res = requests.get("https://www.gcs.gov.mo/" + href)
    soup2 = BeautifulSoup(res.text,"html.parser")
    content = soup2.find('div',{'class':'cell baseContent baseSize text-justify content NEWS'})
    
#     soup2 = BeautifulSoup(res.text, "html.parser")
#     content = soup2.select_one(".asideBody p:first-of-type")
    print(content.text)
    print("---")

print("Done.")

勞工局鼓勵企業積極參與“喜見・樂聘”殘疾人士就業配對會 

為推動僱主給予殘疾人士就業機會、鼓勵殘疾人士投入職場。勞工事務局將於本年6月20日在勞工局太平辦事處舉辦“喜見・樂聘”殘疾人士就業配對會。勞工局歡迎企業由4月24日起踴躍報名參與，支持殘疾人士就業。
提供配對平台 助殘疾人士就業
活動目的旨在透過“喜見・樂聘”的平台，為本澳企業及有就業需求的殘疾人士提供直接面試機會，以提高企業對殘疾人士就業能力的了解和接納，以及增加殘疾人士對就業市場的認識，從而提升殘疾人士的就業機會。
收集崗位資料  歡迎企業踴躍參與
凡有意招聘殘疾人士的本澳公司、機構或社團，歡迎由4月24日至5月5日期間，登入勞工局“喜見・樂聘”殘疾人士就業配對會專頁https://www.dsal.gov.mo/zh_tw/standard/employment_recruitment_disability_happyrecruit.html報名參加，並提供適合殘疾人士任職的崗位資料，勞工局審閱及統合有關資料後，將上載至活動網頁供求職者應徵。如欲了解及查詢活動詳情，請瀏覽活動專頁或於辦公時間內致電2870 0277／6632 9329聯絡陳小姐。
---
「WTT 澳門冠軍賽 2023 ─ 由銀河娛樂集團呈獻」明演冠軍戰 王楚欽馬龍陳夢王曼昱決戰爭冠 

由體育局、世界乒乓球職業大聯盟(WTT)及銀河娛樂集團主辦、澳門乒乓總會協辦的「WTT 澳門冠軍賽 2023 ─ 由銀河娛樂集團呈獻」，明日（23日）晚上6時起進行冠軍戰，由中國球員包辦男、女單冠軍寶座，衛冕男單的王楚欽將與馬龍爭奪王者寶座，而女單后冠則是陳夢與王曼昱之爭。
女單4強，由世界排名第2的王曼昱迎戰王藝迪，兩位球員實力十分接近，王藝迪首局發揮較佳以11比7領先，落後的王曼昱經調節後一口氣連勝兩盤11比9反超前，乘著氣勢再勝11比6拉開局數3比1，之後王藝迪以11比5追近局數2比3，但狀態不俗的王曼昱，手感極佳勝11比4結束賽事，以局數4比2淘汰王藝迪率先闖入決賽。
另一場女單戰況，力爭衛冕的孫穎莎今場面對陳夢遇到考驗，首局與陳夢多番拉鋸「刁時」輸14比16落後1局，狀態不俗的陳夢乘勢再以11比6及11比8領先局數3比0，劣勢的孫穎莎第4局試圖急起直追，但早段0比5落後陷入苦戰，最終再輸9比11，局數0比4不敵陳夢無緣決賽，而勝出的陳夢決賽

新型冠狀病毒感染應變協調中心表示，本澳昨（21）日沒有新增新冠病毒確診患者入住衛生局的隔離治療設施，亦沒有因新型冠狀病毒感染離世的個案。
---
Done.


## Fetching Macao Daily news

In [63]:
from bs4 import BeautifulSoup
import requests
import datetime

def findNewsTitle(targetKeyword):
    today = datetime.date.today()
    year = today.year
    month = today.month
    day = today.day

    month = str(month).zfill(2)
    day = str(day).zfill(2)    
    res = requests.get(f"http://www.macaodaily.com/html/{year}-{month}/{day}/node_1.htm")
    res.encoding = "utf-8"

    soup = BeautifulSoup(res.text, "html.parser") # Be aware that you may need a different parser if "lxml" not found.

    links = soup.select("table #all_article_list a")
    for link in links:
        if 'content' in link['href']:
            res = requests.get(f'http://www.macaodaily.com/html/{year}-{month}/{day}/{link["href"]}')
            res.encoding = 'utf-8'
            content_soup = BeautifulSoup(res.text, 'html')
            
            content = content_soup.find('div',{'id':'ozoom'})
            subtitle = content_soup.find('table',{'id': 'table22'}).find('td',{'class':'px12'})
            
            if targetKeyword in (content.text):
                print (datetime.date.today().isoformat()
                       ,subtitle.text
                       , link.text)
 
findNewsTitle('水晶魚')
        

2023-04-23 第A01版：澳聞  “水晶魚”演習達效
2023-04-23 第A01版：澳聞  黃司促三日交報吿完善計劃
2023-04-23 第A03版：澳聞  “水晶魚演習”增安全意識
2023-04-23 第A09版：澳聞  （新聞小語）推進防災基建增城市安全


## ✏️ Exercise time: Lab 3

1. Please try to execute the code to see the program result.
1. Please try to change the keyword inside the code to fetch different queries.
1. Please try to make the code more flexible by changing the date and query into input.
1. Please try to save the result into a text file.
1. Please try to change the code to allow multiple searches until user enters "q".

In [46]:
from bs4 import BeautifulSoup
import requests

# Task 1: Change year and month into input
year = "2020"
month = "06"

for i in range(1,32):
    day = str(i).zfill(2)    
    res = requests.get(f"http://www.macaodaily.com/html/{year}-{month}/{day}/node_1.htm")

    res.encoding = "utf-8"

    soup = BeautifulSoup(res.text, "html.parser")

    links = soup.select("#all_article_list a")
    for link in links:
        news_title = link.getText()

        # Task 2: Change keyword into input
        if "大灣區" in news_title:
            # Task 3: Save the result in TXT intead of printing out.
            print(f"{year}-{month}-{day}: {news_title}")

print("Finished.")


2020-06-01: 穗力推大灣區軌道交通融合
2020-06-07: 穗市長：四領域推進大灣區建設
2020-06-09: 全國政協調研大灣區創新合作
2020-06-09: 大灣區葡語教育聯盟成立
2020-06-14: 粵發佈大灣區文遺遊徑
2020-06-14: 再現大灣區詩歌地圖
Finished.


Solution to Lab 3

https://makclass.com/vimeo_players/335074765

## When is the next holiday?

In [10]:
import datetime

url = f"https://www.gov.mo/zh-hant/public-holidays/year-{datetime.date.today().year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

print(soup.select("#public-holidays")[0].text.replace('\n',''))

 接下來的公眾假期星期四25六月端午節公眾假期


In [11]:
month = soup.select("#public-holidays .month")[0].text
day = soup.select("#public-holidays .day")[0].text
weekday = soup.select("#public-holidays .weekday")[0].text
description = soup.select("#next-holiday-description strong")[0].text

print(f"接下來的公眾假期：{description}, {month}{day}日{weekday}")

接下來的公眾假期：端午節, 六月25日星期四


## A list of holidays in Macao

In [4]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.gov.mo/zh-hant/public-holidays/year-2020/")
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

for row in tables[0].select("tr"):
    if len(row.select("td")) > 0:
        date = row.select("td")[1].text
        name = row.select("td")[3].text
        print(f"{date}: {name}")
  

1月1日: 元旦
1月25日: 農曆正月初一
1月26日: 農曆正月初二
1月27日: 農曆正月初三
4月4日: 清明節
4月10日: 耶穌受難日
4月11日: 復活節前日
4月30日: 佛誕節
5月1日: 勞動節
6月25日: 端午節
10月1日: 中華人民共和國國慶日
10月2日: 中華人民共和國國慶日翌日
10月2日: 中秋節翌日
10月25日: 重陽節
11月2日: 追思節
12月8日: 聖母無原罪瞻禮
12月20日: 澳門特別行政區成立紀念日
12月21日: 冬至
12月24日: 聖誕節前日
12月25日: 聖誕節


Only listing obligatory holidays

In [13]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.gov.mo/zh-hant/public-holidays/year-2020/")
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

for row in tables[0].select("tr"):
    if len(row.select("td")) > 0:
        is_obligatory = (row.select("td")[0].text == "*")
        if is_obligatory:
            date = row.select("td")[1].text
            name = row.select("td")[3].text
            print(f"{date}: {name}")
  

1月1日: 元旦
1月25日: 農曆正月初一
1月26日: 農曆正月初二
1月27日: 農曆正月初三
4月4日: 清明節
5月1日: 勞動節
10月1日: 中華人民共和國國慶日
10月2日: 中秋節翌日
10月25日: 重陽節
12月20日: 澳門特別行政區成立紀念日


## Is today government holiday?

In [14]:
import requests
from bs4 import BeautifulSoup
import datetime

# Get today's year, month and day
today = datetime.date.today()
year = today.year
month = today.month
day = today.day
today_weekday = today.weekday()
today_date = f"{month}月{day}日"


# Fetch gov.mo
url = f"https://www.gov.mo/zh-hant/public-holidays/year-{year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

holidays = {}

for table in tables:
    for row in table.select("tr"):
        if len(row.select("td")) > 0:    
            date = row.select("td")[1].text
            weekday = row.select("td")[2].text
            name = row.select("td")[3].text
            holidays[date] = name


# Query holidays
print(today_date)
if today_date in holidays:
    holiday = holidays[today_date]
    print(f"今天是公眾假期：{holiday}")
elif today_weekday == 0:
    print("今天是星期日，但不是公眾假期。")
elif today_weekday == 6:
    print("今天是星期六，但不是公眾假期。")  
else:
    print("今天不是公眾假期。")

6月22日
今天是星期日，但不是公眾假期。


Our code is getting longer now. We can group the parts of the code that fetch gov.mo into a function. We name it `is_macao_holiday` and take a date parameter.

In [15]:
def is_macao_holiday(query_date):    
    # Fetch gov.mo
    url = f"https://www.gov.mo/zh-hant/public-holidays/year-{query_date.year}/"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    tables = soup.select(".table")

    holidays = {}

    for table in tables:
        for row in table.select("tr"):
            if len(row.select("td")) > 0:    
                date = row.select("td")[1].text
                weekday = row.select("td")[2].text
                name = row.select("td")[3].text
                holidays[date] = name


    # Query holidays
    date_key = f"{query_date.month}月{query_date.day}日"

    if date_key in holidays:        
        holiday = holidays[date_key]
        print(f"{date_key}是公眾假期：{holiday}")
    elif query_date.weekday() == 0:
        print(f"{date_key}是星期日，但不是公眾假期。")
    elif query_date.weekday() == 6:
        print(f"{date_key}是星期六，但不是公眾假期。")  
    else:
        print(f"{date_key}不是公眾假期。")

In [11]:
is_macao_holiday(datetime.date.today())

6月18日不是公眾假期。


### Picking a date other than today

We can use parser in `dateutil` to parse a given date in string format into date format.

In [12]:
import dateutil
date = dateutil.parser.parse("2020-01-01")
is_macao_holiday(date)

1月1日是公眾假期：元旦


In [13]:
import dateutil
date = dateutil.parser.parse("2020-10-26")
is_macao_holiday(date)

10月26日是公眾假期：重陽節的補假


Futhermore, we can store the result in dictionary for further querying.

In [16]:
import requests
from bs4 import BeautifulSoup
import datetime

# Get today's year, month and day
today = datetime.date.today()
year = today.year
month = today.month
day = today.day
today_weekday = today.weekday()
today_date = f"{month}月{day}日"


# Fetch gov.mo
url = f"https://www.gov.mo/zh-hant/public-holidays/year-{year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

holidays = {}

for table in tables:
    for row in table.select("tr"):
        if len(row.select("td")) > 0:    
            is_obligatory = (row.select("td")[0].text == "*")
            date = row.select("td")[1].text
            weekday = row.select("td")[2].text
            name = row.select("td")[3].text
            holidays[date] = {
                'date': date,
                'weekday': weekday,
                'name': name,
                'is_obligatory': is_obligatory,
            }



The result is stored in dictionary `holidays`.

In [17]:
len(holidays)

28

In [18]:
holidays

{'1月1日': {'date': '1月1日',
  'weekday': '星期三',
  'name': '元旦',
  'is_obligatory': True},
 '1月25日': {'date': '1月25日',
  'weekday': '星期六',
  'name': '農曆正月初一',
  'is_obligatory': True},
 '1月26日': {'date': '1月26日',
  'weekday': '星期日',
  'name': '農曆正月初二',
  'is_obligatory': True},
 '1月27日': {'date': '1月27日',
  'weekday': '星期一',
  'name': '農曆正月初三',
  'is_obligatory': True},
 '4月4日': {'date': '4月4日',
  'weekday': '星期六',
  'name': '清明節',
  'is_obligatory': True},
 '4月10日': {'date': '4月10日',
  'weekday': '星期五',
  'name': '耶穌受難日',
  'is_obligatory': False},
 '4月11日': {'date': '4月11日',
  'weekday': '星期六',
  'name': '復活節前日',
  'is_obligatory': False},
 '4月30日': {'date': '4月30日',
  'weekday': '星期四',
  'name': '佛誕節',
  'is_obligatory': False},
 '5月1日': {'date': '5月1日',
  'weekday': '星期五',
  'name': '勞動節',
  'is_obligatory': True},
 '6月25日': {'date': '6月25日',
  'weekday': '星期四',
  'name': '端午節',
  'is_obligatory': False},
 '10月1日': {'date': '10月1日',
  'weekday': '星期四',
  'name': '中華人民共和國國慶日',
  'is_ob

In [19]:
# Query holidays
print(today_date)
if today_date in holidays:
    holiday = holidays[today_date]
    if holiday['is_obligatory']:
        print(f"今天是強制公眾假期：{holiday['name']}")
    else:
        print(f"今天是公眾假期：{holiday['name']}")
elif today_weekday == 0:
    print("今天是星期日，但不是公眾假期。")
elif today_weekday == 6:
    print("今天是星期六，但不是公眾假期。")  
else:
    print("今天不是公眾假期。")

6月22日
今天是星期日，但不是公眾假期。


## Summary

In this lesson, we learned about using BeautifulSoup to extract data from the web.