# Lesson 6—Fetching data online

Version 1.0, by [Makzan](https://makzan.net).

In this series, we will use 3 lectures to learn fetching data online. This includes:

- Finding patterns in URL
- Open web URL
- Downloading files in Python
- Fetch data with API
- **Web scraping with Requests and BeautifulSoup**
- Web automation with Selenium
- Converting Wikipedia tabular data into CSV

In this lesson, we will learn to download web page and parse the HTML to extract the data we need. We will use `requests` and `BeautifulSoup`. `Requests` downloads the web page HTML file and `BeautifulSoup` parses the HTML into tree structure for us to access and extract data.

## Web Scraping

1. Querying web page
1. Parse the DOM tree
1. Get the data we want from the HTML code

In [35]:
from bs4 import BeautifulSoup
import requests


res = requests.get("https://news.gov.mo/home/zh-hant")
soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5"):
    print(h5.text.strip())


社會工作局新任正副局長就職
－記者會快訊（過去兩天澳門居民入境珠海豁免隔離醫學觀察的網上申請系統運作良好）－
當事人需就沒有在訴訟程序中適時採取防禦手段承擔後果
新型冠狀病毒感染應變協調中心查詢熱線統計數字(6月22日 08:00至16:00)
－記者會快訊（北京疫情）－
－記者會快訊（出入境及市面情況）－
－記者會快訊（6月19-21日共新增354名入境人士須作醫學觀察）－
－記者會快訊（有867人在指定酒店作醫學觀察）－
托兒所友善措施首日運作暢順
－記者會快訊（本澳最新疫情）－
“消費補貼計劃”中期報告新聞發佈會
行政長官賀一誠與香港特區政府保安局局長李家超一行會面
行政長官賀一誠會見澳門理工學院校董會一行
澳門歷史名人足跡（攝影：周文來）
經香港國際機場返澳的居民今日下午乘坐特別渡輪服務抵達氹仔北安碼頭
新城A區B4地段公共房屋建造工程 - 基礎及地庫公開開標
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
【澳門都市更新股份有限公司】祐漢七棟樓群入戶調查
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(19-06)
【新聞局】市政署人員到冷凍倉庫、批發市場和街市採取樣本作新冠病毒核酸檢測
【新聞局】經香港國際機場返澳的居民乘搭首班特別渡輪抵達氹仔北安碼頭
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(17-06)
【新聞局】心出發-遊澳門新聞發佈會16-06
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(15-06)
【新聞局】行政長官 賀一誠 栽種幼樹 宣揚珍惜大自然




焯公亭 記華商 抗疫貢獻
夜香行業七十年代式微 垃圾處理三十年前變天
病疫影響城市規劃
澳門藝術界 為抗疫打氣
非強制央積金2020年度預算盈餘特別分配款項名單公佈
明起重新開放澳門居民入境珠海豁免隔離預約系統        獲批人士可 7天內入境珠海獲豁免隔離
“心出發‧遊澳門”明日起接受報名　冀逐步恢復旅遊業活動
－記者會快訊（“心出發‧遊澳門”本地遊活動的統籌及詳情）－
明起珠海對本澳合資格人士入境暫不實施集中醫學隔離安排 應變協調中心提醒市民留意獲批的開始日期及提早填報資料
百億抗疫援助基金計劃款項6月16日起發放
兩項防浸設備資助計劃月杪結束，呼籲商戶如有需要及早申請
【圖文包】常住珠海

## Extra: Fetching with try-except

In [36]:
from bs4 import BeautifulSoup
import requests

try:
    res = requests.get("https://news.gov.mo/home/zh-hant")
except requests.exceptions.ConnectionError:
    print("Error: Invalid URL")
    exit()


soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5"):
    print(h5.text.strip())


社會工作局新任正副局長就職
－記者會快訊（過去兩天澳門居民入境珠海豁免隔離醫學觀察的網上申請系統運作良好）－
當事人需就沒有在訴訟程序中適時採取防禦手段承擔後果
新型冠狀病毒感染應變協調中心查詢熱線統計數字(6月22日 08:00至16:00)
－記者會快訊（北京疫情）－
－記者會快訊（出入境及市面情況）－
－記者會快訊（6月19-21日共新增354名入境人士須作醫學觀察）－
－記者會快訊（有867人在指定酒店作醫學觀察）－
托兒所友善措施首日運作暢順
－記者會快訊（本澳最新疫情）－
“消費補貼計劃”中期報告新聞發佈會
行政長官賀一誠與香港特區政府保安局局長李家超一行會面
行政長官賀一誠會見澳門理工學院校董會一行
澳門歷史名人足跡（攝影：周文來）
經香港國際機場返澳的居民今日下午乘坐特別渡輪服務抵達氹仔北安碼頭
新城A區B4地段公共房屋建造工程 - 基礎及地庫公開開標
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
【澳門都市更新股份有限公司】祐漢七棟樓群入戶調查
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(19-06)
【新聞局】市政署人員到冷凍倉庫、批發市場和街市採取樣本作新冠病毒核酸檢測
【新聞局】經香港國際機場返澳的居民乘搭首班特別渡輪抵達氹仔北安碼頭
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(17-06)
【新聞局】心出發-遊澳門新聞發佈會16-06
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(15-06)
【新聞局】行政長官 賀一誠 栽種幼樹 宣揚珍惜大自然




焯公亭 記華商 抗疫貢獻
夜香行業七十年代式微 垃圾處理三十年前變天
病疫影響城市規劃
澳門藝術界 為抗疫打氣
非強制央積金2020年度預算盈餘特別分配款項名單公佈
明起重新開放澳門居民入境珠海豁免隔離預約系統        獲批人士可 7天內入境珠海獲豁免隔離
“心出發‧遊澳門”明日起接受報名　冀逐步恢復旅遊業活動
－記者會快訊（“心出發‧遊澳門”本地遊活動的統籌及詳情）－
明起珠海對本澳合資格人士入境暫不實施集中醫學隔離安排 應變協調中心提醒市民留意獲批的開始日期及提早填報資料
百億抗疫援助基金計劃款項6月16日起發放
兩項防浸設備資助計劃月杪結束，呼籲商戶如有需要及早申請
【圖文包】常住珠海

In [34]:
from bs4 import BeautifulSoup
import requests


res = requests.get("https://news.gov.mo/home/zh-hant")
soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5")[:5]:
    print(h5.getText().strip())
    
    # Fetch the content
    href = h5.select_one("a")["href"]
    res = requests.get("https://news.gov.mo/" + href)
    soup2 = BeautifulSoup(res.text, "html.parser")
    content = soup2.select_one(".asideBody p:first-of-type")
    print(content.text)
    print("---")

print("Done.")

社會工作局新任正副局長就職


社會工作局韓衛局長和鄧玉華副局長今（22）日在政府總部多功能廳宣誓就職，儀式由社會文化司歐陽瑜司長主持監誓，並由社會文化司司長辦公室何鈺珊主任、社會文化司轄下各部門領導、社會工作局轄下各單位主管等人員出席見證。
韓衛局長表示，在履新後定必竭盡所能，團結社會工作局全體同事，切實執行社會工作領域的各項工作，持續提升社會服務的專業水平，增進民生福祉。作為一個服務市民的公務員，會時刻提醒自己要行公義、好憐憫、保持謙卑，同時要廉潔公正、以身作則、帶領團隊履行公務，服務社會大眾。
韓衛擁有台灣大學心理學碩士學歷。自1995年進入公職，於當時的預防及治療藥物依賴辦公室擔任高級技術員職務，1997年起在該辦公室擔任治療技術中心監督。自1999年該辦公室納入社會工作局，自該時起韓衛分別擔任該局戒毒復康處處長、防治藥物依賴廳代廳長及廳長，並於2016年1月起擔任副局長，至2019年12月就任為代局長，具備專業能力及豐富工作經驗。根據社會文化司司長批示，委任韓衛自2020年6月20日起擔任社會工作局局長。
鄧玉華擁有南京大學社會學博士學歷。自1988年進入公職，於社會工作司擔任社會工作助理技術員、技術員、助理、兒童及青年組協調員等職務，1999年至2020年分別擔任社會工作局高級技術員、預防藥物濫用處處長、家庭及社區服務廳廳長、防治賭毒成癮廳廳長，至2019年12月就任為代副局長，具備專業能力及豐富工作經驗。根據社會文化司司長批示，委任鄧玉華自2020年6月20日起擔任社會工作局副局長。

---
－記者會快訊（過去兩天澳門居民入境珠海豁免隔離醫學觀察的網上申請系統運作良好）－


應變協調中心表示，於上周六對於澳門居民入境珠海豁免隔離醫學觀察的網上申請系統進行了優化，並增加了申請名額。過去的星期六和星期日，系統的運作整體大致良好，協調中心亦會盡快審核申請人士的資格，一旦有名額釋出，在當日傍晚六時會再開放名額供市民申請。
協調中心表示，珠海方面允許澳門所提供的名額為1,000個，呼籲市民因應自身需要，把名額留給急切需要的人士優先使用。

---
當事人需就沒有在訴訟程序中適時採取防禦手段承擔後果


甲針對乙公司向初級法院提起通常訴訟程序給付之訴，請求判處乙公司向其支付16,740,000.00澳門元的金額連同利息。乙公司被傳喚後作出答辯，提出甲主張的權利

## Fetchin Macao Daily news

In [42]:
from bs4 import BeautifulSoup
import requests

today = datetime.date.today()
year = today.year
month = today.month
day = today.day

month = str(month).zfill(2)
day = str(day).zfill(2)    
res = requests.get(f"http://www.macaodaily.com/html/{year}-{month}/{day}/node_1.htm")

res.encoding = "utf-8"

soup = BeautifulSoup(res.text, "html.parser") # Be aware that you may need a different parser if "lxml" not found.

links = soup.select("#all_article_list a")
for link in links[:40]:
    print(link.text) 


print("Finished.")


A01：澳聞
萬人空巷觀日食

A02：廣告

A03：廣告

A04：廣告

A05：廣告

A06：廣告

A07：廣告

A08：廣告

A09：要聞
多國民眾爭睹“金戒指”
中國公眾觀天狗食日
（社論）博爾頓新書打擊特選情

A10：經濟
“本地遊”今出發 導遊先踩線
（一家之言）反思不足 迎接未來機遇
導遊：熟習資料  方便介紹
赴台學做飯團 開店日賣逾二百個
經營三問：
品牌化重門面 講究內涵
控制舖租佔比 拓展團購市場
網上平台宣傳 開旅客市場
開發周邊產品 提升人均消費

A11：經濟
憂疫情第二波 恆指二萬四拉鋸
博爾頓新書捅一刀 特朗普連任艱難
後疫情時代旅遊業新發展路徑
港息短期波動 長期向下
金蝶國際前景看俏
Finished.


## ✏️ Exercise time: Lab 3

1. Please try to execute the code to see the program result.
1. Please try to change the keyword inside the code to fetch different queries.
1. Please try to make the code more flexible by changing the date and query into input.
1. Please try to save the result into a text file.
1. Please try to change the code to allow multiple searches until user enters "q".

In [46]:
from bs4 import BeautifulSoup
import requests

# Task 1: Change year and month into input
year = "2020"
month = "06"

for i in range(1,32):
    day = str(i).zfill(2)    
    res = requests.get(f"http://www.macaodaily.com/html/{year}-{month}/{day}/node_1.htm")

    res.encoding = "utf-8"

    soup = BeautifulSoup(res.text, "html.parser")

    links = soup.select("#all_article_list a")
    for link in links:
        news_title = link.getText()

        # Task 2: Change keyword into input
        if "大灣區" in news_title:
            # Task 3: Save the result in TXT intead of printing out.
            print(f"{year}-{month}-{day}: {news_title}")

print("Finished.")


2020-06-01: 穗力推大灣區軌道交通融合
2020-06-07: 穗市長：四領域推進大灣區建設
2020-06-09: 全國政協調研大灣區創新合作
2020-06-09: 大灣區葡語教育聯盟成立
2020-06-14: 粵發佈大灣區文遺遊徑
2020-06-14: 再現大灣區詩歌地圖
Finished.


Solution to Lab 3

https://makclass.com/vimeo_players/335074765

## When is the next holiday?

In [10]:
import datetime

url = f"https://www.gov.mo/zh-hant/public-holidays/year-{datetime.date.today().year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

print(soup.select("#public-holidays")[0].text.replace('\n',''))

 接下來的公眾假期星期四25六月端午節公眾假期


In [11]:
month = soup.select("#public-holidays .month")[0].text
day = soup.select("#public-holidays .day")[0].text
weekday = soup.select("#public-holidays .weekday")[0].text
description = soup.select("#next-holiday-description strong")[0].text

print(f"接下來的公眾假期：{description}, {month}{day}日{weekday}")

接下來的公眾假期：端午節, 六月25日星期四


## A list of holidays in Macao

In [12]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.gov.mo/zh-hant/public-holidays/year-2020/")
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

for row in tables[0].select("tr"):
    if len(row.select("td")) > 0:
        date = row.select("td")[1].text
        name = row.select("td")[3].text
        print(f"{date}: {name}")
  

1月1日: 元旦
1月25日: 農曆正月初一
1月26日: 農曆正月初二
1月27日: 農曆正月初三
4月4日: 清明節
4月10日: 耶穌受難日
4月11日: 復活節前日
4月30日: 佛誕節
5月1日: 勞動節
6月25日: 端午節
10月1日: 中華人民共和國國慶日
10月2日: 中華人民共和國國慶日翌日
10月2日: 中秋節翌日
10月25日: 重陽節
11月2日: 追思節
12月8日: 聖母無原罪瞻禮
12月20日: 澳門特別行政區成立紀念日
12月21日: 冬至
12月24日: 聖誕節前日
12月25日: 聖誕節


Only listing obligatory holidays

In [13]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.gov.mo/zh-hant/public-holidays/year-2020/")
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

for row in tables[0].select("tr"):
    if len(row.select("td")) > 0:
        is_obligatory = (row.select("td")[0].text == "*")
        if is_obligatory:
            date = row.select("td")[1].text
            name = row.select("td")[3].text
            print(f"{date}: {name}")
  

1月1日: 元旦
1月25日: 農曆正月初一
1月26日: 農曆正月初二
1月27日: 農曆正月初三
4月4日: 清明節
5月1日: 勞動節
10月1日: 中華人民共和國國慶日
10月2日: 中秋節翌日
10月25日: 重陽節
12月20日: 澳門特別行政區成立紀念日


## Is today government holiday?

In [14]:
import requests
from bs4 import BeautifulSoup
import datetime

# Get today's year, month and day
today = datetime.date.today()
year = today.year
month = today.month
day = today.day
today_weekday = today.weekday()
today_date = f"{month}月{day}日"


# Fetch gov.mo
url = f"https://www.gov.mo/zh-hant/public-holidays/year-{year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

holidays = {}

for table in tables:
    for row in table.select("tr"):
        if len(row.select("td")) > 0:    
            date = row.select("td")[1].text
            weekday = row.select("td")[2].text
            name = row.select("td")[3].text
            holidays[date] = name


# Query holidays
print(today_date)
if today_date in holidays:
    holiday = holidays[today_date]
    print(f"今天是公眾假期：{holiday}")
elif today_weekday == 0:
    print("今天是星期日，但不是公眾假期。")
elif today_weekday == 6:
    print("今天是星期六，但不是公眾假期。")  
else:
    print("今天不是公眾假期。")

6月22日
今天是星期日，但不是公眾假期。


Our code is getting longer now. We can group the parts of the code that fetch gov.mo into a function. We name it `is_macao_holiday` and take a date parameter.

In [15]:
def is_macao_holiday(query_date):    
    # Fetch gov.mo
    url = f"https://www.gov.mo/zh-hant/public-holidays/year-{query_date.year}/"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    tables = soup.select(".table")

    holidays = {}

    for table in tables:
        for row in table.select("tr"):
            if len(row.select("td")) > 0:    
                date = row.select("td")[1].text
                weekday = row.select("td")[2].text
                name = row.select("td")[3].text
                holidays[date] = name


    # Query holidays
    date_key = f"{query_date.month}月{query_date.day}日"

    if date_key in holidays:        
        holiday = holidays[date_key]
        print(f"{date_key}是公眾假期：{holiday}")
    elif query_date.weekday() == 0:
        print(f"{date_key}是星期日，但不是公眾假期。")
    elif query_date.weekday() == 6:
        print(f"{date_key}是星期六，但不是公眾假期。")  
    else:
        print(f"{date_key}不是公眾假期。")

In [11]:
is_macao_holiday(datetime.date.today())

6月18日不是公眾假期。


### Picking a date other than today

We can use parser in `dateutil` to parse a given date in string format into date format.

In [12]:
import dateutil
date = dateutil.parser.parse("2020-01-01")
is_macao_holiday(date)

1月1日是公眾假期：元旦


In [13]:
import dateutil
date = dateutil.parser.parse("2020-10-26")
is_macao_holiday(date)

10月26日是公眾假期：重陽節的補假


Futhermore, we can store the result in dictionary for further querying.

In [16]:
import requests
from bs4 import BeautifulSoup
import datetime

# Get today's year, month and day
today = datetime.date.today()
year = today.year
month = today.month
day = today.day
today_weekday = today.weekday()
today_date = f"{month}月{day}日"


# Fetch gov.mo
url = f"https://www.gov.mo/zh-hant/public-holidays/year-{year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

holidays = {}

for table in tables:
    for row in table.select("tr"):
        if len(row.select("td")) > 0:    
            is_obligatory = (row.select("td")[0].text == "*")
            date = row.select("td")[1].text
            weekday = row.select("td")[2].text
            name = row.select("td")[3].text
            holidays[date] = {
                'date': date,
                'weekday': weekday,
                'name': name,
                'is_obligatory': is_obligatory,
            }



The result is stored in dictionary `holidays`.

In [17]:
len(holidays)

28

In [18]:
holidays

{'1月1日': {'date': '1月1日',
  'weekday': '星期三',
  'name': '元旦',
  'is_obligatory': True},
 '1月25日': {'date': '1月25日',
  'weekday': '星期六',
  'name': '農曆正月初一',
  'is_obligatory': True},
 '1月26日': {'date': '1月26日',
  'weekday': '星期日',
  'name': '農曆正月初二',
  'is_obligatory': True},
 '1月27日': {'date': '1月27日',
  'weekday': '星期一',
  'name': '農曆正月初三',
  'is_obligatory': True},
 '4月4日': {'date': '4月4日',
  'weekday': '星期六',
  'name': '清明節',
  'is_obligatory': True},
 '4月10日': {'date': '4月10日',
  'weekday': '星期五',
  'name': '耶穌受難日',
  'is_obligatory': False},
 '4月11日': {'date': '4月11日',
  'weekday': '星期六',
  'name': '復活節前日',
  'is_obligatory': False},
 '4月30日': {'date': '4月30日',
  'weekday': '星期四',
  'name': '佛誕節',
  'is_obligatory': False},
 '5月1日': {'date': '5月1日',
  'weekday': '星期五',
  'name': '勞動節',
  'is_obligatory': True},
 '6月25日': {'date': '6月25日',
  'weekday': '星期四',
  'name': '端午節',
  'is_obligatory': False},
 '10月1日': {'date': '10月1日',
  'weekday': '星期四',
  'name': '中華人民共和國國慶日',
  'is_ob

In [19]:
# Query holidays
print(today_date)
if today_date in holidays:
    holiday = holidays[today_date]
    if holiday['is_obligatory']:
        print(f"今天是強制公眾假期：{holiday['name']}")
    else:
        print(f"今天是公眾假期：{holiday['name']}")
elif today_weekday == 0:
    print("今天是星期日，但不是公眾假期。")
elif today_weekday == 6:
    print("今天是星期六，但不是公眾假期。")  
else:
    print("今天不是公眾假期。")

6月22日
今天是星期日，但不是公眾假期。


## Summary

In this lesson, we learned about using BeautifulSoup to extract data from the web.