# Lesson 6—Fetching data online

Version 1.0, by [Makzan](https://makzan.net).

In this series, we will use 3 lectures to learn fetching data online. This includes:

- Finding patterns in URL
- Open web URL
- Downloading files in Python
- Fetch data with API
- **Web scraping with Requests and BeautifulSoup**
- Web automation with Selenium
- Converting Wikipedia tabular data into CSV

In this lesson, we will learn to download web page and parse the HTML to extract the data we need. We will use `requests` and `BeautifulSoup`. `Requests` downloads the web page HTML file and `BeautifulSoup` parses the HTML into tree structure for us to access and extract data.

## Web Scraping

1. Querying web page
1. Parse the DOM tree
1. Get the data we want from the HTML code

In [2]:
from bs4 import BeautifulSoup
import requests


res = requests.get("https://news.gov.mo/home/zh-hant")
soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5"):
    print(h5.getText().strip())


法務局與教青局合辦“教師法律培訓計劃”講座
地圖繪製暨地籍局推出澳門三維地圖移動版
澳門藝術家推廣計劃：“砥礪前行──關權昌畫展”將揭幕
“消費補貼計劃＂中期報告：消費卡達致多方面經濟效益
新型冠狀病毒感染應變協調中心查詢熱線統計數字 (6月21日08:00至22日08:00)
“祐漢七棟樓群”入戶調查6月開展
“2020澳門國際龍舟賽”首日賽事揭幕
新型冠狀病毒感染應變協調中心查詢熱線統計數字 (6月21日 08:00至16:00)
新型冠狀病毒感染應變協調中心查詢熱線統計數字 (6月20日 08:00至21日08:00)
高校領導關心和分享學生工作成效
行政長官賀一誠與香港特區政府保安局局長李家超一行會面
行政長官賀一誠會見澳門理工學院校董會一行
澳門歷史名人足跡（攝影：周文來）
經香港國際機場返澳的居民今日下午乘坐特別渡輪服務抵達氹仔北安碼頭
新城A區B4地段公共房屋建造工程 - 基礎及地庫公開開標
“環松山步行系統設計連建造工程”之公開開標
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
【澳門都市更新股份有限公司】祐漢七棟樓群入戶調查
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(19-06)
【新聞局】市政署人員到冷凍倉庫、批發市場和街市採取樣本作新冠病毒核酸檢測
【新聞局】經香港國際機場返澳的居民乘搭首班特別渡輪抵達氹仔北安碼頭
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(17-06)
【新聞局】心出發-遊澳門新聞發佈會16-06
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(15-06)
【新聞局】行政長官 賀一誠 栽種幼樹 宣揚珍惜大自然




焯公亭 記華商 抗疫貢獻
夜香行業七十年代式微 垃圾處理三十年前變天
病疫影響城市規劃
澳門藝術界 為抗疫打氣
非強制央積金2020年度預算盈餘特別分配款項名單公佈
明起重新開放澳門居民入境珠海豁免隔離預約系統        獲批人士可 7天內入境珠海獲豁免隔離
“心出發‧遊澳門”明日起接受報名　冀逐步恢復旅遊業活動
－記者會快訊（“心出發‧遊澳門”本地遊活動的統籌及詳情）－
明起珠海對本澳合資格人士入境暫不實施集中醫學隔離安排 應變協調中心提醒市民留意獲批的開始日期及提早填報資料
百億抗疫援助基金計劃款項6月16日

## Extra: Fetching with try-except

In [3]:
from bs4 import BeautifulSoup
import requests

try:
    res = requests.get("https://news.gov.mo/home/zh-hant")
except requests.exceptions.ConnectionError:
    print("Error: Invalid URL")
    exit()


soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5"):
    print(h5.getText().strip())


法務局與教青局合辦“教師法律培訓計劃”講座
地圖繪製暨地籍局推出澳門三維地圖移動版
澳門藝術家推廣計劃：“砥礪前行──關權昌畫展”將揭幕
“消費補貼計劃＂中期報告：消費卡達致多方面經濟效益
新型冠狀病毒感染應變協調中心查詢熱線統計數字 (6月21日08:00至22日08:00)
“祐漢七棟樓群”入戶調查6月開展
“2020澳門國際龍舟賽”首日賽事揭幕
新型冠狀病毒感染應變協調中心查詢熱線統計數字 (6月21日 08:00至16:00)
新型冠狀病毒感染應變協調中心查詢熱線統計數字 (6月20日 08:00至21日08:00)
高校領導關心和分享學生工作成效
行政長官賀一誠與香港特區政府保安局局長李家超一行會面
行政長官賀一誠會見澳門理工學院校董會一行
澳門歷史名人足跡（攝影：周文來）
經香港國際機場返澳的居民今日下午乘坐特別渡輪服務抵達氹仔北安碼頭
新城A區B4地段公共房屋建造工程 - 基礎及地庫公開開標
“環松山步行系統設計連建造工程”之公開開標
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
【澳門都市更新股份有限公司】祐漢七棟樓群入戶調查
【新聞局】消費補貼計劃中期報告新聞發佈會22-06
新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(19-06)
【新聞局】市政署人員到冷凍倉庫、批發市場和街市採取樣本作新冠病毒核酸檢測
【新聞局】經香港國際機場返澳的居民乘搭首班特別渡輪抵達氹仔北安碼頭
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(17-06)
【新聞局】心出發-遊澳門新聞發佈會16-06
【新聞局】新型冠狀病毒最新疫情及本澳各項防控措施新聞發佈會(15-06)
【新聞局】行政長官 賀一誠 栽種幼樹 宣揚珍惜大自然




焯公亭 記華商 抗疫貢獻
夜香行業七十年代式微 垃圾處理三十年前變天
病疫影響城市規劃
澳門藝術界 為抗疫打氣
非強制央積金2020年度預算盈餘特別分配款項名單公佈
明起重新開放澳門居民入境珠海豁免隔離預約系統        獲批人士可 7天內入境珠海獲豁免隔離
“心出發‧遊澳門”明日起接受報名　冀逐步恢復旅遊業活動
－記者會快訊（“心出發‧遊澳門”本地遊活動的統籌及詳情）－
明起珠海對本澳合資格人士入境暫不實施集中醫學隔離安排 應變協調中心提醒市民留意獲批的開始日期及提早填報資料
百億抗疫援助基金計劃款項6月16日

In [6]:
from bs4 import BeautifulSoup
import requests


res = requests.get("https://news.gov.mo/home/zh-hant")
soup = BeautifulSoup(res.text, "html.parser")

for h5 in soup.select("h5")[:5]:
    print(h5.getText().strip())
    
    # Fetch the content
    href = h5.select_one("a")["href"]
    res = requests.get("https://news.gov.mo/" + href)
    soup2 = BeautifulSoup(res.text, "html.parser")
    content = soup2.select_one(".asideBody p:first-of-type")
    print(content.getText())
    print("---")

print("Done.")

法務局與教青局合辦“教師法律培訓計劃”講座


為進一步拓展校園法律推廣的普及範圍，加強教師對《憲法》、《基本法》、《維護國家安全法》及預防青少年犯罪等法律知識的認識，法務局與教育暨青年局合辦“教師法律培訓計劃＂活動，組織本澳各中、小學校的教師參加講座，讓教師在深入了解有關法律知識後，更好地向在校青少年學生傳播法律知識，加強國家觀念和培養“愛國愛澳”情懷。
今年首場培訓於6月20日下午在宋玉生廣場中航大廈六樓法務局多功能室舉行，共有六十名來自本澳三十所中學的老師參與。培訓內容主要包括兩部分：第一部分由澳門大學法學院駱偉建教授主講《憲法》與《基本法》、《維護國家安全法》以及國家象徵。駱教授結合法律及社會實況，深入淺出地講解作為澳門特區憲制基礎的《憲法》與《基本法》，彼此間的關聯性以及中央與澳門特區之間的關係等，同時亦論述了《維護國家安全法》的重要性及其立法意義。此外，還向老師介紹了國旗、國徽、國歌的歷史由來、精神內涵及相關法律規定。透過駱教授生動的講解，教師們進一步領會了“一國兩制”的深刻含義，更加充分認識到在澳門新一代中培養國家認同感和歸屬感的必要性和迫切性。第二部分内容由法務局人員負責講解，主要圍繞預防青少年犯罪方面的法律規定，尤其涉及毒品犯罪、網絡犯罪、性犯罪、校園欺凌、刑事歸責年齡等方面的內容，旨在讓教師了解青少年犯罪的類型、性質及所須承擔的刑責，從而引起學校及教師的高度重視，加強對學生的法制教育，以防患於未然。
培訓活動結束後，參與的教師紛紛表示受益匪淺，並會將所學知識傳授予在校的莘莘學子。下一場“教師法律培訓計劃”講座將於6月27日舉行，對象為本澳小學老師。上述講座將繼續於下半年各開辦一場，歡迎有興趣的老師密切留意教育暨青年局教師天地的培訓資訊。

地圖繪製暨地籍局推出澳門三維地圖移動版


為進一步推廣三維地圖的應用，地圖繪製暨地籍局繼2019年4月推出桌面版全澳三維地圖後，現正式推出《澳門三維地圖》移動版（https://map3d.gis.gov.mo），讓公眾透過智能手機隨時隨地瀏覽澳門的城市面貌，伴隨智慧城市的發展，實現可持續創新。
《澳門三維地圖》移動版結合了移動設備、多點觸控、雲端應用等技術優勢，簡化了三維地圖的操作，配合精細的全澳建築物三維模型，讓公眾透過手機或移動設備，即可瀏覽全澳的三維地圖。《澳門三維地圖》移動版操作簡便，提供包括放大、

## When is the next holiday?

In [5]:
url = f"https://www.gov.mo/zh-hant/public-holidays/year-{datetime.date.today().year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

print(soup.select("#public-holidays")[0].text.replace('\n',''))

 接下來的公眾假期星期四25六月端午節公眾假期


In [6]:
month = soup.select("#public-holidays .month")[0].text
day = soup.select("#public-holidays .day")[0].text
weekday = soup.select("#public-holidays .weekday")[0].text
description = soup.select("#next-holiday-description strong")[0].text

print(f"接下來的公眾假期：{description}, {month}{day}日{weekday}")

接下來的公眾假期：端午節, 六月25日星期四


## A list of holidays in Macao

In [7]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.gov.mo/zh-hant/public-holidays/year-2020/")
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

for row in tables[0].select("tr"):
    if len(row.select("td")) > 0:
        date = row.select("td")[1].text
        name = row.select("td")[3].text
        print(f"{date}: {name}")
  

1月1日: 元旦
1月25日: 農曆正月初一
1月26日: 農曆正月初二
1月27日: 農曆正月初三
4月4日: 清明節
4月10日: 耶穌受難日
4月11日: 復活節前日
4月30日: 佛誕節
5月1日: 勞動節
6月25日: 端午節
10月1日: 中華人民共和國國慶日
10月2日: 中華人民共和國國慶日翌日
10月2日: 中秋節翌日
10月25日: 重陽節
11月2日: 追思節
12月8日: 聖母無原罪瞻禮
12月20日: 澳門特別行政區成立紀念日
12月21日: 冬至
12月24日: 聖誕節前日
12月25日: 聖誕節


Only listing obligatory holidays

In [8]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.gov.mo/zh-hant/public-holidays/year-2020/")
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

for row in tables[0].select("tr"):
    if len(row.select("td")) > 0:
        is_obligatory = (row.select("td")[0].text == "*")
        if is_obligatory:
            date = row.select("td")[1].text
            name = row.select("td")[3].text
            print(f"{date}: {name}")
  

1月1日: 元旦
1月25日: 農曆正月初一
1月26日: 農曆正月初二
1月27日: 農曆正月初三
4月4日: 清明節
5月1日: 勞動節
10月1日: 中華人民共和國國慶日
10月2日: 中秋節翌日
10月25日: 重陽節
12月20日: 澳門特別行政區成立紀念日


## Is today government holiday?

In [9]:
import requests
from bs4 import BeautifulSoup
import datetime

# Get today's year, month and day
today = datetime.date.today()
year = today.year
month = today.month
day = today.day
today_weekday = today.weekday()
today_date = f"{month}月{day}日"


# Fetch gov.mo
url = f"https://www.gov.mo/zh-hant/public-holidays/year-{year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

holidays = {}

for table in tables:
    for row in table.select("tr"):
        if len(row.select("td")) > 0:    
            date = row.select("td")[1].text
            weekday = row.select("td")[2].text
            name = row.select("td")[3].text
            holidays[date] = name


# Query holidays
print(today_date)
if today_date in holidays:
    holiday = holidays[today_date]
    print(f"今天是公眾假期：{holiday}")
elif today_weekday == 0:
    print("今天是星期日，但不是公眾假期。")
elif today_weekday == 6:
    print("今天是星期六，但不是公眾假期。")  
else:
    print("今天不是公眾假期。")

6月18日
今天不是公眾假期。


In [10]:
def is_macao_holiday(query_date):    
    # Fetch gov.mo
    url = f"https://www.gov.mo/zh-hant/public-holidays/year-{query_date.year}/"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    tables = soup.select(".table")

    holidays = {}

    for table in tables:
        for row in table.select("tr"):
            if len(row.select("td")) > 0:    
                date = row.select("td")[1].text
                weekday = row.select("td")[2].text
                name = row.select("td")[3].text
                holidays[date] = name


    # Query holidays
    date_key = f"{query_date.month}月{query_date.day}日"

    if date_key in holidays:        
        holiday = holidays[date_key]
        print(f"{date_key}是公眾假期：{holiday}")
    elif query_date.weekday() == 0:
        print(f"{date_key}是星期日，但不是公眾假期。")
    elif query_date.weekday() == 6:
        print(f"{date_key}是星期六，但不是公眾假期。")  
    else:
        print(f"{date_key}不是公眾假期。")

In [11]:
is_macao_holiday(datetime.date.today())

6月18日不是公眾假期。


### Picking a date other than today

In [12]:
import dateutil
date = dateutil.parser.parse("2020-01-01")
is_macao_holiday(date)

1月1日是公眾假期：元旦


In [13]:
import dateutil
date = dateutil.parser.parse("2020-10-26")
is_macao_holiday(date)

10月26日是公眾假期：重陽節的補假


Futhermore, we can store the result in dictionary for further querying.

In [14]:
import requests
from bs4 import BeautifulSoup
import datetime

# Get today's year, month and day
today = datetime.date.today()
year = today.year
month = today.month
day = today.day
today_weekday = today.weekday()
today_date = f"{month}月{day}日"


# Fetch gov.mo
url = f"https://www.gov.mo/zh-hant/public-holidays/year-{year}/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

tables = soup.select(".table")

holidays = {}

for table in tables:
    for row in table.select("tr"):
        if len(row.select("td")) > 0:    
            is_obligatory = (row.select("td")[0].text == "*")
            date = row.select("td")[1].text
            weekday = row.select("td")[2].text
            name = row.select("td")[3].text
            holidays[date] = {
                'date': date,
                'weekday': weekday,
                'name': name,
                'is_obligatory': is_obligatory,
            }

# Query holidays
print(today_date)
if today_date in holidays:
    holiday = holidays[today_date]
    if holiday['is_obligatory']:
        print(f"今天是強制公眾假期：{holiday['name']}")
    else:
        print(f"今天是公眾假期：{holiday['name']}")
elif today_weekday == 0:
    print("今天是星期日，但不是公眾假期。")
elif today_weekday == 6:
    print("今天是星期六，但不是公眾假期。")  
else:
    print("今天不是公眾假期。")

6月18日
今天不是公眾假期。


In [15]:
holidays

{'1月1日': {'date': '1月1日',
  'weekday': '星期三',
  'name': '元旦',
  'is_obligatory': True},
 '1月25日': {'date': '1月25日',
  'weekday': '星期六',
  'name': '農曆正月初一',
  'is_obligatory': True},
 '1月26日': {'date': '1月26日',
  'weekday': '星期日',
  'name': '農曆正月初二',
  'is_obligatory': True},
 '1月27日': {'date': '1月27日',
  'weekday': '星期一',
  'name': '農曆正月初三',
  'is_obligatory': True},
 '4月4日': {'date': '4月4日',
  'weekday': '星期六',
  'name': '清明節',
  'is_obligatory': True},
 '4月10日': {'date': '4月10日',
  'weekday': '星期五',
  'name': '耶穌受難日',
  'is_obligatory': False},
 '4月11日': {'date': '4月11日',
  'weekday': '星期六',
  'name': '復活節前日',
  'is_obligatory': False},
 '4月30日': {'date': '4月30日',
  'weekday': '星期四',
  'name': '佛誕節',
  'is_obligatory': False},
 '5月1日': {'date': '5月1日',
  'weekday': '星期五',
  'name': '勞動節',
  'is_obligatory': True},
 '6月25日': {'date': '6月25日',
  'weekday': '星期四',
  'name': '端午節',
  'is_obligatory': False},
 '10月1日': {'date': '10月1日',
  'weekday': '星期四',
  'name': '中華人民共和國國慶日',
  'is_ob