In [59]:
# 4 Major Python Libraries for Web Crawling
# (1) Pandas - Parsing HTML Tables
# (2) Request - Parsing HTML Codes
# (3) BeautifulSoup - Analyzing HTML Codes
# (4) Selenium - Automating Browser Activities

# All labs in these lessons are meant for demonstrating web crawling techniques only.
# Please Google and try to understand in details the ethics and best practice for web crawling.
# e.g. https://sunscrapers.com/blog/web-crawling-scraping-best-practices/

In [60]:
# install all these libraries to your environment
# include the latest chromedriver in your folder
import pandas as pd
from selenium import webdriver
import time

In [61]:
url = "https://www1.hkexnews.hk/listedco/listconews/index/lci.html?lang=zh"

In [62]:
# read_html() method very likely cannot work due to 2 reasons:
# (1) user-agent for browsers not defined by default
# (2) javascripts are not fully loaded before crawling
test_df = pd.read_html(url)
test_df

[Empty DataFrame
 Columns: [Unnamed: 0, Unnamed: 1, Unnamed: 2, Unnamed: 3]
 Index: []]

In [63]:
# Sometimes you may need to set user agent for test browser to work properly.
from selenium.webdriver.chrome.options import Options
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36"
chrome_options = Options()
chrome_options.add_argument(f"user-agent={user_agent}")

In [64]:
# use this statement if you use Windows:
#driver = webdriver.Chrome(options=chrome_options)
# use this statement if you use Mac:
driver = webdriver.Chrome('./chromedriver', options=chrome_options) # define user-agent
driver.get(url)
time.sleep(6) # make sure javascripts are fully loaded before crawling
html = driver.page_source
driver.quit()

In [65]:
raw_df = pd.read_html(html)
raw_df

[                       發放時間        股份代號               股份簡稱  \
 0    發放時間: 02/02/2024 22:55  股份代號:00240          股份簡稱:利基控股   
 1    發放時間: 02/02/2024 22:54  股份代號:01357          股份簡稱:美圖公司   
 2    發放時間: 02/02/2024 22:53  股份代號:00610  股份簡稱:WAI KEE HOLD   
 3    發放時間: 02/02/2024 22:48  股份代號:00978         股份簡稱:招商局置地   
 4    發放時間: 02/02/2024 22:46  股份代號:00317          股份簡稱:中船防務   
 ..                      ...         ...                ...   
 243  發放時間: 02/02/2024 16:30  股份代號:00411        股份簡稱:南順（香港）   
 244  發放時間: 02/02/2024 16:30  股份代號:00583        股份簡稱:長城環亞控股   
 245  發放時間: 02/02/2024 16:30  股份代號:03662          股份簡稱:星悅康旅   
 246  發放時間: 02/02/2024 16:30  股份代號:01862          股份簡稱:景瑞控股   
 247  發放時間: 02/02/2024 16:30  股份代號:01738         股份簡稱:飛尚無煙煤   
 
                                           文件  隱藏標題顯示標題  
 0    文件:公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改]惠記及利基之主要交易...  
 1    文件:公告及通告 - [須予披露的交易 / 代價發行 / 根據一般性授權發行股份]須予披露交...  
 2    文件:公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改]惠記及利基之主要交易...  
 3    文件:公

In [66]:
len(raw_df)

2

In [67]:
# Clearly we need the first table
df = raw_df[0]
df

Unnamed: 0,發放時間,股份代號,股份簡稱,文件 隱藏標題顯示標題
0,發放時間: 02/02/2024 22:55,股份代號:00240,股份簡稱:利基控股,文件:公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改]惠記及利基之主要交易...
1,發放時間: 02/02/2024 22:54,股份代號:01357,股份簡稱:美圖公司,文件:公告及通告 - [須予披露的交易 / 代價發行 / 根據一般性授權發行股份]須予披露交...
2,發放時間: 02/02/2024 22:53,股份代號:00610,股份簡稱:WAI KEE HOLD,文件:公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改]惠記及利基之主要交易...
3,發放時間: 02/02/2024 22:48,股份代號:00978,股份簡稱:招商局置地,文件:公告及通告 - [附有特定履行契諾的借貸協議]根據上市規則第13.18條之披露 (17...
4,發放時間: 02/02/2024 22:46,股份代號:00317,股份簡稱:中船防務,文件:公告及通告 - [董事名單和他們的地位和作用]董事名單及彼等角色及職能 (155KB)
...,...,...,...,...
243,發放時間: 02/02/2024 16:30,股份代號:00411,股份簡稱:南順（香港）,文件:公告及通告 - [盈利警告 / 內幕消息]正面盈利預告 (125KB)
244,發放時間: 02/02/2024 16:30,股份代號:00583,股份簡稱:長城環亞控股,文件:公告及通告 - [董事會召開日期]董事會會議召開日期 (129KB)
245,發放時間: 02/02/2024 16:30,股份代號:03662,股份簡稱:星悅康旅,文件:通函 - [其他]致登記股東之通知信函 - 發佈公司通訊之新安排及回條 (653KB)
246,發放時間: 02/02/2024 16:30,股份代號:01862,股份簡稱:景瑞控股,文件:公告及通告 - [其他-營運業績最新情況]2024年1月未經審計的營運數據 (100KB)


<h2>Technique: Data Cleansing</h2>

In [68]:
# Slicing Pandas Series
df["發放時間"] = df["發放時間"].str[6:]
df["發放時間"]

0      02/02/2024 22:55
1      02/02/2024 22:54
2      02/02/2024 22:53
3      02/02/2024 22:48
4      02/02/2024 22:46
             ...       
243    02/02/2024 16:30
244    02/02/2024 16:30
245    02/02/2024 16:30
246    02/02/2024 16:30
247    02/02/2024 16:30
Name: 發放時間, Length: 248, dtype: object

In [69]:
# Slicing Pandas Series
df["股份代號"] = df["股份代號"].str[5:]
df["股份代號"]

0      00240
1      01357
2      00610
3      00978
4      00317
       ...  
243    00411
244    00583
245    03662
246    01862
247    01738
Name: 股份代號, Length: 248, dtype: object

In [70]:
# Slicing Pandas Series
df["股份簡稱"] = df["股份簡稱"].str[5:]
df["股份簡稱"]

0              利基控股
1              美圖公司
2      WAI KEE HOLD
3             招商局置地
4              中船防務
           ...     
243          南順（香港）
244          長城環亞控股
245            星悅康旅
246            景瑞控股
247           飛尚無煙煤
Name: 股份簡稱, Length: 248, dtype: object

In [71]:
# Slicing Pandas Series
df["文件  隱藏標題顯示標題"] = df["文件  隱藏標題顯示標題"].str[3:]
df["文件  隱藏標題顯示標題"]

0      公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改]惠記及利基之主要交易 – ...
1      公告及通告 - [須予披露的交易 / 代價發行 / 根據一般性授權發行股份]須予披露交易收購...
2      公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改]惠記及利基之主要交易 – ...
3        公告及通告 - [附有特定履行契諾的借貸協議]根據上市規則第13.18條之披露 (170KB)
4            公告及通告 - [董事名單和他們的地位和作用]董事名單及彼等角色及職能 (155KB)
                             ...                        
243                  公告及通告 - [盈利警告 / 內幕消息]正面盈利預告 (125KB)
244                   公告及通告 - [董事會召開日期]董事會會議召開日期 (129KB)
245          通函 - [其他]致登記股東之通知信函 - 發佈公司通訊之新安排及回條 (653KB)
246        公告及通告 - [其他-營運業績最新情況]2024年1月未經審計的營運數據 (100KB)
247    公告及通告 - [盈利警告 / 內幕消息]內幕消息 盈利警告 截至二零二三年十二月三十一日止...
Name: 文件  隱藏標題顯示標題, Length: 248, dtype: object

In [72]:
df

Unnamed: 0,發放時間,股份代號,股份簡稱,文件 隱藏標題顯示標題
0,02/02/2024 22:55,00240,利基控股,公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改]惠記及利基之主要交易 – ...
1,02/02/2024 22:54,01357,美圖公司,公告及通告 - [須予披露的交易 / 代價發行 / 根據一般性授權發行股份]須予披露交易收購...
2,02/02/2024 22:53,00610,WAI KEE HOLD,公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改]惠記及利基之主要交易 – ...
3,02/02/2024 22:48,00978,招商局置地,公告及通告 - [附有特定履行契諾的借貸協議]根據上市規則第13.18條之披露 (170KB)
4,02/02/2024 22:46,00317,中船防務,公告及通告 - [董事名單和他們的地位和作用]董事名單及彼等角色及職能 (155KB)
...,...,...,...,...
243,02/02/2024 16:30,00411,南順（香港）,公告及通告 - [盈利警告 / 內幕消息]正面盈利預告 (125KB)
244,02/02/2024 16:30,00583,長城環亞控股,公告及通告 - [董事會召開日期]董事會會議召開日期 (129KB)
245,02/02/2024 16:30,03662,星悅康旅,通函 - [其他]致登記股東之通知信函 - 發佈公司通訊之新安排及回條 (653KB)
246,02/02/2024 16:30,01862,景瑞控股,公告及通告 - [其他-營運業績最新情況]2024年1月未經審計的營運數據 (100KB)


<h2>Question: Can we get the hyperlinks as well?</h2>
<ul>
    <li>Method 1: Analyzing Json file generated through Javascript ajax request</li>
    <li>Method 2: BeautifulSoup (To be demonstrated in next demos)</li>
</ul>

<h2>Technique: Analyzing Json File</h2>

In [73]:
dj = pd.read_json("https://www1.hkexnews.hk/ncms/json/eds/lcisehk1relsdc_1.json?_=1676828302762")
dj

Unnamed: 0,genDate,maxNumOfFile,newsInfoLst
0,1706976000495,2,"{'newsId': 11061430, 'lTxt': '月報表', 'sTxt': '月..."
1,1706976000495,2,"{'newsId': 11061428, 'lTxt': '月報表', 'sTxt': '月..."
2,1706976000495,2,"{'newsId': 11061426, 'lTxt': '公告及通告 - [主要交易 / ..."
3,1706976000495,2,"{'newsId': 11061424, 'lTxt': '公告及通告 - [須予披露的交易..."
4,1706976000495,2,"{'newsId': 11061422, 'lTxt': '公告及通告 - [主要交易 / ..."
...,...,...,...
495,1706976000495,2,"{'newsId': 11060073, 'lTxt': '通函 - [主要交易]', 's..."
496,1706976000495,2,"{'newsId': 11060071, 'lTxt': '月報表', 'sTxt': '月..."
497,1706976000495,2,"{'newsId': 11060069, 'lTxt': '月報表', 'sTxt': '月..."
498,1706976000495,2,"{'newsId': 11059974, 'lTxt': '公告及通告 - [內幕消息 / ..."


In [74]:
#https://www.tutorialspoint.com/How-to-get-current-time-in-milliseconds-in-Python
import time
obj = time.gmtime(0)
epoch = time.asctime(obj)
print("The epoch is:", epoch)
curr_time = round(time.time()*1000)
print("Milliseconds since epoch:", curr_time)

The epoch is: Thu Jan  1 00:00:00 1970
Milliseconds since epoch: 1706984750827


In [75]:
#https://realpython.com/python-json/
import json
import requests
response = requests.get("https://www1.hkexnews.hk/ncms/json/eds/lcisehk1relsdc_1.json?_=" + str(curr_time))
json_text = json.loads(response.text)

In [76]:
#json_text

In [77]:
# Accessing content of json as in python lists and dictionaries
json_text["newsInfoLst"][3]

{'newsId': 11061424,
 'lTxt': '公告及通告 - [須予披露的交易 / 代價發行 / 根據一般性授權發行股份]',
 'sTxt': '公告及通告 - [須予披露的交易 / 代價發行 / 根據一般性授權發行股份]',
 'title': '須予披露交易收購ZCOOL NETWORK TECHNOLOGY LIMITED的全部已發行股本',
 'ext': 'pdf',
 'size': '576KB',
 'webPath': '/listedco/listconews/sehk/2024/0202/2024020202348_c.pdf',
 'market': 'SEHK',
 'multi': 0,
 'stock': [{'sc': '01357', 'sn': '美圖公司'}],
 'relTime': '02/02/2024 22:54',
 't1Code': '10000',
 't2Code': '16200,18240,18380',
 'dod': 'N',
 'dodPath': 'NaN'}

In [78]:
# Accessing content of json as in python lists and dictionaries
json_text["newsInfoLst"][3]["stock"][0]["sc"]

'01357'

In [79]:
# Accessing content of json as in python lists and dictionaries
json_text["newsInfoLst"][3]["stock"][0]["sn"]

'美圖公司'

In [80]:
# Accessing content of json as in python lists and dictionaries
json_text["newsInfoLst"][3]["relTime"]

'02/02/2024 22:54'

In [81]:
# Accessing content of json as in python lists and dictionaries
json_text["newsInfoLst"][3]["lTxt"]

'公告及通告 - [須予披露的交易 / 代價發行 / 根據一般性授權發行股份]'

In [82]:
# Accessing content of json as in python lists and dictionaries
json_text["newsInfoLst"][3]["webPath"]

'/listedco/listconews/sehk/2024/0202/2024020202348_c.pdf'

In [83]:
newsList = json_text["newsInfoLst"]
type(newsList)

list

In [84]:
newsTitleList = []
newsSubtitleList = []
stockTickerList = []
stockNameList = []
timeList = []
webPathList = []
# Preparing arrays of data in order to form the dataframe
for i in range(0, len(newsList)):
    print(i)
    newsTitleList.append(json_text["newsInfoLst"][i]["lTxt"])
    newsSubtitleList.append(json_text["newsInfoLst"][i]["title"])
    stockTickerList.append(json_text["newsInfoLst"][i]["stock"][0]["sc"])
    stockNameList.append(json_text["newsInfoLst"][i]["stock"][0]["sn"])
    timeList.append(json_text["newsInfoLst"][i]["relTime"])
    webPathList.append(json_text["newsInfoLst"][i]["webPath"])

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
27

In [85]:
# Forming dataframe from the arrays/lists
all_news_df = pd.DataFrame()
all_news_df["Stock Ticker"] = stockTickerList
all_news_df["Stock Name"] = stockNameList
all_news_df["Title"] = newsTitleList
all_news_df["Subtitle"] = newsSubtitleList
all_news_df["Time"] = timeList
all_news_df["Hyperlink"] = webPathList
all_news_df

Unnamed: 0,Stock Ticker,Stock Name,Title,Subtitle,Time,Hyperlink
0,01650,HYGIEIA GROUP,月報表,截至二零二四年一月三十一日止股份發行人的證券變動月報表,02/02/2024 22:57,/listedco/listconews/sehk/2024/0202/2024020202...
1,01925,曠世控股,月報表,截至二零二四年一月三十一日止股份發行人的證券變動月報表,02/02/2024 22:56,/listedco/listconews/sehk/2024/0202/2024020202...
2,00240,利基控股,公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改],"惠記及利基之主要交易 – 收購兩間公司之股權,須予披露交易 – 可能出售兩間公司之股權之最新資料",02/02/2024 22:55,/listedco/listconews/sehk/2024/0202/2024020202...
3,01357,美圖公司,公告及通告 - [須予披露的交易 / 代價發行 / 根據一般性授權發行股份],須予披露交易收購ZCOOL NETWORK TECHNOLOGY LIMITED的全部已發行股本,02/02/2024 22:54,/listedco/listconews/sehk/2024/0202/2024020202...
4,00610,WAI KEE HOLD,公告及通告 - [主要交易 / 須予披露的交易 / 條款上的更改],"惠記及利基之主要交易 – 收購兩間公司之股權, 惠記及利基之須予披露交易 – 可能出售兩間公...",02/02/2024 22:53,/listedco/listconews/sehk/2024/0202/2024020202...
...,...,...,...,...,...,...
495,01559,均安控股,通函 - [主要交易],主要交易 - 出售物業,02/02/2024 16:33,/listedco/listconews/sehk/2024/0202/2024020200...
496,06968,港龍中國地產,月報表,截至二零二四年一月三十一日止月份股份發行人的證券變動月報表,02/02/2024 16:33,/listedco/listconews/sehk/2024/0202/2024020200...
497,02436,凌雄科技,月報表,截至2024年1月31日止股份發行人的證券變動月報表,02/02/2024 16:33,/listedco/listconews/sehk/2024/0202/2024020200...
498,06116,拉夏貝爾,公告及通告 - [內幕消息 / 停牌 / 其他-業務發展最新情況],復牌進度之季度更新及繼續暫停買賣,02/02/2024 16:33,/listedco/listconews/sehk/2024/0202/2024020200...
