In [1]:
# 參考網頁： https://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
# 讀入整個html的內容 （利用urlopen）

In [13]:
from urllib.request import urlopen

# if has Chinese, apply decode()
html = urlopen(
    "https://morvanzhou.github.io/static/scraping/basic-structure.html"
).read().decode('utf-8')
print(html)

<!DOCTYPE html>
<html lang="cn">
<head>
	<meta charset="UTF-8">
	<title>Scraping tutorial 1 | 莫烦Python</title>
	<link rel="icon" href="https://morvanzhou.github.io/static/img/description/tab_icon.png">
</head>
<body>
	<h1>爬虫测试1</h1>
	<p>
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
		<a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a> 中的简单测试.
	</p>

</body>
</html>


In [None]:
# 利用正則表達式來讀取<title>至</title>間的內容 （利用findall）

'''
.匹配除換行符外的單個字符。
+匹配前一個表達式一次或多次。
？匹配前面一個表達式0次或多次，如果緊跟在量詞* + {} ?後，則量詞為非貪婪。
非貪婪：匹配盡量少的字符。例如，對"123abc"應用（\d+），將會返回"123"。如果使用（\d+?），那麼就只會匹配到"1"。
'''

In [2]:
import re
res = re.findall(r"<title>(.+?)</title>", html)
print("\nPage title is: ", res[0])


Page title is:  Scraping tutorial 1 | 莫烦Python


In [40]:
import re
res = re.findall(r"<title>(.*?)</title>", html)
print("\nPage title is: ", res[0])


Page title is:  Scraping tutorial 1 | 莫烦Python


In [5]:
import re
res = re.findall(r"<title>(.+)</title>", html)
print("\nPage title is: ", res[0])


Page title is:  Scraping tutorial 1 | 莫烦Python


In [9]:
import re
res = re.findall(r"<title>(.*)</title>", html)
print("\nPage title is: ", res[0])


Page title is:  Scraping tutorial 1 | 莫烦Python


In [None]:
#若要爬多行（因為'.'不能讀'\n'）。
#所以若要爬蟲爬多行，必須要在後面多加一個參數flags=re.DOTALL=re.S。

#S (DOTALL):點任意匹配模式，改變'.'的行為

In [15]:
res = re.findall(r"<p>(.*?)</p>", html, flags=re.DOTALL)    # re.DOTALL if multi line
print("\nPage paragraph is: ", res[0])


Page paragraph is:  
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
		<a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a> 中的简单测试.
	


In [39]:
res = re.findall(r"<p>(.*?)</p>", html, re.DOTALL)    # re.DOTALL if multi line
print("\nPage paragraph is: ", res[0])


Page paragraph is:  
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
		<a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a> 中的简单测试.
	


In [39]:
res = re.findall(r"<p>(.*?)</p>", html, re.S)    # re.DOTALL if multi line
print("\nPage paragraph is: ", res[0])


Page paragraph is:  
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
		<a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a> 中的简单测试.
	


In [None]:
#或是把'.'換成(?:.|\n)

In [31]:
res = re.findall(r"<p>((?:.|\n)*?)</p>", html, re.DOTALL)    # re.DOTALL if multi line
print("\nPage paragraph is: ", res[0])


Page paragraph is:  
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
		<a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a> 中的简单测试.
	


In [None]:
#在此經測試後發現，若裡面單純放的是(.*?)，則flags=re.M會出現IndexError: list index out of range。
#若裡面放的是((?:.|\n)*?)，則flags=re.M的效果會跟lags=re.DOTALL一樣。
#由於效果一樣，所以覺得寫flag=re.DOTALL會較為保險。

#M (MULTILINE):多行模式，改變'^'和'$'的行為

In [41]:
res = re.findall(r"<p>(.*?)</p>", html, flags=re.M)    # re.DOTALL if multi line
print("\nPage paragraph is: ", res[0])

IndexError: list index out of range

In [35]:
res = re.findall(r"<p>((?:.|\n)*?)</p>", html, flags=re.M)    # re.DOTALL if multi line
print("\nPage paragraph is: ", res[0])


Page paragraph is:  
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
		<a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a> 中的简单测试.
	


In [None]:
#因為網址中href=後面緊接的是""，所以在匹配字串時，改以''來包括整個字串內的內容。這樣就能夠正確的將""中間想要輸出的東西給匹配出來了。

In [30]:
res = re.findall(r'href="(.*?)"', html)
print("\nAll links: ", res)
# All links:
['https://morvanzhou.github.io/static/img/description/tab_icon.png',
'https://morvanzhou.github.io/',
'https://morvanzhou.github.io/tutorials/scraping']



All links:  ['https://morvanzhou.github.io/static/img/description/tab_icon.png', 'https://morvanzhou.github.io/', 'https://morvanzhou.github.io/tutorials/scraping']


['https://morvanzhou.github.io/static/img/description/tab_icon.png',
 'https://morvanzhou.github.io/',
 'https://morvanzhou.github.io/tutorials/scraping']