In [None]:
Regular Expression

有些時候可能要找含有某些特定pattern的內容, 如電話, email, url, 特定的tag(h4)等等..., 這時候如果會用regular expression就可以比較有效率的取出需要的資訊

一些常見的pattern:
* URL: http(s)?://[a-zA-Z0-9./_]+
* Email: [a-zA-Z0-9._+]+@[a-zA-Z0-9._]+.(com|org|edu|gov|net)
* 所有的中文字(不包含標點符號): [\u4e00-\u9fa5]+
* 線上Unicode查詢: http://unicodelookup.com
* 自己google別人寫好的

# 認識「正規表達式」
http://120.105.184.250/cswang/thit/Linux/RegularExpression.htm

* 是一種表達〝具有某種特徵〞字串的方式，可用來完全指定需要加以處理的資料 , 避免反覆判斷找尋的困擾
* 而且幾乎通用在任何語言裡(Javascript, php, ruby, python…)
* 為了表達〝特徵〞需定義範本(Pattern)，範本由普通字元(ASCII)、特殊字元(Metacharacter)及數量定義詞(Quantifier)組成。

可以到這個網站把表達式貼入查詢
https://regex101.com/

### 正則表達式re.compile()

compile()的定義：<br>
compile(pattern, flags=0) <br>
Compile a regular expression pattern, returning a pattern object.

In [None]:
從compile()函數的定義中，可以看出返回的是一個匹配對象，它單獨使用就沒有任何意義，需要和findall(), search(), match(）搭配使用。

In [None]:
compile()與findall()一起使用，返回一個列表。

In [2]:
import re


def main():
    content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
    regex = re.compile('\w*o\w*')
    x = regex.findall(content)
    print(x)


if __name__ == '__main__':
    main()

['Hello', 'from', 'Chongqing', 'montain', 'to', 'you']


compile()與match()一起使用，可返回一個class、str、tuple。但是一定需要注意match()，從位置0開始匹配，匹配不到會返回None，返回None的時候就沒有span/group屬性了，並且與group使用，返回一個單詞‘Hello’後匹配就會結束

In [4]:
import re


def main():
    content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
    regex = re.compile('\w*o\w*')
    y = regex.match(content)
    print(y)
    print(type(y))
    print(y.group())
    print(y.span())


if __name__ == '__main__':
    main()

<re.Match object; span=(0, 5), match='Hello'>
<class 're.Match'>
Hello
(0, 5)


compile()與search()搭配使用, 返回的類型與match()差不多， 但是不同的是search(), 可以不從位置0開始匹配。但是匹配一個單詞之後，匹配和match()一樣，匹配就會結束。

In [5]:
import re


def main():
    content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
    regex = re.compile('\w*o\w*')
    z = regex.search(content)
    print(z)
    print(type(z))
    print(z.group())
    print(z.span())


if __name__ == '__main__':
    main()

<re.Match object; span=(0, 5), match='Hello'>
<class 're.Match'>
Hello
(0, 5)


In [3]:
import requests
import re
from bs4 import BeautifulSoup


def main():
    url = 'http://blog.castman.net/web-crawler-tutorial/ch2/blog/blog.html'
    resp = requests.get(url)
    soup = BeautifulSoup(resp.text, 'html.parser')
    find_text_content_by_reg(soup, 'h[1-6]')

    # [a-zA-Z0-9]+ -> means that we hope the result string is composed by character a~z, A~Z and 0~9,
    # and the string length should ≥ 1 (which represented by "+").

    # http(s)?://[a-zA-Z0-9\./_]+ -> means hyper link.

    # [\u4e00-\u9fa5]+ -> means all the chinese words in unicode format.

    print('\nFind all .png img source:')
    # To find png type image source by reg.
    # $ means the tail, the end of the string.
    # \. means ".", the \ is for escaping the special characters.
    png_source_pattern = '\.png$'
    find_img_source_by_reg(soup, png_source_pattern)

    # To find png type image source which contains "beginner" in source name by reg.
    # In the pattern, the "." after beginner means any words,
    # the * means the length is 0 or 1.
    print('\nFind all .png img sources that contain \"beginner\" in file name:')
    find_img_source_by_reg(soup, 'beginner.*'+png_source_pattern)

    print('\nTo count the blog number:')
    blog_class_pattern = 'card\-blog$'
    count_blog_number(soup, blog_class_pattern)

    print('\nTo find how many image sources contains the word \"crawler\"')
    target_pattern = 'crawler.*'
    find_img_source_by_reg(soup, target_pattern)


# re.compile API DOC: https://docs.python.org/3/library/re.html#re.compile
def find_text_content_by_reg(soup, reg_pattern):
    for element in soup.find_all(re.compile(reg_pattern)):
        print(element.text.strip())


def find_img_source_by_reg(soup, source_type):
    for img in soup.find_all('img', {'src': re.compile(source_type)}):
        print(img['src'])


def count_blog_number(soup, blog_pattern):
    count = len(soup.find_all('div', {'class': re.compile(blog_pattern)}))
    print('Blog count: ' + str(count))


if __name__ == '__main__':
    main()

Python教學文章
開發環境設定
Mac使用者
資料科學
給初學者的 Python 網頁爬蟲與資料分析
資料科學
給初學者的 Python 網頁爬蟲與資料分析
資料科學
給初學者的 Python 網頁爬蟲與資料分析
資料科學
給初學者的 Python 網頁爬蟲與資料分析
資料科學
給初學者的 Python 網頁爬蟲與資料分析

Find all .png img source:
static/python-for-beginners.png
static/python_crawler.png
static/python_crawler.png
static/python_crawler.png
static/python_crawler.png
static/python_crawler.png

Find all .png img sources that contain "beginner" in file name:
static/python-for-beginners.png

To count the blog number:
Blog count: 6

To find how many image sources contains the word "crawler"
static/python_crawler.png
static/python_crawler.png
static/python_crawler.png
static/python_crawler.png
static/python_crawler.png


### re.sub的功能
sub是substitute的所寫，表示替換； re.sub是個正則表達式方面的函數，用來實現通過正則表達式，實現比普通字符串的replace更加強大的替換功能

In [None]:
pattern : 正則中的模式字符串。
repl : 替換的字符串，也可為一個函數。
string : 要被查找替換的原始字符串。
count : 模式匹配後替換的最大次數，默認0 表示替換所有的匹配。
flags : 編譯時用的匹配模式，數字形式。

#### re.sub(pattern, repl, string, count=0, flags=0)

In [23]:
import re

phone = "2004-959-559 # 这是一个电话号码"
#刪除註解
num = re.sub(r'#.*$', "", phone)
print("phone number : ", num)
#移除非數字的內容
num = re.sub(r'\D', "", phone)
print("phone number : ", num)

phone number :  2004-959-559 
phone number :  2004959559


In [None]:
repl 參數是一個函數
以下實例中將字符串中的匹配的數字乘於2：

In [24]:
import re

#將匹配的數字乘以 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)

s = 'A23G4HFD567'
ss = re.sub('(?P<value>\d+)', double, s)  #repl位置帶入公式double
ss

'A46G8HFD1134'