# 正常人學 regex

在學程式的過程中, 你早晚會聽到 Regular Expression, 或是 Regex 這種東西。

當你勇敢的開始學的時候, 可能會覺得

「世上怎麼會有人弄得懂這些東西?」

但其實 regex 不過是找一堆字中有沒有出現我們要找的形式的東西, 例如電話、網址、圖片檔案名稱等等。我們這裡來看看到底怎麼在 Python 用 regex, 標準套件叫 `re`。

In [1]:
import re

## 1. 基本中的基本

通常我們就是給一串的 pattern, 然後看一個字串中有沒有出現。比如說

In [106]:
pattern = "pen"
contex = "pen pineapple apple pen"

In [107]:
match = re.search(pattern, context)

做完了, 那到底 pen 有沒有出現在那裡面呢?

In [108]:
if match:
    print("有!")
else:
    print("沒有!")

有!


在哪個位置?

In [109]:
match.span()

(0, 3)

In [110]:
contex[0:3]

'pen'

這顯然是第一次, 那後面的 pen 呢?

In [111]:
re.findall(pattern, context)

['pen', 'pen']

就是這樣了, 是不是有夠簡單?

我們甚至還可以把 "pen" 換成其他字, 比如說 "pod"

In [112]:
re.sub(pattern, "pod", context)

'pod pineapple apple pod'

對了, 如果你要找的是 "apple", 你猜會找到多少個呢?

In [113]:
re.findall("apple", context)

['apple', 'apple']

## 2. 母音用到哪些?

我們學到, 其實 regex 就可以當個標準搜尋工具。當然, 如果事情就那麼簡單, 也不會有人說它很難學。

我們現在想找找剛剛 `contex` 中用到 a, e, i, o, u 等哪些字母, 用到幾個。

In [114]:
pattern = "[aeiou]"

In [115]:
re.findall(pattern, context)

['e', 'i', 'e', 'a', 'e', 'a', 'e', 'e']

所以用到 7 個母音!

原來用中括號就是其中一個都可以, 也就是說 `[aeiou]` 只要出現 a, e, i, o, u 任一字母都可以的。這真的很方便, 如

* `[0-9]` 代表, 嗯, 0 到 9 的數字
* `[A-Z]` 代表大寫英文字母
* `[a-z]` 代表小寫英文字母
* `[0-9a-z]` 對, 可以混用!

In [116]:
telphone = "(02)2939-3091"

In [117]:
re.findall("[0-9]", telphone)

['0', '2', '2', '9', '3', '9', '3', '0', '9', '1']

## 3. 中文可以嗎?

你可能會好奇, 中文可以嗎? 找得到嗎?

In [118]:
pattern = "炎龍"
context = "聽說有個叫炎龍的人, 他會教 Python 程式語言。"

In [119]:
re.findall(pattern, context)

['炎龍']

可以耶!!

## 4. 開頭和結束, 還有 metacharacters

一定要在最前面出現是 `^`, 指定結束是 `$`。

In [120]:
pattern = "^pen"
context = "pen pineapple apple pen"

In [121]:
match = re.search(pattern, context)

In [122]:
match.span() # match 第一個 pen

(0, 3)

In [126]:
pattern = "pen$"
context = "pen pineapple apple pen"

In [127]:
match = re.search(pattern, context)

In [130]:
match.span() # match 第二個 pen

(20, 23)

像這種 `^` 啦, 或是 `$` 啦, 叫做 <b style="color:red;">metacharacters</b>, 還有許多個:

    . ^ $ * + ? { } [ ] \ | ( )
    
然後你發現, 之前說中括號 `[ ]`, 也就是括起來的內容任何一個都可以的也在裡面。很有趣的是, 這些 metacharacters 一被括起來就沒有原來的意思, 比如說... 

`$` 在括號裡就是 `$`!

In [134]:
pattern = "[Ff$]oo"
context = "Foo, foo, $oo"

In [135]:
re.findall(pattern, context)

['Foo', 'foo', '$oo']