# 正規表達式（Regular Expression）

## 郭耀仁

## 正規表達式是什麼？

- 正規表達式是**絕大多數**程式語言用來處理文字的利器
- 用來對照符合某個特徵的文字
- 強化我們使用 R 語言的文字函數的能力！

## 正規表達式是什麼？（2）

- 假設我現在有一個需求是要辨識一個句子中有沒有整數：

In [5]:
a_sentence <- "Monica has 11 categories of towels."
# 如果以我們前一章的做法會是
gregexpr(pattern = "11", a_sentence, fixed = TRUE)

## 正規表達式是什麼？（3）

- 如果句子變成這樣怎麼辦？

```r
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
```

- 很明顯我們需要一個可以更廣泛表達**整數**特徵的方法
- 解開 `fixed = TRUE` 的封印，改採正規表達式

In [12]:
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
gregexpr(pattern = "[0-9]+", a_sentence)

## 哪些文字函數可以使用正規表達式？

- `strsplit()`
- `regexpr()`
- `gregexpr()`
- `grep()`
- `grepl()`
- `sub()`
- `gsub()`

## 哪些文字函數可以使用正規表達式？（2）

- `strsplit()`

In [13]:
a_sentence <- "Joey: This guy says hello, I wanna kill myself."
# 斷詞
strsplit(a_sentence, split = "[: ,.]+")

## 哪些文字函數可以使用正規表達式？（3）

- `regexpr()` 與 `gregexpr()`

In [3]:
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
# 找尋第一個數字
# 找尋所有的數字
regexpr(pattern = "[0-9]+", a_sentence)
gregexpr(pattern = "[0-9]+", a_sentence)

## 哪些文字函數可以使用正規表達式？（4）

- `grep()` 與 `grepl()`

In [8]:
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
word_vector <- unlist(strsplit(a_sentence, split = "[: ,.?]+"))
# 找尋數字
# 判斷是否有數字
word_vector
grep(pattern = "[0-9]+", word_vector)
grepl(pattern = "[0-9]+", word_vector)

## 哪些文字函數可以使用正規表達式？（5）

- `sub()` 與 `gsub()`

In [10]:
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
# 取代第一個數字為 X
# 取代所有數字為 X
sub(pattern = "[0-9]+", a_sentence, replacement = "X")
gsub(pattern = "[0-9]+", a_sentence, replacement = "X")

## 常用的正規表達式範例

|特徵|正規表達式寫法|
|---|------------|
|整數|`[0-9]+` 或 `[\d]`|
|浮點數|`[0-9]+\\.[0-9]+` 或 `[\d]+\\.[\d]+`|
|英文|`[A-Za-z]+`|
|電子郵件信箱|`[a-zA-Z0-9_]+@[a-zA-Z0-9\\._]+`|
|網址|http(s)?://[a-zA-Z0-9\\\\./\_]+|

## 常用的正規表達式範例（2）

- 判斷浮點數

In [5]:
a_sentence <- c("半程馬拉松是 21 公里", "全程馬拉松是 42.195 公里")
# 判斷有無浮點數
grepl(pattern = "[0-9]+\\.[0-9]+", a_sentence)

## 常用的正規表達式範例（3）

- 判斷英文

In [79]:
a_sentence <- c("半程馬拉松是 21 公里", "全程馬拉松是 42.195 km")
# 判斷有無英文
grepl(pattern = "[A-Za-z]+", a_sentence)

## 常用的正規表達式範例（4）

- 判斷電子郵件信箱

In [9]:
word_vector <- c("Chandler Bing", "cb@friends.com")
# 判斷有無電子郵件信箱
grepl(pattern = "[a-zA-Z0-9_]+@[a-zA-Z0-9\\._]+", word_vector)

## 常用的正規表達式範例（5）

- 判斷網址

In [80]:
word_vector <- c("https://chandler.com", "cb@friends.com")
# 判斷有無網址
grepl(pattern = "http(s)?://[a-zA-Z0-9\\./_]+", word_vector)

## 練習

- 判斷這個向量有幾個浮點數

```r
distances <- c("0.4", "1", "3", "5", "10", "21", "42.195")
float_judge <- grepl(pattern = "____", ____)
sum(float_judge)
```

## 練習

- 判斷這個向量有幾個元素包含英文

```r
sentences <- c("我喜歡 6 人行", "I love Friends", "我最喜歡 Central Perk", "我喜歡那個咖啡館")
en_judge <- grepl(pattern = "____", ____)
sum(en_judge)
```

## 練習

- 判斷這個向量有幾個元素包含電子郵件信箱

```r
sentences <- c("我喜歡 6 人行", "I love Friends", "我最喜歡 Central Perk", "我喜歡那個咖啡館", "cbing@friends.com", "pbuffay@friends.com", "www.friends.com")
email_judge <- grepl(pattern = "____", ____)
sum(email_judge)
```

## 正規表達式的特殊字元

- `.` 可以用來表達任何字元

In [8]:
words <- c("", " ", "a", "24", "@")
grepl(pattern = ".", words)

## 正規表達式的特殊字元（2）

- `\` 可以用來跳脫特殊字元

In [10]:
words <- c("Chandler Bing", "Chandler.Bing")
# 如果我真的要比對 . 這個符號呢？
grepl(pattern = ".", words)
grepl(pattern = "\\.", words)

## 正規表達式的特殊字元（3）

- `^` 可以用來比對開頭文字

In [14]:
words <- c("Bing", "Geller", "Green", "Buffay", "Tribbiani")
grepl(pattern = "^G", words)

## 正規表達式的特殊字元（4）

- `$` 可以用來比對結束文字

In [16]:
sentence <- c("Monica", "darling", "it's", "Amanda", "calling")
grepl(pattern = "ing$", sentence)

## 正規表達式的特殊字元（5）

- `*` 可以用來比對出現零次或多次的文字

In [20]:
words <- c("friends", "frriends", "fantasy", "Friends")
grepl(pattern = "fr*", words)

## 正規表達式的特殊字元（6）

- `+` 可以用來比對出現一次或多次的文字

In [21]:
words <- c("friends", "frriends", "fantasy", "Friends")
grepl(pattern = "fr+", words)

## 正規表達式的特殊字元（7）

- `?` 可以用來比對出現零次或一次的文字

In [35]:
words <- c("friends", "fantasy")
grepl(pattern = "fr?", words)

## 正規表達式的特殊字元（8）

- `{}` 可以用來比對文字出現的次數
- `x{3}` 剛好三個 `x`
- `x{1,3}` 一到三個 `x`
- `x{1,}` 至少一個 `x`
- `x{,3}` 最多三個 `x`

In [39]:
words <- c("y", "x", "xx", "xxx")
grepl(pattern = "x{3}", words)
grepl(pattern = "x{1,3}", words)
grepl(pattern = "x{1,}", words)
grepl(pattern = "x{,3}", words)

## 正規表達式的特殊字元（9）

- `[]` 可以用來比對是否包含某些文字

In [59]:
sentences <- c("我喜歡 6 人行", "I love Friends", "我最喜歡 CENTRAL PERK", "我喜歡那個咖啡館")
grepl(pattern = "[0-9]", sentences) # 是否含數字
grepl(pattern = "[0-9a-z]", sentences) # 是否含數字與小寫英文
grepl(pattern = "[0-9a-zA-Z]", sentences) # 是否含數字與英文

## 正規表達式的特殊字元（10）

- `[^]` 可以用來比對是否不包含某些文字

In [70]:
words <- c("10", "Friends", "六人行")
grepl(pattern = "[^0-9]", words) # 非數字
grepl(pattern = "[^0-9A-Za-z]", words) # 非數字與非英文

## 正規表達式的特殊字元（11）

- `|` 可以用來比對**或**

In [88]:
words <- c("food", "foot", "hood")
grepl(pattern = "foo(d|t)", words)

## 正規表達式的特殊字元（12）

- `\n` 比對換行符號

In [72]:
sentence <- c("Monica darling, it's Amanda calling",
              "Monica darling,
               it's Amanda calling")
grepl(pattern = "\\n", sentence)

## 正規表達式的特殊字元（13）

- `\s` 比對空白

In [74]:
sentence <- c("IloveFriends", "I love Friends")
grepl(pattern = "\\s", sentence)

## 正規表達式的特殊字元（14）

- `\t` 比對 Tab

In [78]:
sentence <- c("I love Friends", "I\tlove\tFriends")
writeLines(sentence)
grepl(pattern = "\\t", sentence)

I love Friends
I	love	Friends


## 練習

- 將數字的部分遮蔽成 `x`

```r
price_list <- c("apple: 1.76, orange: 2.56, banana: 0.69")
# apple: x.xx, orange: x.xx, banana: x.xx
gsub(pattern = "____", ____, replacement = "____")
```

## 練習

- 選出 `foot`、`boot` 或是 `hoot`

```r
words <- c("foot", "zoot", "hoot", "boot", "food")
subset_logic <- grepl(pattern = "____", ____)
wordsp[subset_logic]
```

## 參考連結

- [Regular Expressions as used in R](https://stat.ethz.ch/R-manual/R-devel/library/base/html/regex.html)
- [正規表示式 Regular Expression](http://ccckmit.wikidot.com/regularexpression)
- <https://developer.mozilla.org/zh-TW/docs/Web/JavaScript/Guide/Regular_Expressions>
- [Crazy for Friends](http://www.livesinabox.com/friends/)