# 正規表達式（Regular Expression）

## 郭耀仁

## 正規表達式是什麼？

- 正規表達式是**絕大多數**程式語言用來處理文字的利器
- 用來對照符合某個特徵的文字
- 強化我們使用 R 語言的文字函數的能力！

## 正規表達式是什麼？（2）

- 假設我現在有一個需求是要辨識一個句子中有沒有整數：

```r
a_sentence <- "Monica has 11 categories of towels."
# 如果以我們前一章的做法會是
```

In [5]:
a_sentence <- "Monica has 11 categories of towels."
gregexpr(pattern = "11", a_sentence, fixed = TRUE)

## 正規表達式是什麼？（3）

- 如果句子變成這樣怎麼辦？

```r
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
```

- 很明顯我們需要一個可以更廣泛表達**整數**特徵的方法
- 解開 `fixed = TRUE` 的封印，改採正規表達式

In [12]:
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
gregexpr(pattern = "[0-9]+", a_sentence)

## 哪些文字函數可以使用正規表達式？

- `strsplit()`
- `regexpr()`
- `gregexpr()`
- `grep()`
- `grepl()`
- `sub()`
- `gsub()`

## 哪些文字函數可以使用正規表達式？（2）

- `strsplit()`

```r
a_sentence <- "Joey: This guy says hello, I wanna kill myself."
# 斷詞
```

In [13]:
a_sentence <- "Joey: This guy says hello, I wanna kill myself."
strsplit(a_sentence, split = "[: ,.]+")

## 哪些文字函數可以使用正規表達式？（3）

- `regexpr()` 與 `gregexpr()`

```r
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
# 找尋第一個數字
# 找尋所有的數字
```

In [3]:
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
regexpr(pattern = "[0-9]+", a_sentence)
gregexpr(pattern = "[0-9]+", a_sentence)

## 哪些文字函數可以使用正規表達式？（4）

- `grep()` 與 `grepl()`

```r
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
word_vector <- unlist(strsplit(a_sentence, split = "[: ,.?]+"))
# 找尋數字
# 判斷是否有數字
```

In [8]:
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
word_vector <- unlist(strsplit(a_sentence, split = "[: ,.?]+"))
word_vector
grep(pattern = "[0-9]+", word_vector)
grepl(pattern = "[0-9]+", word_vector)

## 哪些文字函數可以使用正規表達式？（5）

- `sub()` 與 `gsub()`

```r
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
# 取代第一個數字為 X
# 取代所有數字為 X
```

In [10]:
a_sentence <- "Monica has 11 or 13, maybe 15 categories of towels?"
sub(pattern = "[0-9]+", a_sentence, replacement = "X")
gsub(pattern = "[0-9]+", a_sentence, replacement = "X")

## 常用的正規表達式範例

|特徵|正規表達式寫法|
|---|------------|
|整數|`[0-9]+` 或 `[\d]`|
|浮點數|`[0-9]+\\.[0-9]+` 或 `[\d]+\\.[\d]+`|
|英文|`[A-Za-z]+`|
|電子郵件信箱|`[a-zA-Z0-9_]+@[a-zA-Z0-9\\._]+`|
|網址|http(s)?://[a-zA-Z0-9\\\\./\_]+|

## 常用的正規表達式範例（2）

- 判斷浮點數

```r
a_sentence <- c("半程馬拉松是 21 公里", "全程馬拉松是 42.195 公里")
# 判斷有無浮點數
```

In [5]:
a_sentence <- c("半程馬拉松是 21 公里", "全程馬拉松是 42.195 公里")
grepl(pattern = "[0-9]+\\.[0-9]+", a_sentence)

## 常用的正規表達式範例（3）

- 判斷英文

```r
a_sentence <- c("半程馬拉松是 21 公里", "全程馬拉松是 42.195 km")
# 判斷有無英文
```

In [6]:
a_sentence <- c("半程馬拉松是 21 公里", "A full marathon is 42.195 km")
grepl(pattern = "[A-Za-z]+", a_sentence)

## 常用的正規表達式範例（4）

- 判斷電子郵件信箱

```r
word_vector <- c("Chandler Bing", "cb@friends.com")
# 判斷有無電子郵件信箱
```

In [9]:
word_vector <- c("Chandler Bing", "cb@friends.com")
grepl(pattern = "[a-zA-Z0-9_]+@[a-zA-Z0-9\\._]+", word_vector)

## 常用的正規表達式範例（5）

- 判斷網址

```r
word_vector <- c("https://chandler.com", "cb@friends.com")
# 判斷有無網址
```

In [12]:
word_vector <- c("http://chandler.com", "cb@friends.com", "https://chandler.io")
grepl(pattern = "http(s)?://[a-zA-Z0-9\\./_]+", word_vector)

## 參考連結

- [Regular Expressions as used in R](https://stat.ethz.ch/R-manual/R-devel/library/base/html/regex.html)
- [正規表示式 Regular Expression](http://ccckmit.wikidot.com/regularexpression)
- [Crazy for Friends](http://www.livesinabox.com/friends/)