# 正则表达式

[正则表达式](https://en.wikipedia.org/wiki/Regular_expression)是用来匹配字符串或者子串的一种模式，匹配的字符串可以很具体，也可以很一般化。

**Ruby** 内建支持了正则表达式。 

## 创建 `Regexp`

### 典型构造

典型地，**Ruby** 中可以使用一对 `/` 生成 `Regexp`。

In [12]:
re = /^https?:\/\//
puts re
re.class

(?-mix:^https?:\/\/)


Regexp

### 特殊构造

* %r: 允许内插值(`interpolation`)
* 你可以使用任何典型的分割字符，例如%r{...}, %r(...), %r|...|, %r?...?, %r-....-, etc

In [13]:
re = %r(^https?://)
puts re
re.class

(?-mix:^https?:\/\/)


Regexp

## 正则表达式规则

正则表达式由一些普通字符和一些元字符（metacharacters）组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义：

子表达式|匹配内容
---|---
`.`| 匹配除了换行符之外的内容
`\w` | 匹配所有字母和数字字符
`\d` | 匹配所有数字，相当于 `[0-9]`
`\s` | 匹配空白，相当于 `[\t\n\t\f\v]`
`\W,\D,\S`| 匹配对应小写字母形式的补
`[...]` | 表示可以匹配的集合，支持范围表示如 `a-z`, `0-9` 等
`(...)` | 表示作为一个整体进行匹配
&#166; | 表示逻辑或
`^` | 表示匹配后面的子表达式的补
`*` | 表示匹配前面的子表达式 0 次或更多次
`+` | 表示匹配前面的子表达式 1 次或更多次
`?` | 表示匹配前面的子表达式 0 次或 1 次
`{m}` | 表示匹配前面的子表达式 m 次
`{m,}` | 表示匹配前面的子表达式至少 m 次
`{m,n}` | 表示匹配前面的子表达式至少 m 次，至多 n 次


锚点

表达式|匹配内容
--- |:---
`^`  | 匹配行首
`$`  | 匹配行尾
`\A` | 匹配字符串开始
`\Z` | 匹配字符串结束，忽略最后的换行符
`\z` | 匹配字符串结束
`\G` | 匹配第一次匹配的位置
`\b` | 匹配单词边界
`\B` | 匹配非单词边界
`(exp)` | 匹配 `exp` , 并捕获文本到自动命名的组里
`(?<name>exp)` | 匹配 `exp`，并捕获文本到名称为 `name` 的组里
`(?:exp)` | 匹配 `exp` ,不捕获匹配的文本，也不给此分组分配组号
`(?=exp)`  | 零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式 `exp`
`(?<=exp)` | 零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式 `exp`
`(?!exp)`  | 零宽度负预测先行断言，断言此位置的后面不能匹配表达式 `exp`
`(?<!exp)` | 零宽度负回顾后发断言，断言此位置的前面不能匹配表达式 `exp`



例如：

- `ca*t       匹配： ct, cat, caaaat, ...`
- `ab\d|ac\d  匹配： ab1, ac9, ...`
- `([^a-q]bd) 匹配： rbd, 5bd, ...`

## 简单操作

### 匹配


#### `re === str` 判断 `str` 中是否有符合 `re` 模式中的子串

In [22]:
puts /[A-Z]*/ === :aBc

['abc', 'DEF', '123', '', 'aBc'].each do|str|
  category = case str
    when /^[A-Z]+$/; 'UpperCase'
    when /^[a-z]+$/; 'LowerCase'
    when /^\d+$/; 'Number'
    when /^$/; 'Empty'
  else
    'Mixed'
  end
  puts "#{str} is #{category}"
end

true
abc is LowerCase
DEF is UpperCase
123 is Number
 is Empty
aBc is Mixed


["abc", "DEF", "123", "", "aBc"]

#### `str =~ re` 和 `re =~ str` 判断 str 中是否有符合 re 模式中的子串，并返回 `re` 模式首次在 `str` 中出现的位置

In [50]:
re = /(?<vowel>[aeiou]+)/ 

/(?<vowel>[aeiou]+)/

In [35]:
re =~ 'hello'

1

In [36]:
'hello' =~ re

1

In [33]:
p re =~ 'https'

nil


In [34]:
p 'https' =~ re

nil


通过 `=~` 可以获取到匹配的位置，如果需要知道更多的匹配信息，可以通过内置的全局变量来获取。

表达式 | 含义 
--- | ---
`$~` | 等价于 `RegExp::last_match`，返回最近匹配的 `MatchData`
`$&` | 返回最近匹配的完整文本
$&#96; | 返回匹配文本前的所有文本
`$'` | 返回匹配文本后的所有文本
`$1`, `$2`, ... , `$n` | 按照分组编号得到对应的文本
`$+` | 返回最后捕获分组的文本

In [45]:
re = /(?<vowel>[aeiou]{2,})/ 

/(?<vowel>[aeiou]{2,})/

In [48]:
puts 'this is good deed' =~ re

puts "$& = #{$&}"
puts "$` = #{$`}"
puts "$' = #{$'}"
puts "$1 = #{$1}, $+=#{$+}"
$~

9
$& = oo
$` = this is g
$' = d thing
$1 = oo, $+=oo


#<MatchData "oo" vowel:"oo">

In [49]:
puts re =~ 'this is good deed'

puts "$& = #{$&}"
puts "$` = #{$`}"
puts "$' = #{$'}"
puts "$1 = #{$1}, $+=#{$+}"
$~

9
$& = oo
$` = this is g
$' = d thing
$1 = oo, $+=oo


#<MatchData "oo" vowel:"oo">

#### `match(str[, pos])`

在 `Regexp` 实例中， 如果需要获取更多的匹配信息，`match` 是更常用的方法：

```ruby
re.match(str[, pos])
```

寻找第一个匹配成功的部分，成功则返回一个 `MatchData` 对象，不成功则返回 `nil`。

In [85]:
re = /[^aeiou](?<vowel>[aeiou]{2,})[^aeiou]/ 
str = 'this is a good deed in the beautiful world'

m = re.match(str)

#<MatchData "good" vowel:"oo">

In [96]:
pos = 0
while m = re.match(str, pos)
  b0, b1, e0, e1 = m.begin(0), m.begin(1), m.end(0), m.end(1)
  puts "MatchText is '#{m.to_s}' with groups #{m.named_captures}"
  puts "#{str[pos...b0]}{#{str[b0...b1]}(#{str[b1...e1]})#{str[e1...e0]}}"
  pos = e0
end

MatchText is 'good' with groups {"vowel"=>"oo"}
this is a {g(oo)d}
MatchText is 'deed' with groups {"vowel"=>"ee"}
 {d(ee)d}
MatchText is 'beaut' with groups {"vowel"=>"eau"}
 in the {b(eau)t}


## 更多方法

### 子串

`str[regexp]` 和 `str[regexp, capture]` 可以快速定位 `str` 满足 `regexp` 模式的子串。

In [105]:
re = /[^aeiou](?<vowel>[aeiou]{2,})[^aeiou]/ 
str = 'this is a good deed in the beautiful world'

str[re]

"good"

In [108]:
str[re, 1]

"oo"

In [109]:
str[re, "vowel"]

"oo"

In [110]:
"Gray, James"[/(\w+), (\w+)/]

"Gray, James"

In [111]:
"Gray, James"[/(\w+), (\w+)/, 2]

"James"

### 分割

`str.split(pattern[, limit])` 使用指定的 `pattern` 对 `str` 进行分割。

In [97]:
"1, 2.34,56, 7".split(%r{,\s*})

["1", "2.34", "56", "7"]

### 查找

`str.scan(pattern)` 查找字符串 `str` 中匹配 `pattern` 的子串

In [119]:
str = 'this is a good deed in the beautiful world'

str.scan(/\w+/).to_a

["this", "is", "a", "good", "deed", "in", "the", "beautiful", "world"]

In [128]:
re = /(?<g1>[^aeiou])(?<g2>[aeiou]{2,})(?<g3>[^aeiou])/ 

str.scan(re) do|g1, g2, g3|
  puts "#{g1}#{g2}#{g3}"
end

good
deed
beaut


"this is a good deed in the beautiful world"

`array.grep(pattern)` 查找数组 `array` 中匹配 `pattern` 的元素

`array.grep_v(pattern)` 查找数组 `array` 中不匹配 `pattern` 的元素

In [133]:
array = %w[foo bar baz]

array.grep(/\Af/)

["foo"]

In [134]:
array.grep_v(/\Af/)

["bar", "baz"]

### 替换

`str.gsub(pattern, replacement)` 将字符串 `str` 中匹配 `pattern` 的部分替换成想要的部分 `replacement`，并返回新的字符串。

In [101]:
re = /[^aeiou](?<vowel>[aeiou]{2,})[^aeiou]/ 
str = 'this is a good deed in the beautiful world'

str.gsub(re) do|m|
  '*' * m.length
end

"this is a **** **** in the *****iful world"

In [104]:
str.gsub(re, '*\k<vowel>*')

"this is a *oo* *ee* in the *eau*iful world"

## 更多资料

* <http://rubular.com> is a great interactive Ruby regexp toy
* [the Pickaxe book](http://www.ruby-doc.org/docs/ProgrammingRuby/html/language.html#UJ) has a just-the-facts-maam overview of regexps
* [`cheat regexp`](http://cheat.errtheblog.com/s/regexp) and [`cheat regex`](http://cheat.errtheblog.com/s/regex) have slightly different cheatsheets
  * `gem install cheat` for command-line tool or see <http://cheat.errtheblog.com>
* [http://www.regular-expressions.info/tutorialcnt.html](http://www.regular-expressions.info/) has a good tutorial