In [1]:
import re

- references
    - https://regexr.com/

## baiscs

- 开头和结尾匹配
    - 开头： `^xxx`
    - 结尾：`xxx$`
    - `^(?!str)`：不以开头；
        - `?!` 这里是否定向前查询
    - `(?<!str)$`：不以结束；
        - `?<!`否定式向后查询
- `\`用于转义，
    - 匹配 `$` 需要转义 `\$`
    - 匹配 `.` 需要转义 `\.`

- `\d`与`\w`
    - `\d`：digital，`0-9`
    - `\w`：`a-z, A-Z, 0-9, _`
        - 不包括 `&`
- `\b`与`\B`：元字符（我理解是 boundary 的含义）
- 量词（quantifiers）
    - *：0+
    - ?：0/1，有或无
    - +：1+
    - {n}：exactly n occurrences
- 惰性匹配（laziness）
    - greedy vs. lazy (non-greedy)
    - 量词 `'*'`, `'+'`, and `'?'`：都是 greedy 的，尽可能多地匹配
    - `.*?`：但是加个问号（`?`）就会变成 non-greedy 的；

- `.`与`*`
    - 在正则中是量词，不是通配符，反而通配符是 `.`
    - `\s`: 匹配包括换行符
- `( 和 )`: 这对括号定义了一个捕获组（capturing group）。捕获组可以记住正则表达式的一部分匹配结果，方便之后的提取或引用。

### python api 整体介绍

- re.findall()
    - 返回的是 list；
    - 从一个长 string 中提取所有能 match 上这个 regexr 的 substrings；
        - regex 其实是某种意义上的占位符或template；

### `^(?!str)` vs. `(?<!str)$`

In [40]:
urls = ['https://www.socratica.com', 
        'http://www.socratica.org', 
        'http://www.abc.bcd.org', 
        'file://test.this.path', 
        'com.socratica.www.https://']

In [42]:
for url in urls:
    print(re.search('^(?!http)', url))

None
None
None
<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(0, 0), match=''>


In [43]:
for url in urls:
    print(re.search('(?<!org)$', url))

<re.Match object; span=(25, 25), match=''>
None
None
<re.Match object; span=(21, 21), match=''>
<re.Match object; span=(26, 26), match=''>


In [58]:
for url in urls:
    if re.search('(?<!org)$', url):
        print(url)

https://www.socratica.com
file://test.this.path
com.socratica.www.https://


### `\b` 与 `\B`：单词边界（boundary）

In [26]:
re.search(r'\Bworld\B', 'helloworlds')

<re.Match object; span=(5, 10), match='world'>

In [60]:
re.search(r'\Bworld\b', 'helloworld ')

<re.Match object; span=(5, 10), match='world'>

In [61]:
re.search(r'\Bworld\b', 'helloworld')

<re.Match object; span=(5, 10), match='world'>

In [28]:
re.search(r'\bworld\B', 'hello worlds')

<re.Match object; span=(6, 11), match='world'>

In [62]:
re.search(r'\bworld\b', 'hello world ')

<re.Match object; span=(6, 11), match='world'>

In [67]:
re.findall(r'\b\w+\b', 'hello world hello china hello')

['hello', 'world', 'hello', 'china', 'hello']

### non-greedy or lazy

In [68]:
x = "a (b) c (d) e"
# greedy
re.search(r'\(.*\)', x).group()

'(b) c (d)'

In [69]:
x = "a (b) c (d) e"
# non-greedy or lazy
re.search(r'\(.*?\)', x).group()

'(b)'

In [70]:
x = "a (b) c (d) e"
# non-greedy or lazy
re.findall(r'\(.*?\)', x)

['(b)', '(d)']

In [71]:
s = '<H1>Title</H1>'
re.search(r'\<.*\>', s).group()

'<H1>Title</H1>'

In [72]:
s = '<H1>Title</H1>'
re.search(r'\<.*?\>', s).group()

'<H1>'

In [73]:
x = "a (b) c (d) e"
matches = re.finditer(r'\(.*?\)', x)
for match in matches:
    print(match, match.group())

<re.Match object; span=(2, 5), match='(b)'> (b)
<re.Match object; span=(8, 11), match='(d)'> (d)


In [76]:
s = '<button type="submit" class="btn">Send</button>'

pattern = '".+?"'
matches = re.finditer(pattern, s)

for match in matches:
    print(match.group())

"submit"
"btn"


- r'[A-Z]+?' 中：
    - `[A-Z]` 匹配任意一个大写字母。
    - `+?` 表示匹配一次或多次大写字母，但尽可能少地匹配。

In [2]:
text = "Hello World! This is an Example with some UPPERCASE Letters."
re.findall(r'[A-Z]', text)

['H', 'W', 'T', 'E', 'U', 'P', 'P', 'E', 'R', 'C', 'A', 'S', 'E', 'L']

In [3]:
re.findall(r'[A-Z]+', text)

['H', 'W', 'T', 'E', 'UPPERCASE', 'L']

In [4]:
re.findall(r'[A-Z]+?', text)

['H', 'W', 'T', 'E', 'U', 'P', 'P', 'E', 'R', 'C', 'A', 'S', 'E', 'L']

## match

- re.match 仅从头开始匹配: `^pattern`
- re.fullmatch 完整匹配

In [28]:
urls = ['https://www.socratica.com', 
        'http://www.socratica.org', 
        'http://www.abc.bcd.org', 
        'file://test.this.path', 
        'com.socratica.www.https://']

### re.match

In [29]:
regex = 'https?'
for url in urls:
    if re.match(regex, url):
        print(url)

https://www.socratica.com
http://www.socratica.org
http://www.abc.bcd.org


In [35]:
regex = '^https?'
for url in urls:
    if re.search(regex, url):
#         print(re.search(regex, url))
        print(url)

https://www.socratica.com
http://www.socratica.org
http://www.abc.bcd.org


### fullmatch

In [79]:
# (^ $)
regex = 'https?://w{3}.\w+.(org|com)'
for url in urls:
    if re.fullmatch(regex, url):
        print(url)

https://www.socratica.com
http://www.socratica.org


## `re.search` 与 `re.findall`

- `re.findall`：返回的是 list
- `re.search`: 返回的是 re.Match

In [77]:
s = "The bottle of water costs $ 3.24 and that's outrageous... it's like 3x what it should be!"

In [78]:
regex = '\$\s*(\d+\.\d+)\W*'
re.findall(regex, s)

['3.24']

### re.search

In [81]:
names = ['Finn  Bindeballe', 
         'Geir Anders Berge', 
         'HappyCodingRobot', 
         'Ron   Cromberge', 
         'Sohil']

In [24]:
# 有名有姓
regex = '^\w+\s+\w+$'
for name in names:
    res = re.search(regex, name)
    # 表示匹配上
    if res:
        print(name)

Finn  Bindeballe
Ron   Cromberge


In [82]:
regex = 'C\w*'
for name in names:
    res = re.search(regex, name)
    if res:
        print(name)
        print(res, res.start(), res.end(), name[res.start():res.end()], )
        print(res.span(), res.group(), res.group(0), )

HappyCodingRobot
<re.Match object; span=(5, 16), match='CodingRobot'> 5 16 CodingRobot
(5, 16) CodingRobot CodingRobot
Ron   Cromberge
<re.Match object; span=(6, 15), match='Cromberge'> 6 15 Cromberge
(6, 15) Cromberge Cromberge


### findall

In [40]:
names = ['Brian Daugette', 
         'Veronica Supersonica', 
         'Tony Gasparovic', 
         'Patrick Germann', 
         'm!sha']

In [41]:
regex = '[a-z]+'
for name in names:
    matches = re.findall(regex, name)
    if matches:
        print(matches)

['rian', 'augette']
['eronica', 'upersonica']
['ony', 'asparovic']
['atrick', 'ermann']
['m', 'sha']


In [46]:
regex = '[a-z]+'
for name in names:
    matches = re.finditer(regex, name)
    if matches:
        for match in matches:
            print(match)

<re.Match object; span=(1, 5), match='rian'>
<re.Match object; span=(7, 14), match='augette'>
<re.Match object; span=(1, 8), match='eronica'>
<re.Match object; span=(10, 20), match='upersonica'>
<re.Match object; span=(1, 4), match='ony'>
<re.Match object; span=(6, 15), match='asparovic'>
<re.Match object; span=(1, 7), match='atrick'>
<re.Match object; span=(9, 15), match='ermann'>
<re.Match object; span=(0, 1), match='m'>
<re.Match object; span=(2, 5), match='sha'>


## `re.sub` 

In [57]:
# 多个空格替换为一个空格
str1 = '  rwe fdsa    fasf   '
# re.sub(' +', ' ', str1)
re.sub('\s+', ' ', str1)

' rwe fdsa fasf '

In [53]:
re.sub('test', 'xxxx', 'Testing', flags=re.IGNORECASE)

'xxxxing'

## cases

### re.search

In [12]:
import re

s = "alpha.Customer[cus_Y4o9qMEZAugtnW] ..."
match = re.search(r"\[([A-Za-z0-9_]+)\]", s)
# match.group() == match.group(0)，整体正则的匹配
print(match.group(), match.group(0))
# match.group(1)：返回的第一个 `()` 包起来的内容
print(match.group(1))

[cus_Y4o9qMEZAugtnW] [cus_Y4o9qMEZAugtnW]
cus_Y4o9qMEZAugtnW


### groups

In [33]:
names = ['Brian Daugette', 
         'Veronica Supersonica', 
         'Tony Gasparovic', 
         'Patrick Germann', 
         'm!sha']

In [34]:
regex = '^\w+\s+\w+$'
for name in names:
    match = re.search(regex, name)
    if match:
        print(name)

Brian Daugette
Veronica Supersonica
Tony Gasparovic
Patrick Germann


In [84]:
regex = '^(\w+)\s+(\w+)$'
for name in names:
    match = re.search(regex, name)
    if match:
        print(f'{match.group()}, first name: {match.group(1)}, last name: {match.group(2)}')

Finn  Bindeballe, first name: Finn, last name: Bindeballe
Ron   Cromberge, first name: Ron, last name: Cromberge


In [85]:
regex = '^(?P<fn>\w+)\s+(?P<ln>\w+)$'
for name in names:
    match = re.search(regex, name)
    if match:
        print(f'first name: {match.group("fn")}, last name: {match.group("ln")}')

first name: Finn, last name: Bindeballe
first name: Ron, last name: Cromberge


### 最内层的括号

`pattern = r'\[([^[\]]*)\]'`
- `\[` 和 `\]`: 这些是用来匹配方括号 [ 和 ] 的字符。在正则表达式中，方括号是特殊字符，用于定义字符集。为了匹配字面上的方括号，需要使用反斜杠 \ 进行转义。
- `(` 和 `)`: 这对括号定义了一个捕获组。捕获组可以记住正则表达式的一部分匹配结果，方便之后的提取或引用。
- `[^[\]]*`: 这是一个非捕获字符集，用于匹配除了方括号之外的任意字符。
    - `[^ ... ]`: 这种结构表示“匹配除了括号内指定的字符之外的任何字符”。
    - `[\]]`: 这里面包含了一个转义的右方括号 \] 和一个左方括号 [。所以这个字符集匹配的是“非方括号”字符。
    - `*`: 表示匹配前面的字符集里的字符零次或多次。

In [10]:
# 最内层被 [] 括起来的内容
pattern = r'\[([^[\]]*)\]'

In [9]:
re.findall(pattern, '[[[[hello world]], [[a]]')

['hello world', 'a']

## `re.complie`

- Compiling regular expression objects is useful and efficient when the expression will be used several times in a single program.

In [31]:
pattern = re.compile(r"\b\w{5}\b")

In [33]:
res = pattern.findall("Jessa and Kelly")
res

['Jessa', 'Kelly']

## 其他

### `?` 元字符用法

- (?:str)   非捕获组

- (?=str) 肯定式向前查找

- (?!str) 否定式向前查找

- (?<=str) 肯定式向后查找

- (?<!str) 否定式向后查找

### 是否匹配某个单词（这个单词可能出现，也可能没出现）

- 例如，假设你想要匹配 "color" 和 "colour" 这两个拼法。你可以编写正则表达式 "colou?r"，在这里 "u?" 表示 "u" 是可选的。
- 但是，如果你想要匹配的是整个单词，例如 "color" 是可选的，你应该编写正则表达式为 "(color)?"

In [50]:
re.findall('colou?r', 'color name colour')

['color', 'colour']

### 忽略大小写

- https://stackoverflow.com/questions/500864/case-insensitive-regular-expression-without-re-compile

```
re.findall('(?i)xx', s)
re.findall('xx', s, re.IGNORECASE)
```

In [44]:
re.search('test', 'TeSt', re.IGNORECASE)

<re.Match object; span=(0, 4), match='TeSt'>

In [45]:
re.match('test', 'TeSt', re.IGNORECASE)

<re.Match object; span=(0, 4), match='TeSt'>

In [48]:
re.findall('(?i)test', 'test Test TEST hello world')

['test', 'Test', 'TEST']

In [49]:
re.findall('test', 'test Test TEST hello world', re.IGNORECASE)

['test', 'Test', 'TEST']

### `re.MULTILINE`

In [87]:
print('A\nB\nX')

A
B
X


In [90]:
re.match('X', 'A\nB\nX')

In [91]:
re.match('X', 'A\nB\nX', re.MULTILINE)  # No match

In [88]:
re.search('^X', 'A\nB\nX') 

In [89]:
re.search('^X', 'A\nB\nX', re.MULTILINE)  # Match

<re.Match object; span=(4, 5), match='X'>