# Регулярные выражения
    
Регулярные выражения являются формальным языком, описывающий некий шаблон, который сравнивается с текстом.

Пример регулярного выражения
```
([0123456789]{2,})\.([0-9]{2})\.(\d{2}|\d{4})
```

## Мета-символы

Регулярное выражение состоит из различных мета-символов и символов обычного текста. Символы `[ ] ( ) { } . * + ? ^ $ \` в регулярных выражения имеют свой особый смысл:

|Символ|Описание|
|:----:|----|
|**.**| обозначает любой символ |
|**[ ]**| обозначает любой символ из некого множества |
|**[^ ]**| обозначает любой символ, который не входит в некое множество |
|**\***| обозначает, что предшевствующий символ повторяется 0 и более раз |
|**+**| обозначает, что предшевствующий символ повторяется 1 и более раз |
|**?**| обозначает, что предшевствующий символ повторяется 0 и 1 раз (опциональный) |
|**{n,m}**| обозначает, что предшевствующий символ повторяется от n до m раз |
|**(xyz)**| обозначает группу в регулярном выражении, xyz - регулярное выражение для этой группы |
|**\|**| приемлемо одно из двух выражений: либо до **\|**, либо после **\|** |
|**\\**| превращает мета-символ в обычный символ | 
|**^**| символ начала строки |
|**$**| символ конца строки |
|**текст**| все остальные символы являются самими собой |

## re

Модуль `re` предоставляет различные функции по работе с регулярными выражениями

In [1]:
import re

> `match` - проверка выражения на совпадение от начала строки, будет захвачена строка максимальной длины

> `fullmatch` - проверка, что вся строка совпадает с выражением

> `search` - проверка, что можно найти выражение в строке (в любом месте)

> `split` - разбиение строки на подстроки, где разделиртель - это рег. выражение

> `sub` - замена в строке, согласно рег. выражению (одна замена)

> `compile` - создать специальный объект регулярного выражения (оптимизация, не требует каждый раз парсинга регулярного выражения)

## Повторения и простые шаблоны

In [46]:
# 4 любых символа 
r = re.fullmatch(r"....", "test")
print(r)

r = re.fullmatch(r".{4}", "test")
print(r)

r = re.fullmatch(r".{4}", "test1")
print(r)

r = re.match(r".{4}", "test1")
print(r)

<re.Match object; span=(0, 4), match='test'>
<re.Match object; span=(0, 4), match='test'>
None
<re.Match object; span=(0, 4), match='test'>


In [11]:
# любое количество символов
r = re.fullmatch(r".*", "test")
print(r)

r = re.fullmatch(r".{0,}", "test")
print(r)

<re.Match object; span=(0, 4), match='test'>
<re.Match object; span=(0, 4), match='test'>


In [47]:
r = re.match(r"a{2,5}", "aaaaa")
print(r)

<re.Match object; span=(0, 5), match='aaaaa'>


In [None]:
# тоже самое, что и fullmatch
r = re.match(r"a{2,5}$", "testaaa")
print(r)

# без изменений
r = re.match(r"^a{2,5}", "testaaa")
print(r)

# тоже самое, что и fullmatch
r = re.match(r"^a{2,5}$", "testaaa")
print(r)

In [48]:
r = re.search(r"a{2,5}$", "testaaa")
print(r)

r = re.search(r"^a{2,5}", "testaaa")
print(r)

r = re.search(r"^a{2,5}$", "testaaa")
print(r)

<re.Match object; span=(4, 7), match='aaa'>
None
None


## Жадность и лень

Если нужно захватить минимальную строку, то к мета-символам повторения можно добавить `?`

In [49]:
r = re.match(r"a{2,5}?", "aaaa")
print(r)

r = re.match(r"a*?", "aaaa")
print(r)

r = re.match(r"a+?", "aaaa")
print(r)

r = re.match(r"a??", "aaaa")
print(r)

<re.Match object; span=(0, 2), match='aa'>
<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 0), match=''>


## Множества

Тут все просто, все символы перечисленные внутри `[]` образуют множество. Для диапазона можно использовать `-`, если нужен `-` как символ, то его нужно ставить первым символом множества

In [50]:
r = re.fullmatch(r"[0-9]+", "123")
print(r)

r = re.fullmatch(r"[-0-9]+", "12-3")
print(r)


<re.Match object; span=(0, 3), match='123'>
<re.Match object; span=(0, 4), match='12-3'>


In [52]:
r = re.fullmatch(r"[^-0-9]+", "zzzz")
print(r)

<re.Match object; span=(0, 4), match='zzzz'>


Также есть алиасы для типовых множество

|Shorthand|Description|
|:----:|----|
|<b>.<b>| любой символ, кроме конца строки |
|<b>\w<b>| все буквы, числа и `_` (почти `[a-zA-Z0-9_]`)|
|<b>\W<b>| инверсия `\w` (фактически `[^\w]`)
|<b>\d<b>| все цифры, эквивалент `[0-9]`|
|<b>\D<b>| не цифры, эквивалент `[^\d]`|
|<b>\s<b>| все пробельные символы (почти `[\t\n\f\r\p{Z}]`)|
|<b>\S<b>| любые непробельные символы (фактически `[^\s]`)|

## Границы

Есть возможность использовать специальную конструкцию `\b` (инверсия `\B`), которая просто обозначает границу начала или конца слова (рядом стоящие символы `\w` и `\W`)

## Группы

Круглые скобки позволяют определять под вырежание в регулярном выражение и создают группы, которые также захватываются при анализе строки. Обратите внимание, группы нумеруются по порядку открывающих скобок, а не по приоритету.

In [56]:
r = re.fullmatch(r'(\d{2})\.(\d{2})\.(\d{2}|\d{4})', "01.01.2001")
print(r)
print(r.groups())
r.group(0), r.group(1), r.group(2), r.group(3)

<re.Match object; span=(0, 10), match='01.01.2001'>
('01', '01', '2001')


('01.01.2001', '01', '01', '2001')

In [35]:
print(re.sub(r"_(\d+)_", r"=\1=", "_123_ fasd fsdaf _33_"))
print(re.sub(r"_(\d+)_", r"=\g<1>=", "_123_ fasd fsdaf _33_"))

=123= fasd fsdaf =33=
=123= fasd fsdaf =33=
