# Регулярные выражения

Регулярное выражение описывает множество строк. Например, можно написать выражение `ab*c`, и оно описывает множество (математическое) `{'ac', 'abc', 'abbc', 'abbbc', 'abbbbbbbbbbbbbbbc', ...}`. Или можно так: `a\d*` (здесь `\d` означает любую цифру), поэтому это выражение описывает множество `{'a', 'a42', 'a57121', 'a9', ...}`.

Регулярные выражения нужны для
 - расширенного текстового поиска, например, найти все номера телефонов, найти все email, все слова начинающиеся с заглавной и т.п.
 - проверка корректности строки, подходит ли строка под регулярное выражение. Например, верно ли, что пользователь ввёл номер телефона.

Хороший сайт для изучения и тренировки [regexr.com](https://regexr.com).

Примеры регулярных выражений

`|` — или, `()` группируют части регулярного выражения.

`a|b|c` — `{'a', 'b', 'c'}`

`кот|кота|котов` — `{'кот', 'кота', 'котов'}`

`кот(|а|ов)` — `{'кот', 'кота', 'котов'}`

`(1|2)(x|y|z)(U|V)` - `{'1xU', '1xV', '2zV', ...}` (12 вариантов)

`(ab)*` — `{'', 'ab', 'abab', 'ababab', ...}`

`(a|b)*` — `{'ab', 'babbba', 'aaaaaa', 'bbbb', 'aa', 'a', 'b', '', 'abbbabaaba', }`

`\d*` — произвольный набор цифр, повторяем \d, т.е. на каждой позиции цифры могут быть разные

`a*|b*` — `{'aaaaaa', 'bbbb', 'aa', 'a', 'b', ''}`

Кроме `*` есть другие повторения:


`*` 0 или более раз

`+` означет повторение 1 или более раз

`{10}` означет повторение 10 раз

`{2,6}` от 2 до 6 раз

`{,6}` от 0 до 6

`{6,}` 6 до бесконечности

`?` означет 0 или 1

`кота?` — `кот` или `кота`.

Множества символов:

`\d` — цифры
`\w` — буквы английские, цифры и подчеркивание
`\s` — пробельные символы

`\s+` — произвольное количество пробелов

`\D` — не цифра
`\S` — не пробельный символ

Множества можно составлять самостоятельно:

`[123]` — это множество из цифр 1, 2 или 3. Аналог `(1|2|3)`.
`[a-z]` — это значит, что от строчной a до строчной z
`[a-zA-Z0-9]` — латинские буквы или цифры
`[^a-z]` — это значит, что любой символ кроме от 'a' до 'z'.

`.` — любой символ (кроме перевода строки, но можно включить и перевод строки, см. позже)
`^` — начало строки
`$` — конец строки

Другие возможности: [Документация по регулярным выражениям](https://docs.python.org/3/library/re.html)

## Как записать регулярное выражение в коде программы

В Python мы записываем регулярные выражения как строки (str). Например


In [3]:
all_words_pattern = '[a-zA-Z]+'

Но если в регулярном выражении встречаются `\` возникает проблема, Python воспринимает их как символы экранирования:


In [5]:
all_numbers_pattern = '\d+'
all_float_numbers_pattern = '\d+(,\d+)?'

Чтобы обратный слэш не воспринимался питоном как символ экранирования, нужно либо экранировать слэш. Тогда выражение `\d+` будет выглядеть так:


In [11]:
print('\\d+')  # \\ соответствует одному символу \. Аналогично как \n — один символ перевода строки

\d+


Чтобы не думать об экранировании, используйте сырые (raw) строки:


In [12]:
print(r'\\d+')  # в r-строке \ это просто \

\\d+


При задании регулярных выражений пишите их в raw строках:


In [13]:
all_numbers_pattern = r'\d+'
all_float_numbers_pattern = r'\d+(,\d+)?'


## Экранирование внутри регулярного выражения

Иногда вам нужен символ точки, скобки, вопросительного знака, но в регулярном выражении они имеют особый смысл. Если поставить перед ними обратный слэш, смысл становится обычным:

`.` — любой символ

`\.` — точка

Если вы не используете r-строки, то экранирование приходится делать двойным, например, регулярное выражение для символа `\` это `\\`. Когда вы пишете это в коде, нужно писать `\\\\`:


In [16]:
print('\\')
print(r'\\')

\
\\


**Вывод: задавая регулярные выражения, всегда используйте только r-строки**


## Использование в коде

Работа с регулярными выражениями происходит с помощью встроенного модуля `re`:

In [21]:
import re

print(re.fullmatch(r"\d+", "12349344"))  # подходит ли строка под указанное выражение
# возвращается объект с результатом сопоставления
print(re.fullmatch(r"\d+", "123xyz"))  # None, если не сопоставилось

m = re.fullmatch(r"\d+", "12349344")
if m is not None:
    print("сопоставилось!!")

<re.Match object; span=(0, 8), match='12349344'>
None


Метод `match` сопоставляет начало строки:


In [23]:
print(re.match(r"\d+", "123xyz"))  # сопоставилось с 0 до 3 символа

<re.Match object; span=(0, 3), match='123'>


In [24]:
re.findall(r'\d+', "У меня 5 яблок и 100 груш")  # список из всех сопоставлений


['5', '100']

Поиск с большим количеством возможностей:


In [25]:
for m in re.finditer(r'\d+', "У меня 5 яблок и 100 груш"):
    print(m)  # распечатываем объект с информацией о сопосталвении для каждого вхождения


<re.Match object; span=(7, 8), match='5'>
<re.Match object; span=(17, 20), match='100'>


Другой подход к работе с регулярными выражениями, сначала их *скомпилировать*:


In [26]:
digits = re.compile(r'\d+')  # скомпилированный шаблон для поиска последовательности цифр
digits.findall('У меня 5 яблок и 100 груш')  # здесь даже можно будет указать, откуда до куда искать

['5', '100']

Посмотрите еще функцию `re.split`, которая похожа на обычный `split`, но позволяет указать, как именно разделять на слова.

## Флаги регулярных выражений

Управляют работой регулярного выражения.

1. `re.DOTALL` (или `re.S`, `s`). Если этот флаг включен, то `.` соответствует вообще всем символам, включая и перевод строки.
2. `re.MULTILINE` (или `re.M`, `m`) Изменяет смысл `$`, `^`. Теперь это конец и начало строк (то, что разделяется переводами строк), а не всего текста.
3. `re.IGNORECASE` (или `re.I`, 'i') — игнорировать регистр

Другие флаги см. в документации.

Как подключить флаги:

In [None]:
re.fullmatch(r'\d+', '123123', flags=re.MULTILINE+re.IGNORECASE)
# или
re.fullmatch(r'\d+(?mi)', '123123')  # (?флаги) — указать флаги прямо в выражении
# или
re.compile(r'\d+', flags=re.MULTILINE+re.IGNORECASE)
