# Регулярные выражения

Давайте вернемся в начало курса и вспомним самые обычные строки. Метод `find` ищет подстроку в строке.

In [None]:
s = 'абракадабра'
s.find('бра')

In [None]:
s.find('бро')

In [None]:
if s.find('а'):
    print('found')

In [None]:
s.find('бра', 3)

In [None]:
s.replace('бра', 'БРА')

In [None]:
s.replace('бра', 'БРА', 1)

Но эти методы работают только с фиксированными подстроками. Для более гибкой обработки текстов можно использовать модуль `re`, который позволяет искать и заменять подстроки, соответствующий некоторым образцам - регулярным выражениям.

Регулярное выражение - это строка, задающая некоторый шаблон поиска подстрок в тексте. Самый простой шаблон - это любая строка (не содержащая спецсимволов), но при работе с регулярками необходимы raw-strings: `r'simple'`. Такой шаблон обозначает сам себя.

[Визуализация регулярок](https://regex101.com/) 

[Еще один визуализатор регулярок](https://www.debuggex.com)



In [None]:
# regular expressions

In [None]:
import re

In [None]:
print('\\\\')
# raw-string
print(r'\\')

In [None]:
# СПЕЦИАЛЬНЫЕ СИМВОЛЫ
# . - любой символ,  кроме '\n'
# ^ - начало строки
# $ - конец строки
# ?   # сигил
# \ - символ экранирования
# | - или
# {, } - задают кол-во символов или диапазон кол-ва символов
# [ ] - промежутки символов - подойдет любой из промежутка
# ( ) - позволяют группировать regex

# Примеры:
# [0-9], [0123456789]
# [a-zA-Z]
# [а-яА-Я] отсутствует ё и Ё
# [^a-z] - все, кроме [a-z]
# \d - любая цифра
# \w - любая буква, _ и [0-9]
# \s - 'пробельный символ' - любое пустое пространство 
# \D - все, кроме \d
# \W - все, кроме \w
# \S - все, кроме \s
# regex* - (0, +inf)
# regex+ (1, +inf)   # пример: r'(012)+' == 012, 012012, 012012012...
# ? - отключает жадность + и *
# a{5} == 'aaaaa'
# a{2, 4} == 'aa', 'aaa', 'aaaa'
# a{6,} == (6, inf)

In [None]:
ord('z'), ord('a'), ord('A'), ord('Z'), ord('а'), ord('я'), ord('ё'), ord('А'), ord('Я'), ord('Ё')

В регулярном выражении все символы, кроме специальных, обозначают сами себя. Специальные символы - это `.`, `^`, `$`, `*`, `+`, `?`, `\`, `|`, `{`, `}`, `[`, `]`, `(`, `)`. Если требуется включить в регулярное выражение один из этих символов буквально, как обычный, перед ним нужно поставить `\`. Вообще, в регулярных выражениях часто приходится использовать `\`. А чтобы включить этот символ в строку на питоне, его надо писать как `\\`. Например, регулярное выражение, которое сопоставляется с символом `\` - это `\\`; в виде питонской строки его приходится писать как `'\\\\'`. Неудобно. Поэтому для записи регулярных выражений часто используют сырые строки - raw. Они пишутся как `r'строка'` или `r"строка"`, в них `\` является вполне обычным символом. Так что это же регулярное выражение можно записать в виде сырой строки `r'\\'`.

Специальный символ `.` в регулярном выражении сопоставляется с любым (одним!) символом в строке (кроме символа `'\n'`). Мы это уже видели. Конструкция `[abc]` сопоставляется с `a`, `b` или `c`. В ней можно использовать диапазоны: `[0-9]` - это любая цифра, а `[a-zA-Z]` - любая латинская буква. Но тут надо быть осторожным: это диапазоны в юникоднм порядке. Латинские буквы в нём действительно идут подряд, так что для обычных латинских букв (без каких-нибудь умляютов) это правильно. Но вот `[а-яА-Я]` не включает все расские буквы - `ё` и `Ё` находятся вне этих диапазонов. Так что для проверки на русскую букву нужно писать `[а-яёА-ЯЁ]`. Большинство специальных символов теряют свою специальность между `[` и `]` и рассматриваются как обычные. Если первым символом после `[` идёт `^`, то это значит любой символ, кроме тех, что дальше перечислены.

Юникод умеет много гитик, поэтому надёжнее использовать заранее определённые классы символов. Так, `\d` означает любую цифру (в юникоде, в добавок к `[0-9]`, их есть ещё много); `\w` означает любой символ, который может присутствовать в слове - букву, цифру или `_`; `\s` означает любой "пробел" (пустое пространство, включая табуляцию, `'\n'` и т.д.). Заглавные буквы означают дополнения к этим множествам: `\D` - любая не-цифра; `\W` - не встречается в словах (т.е. не буква, не цифра и не `_`); `\S` - любой не-пробел.

После подвыражения в регулярном выражении можно поставить `*`, это означает любое число повторений (от 0 до $\infty$) этого подвыражения. Например, `.*` сопоставляется с абсолютно чем угодно. Если поставить `+`, то это любое ненулевое число повторений (от 1 до $\infty$). А если поставить `?`, то это 0 или 1 вхождение, т.е. это предыдущее подвыражение может присутствовать либо отсутствовать. Можно задать возможные числа повторений более явно: `а{5}` означает 5 букв `а`, `а{2,4}` - от 2 до 4 букв `а`, `а{6,}` - от 6 до $\infty$ букв `а`. Но это используется редко.

In [None]:
string = '12345 abcdefgh 123 @#$%^& _56789_ abcdefgh __ 02468'
string

In [None]:
re.search(r'[5-9]', string)

In [None]:
re.search(r'\d{5}', string).group()

## Жадность

![greedy](../../images/жадность.jpg)

In [None]:
# жадность * и +
re.search(r'\d+', string).group()

In [None]:
# ? и жадность * и +
re.search(r'\d+?', string).group()

In [None]:
string

In [None]:
re.search(r'\s\w+\s', string)

А где жадность может помешать? Иногда можно начать парсить html с помощью регулярных выражений. Давайте посмотрим:

In [None]:
string = '<html><head><title>Title</title>'
len(string)

Функция `re.match()` - отличие от `search`: ищет с начала строки

In [None]:
re.match('<.*>', string)

In [None]:
re.match('<.*>', string).span()

In [None]:
re.match('<.*>', string).group()

In [None]:
re.match('<.*?>', string).group()

In [None]:
string = 'xy xay xaby xby'
regex = r'x.+y'
search = re.search(regex, string)  # x....y если не найдено, то вернет None
print(search)
print(search.start())
print(search.end())
print(search.group())

In [None]:
string

In [None]:
print(re.findall(r'\s\w+\s', string))
print(re.findall(r'\d{2}', string))

Часто используемая функция этого модуля - это `sub`. Она возвращает копию исходной строки, в которой все подстроки, соответствующие образцу, заменены на заданную строку - замену.

In [None]:
s = 'xy xay xaby xby'

In [None]:
re.sub('x.y', 'XXX', s)

In [None]:
re.sub('x.+y', 'XXX', s, 2)

In [None]:
re.sub('x.+?y', 'XXX', s, 2)

In [None]:
re.sub('x\w+?y', 'XXX', s, 2)

Если мы хотим использовать одно и то же регулярное выражение несколько раз, можно скомпилировать его в некий объект, и вместо функций модуля `re` вызывать методы этого объекта. Это повысит эффективность.

In [None]:
string = '12345 _abcd__efgh_ 123 @#$%^& _56789_ abcdefgh __ 02468'

In [None]:
pattern = re.compile(r'(_\w+?_)')
lst_all = pattern.findall(string)
print(lst_all)

`^` означает начало строки, а `$` - конец.

In [None]:
for s in ['0ab','a0b']:
    if search(r'^0', s):
        print('нашли')
    else:
        print('не нашли')

`x|y` означает `x` или `y`. Подвыражения можно заключать в скобки.

In [None]:
m = re.search(r'(a\d+b)|(c\d+d)', 'aaa1234bbbbxxxc123dyyy')
print(m.group())

In [None]:
m = re.search(r'0(ab)*1', 'x0ababab1y')
print(m.group())

Но главная польза от скобок не в этом. Каждая скобка создаёт *группу*. При поиске регулярного выражения в строке куски строки, сопоставленные каждому подвыражению в скобках, запоминаются, и их можно извлечь и использовать. Метод `group` объекта сопоставления, вызванный без параметров, возвращает подстроку, сопоставленную всему регулярному выражению в целом; если же его вызвать с целым параметром `n`, то он возвращает `n`-ую группу.

In [None]:
pattern = r'(^[a-z]*)(\d*)([a-z]*$)'
string = 'abc123xyz'
m = re.search(pattern, string)
print(f'1: {m.group(1)}, 2: {m.group(2)}, 3: {m.group(3)}')

In [None]:
# ?????????????????????
pattern = r'(a\d*b)(c\d+d)'
string = 'aaa1234bbbccc123ddd'
m = re.search(pattern, string)
m

Ещё более это полезно в вызовах `sub`. Почти всегда строка-замена должна содержать в себе части исходной строки, найденные при сопоставлении с регулярным выражением. Для этого в строке-замене можно использовать обозначения `\1`, `\2` и т.д. - они означают 1-ю, 2-ю и т.д. группы.

Еще раз быстро пройдемся по функциям:

`re.fullmatch(pattern, string)` - проверяет, удовлетворяет ли вся строка `string` шаблону `pattern`

In [None]:
pattern = r'simple'

text = "Make it simple! Stay cool. It isn't simple. But you can try!"

In [None]:
print(re.fullmatch(pattern, text))

In [None]:
print(re.fullmatch(pattern, 'simple'))

`re.search(pattern, string)` - ищет первую подстроку в строке `string`, удовлетворяющего шаблону `pattern`

In [None]:
pattern = r'simple'

text = "Make it simple! Stay cool. It isn't simple. But you can try!"

In [None]:
result = re.search(pattern, text)

print(result)
print(result[0])
print(result.start())
print(result.end())

`re.findall(pattern, string)` - найти в строке `string` все непересекающиеся шаблоны `pattern`

In [None]:
pattern = r'simple'

text = "Make it simple! Stay cool. It isn't simple. But you can try!"

In [None]:
result = re.findall(pattern, text)

print(result)

`re.sub(pattern, repl, string)` - заменить в строке `string` все непересекающиеся шаблоны `pattern` на `repl`

In [None]:
pattern = r'simple'

text = "Make it simple! Stay cool. It isn't simple. But you can try!"

In [None]:
print(re.sub(pattern, 'hard', text))

Шпаргалка по регуляркам: https://www.exlab.net/files/tools/sheets/regexp/regexp.pdf

Несколько простых примеров задач:

Напишем регулярное выражение, которое определяет, является ли введенная строка номером телефона (xx-xx-xx).

In [None]:
# паттерн телефона

phone_pattern = r'\d\d-\d\d-\d\d'

In [None]:
re.fullmatch(phone_pattern, '21-00-79')

In [None]:
re.fullmatch(phone_pattern, '111111')

Диапазоны []:

In [None]:
# новый паттерн телефона

phone_pattern = r'[0-9][0-9]-[0-9][0-9]-[0-9][0-9]'

In [None]:
re.fullmatch(phone_pattern, '21-00-79')

In [None]:
re.fullmatch(phone_pattern, '111111')

С помощью {} можно указывать количество повторений.

In [None]:
# новый паттерн телефона

phone_pattern = r'\d{2}-\d{2}-\d{2}'

In [None]:
re.fullmatch(phone_pattern, '21-00-79')

In [None]:
re.fullmatch(phone_pattern, '111111')

Скобочные группы (), к ним можно применять квантификаторы:

In [None]:
# новый паттерн телефона

phone_pattern = r'\d{2}(-\d{2}){2}'

In [None]:
re.fullmatch(phone_pattern, '21-00-79')

In [None]:
re.fullmatch(phone_pattern, '21-00')

 Небольшие задачки:

1. Является ли строка номерным знаком (м000нт)

In [None]:
pattern = ...
strings = ['м000нт', 'qwerty']

2. Извлечь все слова, начинающиеся на гласную

In [None]:
pattern = ...
string = 'apple banana avocado'