# <span style="color: blue;">Регулярные выражения</span>

**Регулярные выражения** _(regular expressions)_ описывают множество строк,
используя специальный язык 

Строка, в которой задано регулярное выражение, называется **шаблоном**.

Для работы с регулярными выражениями в Python используется модуль **`re`**. 

In [1]:
import re

Например, выделим из текста все числа:

In [2]:
pattern = r"[0-9]+"
numbers_re = re.compile(pattern)
numbers_re.findall("122 234 65435")

['122', '234', '65435']

Шаблон `pattern` описывает множество строк, которые состоят из одного или более символов из набора "`0`", "`1`" , ..., "`9`".

Функция `re.compile()` компилирует шаблон в специальный `Regex`-объект, который имеет несколько методов. 

В том числе там есть метод `findall()` для получения списка всех непересекающихся вхождений строк, удовлетворяющих шаблону.

То же самое можно было сделать и так:

In [5]:
re.findall(r"[0-9]+", "122 234 65435")

['122', '234', '65435']

Предварительная компиляция шаблона предпочтительнее при его частом использовании, особенно внутри цикла.

### Синтаксис регулярного выражения

Синтаксис регулярных выражений в Python почти такой же, как в Perl, grep и некоторых других инструментах. 

Часть символов (в основном буквы и цифры) обозначают сами себя. 

Строка удовлетворяет (соответствует) шаблону, если она входит во множество строк, которые этот шаблон описывает.

Различные операции используют шаблон по-разному. Например:
* `search()` — ищет первое вхождение строки, удовлетворяющей шаблону, в заданной строке
* `match()` — требует, чтобы строка удовлетворяла шаблону с самого начала

Символы, имеющие специальное значение в записи регулярных выражений:

* "**`.`**" — любой символ
* "**`^`**" — начало строки
* "**`$`**" — конец строки
* "**`*`**" — повторение фрагмента нуль или более раз _(жадное)_
* "**`+`**" — повторение фрагмента один или более раз _(жадное)_
* "**`?`**" — предыдущий фрагмент либо присутствует, либо отсутствует
* "**`{m,n}`**" — повторение предыдущего фрагмента от `m` до `n` раз включительно _(жадное)_
* "**`[...]`**" — любой символ из набора в скобках. Можно задавать диапазоны символов с идущими подряд кодами, например: `a-z`
* "**`[^...]`**" — любой символ не из набора в скобках
* "**`\`**" — обратная косая черта отменяет специальное значение следующего за ней символа
* "**`|`**" — фрагмент справа или фрагмент слева
* "**`*?`**" — повторение фрагмента нуль или более раз _(не жадное)_
* "**`+?`**" — повторение фрагмента один или более раз _(не жадное)_
* "**`{m,n}?`**" — повторение предыдущего фрагмента от `m` до `n` раз включительно _(не жадное)_

В таблице ниже вместо "**`регвыр`**" может быть записано регулярное выражение, вместо "**`имя`**" - идентификатор, а флаги будут рассмотрены ниже.

* "**`(регвыр)`**" <br/> обособляет регулярное выражение в скобках и выделяет группу<br/><br/>

* "**`(?:регвыр)`**" <br/> обособляет регулярное выражение в скобках без выделения группы

* "**`(?=регвыр)`**" <br/> взгляд вперед: строка должна соответствовать заданному регулярному выражению, но дальнейшее сопоставление с шаблоном начнется с того же места<br/><br/>

* "**`(?!регвыр)`**" <br/> то же, но с отрицанием соответствия<br/><br/>

* "**`(?<=регвыр)`**" <br/> взгляд назад: строка должна соответствовать, если до этого момента соответствует регулярному выражению. <br/>
Не занимает места в строке, к которой применяется шаблон. <br/>
Параметр "**`регвыр`**" должен быть фиксированной длины (то есть, без "`+`" и "`*`")<br/><br/>

* "**`(?<!регвыр)`**" <br/> то же, но с отрицанием соответствия

* "**`(?P<имя>регвыр)`**" <br/> выделяет именованную группу с именем "**`имя`**"<br/><br/>

* "**`(?P=имя)`**" <br/> точно соответствует выделенной ранее именованной группе с именем "**`имя`**"<br/><br/>

* "**`(?#регвыр)`**" <br/> комментарий (игнорируется)<br/><br/>

* "**`(?(имя)рв1|рв2)`**" <br/> если группа с номером или именем имя оказалась определена, результатом будет сопоставление с "**`рв1`**", иначе - c "**`рв2`**". Часть "**`|рв2`**" может отсутствовать<br/><br/>

* "**`(?флаг)`**" <br/> задает флаг для всего данного регулярного выражения. Флаги необходимо задавать в начале шаблона

В таблице ниже описаны специальные последовательности, использующие обратную косую черту:

* "**`\1`**" - "**`\9`**" — группа с указанным номером, группы нумеруются, начиная с `1`
* "**`\A`**" — промежуток перед началом всей строки (почти аналогично "`^`")
* "**`\Z`**" — промежуток перед концом всей строки (почти аналогично "`$`")
* "**`\b`**" — промежуток между символами перед словом или после него
* "**`\B`**" — наоборот, не соответствует промежутку между символами на границе слова
* "**`\d`**" — цифра, аналогично "`[0-9]`"
* "**`\s`**" — любой пробельный символ, аналогично "`[\t\n\r\f\v]`"
* "**`\S`**" — любой непробельный символ, аналогично "`[^\t\n\r\f\v]`"
* "**`\w`**" — любая цифра или буква (зависит от флага `LOCALE`)
* "**`\W`**" — любой символ, не являющийся цифрой или буквой (зависит от флага `LOCALE`)

Флаги, используемые с регулярными выражениями:

* **`"(?i)", re.I, re.IGNORECASE`**<br/><br/>
Сопоставление проводится без учета регистра букв.<br/><br/>

* **`"(?L)", re.L, re.LOCALE`**<br/><br/>
Влияет на определение буквы в "`\w`", "`\W`", "`\b`", "`\B`" в зависимости от текущей культурной среды (`locale`).<br/><br/>

* **`"(?m)", re.M, re.MULTILINE`**<br/><br/>
Если этот флаг задан, "`^`" и "`$`" соответствуют началу и концу любой строки.

* **`"(?s)", re.S, re.DOTALL`**<br/><br/>
Если задан, "`.`" соответствует также и символу конца строки "`\n`".<br/><br/>

* **`"(?x)", re.X, re.VERBOSE`**<br/><br/>
Если задан, пробельные символы, не экранированные в шаблоне обратной косой чертой, являются незначащими, а все, что расположено после символа "`#`", — комментарии.<br/>
Позволяет записывать регулярное выражение в несколько строк для улучшения его читаемости и записи комментариев.<br/><br/>

* **`"(?u)", re.U, re.UNICODE`**<br/><br/>
В шаблоне и в строке использован Unicode.

### Методы объекта-шаблона

В результате успешной компиляции шаблона функцией `re.compile()` получается шаблон-объект (он именуется `SRE_Pattern`), который имеет несколько методов, некоторые из них будут рассмотрены. Как обычно, подробности и информация о дополнительных аргументах - в документации по Python.

* **`match(s)`**
<br/><br/>
Сопоставляет строку `s` с шаблоном, возвращая в случае удачного сопоставления объект с результатом сравнения (объект `SRE_Match`). В случае неудачи возвращает `None`. Сопоставление начинается от начала строки.

* **`search(s)`**
<br/><br/>
Аналогичен `match(s)`, но ищет подходящую подстроку по всей строке `s`.

* **`split(s[, maxsplit=0])`**
<br/><br/>
Разбивает строку на подстроки, разделенные подстроками, заданными шаблоном.
<br/>
Если в шаблоне выделены группы, они попадут в результирующий список, перемежаясь с подстроками между разделителями. Если указан `maxsplit`, будет произведено не более `maxsplit` разбиений.

* **`findall(s)`**
<br/><br/>
Ищет все неперекрывающиеся подстроки `s`, удовлетворяющие шаблону

* **`finditer(s)`**
<br/><br/>
Возвращает итератор по объектам с результатами сравнения для всех неперекрывающихся подстрок, удовлетворяющих шаблону.

* **`sub(repl, s)`**
<br/><br/>
Заменяет в строке `s` все (или только `count`, если он задан) вхождения неперекрывающихся подстрок, удовлетворяющих шаблону, на строку, заданную с помощью `repl`. 
<br/>
В качестве `repl` может выступать строка или функция. 
<br/>
Возвращает строку с выполненными заменами. 
<br/>
В первом случае строка `repl` подставляется не просто так, а интерпретируется с заменой вхождений "`\номер`" на группу с соответствующим номером и вхождений "`\g<имя>`" на группу с номером или именем 
имя. 
<br/>
В случае, когда `repl` — функция, ей передается объект с результатом каждого успешного сопоставления, а из нее возвращается строка для замены.

* **`subn(repl, s)`**
<br/><br/>
Аналогичен `sub()`, но возвращает кортеж из строки с выполненными заменами и числа замен.

#### Пример со `split`

В следующем примере строка разбивается на подстроки по заданному шаблону:

In [7]:
delim_re = re.compile(r"[:,;]")
text = "This,is;example"
delim_re.split(text)

['This', 'is', 'example']

А теперь можно узнать, чем именно были разбиты строки:

In [8]:
delim_re = re.compile(r"([:,;])")
delim_re.split(text)

['This', ',', 'is', ';', 'example']

### Примеры шаблонов

Владение регулярными выражениями может существенно ускорить построение алгоритмов для обработки данных. Лучше всего познакомиться с шаблонами на конкретных примерах.

**`r"\b\w+\b"`**

Соответствует слову из букв и знаков подчеркивания.

**`r"[+-]?\d+"`**

Соответствует целому числу. Возможно, со знаком.

**`r"\([+-]?\d+\)"`**

Число, стоящее в скобках. Скобки используются в самих регулярных выражениях, поэтому они экранируются "`\`".

**`r"[a-cA-C]{2}"`**

Соответствует строке из двух букв "`a`", "`b`" или "`c`". Например, "`Ac`", "`CC`", "`bc`".

**`r"aa|bb|cc|AA|BB|CC"`**

Строка из двух одинаковых букв.

**`r"([a-cA-C])\1"`**

Строка из двух одинаковых букв, но шаблон задан с использованием групп

**`r"aa|bb"`**

Соответствует "`aa`" или "`bb`"

**`r"a(a|b)b"`**

Соответствует "`aab`" или "`abb`"

**`r"^(?:\d{8}|\d{4}):\s*(.*)$"`**

Соответствует строке, которая начинается с набора из восьми или четырех цифр и двоеточия. <br/>
Все, что идет после двоеточия и после следующих за ним пробелов, выделяется в группу с номером `1`, тогда как набор цифр в группу не выделен.

**`r"(\w+)=.*\b\1\b"`**

Слова слева и справа от знака равенства присутствуют.<br/>
Операнд "`\1`" соответствует группе с номером `1`, выделенной с помощью скобок.

**`r"(?P<var>\w+)=.*\b(?P=var)\b"`**

То же самое, но теперь используется именованная группа `var`.

**`r"\bregular(?=\s+expression)"`**

Соответствует слову "`regular`" только в том случае, если за ним после пробелов следует "`expression`"

**`r"(?<=regular )expression"`**

Соответствует слову "`expression`", перед которым стоит "`regular`" и один пробел.<br/>
Следует заметить, что примеры со взглядом назад могут сильно влиять на производительность, поэтому их не стоит использовать без особой необходимости.

### Отладка регулярных выражений

Следующий небольшой сценарий позволяет отлаживать регулярное выражение, при условии, что есть пример строки, которой шаблон должен удовлетворять. 

Взят кусочек лога `iptables`, его необходимо разобрать для получения полей. 

Интересны строки, в которых после `kernel:` стоит `PAY:`, а в этих строках нужно получить дату, значения `DST`, `LEN` и `DPT`:

In [27]:
def debug_regex(regex, example):
    """Отладка рег. выражения. Перед отладкой лучше убрать лишние скобки """
    last_good = ""
    for i in range(1, len(regex)):
        try:
            if re.compile(regex[:i]).match(example):
                last_good = regex[:i]
        except:
            continue
    return last_good

example = """Nov 27 15:57:59 lap kernel: PAY: IN=eth0 OUT=
MAC=00:50:da:d9:df:a2:00:00:1c:b0:c9:db:08:00 SRC=192.168.1.200 DST=192.168.1.115
LEN=1500 TOS=0x00 PREC=0x00 TTL=64 ID=31324 DF PROTO=TCP SPT=8080 DPT=1039
WINDOW=17520 RES=0x00 ACK PSH URGP=0"""

log_re = r"[A-Za-z]{3}\s+\d+\s+\d\d\d\d:\d\d) \S+ kernel: PAY: .+DST=(?P<dst>\S+).* LEN=(?P<len>\d+).* DPT=(?P<dpt>\d+)"
debug_regex(log_re, example)

'[A-Za-z]{3}\\s+\\d+\\s+\\d\\d'

Функция `debug_regex()` пробует сопоставлять пример с увеличивающимися порциями регулярного выражения и возвращает последнее удавшееся сопоставление.

Сразу видно, что не поставлен символ "`:`"

## Примеры применения регулярного выражения

### Обработка лога

Предыдущий пример регулярного выражения позволит выделить из лога записи с определенной меткой и подать их в сокращенном виде:

In [None]:
log_re = re.compile(r"""(?P<date>[A-Za-z]{3}\s+\d+\s+\d\d:\d\d:\d\d) \S+kernel:
PAY: .+ DST=(?P<dst>\S+).* LEN=(?P<len>\d+).* DPT=(?P<dpt>\d+) """)

for line in open("message.log"):
    m = log_re.match(line)
    if m:
        print("%(date)s %(dst)s:%(dpt)s size=%(len)s" % m.groupdict())

В результате получается:

### Анализ записи числа

Хороший пример регулярного выражения можно найти в модуле `fpformat`.

Это регулярное выражение позволяет разобрать запись числа (в том виде, в каком числовой литерал принято записывать в Python):

In [24]:
decoder = re.compile(r'^([-+]?)0*(\d*)((?:\.\d*)?)(([eE][-+]?\d+)?)$')

# Следующие части числового литерала выделяются с помощью групп:
# \0 - весь литерал
# \1 - начальный знак или пусто
# \2 - цифры слева от точки
# \3 - дробная часть (пустая или начинается с точки)
# \4 - показатель (пустой или начинается с 'e' или 'E')

Например:

In [25]:
decoder = re.compile(r'^([-+]?)0*(\d*)((?:\.\d*)?)((?:[eE][-+]?\d+)?)$')

print(decoder.match("12.234").groups())
print(decoder.match("-0.23e-7").groups())
print(decoder.match("1e10").groups())

('', '12', '.234', '')
('-', '', '.23', 'e-7')
('', '1', '', 'e10')


### Множественная замена

В некоторых приложениях требуется производить в тексте сразу несколько замен.

Для решения этой задачи можно использовать метод `sub()` вместе со специальной функцией, которая и будет управлять заменами:

In [30]:
import re
def multisub(subs_dict, text):
    def _multisub(match_obj):
        return str(subs_dict[match_obj.group()])
    
    return re.sub("|".join(subs_dict.keys()), _multisub, text)

repl_dict = {'one': 1, 'two': 2, 'three': 3}

multisub(repl_dict, "One, two, three")

'One, 2, 3'

В приведенной программе вспомогательная функция `_multisub()` по полученному объекту с результатом сравнения возвращает значение из словаря с описаниями замен `subs_dict`.