Регулярные выражения &ndash; это формальный язык для работы со строками. Он позволяет находить подстроки по специально заданным шаблонам и проводить с ними различные манипуляции. В Python для работы с регулярными выражениями есть специальный модуль `re`.

https://docs.python.org/3/library/re.html

Регулярные выражения могуть быть довольно запутанными. Чтобы проверить, правильно ли вы составили регулярку, можно воспользоваться сайтом https://regex101.com/ (выберите Python flavor).

Само по себе регулярное выражение &ndash; это строка, задающая некоторый шаблон. Модуль `re` содержит несколько функций, которые позволяют проводить операции над строками с помощью этих шаблонов. Например, функция `findall` позволяет найти все подстроки, соответствующие шаблону. Она принимает на вход два аргумента: регулярное выражение и обрабатываемую строку, а возвращает список подстрок.

Регулярное выражение может задавать подстроку в точности:

In [1]:
import re
text = "aaabdbaacaabcd"
substring = "aa"

re.findall(substring, text)

['aa', 'aa', 'aa']

...а может быть более общим. Для этого есть специальный символ-джокер `.` и различные управляющие символы:

`+` &ndash; один или больше предшествующих символов;  

In [30]:
re.findall("a.", text)

['aa', 'aa', 'ab', 'aa', 'aa', 'aa', 'ab']

`*` &ndash; ноль или больше предшествующих символов;  

In [31]:
re.findall("a*b", text)

['aab', 'b', 'aaab', 'b', 'b', 'aaaab', 'b', 'b', 'aaab', 'b']

`?` &ndash; ноль или один предшествующий символ;

In [33]:
re.findall("a?b", text)

['ab', 'b', 'ab', 'b', 'b', 'ab', 'b', 'b', 'ab', 'b']

`[]` &ndash; любой из перечисленных символов;  

In [34]:
re.findall("[ab]+", text)

['aabbaaabbbaaaabbbaaabb']

`[^]` &ndash; любой не из перечисленных символов;  

In [35]:
re.findall("[^ab]+", text)

[]

`[-]` &ndash; любой из последовательности символов: каждый символ имеет порядковый номер в Unicode, они сортируются по этому номеру.

In [36]:
re.findall("[a-z]", text)

['a',
 'a',
 'b',
 'b',
 'a',
 'a',
 'a',
 'b',
 'b',
 'b',
 'a',
 'a',
 'a',
 'a',
 'b',
 'b',
 'b',
 'a',
 'a',
 'a',
 'b',
 'b']

Если необходимо найти в тексте сами эти символы, то их нужно экранировать с помощью обратного слеша `\`.

In [37]:
text_2 = "abaca. abccd. cdabac. a."
re.findall(r"[a-z]\.", text_2)

['a.', 'd.', 'c.', 'a.']

Поскольку Python также использует обратный слеш для экранирования, рекомендуется оформлять регулярные выражения как r-строки, чтобы одно не путалось с другим.

Стоит заметить, что с регулярными выражениями можно работать двумя путями: они могут быть строками или скомпилированными регулярными выражениями, для которых функции `re` доступны в виде методов:

In [38]:
text_2 = "abaca. abccd. cdabac. a."
regex = re.compile(r"[a-z]\.")
regex.findall(text_2)

['a.', 'd.', 'c.', 'a.']

Для некоторых классов символов есть специальные обозначения:

`\w` &ndash; словесные символы (цифры, буквы и нижнее подчёркивание);  
`\d` &ndash; цифры;  
`\s` &ndash; пробельные символы (пробел, перевод строки, табуляция, etc);  
`\W`, `\D`, `\S` &ndash; обратны вышеперечисленным.  
`\b` &ndash; соответствует границе слова.

In [39]:
re.findall(r"\w+", text_2)

['abaca', 'abccd', 'cdabac', 'a']

Другие символы регулярных выражений:  
`{}` &ndash; позволяют задать количество повторений предыдущего символа.

In [40]:
text = "aabbaaabbbaaaabbbaaabb"
re.findall("a{3}", text)

['aaa', 'aaa', 'aaa']

In [41]:
re.findall("a{1,3}", text) # диапазон

['aa', 'aaa', 'aaa', 'a', 'aaa']

In [42]:
re.findall("a{,3}", text) # от нуля

['aa', '', '', 'aaa', '', '', '', 'aaa', 'a', '', '', '', 'aaa', '', '', '']

In [43]:
re.findall("a{2,}", text) # до бесконечности

['aa', 'aaa', 'aaaa', 'aaa']

`|` &ndash; оператор "или".

In [44]:
text = "abc123abc32abced331"
re.findall(r"\d{3}|abc", text)

['abc', '123', 'abc', 'abc', '331']

`^` &ndash; начало строки, `$` &ndash; конец строки.

In [45]:
re.findall("^abc", text)

['abc']

In [46]:
re.findall(".$", text)

['1']

В функцию можно передать специальный флаг `re.MULTILINE`, чтобы начало и конец строки также определялись по символу перевода строки.

In [47]:
text3 = "abc\n123\nabc\n32\nabced\n331"
re.findall("^.", text3, re.MULTILINE)

['a', '1', 'a', '3', 'a', '3']

Операторы `*`, `.` и `?` &ndash; жадные. Они захватывают столько текста, сколько могут.

In [48]:
text = "<p>some text</p>"
re.findall("<.+>", text)

['<p>some text</p>']

Чтобы изменить их поведение, поставим дополнительный `?`.

In [49]:
text = "<p>some text</p>"
re.findall("<.+?>", text)

['<p>', '</p>']

Функция `findall` возвращает список строк. Другие функции из `re` возвращают т.н. Match object &ndash; например, функция `match`, которая определяет, соответствует ли начало строки шаблону. Если соответствия не обнаружилось, такие функции возвращают `None`.

In [50]:
m = re.match(r"\d\d", "12abcdef")
print(m.start(), m.end()) # начало и конец
print(m.span()) # начало и конец в одном кортеже
print(m.group()) # совпавший фрагмент строки
print(m.string) # исходная строка
print(m.re) # исходное регулярное выражение

0 2
(0, 2)
12
12abcdef
re.compile('\\d\\d')


Функция `search` сканирует строку, пока не найдётся подходящая подстрока.

In [51]:
re.search(r"\d", "abc1bcd32") # первый встретившийся

<re.Match object; span=(3, 4), match='1'>

Функция `fullmatch` позволяет понять, соответствует ли строка шаблону полностью.

In [52]:
re.fullmatch(r"\w+", "abc1bcd32")

<re.Match object; span=(0, 9), match='abc1bcd32'>

Функция `finditer` позволяет итеративно находить все подходящие подстроки.

In [53]:
for m in re.finditer(r"\d", "a1bcd34ef1"):
    print(m)

<re.Match object; span=(1, 2), match='1'>
<re.Match object; span=(5, 6), match='3'>
<re.Match object; span=(6, 7), match='4'>
<re.Match object; span=(9, 10), match='1'>


Функция `sub` позволяет заменить подстроку какой-либо другой строкой.

In [54]:
text = "abc   abd\tabc  a bc      a"
res = re.sub(r"\s+", " ", text)
print(res)

abc abd abc a bc a


Функция `split` позволяет разбить строку, используя подходящие подстроки как разграничители.

In [56]:
text = "ab-abb-cbbd abb-bc_bb abbc bbc"
re.split("[ _-]", text)

['ab', 'abb', 'cbbd', 'abb', 'bc', 'bb', 'abbc', 'bbc']

Круглыми скобками можно группировать части регулярного выражения. Каждая часть в круглых скобках соответствует группе в получившемся Match object. Эти группы можно получать по индексу (нулевой индекс соответствует всей найденной подстроке):

In [57]:
text = "123abc4bac3288d"

for m in re.finditer(r"(\d)([a-z])", text):
    print(m[0], m[1], m[2])

3a 3 a
4b 4 b
8d 8 d


Если вы не хотите, чтобы круглые скобки создавали группу, добавьте в начало `?:`.

In [58]:
text = "123abc4bac3288d"

for m in re.finditer(r"(?:\d)([a-z])", text):
    print(m[0], m[1])

3a a
4b b
8d d


К группам можно получать доступ, например, при замене:

In [59]:
text = "123abc4bac3288d"

print(re.sub(r"(\d)([a-z])", r"\1!\2", text))

123!abc4!bac3288!d


Или в том же самом выражении:

In [60]:
text = "2a3a123a123a1343b43b43a13b3b"
re.findall(r"(([a-z])\d+\2)", text)

[('a3a', 'a'), ('a123a', 'a'), ('b43b', 'b'), ('b3b', 'b')]

Обратите внимание, что теперь `findall` возвращает список не строк, а кортежей, каждый элемент которых соответствует группе. Если группа будет одна, то это опять будет список строк, но строки будут соответствовать не всему выражению, а группе.

Группам можно присваивать имена:

In [62]:
text = "123abc4bac3288d"

for m in re.finditer(r"(?P<name>\d)([a-z])", text):
    print(m['name'])

3
4
8


Lookahead и lookbehind &mdash; способы найти подстроки перед или после подстроки, соответствующей шаблону.

In [63]:
# positive lookahead: перед
text = "123abc4bac3288d"

for m in re.finditer(r"[a-z](?=\d)", text):
    print(m.group())

c
c


In [65]:
# negative lookahead: не перед
text = "123abc4bac3288d"

for m in re.finditer(r"[a-z](?!\d)", text):
    print(m.group())

a
b
b
a
d


Lookbehind

In [3]:
# positive lookbehind
text = "123abc4bac3288d"

for m in re.finditer(r"(?<=\d)[a-z]", text):
    print(m.group())

a
b
d


In [4]:
# negative lookbehind
text = "123abc4bac3288d"

for m in re.finditer(r"(?<!\d)[a-z]", text):
    print(m.group())

b
c
a
c


### Задания для самостоятельного выполнения

#### Задание 1

Запишите программу, которая с помощью регулярных выражений ставит вокруг каждой гласной буквы квадратные скобки:


In [47]:
text = "был тихий серый вечер. дул ветер, слабый и тёплый. небо было покрыто тучами"

#### Задание 2

Напишите регулярное выражение, которое найдёт в следующем тексте все двузначные числа от `00` до `59`.

In [None]:
text = "43 89 72 01 34 42 80 12 99 45 34 29 58"


#### Задание 3

Напишите регулярное выражение, которое найдёт в английском тексте все наречия с суффиксом -ly.

In [None]:
text = "He was carefully disguised but captured quickly by police."


#### Задание 4

Напишите регулярное выражение, которое поможет отобрать из данного списка все слова с ударением на втором слоге (ударение обозначено цифрой `1` после буквы, обозначающей ударный гласный звук).

In [None]:
words = [
    "сто1лик",
    "уда1чно",
    "завуали1ровав",
    "изверже1ние",
    "взима1в",
    "репи1тер",
    "нормализова1в",
    "бульдо1г"
]

#### Задание 5

Напишите программу, которая с помощью регулярных выражений генерирует таблицу успеваемости по тексту:


In [38]:
text = 'Оценка ученика по предмету "математика" - 5. По предмету "биология" - 4. По предмету "история" он получил 4. Оценка по предмету "физкультура" - 3. Балл по предмету "русский язык" - 5.'

#### Задание 6

Напишите регулярное выражение, которое делит слова в предложении на русском языке на открытые слоги:

In [None]:
input_text = "Был тихий серый вечер. Наш автобус номер семь шёл на запад."
output_text = 'Был ти-хий се-рый ве-чер. Наш а-вто-бус но-мер семь шёл на за-пад.'

#### Задание 7

Напишите регулярное выражение для проверки, является ли строка автомобильным номером. Считайте, что номер имеет формат буква-три цифры-две буквы-номер региона. Буквы могут быть только те, которые есть и в кириллице, и в латинице (АВЕКМНОРСТУХ), номер региона состоит или из двух цифр, или из трёх (тогда первая &mdash; 1 или 7).

#### Задание 8

Напишите регулярное выражение для поиска телефонных номеров в разных форматах. Чем больше разных учтёте, тем лучше.

#### Задание 9 (https://regexone.com/problem/extracting_log_data)

Напишите регулярное выражение для извлечения данных из лог-файла: название метода, название файла, номер строки.

```
W/dalvikvm( 1553): threadid=1: uncaught exception
E/( 1553): FATAL EXCEPTION: main
E/( 1553): java.lang.StringIndexOutOfBoundsException
E/( 1553):   at widget.List.makeView(ListView.java:1727)
E/( 1553):   at widget.List.fillDown(ListView.java:652)
E/( 1553):   at widget.List.fillFrom(ListView.java:709)
```

1, 2, 3 - не должно быть мэтча
4 -> makeView, ListView.java, 1727
5 -> fillDown, ListView.java, 652
6 -> fillFrom, ListView.java, 709

#### Задание 10 (https://regexone.com/problem/extracting_url_data)

When working with files and resources over a network, you will often come across URIs and URLs which can be parsed and worked with directly. Most standard libraries will have classes to parse and construct these kind of identifiers, but if you need to match them in logs or a larger corpus of text, you can use regular expressions to pull out information from their structured format quite easily.

URIs, or Uniform Resource Identifiers, are a representation of a resource that is generally composed of a scheme, host, port (optional), and resource path, respectively highlighted below.
http://regexone.com:80/page

The scheme describes the protocol to communicate with, the host and port describe the source of the resource, and the full path describes the location at the source for the resource.

In the exercise below, try to extract the protocol, host and port of the all the resources listed.

Task|Text|Capture Groups|
|---|---|---|
|capture|ftp://file_server.com:21/top_secret/life_changing_plans.pdf|ftp, file_server.com, 21|
|capture|https://regexone.com/lesson/introduction#section|https, regexone.com|
|capture|file://localhost:4040/zip_file|file, localhost, 4040|
|capture|https://s3cur3-server.com:9999/|https, s3cur3-server.com, 9999|
|capture|market://search/angry%20birds|market, search|

### Домашнее задание

Напишите регулярные выражения для извлечения из произносительного словаря:

* слов с тремя шумными согласными подряд
* слов, начинающихся на два одинаковых звука подряд
* слов с сочетанием /n/ + заднеязычный + ещё один согласный
* слов с сочетанием мягкий заднеязычный + гласный заднего ряда
* слов с двумя одинаковыми слогами CV подряд

Напишите выражения так, чтобы первая группа соответствовала орфографии, вторая &mdash; целой транскрипции. Запишите полученные пары в csv-таблицу.

https://drive.google.com/file/d/1ihhQHJ9n8ZHA8Gt0Eakq4cRuQ5NoJk1N/view?usp=drive_link

In [None]:
non_ascii = "čšɨ" # ч, ш, ы

# ' обозначает мягкость, 0 - ударный аллофон, 8 - побочное ударение
# в орфографии 1 - основное ударение, 2 - побочное