# Регулярные выражения

Одной из основных областей, в которых применяются скриптовые языки, является разбор текстовых данных. Современные математические изыскания в области формальных языков и грамматик позволили создать единый механизм разбора текста, называемый **регулярными выражениями**. 

Шпаргалка: https://www.exlab.net/files/tools/sheets/regexp/regexp.pdf

Особым любителям регулярок [сюда](https://alf.nu/RegexGolf).

Обязательно к прочтению дома:

* [Регулярные выражения, пособие для новичков. Часть 1](https://habr.com/ru/post/115825/)

* [Регулярные выражения, пособие для новичков. Часть 2](https://habr.com/ru/post/115436/)

* https://ru.wikipedia.org/wiki/Регулярные_выражения

In [53]:
import re

Как мы и говорили, любая строка уже и так является регулярным выражением:

In [118]:
text = "I have a cat and a dog. How many dogs do you have?\\"

In [110]:
re.findall(r"dogs?", text)

['dog', 'dogs']

Не забывайте писать `r` перед строкой с регулярным выражением! Если перед открывающей кавычкой стоит символ  `r` (в любом регистре), то механизм экранирования отключается.

In [119]:
print(text)

I have a cat and a dog. How many dogs do you have?\


In [75]:
text += "\\"

In [127]:
print(text)

I have a cat and a dog. How many dogs do you have?\


In [125]:
print(re.findall(r"\\", text))

['\\']


In [102]:
re.findall(r"github\.com/[A-z-0-9]+", "https://github.com/lilaspourpre")

['github.com/lilaspourpre']

In [134]:
re.findall(r"[()\d -]{11,15}", "8(927)-127-65-34")

['8(927)-127-65-3']

In [141]:
re.findall(r"\w+а\b", "лиса анна")

['лиса', 'анна']

In [142]:
re.findall(r"\w+", "л_иса анна")

['л_иса', 'анна']

## `.findall()`

что возвращает этот метод?

Давайте попробуем вспомнить из игры регулярку, выделяющую даты...

In [144]:
clubhouse = """
Александрова Олеся Сергеевна
18.06.1999

Васильев Александр Вячеславович
24.06.1999

Ганке Дарья Александровна
25.06.1999

Жердев Сергей Витальевич
1.06.1999


Иванова Ольга Сергеевна
29.10.1999


Картенева Анастасия Викторовна
23.03.1998
"""

In [146]:
re.findall(r"\d{1,2}\.\d{2}\.\d{4}", clubhouse)

['18.06.1999',
 '24.06.1999',
 '25.06.1999',
 '1.06.1999',
 '29.10.1999',
 '23.03.1998']

Класс? Но есть одно но... Появился новый текст и снова надо подавать на вход регуляркку... и так каждый раз... Какое решение может быть?

**Правильный подход к вычислению регулярных выражений длинный и поэтапный:**

1) **"Компиляция"** регулярного выражения. На этом этапе "шаблон" преобразуется в сложный объект языка, содержащий в себе механизмы эффективного поиска ДАННОГО шаблона.

2) **"Применение"** регулярного выражения к тексту. На этом этапе происходит обработка текста в объекте, созданном в пункте 1. 

3) **"Разбор результата"**. Как правило, результат, получившийся в результате поиска, сам содержит много избыточной информации. Наша задача вычленить ровно то, что нам нужно. 

Давайте пока разберемся с первыми двумя пунктами на примере `.findall()`

1. Компиляция RE:

ничего удивительного, команда `re.compile()`, в скобках передаем само регулярное выражение

In [147]:
date_pattern = re.compile(r"\d{1,2}\.\d{2}\.\d{4}")

2. Применение регулярного выражения:

In [148]:
date_pattern.findall(clubhouse)

['18.06.1999',
 '24.06.1999',
 '25.06.1999',
 '1.06.1999',
 '29.10.1999',
 '23.03.1998']

In [149]:
date_pattern.findall(text)

[]

Закрепим на любимом Кьеркегоре:

In [152]:
kierkegaard = """Киркегор - датский философ, богослов и писатель, один из предшественников экзистенциализма. 
 С. Кьеркегор окончил теологический факультет Копенгагенского университета в 1840 году. 
 Степень магистра получил в 1841 году, защитив диссертацию “О понятии иронии, с постоянным обращением к Сократу”, 
 посвященную концепциям иронии у древнегреческих авторов и романтиков. 
 Работы С. Кьеркегора отличаются исключительной психологической точностью и глубиной. 
 Вклад в развистие философии, сделанный Кьеркегаардом. неоценим. Сёрен Киркегаард: немецкое издание Сёрена Киркегаарда. 
 Спецкурс “С. Керкегор и история христианства в XIX в.” посвящен датскому философу Серену Керкегору.
 """

In [526]:
MY_REGEX = r"К[иь]?е?ркег[оа]{1,2}рд?[уоа]?м?"
print(len(MY_REGEX))
kierk_p = re.compile(MY_REGEX)

32


In [527]:
result = kierk_p.findall(kierkegaard)
print(result, len(result))

['Киркегор', 'Кьеркегор', 'Кьеркегора', 'Кьеркегаардом', 'Киркегаард', 'Киркегаарда', 'Керкегор', 'Керкегору'] 8


## `.match()` и `.search()`

In [304]:
text = "Кот Василий выпил компот, а Кот Ёван выпил лимонад"

**1. Компиляция RE**

In [303]:
pattern = re.compile(r"[А-ЯЁ][а-яё]+")  # что означает эта регулярка?

**2. Применение**

In [284]:
pattern.match(text)

<_sre.SRE_Match object; span=(0, 3), match='Кот'>

In [285]:
pattern.search(text)

<_sre.SRE_Match object; span=(0, 3), match='Кот'>

а что если...

In [305]:
text = "кот Василий выпил компот, а Кот Ёван выпил лимонад"

In [290]:
pattern.match(text)

In [291]:
pattern.search(text)

<_sre.SRE_Match object; span=(4, 11), match='Василий'>

Догадались, что делает `.match()`, а что `.search()`? А так:

In [302]:
re.search("кот", text)

<_sre.SRE_Match object; span=(1, 4), match='кот'>

In [297]:
re.match("кот", text)

<_sre.SRE_Match object; span=(0, 3), match='кот'>

**3. Разбор реззультатов:**

Но что же нам все-таки возвращается, что это за `_sre.SRE_Match object`?

In [308]:
text = "кот Василий выпил компот, а Кот Ёван выпил лимонад"

In [309]:
text

'кот Василий выпил компот, а Кот Ёван выпил лимонад'

In [306]:
result = re.match("кот", text)

Что-то, у чего есть начало и конец...

In [310]:
print(result.span())

(0, 3)


In [313]:
print(result.start(), result.end())

0 3


In [315]:
result.pos # позиция, с которой начинается поиск

0

Объект, у которого есть группы:

In [316]:
result.group()

'кот'

In [317]:
result.groups()

()

Давайте возьмем более наглядный пример:


![](https://i.ibb.co/NtCW3c8/aa.jpg)

In [91]:
date1 = "Jan 1987"
date2 = "May 1969"
date3 = "Aug 2011"

**1. Компиляция RE**

In [93]:
date_p = re.compile(r"(\w+) (\d{4})")

**2. Применение**

In [94]:
res = date_p.match(date1)
res

<re.Match object; span=(0, 8), match='Jan 1987'>

**3. Разбор реззультатов**

In [95]:
res.groups()

('Jan', '1987')

In [99]:
res.group(0)

'Jan 1987'

In [100]:
res.group(1)

'Jan'

In [101]:
res.group(2)

'1987'

In [329]:
res.group(0)

'Jan 1987'

Группы внутри групп возможны. Все группы упорядочиваются по открывающейся скобке.

In [102]:
expr = re.compile('a(a(.)c)(c)') 
res = expr.search('aaabccc')
print(res.group(), res.groups())

aabcc ('abc', 'b', 'c')


In [105]:
res.group(1)

'abc'

# Regular Expressions Part 3

  1. `.sub()`
  2. `.split()`
  3. `.finditer()`
  4. flags in RE
  5. Специальные группы
  6. Нумерацию групп

In [127]:
p = re.compile("Кот")

m_res = p.match("Кот выпил компот. Кот")
s_res = p.search("Кот выпил компот. Кот")
f_res = p.findall("Кот выпил компот. Кот")
fi_res = p.finditer("Кот выпил компот. Кот")

In [90]:
f_res

['Кот', 'Кот']

## re.sub()

Замена подстрок, найденных регуляркой на другую подстроку.

Команда: `re.sub("что заменяем", "на что заменяем", "где заменяем")`

Например, мы скачали много постов с ссылками и хотим эти ссылки удалить. А в тексте оставить строку "[здесь была ссылка]", чтобы мы всегда могли подсчитать, сколько ссылок было изначально.

In [156]:
text = """ 13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
13Такое надо в корне пресекать!
13Билеты: https://sbp4band.ticketscloud.org 

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет"""

print(text)

 13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
13Такое надо в корне пресекать!
13Билеты: https://sbp4band.ticketscloud.org 

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет


In [132]:
html = r"https://.+\b"

Как бы мы попытались заменить ссылки без `re`:

In [136]:
text.replace(html, "<LINK>")

' 13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.\n13Такое надо в корне пресекать!\n13Билеты: https://sbp4band.ticketscloud.org \n\nПожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет'

Используйте `re.sub()`:

In [199]:
text = re.sub(html, "<LINK>", text)

print(text)

 13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
13Такое надо в корне пресекать!
13Билеты: <LINK> 

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет


Такая запись тоже имеет место быть:

In [142]:
html_p = re.compile(r"https://.+\b")
text = html_p.sub("<LINK>", text)

In [143]:
text

' 13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.\n13Такое надо в корне пресекать!\n13Билеты: <LINK> \n\nПожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет'

In [144]:
text.count("<LINK>") # cколько ссылок в тексте

1

## re.split()

Деление строки на части, разделителем является регулярное выражение

Команда: `re.split("разделитель", "что делим")`

In [149]:
"abracadabra".split("a")

['', 'br', 'c', 'd', 'br', '']

In [148]:
re.split("a", "abracadabra")

['', 'br', 'c', 'd', 'br', '']

In [150]:
p = re.compile("a")

In [151]:
p.split("Abracadabrabr")

['Abr', 'c', 'd', 'br', 'br']

In [157]:
re.split("\n\n", text)

[' 13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.\n13Такое надо в корне пресекать!\n13Билеты: https://sbp4band.ticketscloud.org ',
 'Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет']

In [158]:
text.split(".")

[' 13 сентября будем ходить ходуном',
 ' Прямо  48asd7h во дворе Пауэрхауса',
 ' Всё, как обычно, только соскучившись',
 ' Новые песни, старые песни',
 ' Прыжки и кувырки',
 ' Радость и смех',
 '\n13Такое надо в корне пресекать!\n13Билеты: https://sbp4band',
 'ticketscloud',
 'org \n\nПожалуйста, планируйте приобретение билетов заранее',
 ' Высока вероятность, что продажа на входе осуществляться не будет']

А теперь, наконец-таки, мы научимся ПРАВИЛЬНО делить слова на предложения:

In [192]:
sentences = re.split(r"[\.!\?\n]+\s", text)

_Почему у нас пустые строки и как это исправить?_

In [193]:
sentences

[' 13 сентября будем ходить ходуном',
 'Прямо  48asd7h во дворе Пауэрхауса',
 'Всё, как обычно, только соскучившись',
 'Новые песни, старые песни',
 'Прыжки и кувырки',
 'Радость и смех',
 '13Такое надо в корне пресекать',
 '13Билеты: https://sbp4band.ticketscloud.org ',
 'Пожалуйста, планируйте приобретение билетов заранее',
 'Высока вероятность, что продажа на входе осуществляться не будет']

**Задание:** напишите регулярное выражение, разделяющее текст на слова. Для примера возьмите текст про концерт 13 сентября

In [200]:
p = re.compile(r"\b[\w]+")

p.findall(text)

['13',
 'сентября',
 'будем',
 'ходить',
 'ходуном',
 'Прямо',
 '48asd7h',
 'во',
 'дворе',
 'Пауэрхауса',
 'Всё',
 'как',
 'обычно',
 'только',
 'соскучившись',
 'Новые',
 'песни',
 'старые',
 'песни',
 'Прыжки',
 'и',
 'кувырки',
 'Радость',
 'и',
 'смех',
 '13Такое',
 'надо',
 'в',
 'корне',
 'пресекать',
 '13Билеты',
 'LINK',
 'Пожалуйста',
 'планируйте',
 'приобретение',
 'билетов',
 'заранее',
 'Высока',
 'вероятность',
 'что',
 'продажа',
 'на',
 'входе',
 'осуществляться',
 'не',
 'будет']

И еще интересный случай:

In [207]:
[i[0] for i in re.findall("(I love (cats|dogs))", "I love cats, I love dogs")]

['I love cats', 'I love dogs']

## .finditer()

In [125]:
with open("untitled.txt") as f:
    print(f.readline())
    print(f.readline())

ad

sdfcs



In [128]:
text = "Кот Василий выпил компот, а Кот Ёван выпил лимонад"

p = re.compile(r"Кот")

result = p.finditer(text)
print(result)
for i in result:
    print(i.start())

<callable_iterator object at 0x110fe9ca0>
0
28


In [129]:
type("sdfgvdf")

str

In [111]:
f = p.finditer(text)

In [112]:
next(f)

<re.Match object; span=(0, 3), match='Кот'>

In [113]:
next(f)

<re.Match object; span=(28, 31), match='Кот'>

In [115]:
for i in f:
    print(i)

In [110]:
for i in p.finditer(text):
    print(i)

<re.Match object; span=(0, 3), match='Кот'>
<re.Match object; span=(28, 31), match='Кот'>


## Нумерация групп

Иногда возникает необходимость в обозначении повтора не только конкретного шаблона, а строки, подходящей под этот шаблон. Например, текстовый редактор может считать ошибкой слово, которое повторили два раза подряд через пробел. 

Для этого используется нумерация групп. Нумерация групп не работает, если строка не объявлена с префиксом r.

In [4]:
print("*****  correct expression *****")
s_wrong = 'first second'
s_correct = 'first first'

expr = re.compile(r'.+ .+')
print(expr.match(s_wrong).group())
print(expr.match(s_correct).group())

expr = re.compile(r'(.+) \1')
print(expr.match(s_wrong))
print(expr.match(s_correct).group())

print("*****  wrong expression *****")
expr = re.compile('(.+) \1')
print(expr.match(s_correct))

*****  correct expression *****
first second
first first
None
first first
*****  wrong expression *****
None


In [5]:
expr = re.compile(r'([Pp])ython&\1ails')
print(expr.match('Python&Pails').group())
print(expr.match('python&pails').group())
print(expr.match('Python&pails'))

Python&Pails
python&pails
None


Одним из представителей специальных групп является именованная группа. Если кто-то делал (0_0 Не, реально, я уже в это не верю) задания внутри лекций, то он уже знает, сколько групп мижно пронумеровать. Чтобы задать больше групп, или задать группы с понятным названием, используются именованные группы. Общий вид: `(?P<name>)`

Общий вид обращения: `(?P=name)`

In [56]:
s_wrong = 'first second'
s_correct = 'first first'

expr = re.compile(r'(?P<something>.+) (?P=something)')
print(expr.match(s_wrong))
print(expr.match(s_correct).group())


m = expr.match(s_correct)

print(m.group('something'))

None
first first
first


Комменнтарии. Если не хотите в какой-то момент получить древнеегипетское регулярное выражение, ставьте комментарии даже в регулярных выражениях. Общий вид: `(?#comment)`

In [58]:
s_wrong = 'first second'
s_correct = 'first first'

expr = re.compile(r"(?#first string)(?P<something>.+) (?#repeat of first string)(?P=something)(?#it is funny, isn\'t it?)")
print(expr.match(s_wrong))
print(expr.match(s_correct).group())

None
first first


## Специальные группы

"Заглядывания вперед": строка распознается только если предположение верно, но само предположение в результат не входит. 

Синтаксис: `(?=assertion)`

In [67]:
s_wrong = 'Jonn Smith'
s_correct = 'Jonn Silver'

expr = re.compile(r'Jonn (?=Silver)')
print(expr.findall(s_wrong))
print(expr.findall(s_correct))

[]
['Jonn ']


Соответственно отрицание предположения - принимается что угодно, что не следует за предположением. `(?!assertion)`

In [68]:
expr = re.compile(r'Jonn (?!Silver)')
print(expr.match(s_wrong).group())
print(expr.match(s_correct))

Jonn 
None


Ну и симметрично к lookahead должно существовать и lookbehind assertion. То же самое, только в начале функции. 

    (?<=assertion)
    (?<!negative assertion)

На это предполажение есть ряд ограничений. Самое главное - строка должна быть фиксированной длины. т.е. выражения вроде 'a*' туда ставить нельзя. 

In [70]:
s_wrong = 'I.Varlamov'
s_correct = 'J.Varlamov'

expr = re.compile(r'(?<=J\.)Varlamov')
print(expr.search(s_wrong))
print(expr.search(s_correct).group())

expr = re.compile(r'(?<!J\.)Varlamov')
print(expr.search(s_wrong).group())
print(expr.search(s_correct))

None
Varlamov
Varlamov
None


## Флаги

Тексты, к которым применяются регулярные выражения разнообразны. Чтобы "кастомизировать" регулярное выражение под свои нужды, используются флаги компиляции.

Когда выражение должно игнорировать регистр, добавляется флаг `I (IGNORECASE)`. Результат возвращается в исходном регистре. (Внимание! Не работает на языках отличных от английского!)

In [74]:
s = "This is a singleline string.!?"

expr = re.compile(r'this',re.I)
res1 = expr.match(s)
expr = re.compile(r'this',re.IGNORECASE)
res2 = expr.match(s)
print("******************************** result is here *********************************")
print(res1.group())
print(res2.group())

******************************** result is here *********************************
This
This


Для работы с многострочечными объектами применяется флаг M (MULTILINE). Он также изменяет значение символов ^ и $

Флаг S (DOTALL) делает символ '.' обозначением **действительно** всех символов. Включая символ переноса строки. 

In [75]:
sl = "This is a singleline string.!?"
ml = """This is a 
multiline string. 
R u ready 
to parse it?"""

expr = re.compile(r'.*line.+string',re.DOTALL)
rsl = expr.match(sl)
rml = expr.match(ml)
print("******************************** result is here *********************************")
print(rsl.group())
print(rml.group())

******************************** result is here *********************************
This is a singleline string
This is a 
multiline string


In [80]:
ml = """This is a 
multiline string. 
R u ready 
to parse it?"""

expr = re.compile(r'^multi')#,re.M)
rml = expr.findall(ml)
print(rml)

[]


# Задача 4.

In [353]:
def read_readme(text):
    jsonlist = []

    hashes = [len(i) for i in re.findall(r"#+", text)]
    if hashes:
        min_hash = min(hashes)
        p = re.compile(r"^(#{"+str(min_hash)+"} .+)$", re.M)
        levels = [i.strip() for i in p.split(text)][1:]
        for i in levels:
            if i.startswith("#"*min_hash + " "):
                jsonlist.append({"title": i.split("#")[-1],
                      "text": None,
                      "children": []})
            else:
                index = i.find('#')
                if index >= 0:
                    jsonlist[-1]['text'] = i[:i.find("#")].strip()
                else:
                    jsonlist[-1]['text'] = i.strip()
                jsonlist[-1]['children'] = read_readme(i[i.find("#"):])
    return jsonlist

In [354]:
import re 

with open("untitled.txt") as f:
    text = f.read()

read_readme(text)

[{'title': ' заголовок',
  'text': 'text1',
  'children': [{'title': ' подзаголовок', 'text': 'text2', 'children': []},
   {'title': ' подзаголовок', 'text': 'text3', 'children': []}]},
 {'title': ' ещё заголовок',
  'text': '',
  'children': [{'title': ' ещё подзаголовок',
    'text': '',
    'children': [{'title': ' и ещё', 'text': 'text4', 'children': []}]}]}]

# Задача 6.

In [357]:
import json

with open("dialogues_001.json") as f:
    data = json.load(f)   

In [366]:
for dialogue in data:
    dialogue_id = 'dialogue_id'
    for i in range(0, len(dialogue['turns']), 2):
        assert dialogue['turns'][i]['speaker'] == 'USER' and dialogue['turns'][i+1]['speaker'] == 'SYSTEM'
        print(dialogue['dialogue_id'], dialogue['turns'][i]['utterance'], dialogue['turns'][i+1]['utterance'])

1_00000 Hi, could you get me a restaurant booking on the 8th please? Any preference on the restaurant, location and time?
1_00000 Could you get me a reservation at P.f. Chang's in Corte Madera at afternoon 12? Please confirm your reservation at P.f. Chang's in Corte Madera at 12 pm for 2 on March 8th.
1_00000 Sure, that is great. Sorry, your reservation could not be made. Could I help you with something else?
1_00000 Could you try booking a table at Benissimo instead? Sure, please confirm your reservation at Benissimo Restaurant & Bar in Corte Madera at 12 pm for 2 on March 8th.
1_00000 Sure, may I know if they have vegetarian options and how expensive is their food? Your reservation has been made. Unfortunately, they do not serve vegetarian options, although they are moderate priced.
1_00000 I see, thanks alot! No worries, could I further assist you?
1_00000 No, that is all. Thank you! Have a great day ahead!
1_00001 Can you book a table for me at the Ancient Szechuan for the 11th of 

1_00124 No, that's all thanks. Have a great day!
1_00125 I am interested in listening to some music. Would you search for some songs? There are 10 songs I found that you may enjoy. Would you like to hear The Way I am by Charlie Puth? This is from the Voicenotes album.
1_00125 Was this the one published in 2012? No, it came out in 2018.
1_00125 Oh yes, that is the one I wanted to hear. Please play the song on any device. Please confirm you would like to hear The way I Am in the Living Room.
1_00125 No, please play it on the speaker in patio. Please confirm you wish to hear the song The way I Am in the Patio.
1_00125 Yes, that is right. Here you go and enjoy your music!
1_00125 Would you tell me the genre of this music? This is considered a Pop song.
1_00125 Great, thank you for your help! Do you need assistance with anything today?
1_00125 No, that is all for now. Thanks again! Enjoy and have a great day!
1_00126 Hey, I feel like listening to some tunes right now. Can you find me someth