# Регулярные выражения

Одной из основных областей, в которых применяются скриптовые языки, является разбор текстовых данных. Современные математические изыскания в области формальных языков и грамматик позволили создать единый механизм разбора текста, называемый **регулярными выражениями**. 

Шпаргалка: https://www.exlab.net/files/tools/sheets/regexp/regexp.pdf

Особым любителям регулярок [сюда](https://alf.nu/RegexGolf).

Обязательно к прочтению дома:

* [Регулярные выражения, пособие для новичков. Часть 1](https://habr.com/ru/post/115825/)

* [Регулярные выражения, пособие для новичков. Часть 2](https://habr.com/ru/post/115436/)

* https://ru.wikipedia.org/wiki/Регулярные_выражения

In [53]:
import re

Как мы и говорили, любая строка уже и так является регулярным выражением:

In [118]:
text = "I have a cat and a dog. How many dogs do you have?\\"

In [110]:
re.findall(r"dogs?", text)

['dog', 'dogs']

Не забывайте писать `r` перед строкой с регулярным выражением! Если перед открывающей кавычкой стоит символ  `r` (в любом регистре), то механизм экранирования отключается.

In [119]:
print(text)

I have a cat and a dog. How many dogs do you have?\


In [75]:
text += "\\"

In [127]:
print(text)

I have a cat and a dog. How many dogs do you have?\


In [125]:
print(re.findall(r"\\", text))

['\\']


In [102]:
re.findall(r"github\.com/[A-z-0-9]+", "https://github.com/lilaspourpre")

['github.com/lilaspourpre']

In [134]:
re.findall(r"[()\d -]{11,15}", "8(927)-127-65-34")

['8(927)-127-65-3']

In [141]:
re.findall(r"\w+а\b", "лиса анна")

['лиса', 'анна']

In [142]:
re.findall(r"\w+", "л_иса анна")

['л_иса', 'анна']

## `.findall()`

что возвращает этот метод?

Давайте попробуем вспомнить из игры регулярку, выделяющую даты...

In [144]:
clubhouse = """
Александрова Олеся Сергеевна
18.06.1999

Васильев Александр Вячеславович
24.06.1999

Ганке Дарья Александровна
25.06.1999

Жердев Сергей Витальевич
1.06.1999


Иванова Ольга Сергеевна
29.10.1999


Картенева Анастасия Викторовна
23.03.1998
"""

In [146]:
re.findall(r"\d{1,2}\.\d{2}\.\d{4}", clubhouse)

['18.06.1999',
 '24.06.1999',
 '25.06.1999',
 '1.06.1999',
 '29.10.1999',
 '23.03.1998']

Класс? Но есть одно но... Появился новый текст и снова надо подавать на вход регуляркку... и так каждый раз... Какое решение может быть?

**Правильный подход к вычислению регулярных выражений длинный и поэтапный:**

1) **"Компиляция"** регулярного выражения. На этом этапе "шаблон" преобразуется в сложный объект языка, содержащий в себе механизмы эффективного поиска ДАННОГО шаблона.

2) **"Применение"** регулярного выражения к тексту. На этом этапе происходит обработка текста в объекте, созданном в пункте 1. 

3) **"Разбор результата"**. Как правило, результат, получившийся в результате поиска, сам содержит много избыточной информации. Наша задача вычленить ровно то, что нам нужно. 

Давайте пока разберемся с первыми двумя пунктами на примере `.findall()`

1. Компиляция RE:

ничего удивительного, команда `re.compile()`, в скобках передаем само регулярное выражение

In [147]:
date_pattern = re.compile(r"\d{1,2}\.\d{2}\.\d{4}")

2. Применение регулярного выражения:

In [148]:
date_pattern.findall(clubhouse)

['18.06.1999',
 '24.06.1999',
 '25.06.1999',
 '1.06.1999',
 '29.10.1999',
 '23.03.1998']

In [149]:
date_pattern.findall(text)

[]

Закрепим на любимом Кьеркегоре:

In [152]:
kierkegaard = """Киркегор - датский философ, богослов и писатель, один из предшественников экзистенциализма. 
 С. Кьеркегор окончил теологический факультет Копенгагенского университета в 1840 году. 
 Степень магистра получил в 1841 году, защитив диссертацию “О понятии иронии, с постоянным обращением к Сократу”, 
 посвященную концепциям иронии у древнегреческих авторов и романтиков. 
 Работы С. Кьеркегора отличаются исключительной психологической точностью и глубиной. 
 Вклад в развистие философии, сделанный Кьеркегаардом. неоценим. Сёрен Киркегаард: немецкое издание Сёрена Киркегаарда. 
 Спецкурс “С. Керкегор и история христианства в XIX в.” посвящен датскому философу Серену Керкегору.
 """

In [526]:
MY_REGEX = r"К[иь]?е?ркег[оа]{1,2}рд?[уоа]?м?"
print(len(MY_REGEX))
kierk_p = re.compile(MY_REGEX)

32


In [527]:
result = kierk_p.findall(kierkegaard)
print(result, len(result))

['Киркегор', 'Кьеркегор', 'Кьеркегора', 'Кьеркегаардом', 'Киркегаард', 'Киркегаарда', 'Керкегор', 'Керкегору'] 8


## `.match()` и `.search()`

In [304]:
text = "Кот Василий выпил компот, а Кот Ёван выпил лимонад"

**1. Компиляция RE**

In [303]:
pattern = re.compile(r"[А-ЯЁ][а-яё]+")  # что означает эта регулярка?

**2. Применение**

In [284]:
pattern.match(text)

<_sre.SRE_Match object; span=(0, 3), match='Кот'>

In [285]:
pattern.search(text)

<_sre.SRE_Match object; span=(0, 3), match='Кот'>

а что если...

In [305]:
text = "кот Василий выпил компот, а Кот Ёван выпил лимонад"

In [290]:
pattern.match(text)

In [291]:
pattern.search(text)

<_sre.SRE_Match object; span=(4, 11), match='Василий'>

Догадались, что делает `.match()`, а что `.search()`? А так:

In [302]:
re.search("кот", text)

<_sre.SRE_Match object; span=(1, 4), match='кот'>

In [297]:
re.match("кот", text)

<_sre.SRE_Match object; span=(0, 3), match='кот'>

**3. Разбор реззультатов:**

Но что же нам все-таки возвращается, что это за `_sre.SRE_Match object`?

In [308]:
text = "кот Василий выпил компот, а Кот Ёван выпил лимонад"

In [309]:
text

'кот Василий выпил компот, а Кот Ёван выпил лимонад'

In [306]:
result = re.match("кот", text)

Что-то, у чего есть начало и конец...

In [310]:
print(result.span())

(0, 3)


In [313]:
print(result.start(), result.end())

0 3


In [315]:
result.pos # позиция, с которой начинается поиск

0

Объект, у которого есть группы:

In [316]:
result.group()

'кот'

In [317]:
result.groups()

()

Давайте возьмем более наглядный пример:


![](https://i.ibb.co/NtCW3c8/aa.jpg)

In [318]:
date1 = "Jan 1987"
date2 = "May 1969"
date3 = "Aug 2011"

**1. Компиляция RE**

In [323]:
date_p = re.compile(r"(\w+) (\d{4})")

**2. Применение**

In [324]:
res = date_p.match(date1)
res

<_sre.SRE_Match object; span=(0, 8), match='Jan 1987'>

**3. Разбор реззультатов**

In [325]:
res.groups()

('Jan', '1987')

In [326]:
res.group()

'Jan 1987'

In [327]:
res.group(1)

'Jan'

In [328]:
res.group(2)

'1987'

In [329]:
res.group(0)

'Jan 1987'

Группы внутри групп возможны. Все группы упорядочиваются по открывающейся скобке.

In [333]:
expr = re.compile('a(a(.)c)(c)') 
res = expr.search('aaabccc')
print(res.group(), res.groups())

aabcc ('abc', 'b', 'c')


На следующем занятии мы с вами поговорим про:
    
  1. `.sub()`
  2. `.split()`
  3. `.finditer()`
  4. flags in RE
  5. Специальные группы
  6. Нумерацию групп

## re.sub()

Замена подстрок, найденных регуляркой на другую подстроку.

Команда: `re.sub("что заменяем", "на что заменяем", "где заменяем")`

Например, мы скачали много постов с ссылками и хотим эти ссылки удалить. А в тексте оставить строку "[здесь была ссылка]", чтобы мы всегда могли подсчитать, сколько ссылок было изначально.

In [338]:
text = """ 13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
13Такое надо в корне пресекать!
13Билеты: https://sbp4band.ticketscloud.org 

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет"""

print(text)

 13 сентября будем ходить ходуном. Прямо  48asd7h во дворе Пауэрхауса. Всё, как обычно, только соскучившись. Новые песни, старые песни. Прыжки и кувырки. Радость и смех.
13Такое надо в корне пресекать!
13Билеты: https://sbp4band.ticketscloud.org 

Пожалуйста, планируйте приобретение билетов заранее. Высока вероятность, что продажа на входе осуществляться не будет


In [None]:
html = r"https://.+\b"

Как бы мы попытались заменить ссылки без `re`:

In [None]:
text.replace(html, "<LINK>")

Используйте `re.sub()`:

In [None]:
text = re.sub(html, "<LINK>", text)

print(text)

Такая запись тоже имеет место быть:

In [None]:
html_p = re.compile(r"https://.+\b")
print(html_p.sub("<LINK>", text))

In [None]:
text.?????("<LINK>") # cколько ссылок в тексте

## re.split()

Деление строки на части, разделителем является регулярное выражение

Команда: `re.split("разделитель", "что делим")`

In [None]:
p = re.compile("a")

In [None]:
re.split(p,  "Abracadabrabr")

In [None]:
re.split("\n\n", text)

А теперь, наконец-таки, мы научимся ПРАВИЛЬНО делить слова на предложения:

In [None]:
re.split(r"(.+?[\.!\?]{1,})\s", text)

_Почему у нас пустые строки и как это исправить?_

In [None]:
#your code here

**Задание:** напишите регулярное выражение, разделяющее текст на слова. Для примера возьмите текст про концерт 13 сентября

In [None]:
# your code here

И еще интересный случай:

In [None]:
[i[0] for i in re.findall("(I love (cats|dogs))", "I love cats, I love dogs")]