# Регулярные выражения (РВ) RegEx

# Основные понятия

Модуль регулярных выражений в ***python***. Использует синтаксис регулярных выражений похожий на **perl**.

Документация: https://docs.python.org/3/library/re.html

Основные задачи:
- поиск в строке
- разбиение строки на подстроки
- замена части строки

Импорт модуля регулярных выражений:

In [2]:
import re  

**Escape-последовательности** (управляющие символы) - это последовательности вида: *`"\n"`*, *`"\t"`* и т. п.

Обратите внимание: **r** перед началом строки означает, что строка является сырой. **Escape-последовательности** в таких строках воспринимаются как обычные символы, поэтому *`"\n"`*, *`"\t"`* и т. п. не заменяются на *перенос строки* и *табуляцию* соответственно.

In [None]:
print('1.Hello\nworld!')  # Управляющие символы заменяются на соответствующие им действия
print(r'2.Hello\nworld')  # Управляющие символы не распознаются как таковые

Приведем пример применеения регулярного выражения. Механизм работы будет объяснен ниже, сейчас необходимо просто увидеть эффект от применения регулярных выражений. <br>
Имеется строка "fdkfghl jh 968 sdfg s98679s 976 sdfg 689". Необходимо из нее вычленить все цифры. Сделать это можно с помощью регулярных выражений.

In [None]:
a = "fdkfghl jh 968 sdfg s98679s 976 sdfg 689"  # Исходная строка
result = re.findall(r'\d', a)  # Функция поиска в строке
print(result)

Ниже приведена [Таблица управляющих символов](https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D0%B5%D0%BD%D0%BE%D1%81%D0%B8%D0%BC%D1%8B%D0%B9_%D0%BD%D0%B0%D0%B1%D0%BE%D1%80_%D1%81%D0%B8%D0%BC%D0%B2%D0%BE%D0%BB%D0%BE%D0%B2), из которой наиболее часто используемыми символами являются `\n`, `\t`:

|Экранировананя последовательность|Назначение|
| --- | --- |
| `\\` | `\` |
| `\n` | Перевод строки |
| `\a` | Звонок, alert |
| `\b` | Забой, backspace |
| `\f` | Перевод страницы |
| `\r` | Возврат каретки |
| `\t` | Горизонтальная табуляция |
| `\v` | Вертикальная табуляция |
| `\N{id}` | Идентификатор ID базы данных Юникода |
| `\uhhhh...` | 16-битовый символ Юникода в 16-ричном представлении |
| `\Uhhhh...` | 32-битовый символ Юникода в 32-ричном представлении |
| `\xhh` | 16-ричное значение символа |
| `\ooo` | 8-ричное значение символа |
| `\0` | Символ Null (не является признаком конца строки) |

Обратите внимание на необходимость экранировать `\`, если этот символ стоит последним в строке. Если этого не сделать, то произойдет попытка экранировать кавычку (или двойные кавычки, в зависимости от того, что именно вы будете использовать в своем коде) и возникнет ошибка отсутствия конца строки.

Такая ошибка может возникнуть если вы работаете с путями в ОС Windows, так там используются обратные слеши в качестве разделителей директорий.

In [None]:
# Пример ошибки из-за экранирования кавычки
a = r'\'

In [None]:
# Еще один пример ошибки из-за экранирования кавычки
a = r'C:\folder\'   

В таких случайях необходимо экранировать обратный слеш.

In [None]:
a = r'\\'  # Данный код отработает корректно из-за того, что обратный слеш экранирован
a = r'C:\\folder\\'  # Данный код также отработает корректно по той же причине

Шаблоны для использования в регулярных выражениях строятся с помощью **операторов**.

| Оператор | Описание |
| --- | --- |
| `[...]` | Один из символов в скобках |
| `[0-9]` | Любая цифра|
| `[A-Z]` | Любая заглавная буква латинского алфавита |
| `[a-z]` | Любая строчная буква латинского алфавита |
| `[А-Я]` и `[а-я]` | Аналогично для букв кириллицы (кроме букв Ё и ё) |
| `[А-ЯЁ]` и `[а-яё]` | Аналогично для букв кириллицы (с буквами Ё и ё) |
| `[А-ЯЁа-яё]` | Все буквы кириллицы |
| `[^..]` | Любой символ, кроме тех, что в скобках |
| `\w` | Любая цифра или буква или _ (эквивалент `[a-zA-Zа-яёА-ЯЁ0-9_]`) |
| `\W` | Все, кроме буквы, цифры, _  (эквивалент `[^a-zA-Zа-яёА-ЯЁ0-9_]`) |
| `\d` | Любая цифра (эквивалент `[0-9]`) |
| `\D` | Все, кроме цифры (эквивалент `[^0-9]`) |
| `\s` | Любой пробельный символ (эквивалент `[ \t\n\r\f\v]`) |
| `\S` | Любой непробельный символ (эквивалент `[^ \t\n\r\f\v]`) |
| `\b` | Граница "слова". Начало или конец слова (слева пусто или не-буква, справа буква и наоборот). Соответствует позиции, а не символу|
| `\B` | Не граница слова: либо и слева и справа буквы, либо и слева и справа НЕ буквы.|
| `.`  | Один любой символ, кроме новой строки \n. |
| `?`  | 0 или 1 вхождение шаблона слева |
| `+`  | 1 и более вхождений шаблона слева |
| `*`  | 0 и более вхождений шаблона слева |
| `\`  | Экранирование специальных символов (`\.` означает точку или `\+` — знак "плюс") |
| `^`  | Начало строки |
| `$` | Конец строки |
| `{n}` | Ровно n вхождений (повторений). |
| `{n,m}` | От n до m вхождений (повторений). |
|`{n,}`| Не менее n вхождений (повторений). |
|`{,m}`| Не более m вхождений (повторений). |
| `()` | Группирует выражение и возвращает найденный текст |
| `\t` | Символ табуляции |
| `\n` | Символ  новой строки |
| `\r` | Символ возврата каретки |
| `[abc-]`, `[-1]`| Минус нужно указывать последним или первым |
| `[*[(+\\\]\t]` | внутри скобок нужно экранировать только символы `]` и `\` |
| Ленивые квантификаторы   |По умолчанию квантификаторы "жадные" и захватывают максимально возможное количество символов. Добавление ? делает их "ленивыми", в результате они захватывают минимально возможное число символов.|
|`*?`    |0 и более вхождений шаблона слева.  Находит подстроки минимальной длинный, которые удовлетворяют шаблону.
|`+?`    |1 и более вхождений шаблона слева. Находит подстроки минимальной длинный, которые удовлетворяют шаблону.|
|`??`    |0 или 1 вхождение шаблона слева. Находит подстроки минимальной длинный, которые удовлетворяют шаблону.|
|`{n,m}?`|От n до m вхождений (повторений). Находит подстроки  минимальной длинный, которые удовлетворяют шаблону.|
|`{,m}?` |Не более m вхождений (повторений). Находит подстроки  минимальной длинный, которые удовлетворяют шаблону.|
|`{n,}?` |Не менее n вхождений (повторений). Находит подстроки  минимальной длинный, которые удовлетворяют шаблону.|

`a | b`  Соответствует a или b 

Для разбора дальнейших символов в регулярных выражениях, создадим небольшой набор слов (не очень осмысленный, но удобный):

     хах, хех, хаааа, xaxa
     
* Знак `.` соответствует одному любому символу в строке. Так, регулярное выражение `x.x` "поймает" слова *хах* и *хех*.
* Знак `+` соответствует одному или более вхождению символа(ов), который стоит слева от `+`. Выражение `xa+` "поймает" слова *xa* и *хаааа*.
* Знак `*` соответствует нулю или более вхождениям символа, который стоит слева от `*`.  Выражение `xaх*`  "поймает" слова *xa* и *хах*.
* Знак `?` соответствует нулю или одному вхождению символа, который стоит слева от `?`.  Выражение `xa?`  "поймает" все последовательности *xa* и буквы *x*.     

## Жадные и ленивые квантификаторы
Предположим, что у нас есть текст, в котором присутствуют html-теги. <br>
Мы хотим вынести список тегов в отдельный объект.<br>
Давайте попробуем это сделать обычным способом:

In [None]:
text = "<html><head></head><body><a>Ссылка 1</a><a>Ссылка 2</a>"  # Текст, в котором будем искать ссылки
reg_exp = r'<a>.+</a>'  # Регулярное выражение для поиска ссылок. Шаблон: <a>*здесь какой-то текст</a>
result = re.findall(reg_exp, text)  # Функция для нахождения всех шаблонов в тексте
print(result) 
print(len(result[0]))  # Нашелся один объект! А ссылок 2!

['<a>Ссылка 1</a><a>Ссылка 2</a>']
30


Конфуз произошел из-за того, что по умолчанию в шаблон включается как можно больше символов (квантификаторы по умолчанию являются *жадными*). В частности, когда поиск обнаружил левую часть \<a>, он начал включать все последующие символы в результат до тех пор, пока это было возможно. То есть до последнего вхождения в строку правой части шаблона \</a>.<br>
Чтобы избежать этого и найти все ссылки, нам необходимо использовать *ленивые* квантификаторы, то есть такие, которые будут добавлять найденный шаблон и переходить к поиску следующего сразу, как только это возможно.<br>
Для этого добавим символ *?* в наше регулярное выражение.

In [None]:
text = "<html><head></head><body><a>Ссылка 1</a><a>Ссылка 2</a>"  # Текст, в котором будем искать ссылки
reg_exp = r'<a>.+?</a>'  # Регулярное выражение для поиска ссылок. Шаблон: <a>*здесь какой-то текст</a>
result = re.findall(reg_exp, text)  # Функция для нахождения всех шаблонов в тексте
print(result) 
print(len(result))  # Нашлись обе ссылки!

['<a>Ссылка 1</a>', '<a>Ссылка 2</a>']
2


В примере также ниже приведены результаты применения жадных и лекнивых квантифкаторов:

In [None]:
print('Жадный квантификатор:', re.findall('\d{2,5}', '123456789'))
print('Ленивый квантификатор:', re.findall('\d{2,5}?', '123456789'))

Жадный квантификатор: ['12345', '6789']
Ленивый квантификатор: ['12', '34', '56', '78']


## Группировка операторов (?:...)

Шаблон может состоять из нескольких повторяющихся групп. Например, [MAC-адрес](https://ru.wikipedia.org/wiki/MAC-%D0%B0%D0%B4%D1%80%D0%B5%D1%81) устройства записывается как шесть групп из двух шестнадцатиричных цифр, разделённых символами `-` или `:`. Например, 01:23:45:67:89:ab. Каждый отдельный символ можно задать как [0-9a-fA-F], а весь шаблон записать как:

`[0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}`


Что делать, если количество групп заранее неизвестно?<br>
Решением является группировка **(?:...)**. Можно писать круглые скобки и без значков **?:**, однако от этого у группировки значительно меняется смысл, регулярное выражение начинает работать гораздо медленнее. Итак, если **REGEXP** — шаблон, то (**?:REGEXP**) — эквивалентный ему шаблон. Разница только в том, что к (**?:REGEXP**) можно применять квантификаторы, указывая, сколько именно раз должна повториться группа. Например, шаблон для поиска MAC-адреса, можно записать так:[0-9a-fA-F]{2}(?:[:-][0-9a-fA-F]{2}){5}

Реализуем на практике поиск MAC-адреса в строке по шаблону `r'[0-9a-fA-F]{2}(?:[:-][0-9a-fA-F]{2}){5}'`. Функция `findall()` будет объяснена немного позже.

In [None]:
MAC_address_and_trash = "xghdgfbdfgbsfgngn01:23:45:67:89:abvbsdfvdfvsdfvsfv"
print(re.findall(r'[0-9a-fA-F]{2}(?:[:-][0-9a-fA-F]{2}){5}', MAC_address_and_trash))

Cкобки (?:...) позволяют локализовать часть шаблона, внутри которого происходит перечисление. <br> Например, шаблон (?:он|тот) (?:шёл|плыл) соответствует каждой из строк «он шёл», «он плыл», «тот шёл», «тот плыл», и является синонимом он шёл|он плыл|тот шёл|тот плыл.

|Шаблон|Применяем к тексту|
| --- | --- |
| `(?:\w\w\d\d)+` | Есть м`иг29`а, `ту15`4б. Некоторые делают даже м`иг29ту15`4`ил86`. |
| `(?:\w+\d+)+` |Есть `миг29`а, `ту154`б. Некоторые делают даже `миг29ту154ил86`. |
| `(?:[Хх][аоеи]+)+` |Му`ха` — `хахахехо`, ну `хааахооохе`, да `хахахехохииии`! `Ха`м трамвайный. |
| `\b(?:[Хх][аоеи]+)+\b` | Муха — `хахахехо`, ну `хааахооохе`, да `хахахехохииии`! Хам трамвайный. |


Импортируем модуль регулярных выражений в Python:

In [None]:
import re  

###Задача 1
В качестве упражнения реализуйте группировку операторов таким образом, чтобы можно было распознать любое из следующих словосочетаний: "спортсмен бежит", "человек бежит", "медведь бежит", "спортсмен проснулся", "человек проснулся", "медведь проснулся".  <br>
Для поиска воспользуйтесь функцией findall (инфорамция о которой далее в блокноте):<br>
re.findall(r'*ваше регурное выражение*', **example_string (строка в которой производим поиск)**)<br>
В качестве example_string инициализируйте следующий текст: "*Когда наступила весна, медведь проснулся, вылез из берлоги и увидел, как спортсмен бежит*".<br>
Результат поиска выведите на экран.

In [None]:
# Напишите свой код в данной ячейке


[Посмотреть ответ на задачу](#exercise_1)

# Методы модуля re:

## re.match(pattern, string)
Метод `match()` ищет заданный шаблон в **начале** строки. 
Если применить метод `match()` на строке *AV Analytics AV* с шаблоном *AV*, то он завершится успешно, т. е. искомая подстрока найдена.

In [4]:
result = re.match(r'AV', 'AV Analytics Vidha AV')
print('Результат работы: ', result)
print('Найденая подстрока: ', result.group())  # group возвращает ту часть строки, где было совпадение с шаблоном
print('Номер первого найденного символа: ', result.start())
print('Длина строки', result.end())

Результат работы:  <re.Match object; span=(0, 2), match='AV'>
Найденая подстрока:  AV
Номер первого найденного символа:  0
Длина строки 2


`re.match` ищет только **с начала** строки

In [3]:
print(re.match(r'Analytics', 'AV Analytics Vidha AV'))

None


Так происходит потому, что match сравнивает шаблон и строку **посимвольно**, начиная с первого символа, и при первом несовпадении возвращает None.

## re.search(pattern, string)
Метод search ищет шаблон во **всей** строке, но возвращает только **первое** совпадение.

In [None]:
result = re.search(r'Analytics', 'AV Analytics Vidha AV')  # Ищет шаблон во всей строке
print(result.group())

Analytics


## .group() - Использование групп

In [None]:
print(re.search(r'(a).(b)','a&b').group(0))  # a&b
print(re.search(r'(a).(b)','a&b').group(1))  # a
print(re.search(r'(a).(b)','a&b').group(2))  # b
print(re.search(r'(a).(b)','a&b').groups())  # ('a', 'b')

a&b
a
b
('a', 'b')


**group(0)** возвращает совпадение по всему шаблону. <br>
**group(1)** возвращает совпадение по первому элементу шаблона (в скобках). <br>
**group(2)** возвращает совпадение по элементу шаблона (в скобках). <br>
**groups()** возвращает все совпадения по всем элементам шаблона, начиная с единицы.

**Пример:**

In [None]:
# Инициализируем пример шапки письма по email
a = '''
From: s3nd3r@example.com
To: me@example.com
Text: Hello, my dear friend!
'''

# Сохраняем результат поиска по шаблону в b
b = re.search('From: (\w+\@\w+.\w+)\nTo: (\w+\@\w+.\w+)\nText: ([\w\s,.!?]+)', a)

# Если найден какой-то результат, на экран выведутся совпадения по шаблонам
# Иначе выведется надпись о том, что ничего не найдено
print(b.groups()) if b is not None else print('Nothing found')

###Задача 2
В качестве упражнения реализуйте поиск (с помощью `search()`) в строке формата **Фамилия имя человека - номер телефона**.<br>
Шаблон РВ должен быть таким:"(*какое-то выражение*)-(*какое-то выражение*)". <br>
Например: "Добрый день! Высылаю контакты писателя: Пушкин Александр - 89210000000".<br>
Выведите результат на экран с помощью `group()` в формате:<br> **Фамилия имя человека:номер телефона**

In [None]:
# Напишите свой код в данной ячейке


[Посмотреть ответ на задачу](#exercise_2)

## re.findall(pattern, string)
Возвращает список **всех** найденных совпадений.

В отличие от предыдущих функций, метод возвращает список с найденными подстроками.

**Пример.** Ищем все вхождения подстроки 'AV' в нашей строке:

In [None]:
result = re.findall(r'AV', 'AV Analytics Vidha AV')  
print(result)

['AV', 'AV']


**Пример.** Буква A или V, за которой следует любой символ:

In [None]:
result = re.findall(r'[AV].', 'AV Analytics Vidha AV')
print(result)

Создадим текст с разными датами:

In [None]:
text = "11 ноября 2010 года произошло удивительное событие. А 12 ноября 2012 - еще удивительнее. Является секретом, что произошло 12 декабря 2011 года и 24 декабря 2012 года."
text

Напишем РВ (регулярное выражение), которое будет соответствовать всем цифрам (не числам) в тексте, и найдем их все в text с помощью функции findall().

In [None]:
re.findall("\d", text)  # Поиск цифр в строке

Вместо \d можно использовать [0-9]

In [None]:
re.findall("[0-9]", text)

Если нужны числа, то можно использовать символ +.

In [None]:
re.findall("\d+", text)  # Поиск чисел в строке (а не отдельных цифр)

Для поиска сочетаний по 1-2 цифры нужно использовать символ `.`, который означает "любой символ".

In [None]:
re.findall("\d.", text)  # Числа из 1-2 цифр

Использование `?` обеспечит выполнение условия: в подстроке либо есть ровно одна цифра, либо цифр нет. В результате получим:

In [None]:
re.findall("\d?", text)  # По 1 символу

#### Пример. Получить все годы в тексте:

In [None]:
re.findall("\d{4}", text)  # Поиск четырех цифр подряд

#### Пример. Создать РВ для получения дат целиком (с годами). 

Как выглядят даты в тексте? Сначала одна или две цифры, затем пробел и буквенное название месяца, далее пробел и четыре цифры (год).

In [None]:
re.findall("\d+\s[а-я]+\s\d{4}", text)  # Попробуйте прочитать выражение. Ниже представлен разбор

\d+ - одна или несколько цифр,<br>
\s - пробел,<br>
**[а-я]+** - один или несколько буквенных символов,<br>
\s - пробел,<br>
\d{4} - четыре цифры.

#### Пример. Из списка твитов отобрать те, что начинаются с `#я не могу`.

In [None]:
twits = ["#я не могу молчать", "#я не могу кричать", "#я не могу", "#я справлюсь", "я не могу молчать",
        "#я не могу бездельничать", "#я все могу", "#с кем не бывает"]

In [None]:
chosen = []  # Список для отобранных твитов

for t in twits:
    res = re.findall("#я не могу", t)
    if len(res) != 0:
        chosen.append(t)  # Добавляем именно t, а не res, т. к. добавляем твит полностью
print(chosen)

Рассмотрим задачу, где необходимо применить экранирование. Дана строка с данными:

In [None]:
data = '20.05.1963, 55, 12.12.2000, 17, 15/15/1111'

Нужно выбрать из нее даты, записанные через точку. Для этого напишем РВ, но перед этим вспомним, что точку нужно экранировать. Для этого необходимо ставить перед ней `\`, чтобы Python понимал, что мы ищем не один любой символ `(.)`, а именно точку как знак препинания.

In [None]:
re.findall("\d+\.\d+\.\d{4}", data)  # РВ для поиска дат, записанных через точку

\d+ - одна или несколько цифр, <br>
\. - точка, <br>
\d+ - одна или несколько цифр, <br>
\. - точка, <br>
\d{4} - 4 цифры.

####Задача 3
В качестве упражнения реализуйте поиск всех фамилий, имен и номеров телефона (с помощью метода **findall**) в строке.<br>
Формат записи: **Фамилия имя - номер_телефона**<br>
Например: "Добрый день! Высылаю контакты писателей: Пушкин Александр - 89210000000, Лермонтов Михаил - 89210000001, Есенин Сергей 89210000002".<br>
Выведите результат на экран произвольным образом.

In [None]:
# Напишите свой код в данной ячейке


[Посмотреть ответ на задачу](#exercise_3)

## re.finditer(patter, string)

Создает генератор, возвращающий совпадения:


In [None]:
result = re.finditer(r'[AV].', 'AV Analytics Vidha AV')
for i in result:
    print(i)  # i в данном случае - это AV
    print(f"Подстрока {i.group()} занимает символы в диапазоне c {i.span()[0]} по {i.span()[1]-1}")

<re.Match object; span=(0, 2), match='AV'>
Подстрока AV занимает символы в диапазоне c 0 по 1
<re.Match object; span=(3, 5), match='An'>
Подстрока An занимает символы в диапазоне c 3 по 4
<re.Match object; span=(13, 15), match='Vi'>
Подстрока Vi занимает символы в диапазоне c 13 по 14
<re.Match object; span=(19, 21), match='AV'>
Подстрока AV занимает символы в диапазоне c 19 по 20


Метод **span** возвращает начальную и конечную позицию вхождения шаблона в строку в виде *кортежа*, поэтому обращение к отдельным элементам происходит через индексы (Например, **span**()[0]). 

## re.split(pattern, string, [maxsplit=0])
Этот метод разделяет строку по заданному шаблону.


In [None]:
result = re.split(r't', 'Analytics')  # Деление строки на символе t
print(result)

In [None]:
a = '''
From: s3nd3r@example.com
To: me@example.com
Text: Hello, my dear friend!
'''
result = re.split(r'\w+:\s+', a)  # Деление по шаблону "буквы: " (в конце один или несколько пробелов)
print(result)

\w+ - один или несколько символов латиницы <br>
: - символ двоеточия <br>
\s+ - один или несколько пробелов <br>

Метод **split**() также принимает аргумент **maxsplit** со значением по умолчанию, равным `0`. Если **maxsplit** принимает значение 0, то он разделит строку столько раз, сколько возможно. Если задать значение этого аргумента != 0, то разделение произойдет не более указанного числа раз. 

In [None]:
result = re.split(r'i', 'Analytics Vidha')  # Обычный split (количество делений не ограничено)
print(result)
result = re.split(r'i', 'Analytics Vidha', maxsplit=1)  # split с ограничением на деление в 1 раз
print(result)

## re.sub(pattern, repl, string)
`sub()` ищет шаблон `pattern` в строке `string` и заменяет его на указанную подстроку `repl`. Если шаблон не найден, строка остается неизменной.

In [None]:
# Заменим "India" на "the World" 
result = re.sub(r'India', 'the World', 'AV is largest Analytics сommunity of India')
print(result)

Можно указывать не конкретную подстроку поиска, а шаблон.

In [None]:
a = '''
From: s3nd3r@example.com
To: me@example.com
Text: Hello, my dear friend!
'''
result = re.sub(r'\w+\@\w+\.\w+', '<stripped mail>', a)  # Заменяем email на '<stripped mail>'
print(result)

где: <br>
\w+ - один или несколько буквенных символов, <br>
\@ - коммерческое at (@) <br>
\w+ - один или несколько буквенных символов, <br>
\. - точка, <br>
\w+ - один или несколько буквенных символов.

## re.compile(pattern, repl, string)
Мы можем передать *регулярное выражение* в отдельный объект, который может быть использован для поиска.

In [None]:
pattern = re.compile(r'AV')
result = pattern.findall('AV Analytics Vidha AV')  # Метод применяется к РВ pattern 
print(result)

In [None]:
a = '''
From: s3nd3r@example.com
To: me@example.com
Text: Hello, my dear pal!
'''
pattern = re.compile(r'To: \w+\@\w+\.\w+')
result = pattern.sub('To: <stripped mail>', a)
print(result)

# Примеры

In [None]:
# Получить все буквы из строки:
result = re.findall(r'\w', 'AV is largest Analytics community of India')
print(result)

In [None]:
# Получить каждое слово (используя * или +)
result = re.findall(r'\w+', 'AV is largest Analytics community of India')
print(result)

In [None]:
# Получить первое слово, используя ^ (ищет шаблон в начале строки)
result = re.findall(r'^\w+', 'AV is largest Analytics community of India')
print(result)

In [None]:
# Найти первые 2 буквы каждого слова
# \b - разделитель слов, любой символ кроме букв, цифр и _
print(re.findall(r'\b\w.', 'AV is largest Analytics community of India'))

In [None]:
# Вывести слово до конца. Слово заканчивается тогда, когда встречается небуквенный и нецифровой символ
print(re.findall(r'\w+\b', 'asd  a1sd2 as# a$sds! qwe) zxc+'))

In [None]:
# Вывести все числа. Число заканчивается тогда, когда встречается нецифровой символ.
print(re.findall(r'\d+\b', '123 1s2й7!1я 45+ 23& 2 ф3,'))

Вернуть список доменов из списка адресов электронной почты. Для этого сначала вернем все символы после «@»:


In [None]:
result = re.findall(r'@\w+', 'abc.test@gmail.com, xyz@test.in, test.first@analyticsvidha.com, first.test@rest.biz')
print(result)

@ - коммерческое at (@) <br>
\w+ - один или несколько буквенных символов.

Как видим, части «.com», «.in» и т. д. не попали в результат. Изменим код:

In [None]:
# Возвращаем полные названия почтовых серверов
result = re.findall(r'@\w+.\w+', 'abc.test@gmail.com, xyz@test.in, test.first@analyticsvidha.com, first.test@rest.biz')
print(result)

Вытащить только домен, используя группировку — ( ):

In [None]:
result = re.findall(r'@\w+.(\w+)', 'abc.test@gmail.com, xyz@test.in, test.first@analyticsvidha.com, first.test@rest.biz')
print(result)

Извлечь все слова, начинающиеся на гласную

In [None]:
# [aeiouAEIOU] - перечисление гласных символов
result = re.findall(r'[aeiouAEIOU]\w+', 'AV is largest Analytics community of India')
print(result)

Извлечь дату из строки. Формат 2_цифры-2_цифры-4_цифры

In [None]:
result = re.findall(r'\d{2}-\d{2}-\d{4}', 'Amit 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009')
print(result)

Для извлечения только года нам опять помогут скобки, т. е. применение группировки (\d{4}) для извлечения года:

In [None]:
result = re.findall(r'\d{2}-\d{2}-(\d{4})', 'Amit 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009')
print(result)

Задача: удалить часть найденного шабона. 

В примере ниже слудет обратить внимание на взаимосвязь `()` в шаблоне `regex`, цифр в `subst = r"\"` и выводимым результатом:

In [None]:
my_sting = '3.2 килограмма картофеля'
regex = r"^([\d\.]+) (.+) (.+)"

subst = r"\1"
a1 = re.sub(regex, subst, my_sting)
print(r'Результат применения шаблона subst = r"\1":', a1)

subst = r"\2"
a2 = re.sub(regex, subst, my_sting)
print(r'Результат применения шаблона subst = r"\2":', a2)

subst = r"\3"
a3 = re.sub(regex, subst, my_sting)
print(r'Результат применения шаблона subst = r"\3":', a3)


Получить значения переменных, удовлетворяющих шаблону

In [None]:
string = 'В 2016 году собрали 34 кг малины.'
template =  r'.*(?P<year>\d{4}) году.*кг (?P<fruit>\D{1,15})\.'
res = re.match(template, string)
print(res.group("year"))  # 2016
print(res.group("fruit"))  # малины

`.\*` - произвольное количество символов (не менее одного), <br>
`<year>` в РВ `(?P<year>\d{4})` - символическое имя группы для последовательности из четырех цифр, <br>
`\*` - произвольное количество символов, <br>
`<fruit>` в РВ `(?P<fruit>\D{1,15})\.` - символическое имя группы для последовательности любых символов (кроме цифр) длиной 1-15.

# Флаги компиляции и примеры

https://python-scripts.com/import-re-regular-expression

В Python 3 существует различные флаги компиляции, которые могут изменить поведение заданного шаблона. 

Флаг **re.I / re.IGNORECASE** позволяет выполнить сравнение без учета регистра.

Флаг **re.M / re.MULTILINE** - для многострочных строк (с переводом строки)
говорит Python о том, что в начале каждой строки (линии) есть символ ^, а в конце каждой строки (линии) символ `$`. 

Флаг **re.X / re.VERBOSE** позволяет визуально разделять логические секции ваших регулярных выражений, и даже добавлять комментарии. Пустое пространство внутри паттерна будет игнорироваться, кроме того случая, если классу символа или пробелу предшествует обратная косая черта.

Флаг **re.A / re.ASCII** указывает на сопоставление шаблона против ASCII, вместо использования полного Юникода для сопоставления. Флаг **re.U / re.UNICODE** используется в целях обратной совместимости. Эти флаги являются излишеством, так как Python выполняет сопоставления в Юникоде в автоматическом режиме.

Флаг **re.DEBUG** показывает информацию о дебаге вашего скомпилированного выражения.

Флаг **re.L / re.LOCALE** делает коды: w, W, b, B, d, D, s и S зависимыми от локали. В документации говорится, что вы не должны зависеть от данного флага, так как механизм локали сам по себе очень ненадежный. Вместо этого, лучше используйте сопоставление Юникода. Далее в документации говорится, что данный флаг имеет смысл использовать только в битовых паттернах.

Флаг **re.S / re.DOTALL** указывает метасимволу «.» (период) сопоставить любой символ. Без этого флага, данный метасимвол будет сопоставлять все, что угодно, но не новую строку.

Дополнительные параметры:

`re.IGNORECASE`, `re.I` - игнорировать регистр

In [None]:
result = re.search(r'hello world', 'HelLo WorLd', re.IGNORECASE)  # Шаблон отыщется, т.к. игнорируется регистр
print(result.group())

`re.MULTILINE`, `re.M` - игнорировать перевод строки

`^` отмечает начало строки (сразу после символа перевода строки), `$` - отмечает конец строки (символ перевода строки)

In [None]:
a='''
Hello 1
Hea 1 Heg 2
World 2
'''
result = re.findall(r'^(\w+)\s(\d)$', a)  # Каждая строка воспринимается как отдельная
print('Результат без re.MULTILINE:', result)

result = re.findall(r'^(\w+)\s(\d)$', a, re.MULTILINE)  # Перенос строки игнорируется
print('Результат  с  re.MULTILINE:', result)



`re.VERBOSE`, `re.X` - позволяет писать более наглядные регулярные выражения. Разрешает комментарии, все неэкранированные пробельные символы и переводы строк игнорирутся.

In [None]:
pat = re.compile(r'''(\d{1,2})  # День
                     -          # Разделитель
                     (\d{1,2})  # Месяц
                     -          # Разделитель
                     (\d{1,4})  # Год
                 ''', re.VERBOSE)  # Применяем VERBOSE, чтобы разрешить комментирование и записать РВ более наглядно 

result = pat.findall('Этот дом был построен 4-12-1809 и отреставрирован 23-05-2006')
print(result)

Если группы были именованы, то можно собрать из них словарь:

In [None]:
pat = re.compile(r'''(?P<day>\d{1,2})    # День
                     -                   # Разделитель
                     (?P<month>\d{1,2})  # Месяц
                     -                   # Разделитель
                     (?P<year>\d{1,4})   # Год
                 ''', re.VERBOSE)

result = pat.finditer('Этот дом был построен 4-12-1809 и отреставрирован 23-05-2006')  # Создаем итератор, возвращающий дату
for i in result:  # Генерируем даты из строки
    print(i.groupdict())  # Выводим дату в формате "ключ: значение"

Существуют группы, не захватываемые регулярным выражением (*non-capturing*), но используемые при поиске.

Регулярное выражение `r'(?<=-)\d+` находит числа перед которыми стоит минус, но захватывает их без минуса.

In [None]:
text = '1, 3, -4, 5, -23, 5, -6'
result = re.findall(r'(?<=-)\d+', text)  # Возвращает отрицательные числа без знака -
print(result)

Другой пример.

Есть строка `text`, в которой записан вывод программы *mystem* с разбором слов предложения. Допустим, мы хотим оставить разбор только для одного слова `word`.

`r'(?<!%s){.*?}' % word`:
- `(?<!...)` - совпадает, если текущая строка не предворяется `...`
- `{.*?}` - [ленивый поиск](https://qastack.ru/programming/2301285/what-do-lazy-and-greedy-mean-in-the-context-of-regular-expressions) от `{` до `}`

Задача: удалить вместе с содрежимым все {}, перед которыми нет слова раскопки.<br>
Решение:

In [None]:
text = '''Биографические{биографический=A=(вин,мн,полн,неод|им,мн,полн)} журналистские{журналистский=A=(вин,мн,полн,неод|им,мн,полн)} раскопки{раскопка=S,жен,неод=(вин,мн|род,ед|им,мн)} и{и=CONJ=} скандальные{скандальный=A=(вин,мн,полн,неод|им,мн,полн)} «признания{признание=S,сред,неод=(вин,мн|род,ед|им,мн)}» начались{начинаться=V,нп=прош,мн,изъяв,сов} уже{уже=ADV=} года{год=S,муж,неод=(вин,мн|род,ед|им,мн)} через{через=PR=} два{два=NUM=(вин,муж,неод|им,муж|вин,сред|им,сред)} или{или=CONJ=} три{три=NUM=(им|вин,неод)} после{после=PR=} выхода{выход=S,муж,неод=род,ед} книги{книга=S,жен,неод=(вин,мн|род,ед|им,мн)}.'''
word = 'раскопки'
result = re.sub(r'(?<!%s){.*?}' % word, '', text)
print(result)

### Заключение
Дополнительную информацию о модуле `re` можно найти в официальной [документации](https://docs.python.org/3/library/re.html) и в [статье](https://habr.com/ru/post/349860/). Также есть ресурс [regex101.com](https://regex101.com), который позволяет скопировать нужный текст и в интерактивном режиме следить, какие совпадения находятся при изменении регулярного выражения, введенного в отдельном окне (не забудьте поставить галочку Python в разделе FLAVOR слева).

# Ответы на задания:

<a name="exercise_1"></a>
# Ответ на задачу 1

In [None]:
import re
example_string = "Когда наступила весна, медведь проснулся, вылез из берлоги и увидел, как спортсмен бежит"
print(re.findall(r'(?:спортсмен|медведь|человек) (?:проснулся|бежит)', example_string))  # Не забывайте про пробел между словами


<a name="exercise_2"></a>
# Ответ на задачу 2

In [None]:
import re
name_phone_number = " Добрый день! Высылаю контакты писателя: Пушкин Александр - 89210000000"
result = re.search(r'([А-ЯЁа-яё]+ [А-ЯЁа-яё]+) - (\d+)', name_phone_number)
print(result.group(1)+":"+result.group(2))


<a name="exercise_3"></a>
# Ответ на задачу 3




In [None]:
import re
name_phone_number = "Добрый день! Высылаю контакты писателей: Пушкин Александр - 89210000000, Лермонтов Михаил - 89210000001, Есенин Сергей - 89210000002"
result = re.findall(r"[А-ЯЁа-яё]+ [А-ЯЁа-яё]+ - \d+", name_phone_number)
print(*result)