# Регулярные выражения

> ***Регулярные выражения*** - это маски, которые мы используем для детектирования объекта в тексте.

Чтобы понять и полюбить их, можно почитать [вот эту статью](https://tproger.ru/articles/regexp-for-beginners/), например.


**Для чего нужны регулярные выржения:**

*    для определения нужного формата, например, телефонного номера, даты или email-адреса
*    для разбивки строк на подстроки
*    для поиска, замены и извлечения символов
*    для быстрого выполнения нетривиальных операций


В задаче предобработки текста регулярные выражения прежде всего помогают очистить строки от ненужного мусора и разобраться, в каких форматах хранятся интересующие нас данные, например, даты (DD/MM/YYYY, DD.MM.YYYY и др.)

Для всех этих вещей в Python есть библиотека `re`, которая обладает широким набором методов для создания регулярных выражений.

Наиболее популярными методами являются следующие:

*    `re.match()`
*    `re.search()`
*    `re.findall()`
*    `re.split()`
*    `re.sub()`
*    `re.compile()`

Посмотрим, как и для чего они используются. Смотреть будем на примере с новостью Гринписа из [Темы 10](https://colab.research.google.com/drive/1fe4yLQsYgNmfjKdkJCB0K1nm4G8MKNzq?usp=sharing).

Все методы и все-все-все о регулярных выражениях (с примерами) можно найти в [официальной документации](https://docs.python.org/3/library/re.html).

In [None]:
text = """Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, \
причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали \
ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение \
по которому будет вынесено в течение двух недель.&nbsp; Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были \
побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет \
продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный \
в 2018 году и состоящий из экспертов по климату) проанализировал, что две трети плана стимулирования не работают и, наоборот, могут способствовать увеличению \
выбросов.&nbsp; В Greenpeace Франции надеются, что суд признает обязанность государств бороться с климатическим кризисом — это подтверждает Хартия окружающей \
среды 2004 года  и Европейская конвенция о правах человека. <blockquote class="wp-block-quote">«Такое решение было бы историческим и закрепило в законе, что \
борьба с изменением климата играет важную роль в защите основ ных прав граждан».<cite>Greenpeace France</cite></blockquote> Кроме того, Greenpeace Франции \
ранее запустил петицию «Дело века», которую уже поддержало более двух миллионов граждан.&nbsp; «Климатический кризис оказывает серьёзное воздействие на жизнь \
каждого из нас: увеличение дней с экстремально высокой температурой приводит к повышению смертности людей по всему миру, растёт ареал распространения различных \
вирусов и инфекций. В России тоже остро стоит \
<a href="https://climatescience.ru/climate-2020-12-09.pdf?_ga=2.104332352.1990835110.1609256341-133469842.1597066306">необходимость скорейшего начала \
технологической трансформации экономики</a> в сторону климатически устойчивых технологий. Мы надеемся, что судебный процесс во Франции будет выигран людьми и \
станет примером в том числе и для нашего государства в вопросах важности срочного принятия мер по решению климатического кризиса», — прокомментировала руководительница \
энергетического отдела Greenpeace в России Елена Сакирко."""

Помимо букв и привычных всем символов, в регулярных выражениях применяются управляющие операторы, которые позволяют создать более гибкий шаблон. Ниже приведена таблица наиболее полезных и часто употребляющихся операторов. Стоит заметить, что в регулярных выражениях некоторые обычные символы теряют свое прямое значение и выполняют функцию оператора. В этом случае для вызова их исходного назначения применяется экранирование. 

**Оператор** | **Что он делает**
--- | ---
. | говорит: "на этом месте должен быть один любой символ, кроме \n"
? | 0 или 1 вхождение шаблона, стоящего перед ?
+ | 1 и более вхождений шаблона, стоящего перед +
* | 0 и более вхождений шаблона, стоящего перед *
\w | любая цифра или буква
\W | все, кроме букв и цифр
\d | любая цифра [0-9]
\D | все, кроме цифры
\s | любой пробельный символ
\S | любой непробельный символ
\b | граница слова
[..] | один из символов в скобках
[^..] | любой символ, кроме тех, что в скобках
\ | экранирование спецсимволов
\\. | точка
\\+ | плюс
^ | начало строки
$ | конец строки
{n, m} | от n до m вхождений
a\|b | равно a или b
() | группирует выражение и возвращает найденный текст
\t | табуляция
\n | переход на новую строку
\r | возврат каретки



В тех случаях, когда паттерны не задаются с помощью спецсимволов, может быть вполне достаточно использовать строковые методы. Вспомнить работу со строками в Python и полезные строковые методы можно [тут](https://colab.research.google.com/drive/1dVsKKQnC7exm8bZez9BVX-cKQTeVg90P?usp=sharing).

In [None]:
import re

## `re.match()`

Ищет некоторый элемент в начале строки, проще говоря, проверяет, начинается ли строка с желаемого объекта, и возвращает его, если да. Похоже на встроенный метод **`startswith()`**, но может вернуть сам объект и для роверки можно использовать не просто подстроку, а паттерн.

Имеет следующий синтаксис: **`re.match(pattern, str)`**

In [None]:
pattern = r'Greenpeace'
result = re.match(pattern, text)
result

<re.Match object; span=(0, 10), match='Greenpeace'>

Подстрока найдена. Вернулся объект метода `match()`. Чтобы вернуть сам объект, надо для результата вызвать метод `group()`.

In [None]:
result.group()

'Greenpeace'

Можно также узнать, на какой позиции находится первый и последний символ искомой подстроки. Для этого есть методы `start()` и `end()`.

In [None]:
print(result.start(), result.end())

0 10


Проверим, что выведется, если текст не начинается с искомой подстроки.

In [None]:
pattern = r'greenpeace'
result = re.match(pattern, text)
print(result)

None


> ***Вывод:*** прежде чем использовать регулярные выражения, бывает крайне полезно перевести весь текст в один регистр.



Пример с операторами.

In [None]:
pattern = r'\D'
result = re.match(pattern, text)
result

<re.Match object; span=(0, 1), match='G'>

In [None]:
letter = "Greenpeace"
pattern = r'%s' %letter
result = re.match(pattern, text)
print(result)

<re.Match object; span=(0, 10), match='Greenpeace'>


## `re.search()`

Похож на `match()`, но ищет объект не в начале строки, а по всему тексту. Находит первое совпадение от начала текста. Если запросить координаты, вернутся именно координаты первого вхождения.

Имеет следующий синтаксис: **`re.search(pattern, str)`**

In [None]:
pattern = r'климат'
result = re.search(pattern, text)
result.group()

'климат'

In [None]:
print(result.start(), result.end())

352 358


Пример с операторами.

In [None]:
pattern = r'\bклимат\b'
result = re.search(pattern, text)
result

In [None]:
pattern = r'<(.*)>'
result = re.search(pattern, text)
result.group()

'<blockquote class="wp-block-quote">«Такое решение было бы историческим и закрепило в законе, что борьба с изменением климата играет важную роль в защите основ ных прав граждан».<cite>Greenpeace France</cite></blockquote> Кроме того, Greenpeace Франции ранее запустил петицию «Дело века», которую уже поддержало более двух миллионов граждан.&nbsp; «Климатический кризис оказывает серьёзное воздействие на жизнь каждого из нас: увеличение дней с экстремально высокой температурой приводит к повышению смертности людей по всему миру, растёт ареал распространения различных вирусов и инфекций. В России тоже остро стоит <a href="https://climatescience.ru/climate-2020-12-09.pdf?_ga=2.104332352.1990835110.1609256341-133469842.1597066306">необходимость скорейшего начала технологической трансформации экономики</a>'

Видим, что под шаблон подошло все, что находится между первой и последней треугольной скобками. Чтобы взять один тег, надо сказать, что шаблон `.*` берется один раз. Нагляднее на примере.

In [None]:
pattern = r'<(.*?)>'
result = re.search(pattern, text)
result.group()

'<blockquote class="wp-block-quote">'

## `re.findall()`

Возвращает все найденные в тексте совпадения в виде списка. Если надо найти все вхождения какого-то слова в текст, удобно использовать именно этот метод.

Имеет следующий синтаксис: **`re.findall(pattern, str)`**

In [None]:
pattern = r'Greenpeace'
result = re.findall(pattern, text)
result

['Greenpeace',
 'Greenpeace',
 'Greenpeace',
 'Greenpeace',
 'Greenpeace',
 'Greenpeace']

С помощью этого метода не получить координаты вхождений.

Здесь в примере с операторами сделаем полезную вещь, найдем все теги html-разметки.

In [None]:
pattern = r'<(.*?)>'
result = re.findall(pattern, text)
result

['blockquote class="wp-block-quote"',
 'cite',
 '/cite',
 '/blockquote',
 'a href="https://climatescience.ru/climate-2020-12-09.pdf?_ga=2.104332352.1990835110.1609256341-133469842.1597066306"',
 '/a']

Еще пример. Регулярное вражение: **"ab+c."**

In [None]:
result = re.findall('ab+c.', 'abcdefghijkabcabcxabc') 
result

['abcd', 'abca']

Вопрос на внимательность: почему нет abcx?

Еще пример. Получение всех слов строки.

In [None]:
result = re.findall(r'[а-яА-Яa-zA-Z\-]+', 'Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб')
result

['Greenpeace',
 'Франции',
 'совместно',
 'с',
 'другими',
 'НКО',
 'Notre',
 'Affaire',
 'Tous',
 'Фонд',
 'Николя',
 'Юло',
 'и',
 'Oxfam',
 'France',
 'требуют',
 'от',
 'властей',
 'возместить',
 'ущерб']

## `re.split()`

Разделяет строку по заданному шаблону. Сам шаблон в результат, разумеется, не попадает.

Имеет следующий синтаксис: **`re.split(pattern, str)`**

In [None]:
pattern = r', что '
result = re.split(pattern, text)
result

['Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение по которому будет вынесено в течение двух недель.&nbsp; Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный в 2018 году и состоящий из экспертов по климату) проанализировал',
 'две трети плана стимулирования не работа

До этого момента было очень похожа на строковый метод `split()`. Если мы хотим ограничить количество разбиений, то можно передать именованный аргумент `maxsplit` с количеством разбиений. Количество разбиений считается от начала текста. Такого у встроенного метода нет.

In [None]:
pattern = r', что '
result = re.split(pattern, text, maxsplit=2)
result

['Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение по которому будет вынесено в течение двух недель.&nbsp; Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный в 2018 году и состоящий из экспертов по климату) проанализировал',
 'две трети плана стимулирования не работа

## `re.sub()`

Ищет в тексте шаблон и заменяет его на указанную подстроку. Очень в этом похож на `replace()`. Если шаблон не нашелся, ничего не происходит.

Имеет следующий синтаксис: **`re.sub(pattern, repl, str)`**

In [None]:
pattern = r'Greenpeace'
result = re.sub(pattern, "Гринпис", text)
result

'Гринпис Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение по которому будет вынесено в течение двух недель.&nbsp; Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный в 2018 году и состоящий из экспертов по климату) проанализировал, что две трети плана стимулирования не работают 

Продолжаем полезности с очисткой от html.

In [None]:
pattern = r'<(.*?)>'
result = re.sub(pattern, "", text)
result

'Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение по которому будет вынесено в течение двух недель.&nbsp; Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный в 2018 году и состоящий из экспертов по климату) проанализировал, что две трети плана стимулирования не работа

**Задание 1**: при помощи регулярного выражения замените все цифры строке на DIG.

**Задание 2**: напишите регулярное выражение, которое заменяет произвольное количество пробельных символов внутри строки на один пробел.

## `re.compile()`

С помощью этого метода мы можем представить шаблон в виде объекта `re` и вызывать методы уже непосредственно для него. Удобно использовать, когда надо найти один и тот же паттерн в разных текстах.

Имеет следующий синтаксис: **`re.compile(pattern)`**

In [None]:
pattern = re.compile("Greenpeace")

In [None]:
result = pattern.findall(text)
result

['Greenpeace', 'Greenpeace', 'Greenpeace', 'Greenpeace', 'Greenpeace']

## Задачи

1. Напишите регулярное выражение, которое возвращает список первых двух букв каждого слова строки. Обратите внимание на работу с дефисом.
2. Напишите регулярное выражение, которое выбирает из строки все слова, в которых строго больше 3 символов.
3. Напишите регулярное выражение, которое заменит все подстроки, обозначающие время (только время, не даты), в строке на TBD.
4. Напишите регулярное выражение, которое заменяет произвольное количество пробельных символов внутри строки на один пробел.
5. Напишите регулярное выражение, которое удаляет идущие подряд повторы. Одно слово из группы должно остаться.
6. Напишите регулярное выражение, которое определяет, что подстрока является адресом электронной почты.
7. Напишите регулярное выражение, которое возвращает список аббревиатур в строке.
8. Напишите регулярное выражение, которое разделяет текст на предложения.
9. Напишите регулярное выражение, которое определяет, что строка является номером российского мобильного телефона любого оператора.
10. Напишите регулярное выражение, которое проверяет, что все предложения в строке начинаются с заглавной буквы.