# Регулярные выражения 

Регулярные выражения применяются для обработки строк. 

Часто требуется почистить текст от знаков препинания, либо взять конкретные символы, найти символы, или ограничить строку. Рассмотрим разные кейсы применения регулярных выражений.

Как мы помним из занятия о строках, в Python существуют простейшие функции для их обработки. К примеру, split. Регулярные выражения позволяют расширить его функционал.

Во-первых, потребуется импортировать библиотеку, позволяющую работать с регулярными выражениями.

In [1]:
import re

In [2]:
our_string = 'Hello, I would like to have a cup of tea. Give it to me, please!'

Как мы помним, split() позволяет разделить строку по какому-либо символу. Однако, что если мы хотим разделить строку по всем возможным знакам препинания?

In [3]:
our_string.split()

['Hello,',
 'I',
 'would',
 'like',
 'to',
 'have',
 'a',
 'cup',
 'of',
 'tea.',
 'Give',
 'it',
 'to',
 'me,',
 'please!']

In [4]:
re.split('[\s.,]', our_string)

['Hello',
 '',
 'I',
 'would',
 'like',
 'to',
 'have',
 'a',
 'cup',
 'of',
 'tea',
 '',
 'Give',
 'it',
 'to',
 'me',
 '',
 'please!']

Вы видите, что функциональность re гораздо выше, чем встроенных методов, но освоение языка регулярных выражений требует некоторой практики.

Вначале давайте рассмотрим основные функции re, а затем погрузимся в язык регулярных выражений.

## Основные функции re

Во-первых, если вы планируете часто использовать тот или иной паттерн регулярного выражения, полезно его занести в отдельную переменную. Для этого есть функция compile():

In [5]:
my_regexp = re.compile('[0-9]+')

In [6]:
second_sentence = '10 of October, 1932 is my date of birth.'

Данное регулярное выражение выделяет числовые последовательности из строки.

In [7]:
re.findall(my_regexp, second_sentence)

['10', '1932']

Для начала, попробуем найти вхождения чисел в строке:

Часто возникает задача выделить даты из текста и привести их к унифицированному виду.

In [8]:
our_string2 = '01.09.2001 was a good day. Or it was 09.01.2001'

In [9]:
my_regexp2 = re.compile('(\d+).(\d+).(\d+)')

In [10]:
re.findall(my_regexp2, our_string2)

[('01', '09', '2001'), ('09', '01', '2001')]

Существует также функция match, которая позволяет найти вхождение паттерна в начале строки и возвращает объект match, с которым можно работать

In [11]:
match_obj = re.match(my_regexp2, our_string2)

In [13]:
match_obj.groups()

('01', '09', '2001')

In [14]:
match_obj.group(0)

'01.09.2001'

In [15]:
match_obj.group(1), match_obj.group(2), match_obj.group(3)

('01', '09', '2001')

group() возвращает подгруппы из объекта match. Это полезно, если как в нашем примере вы имеете дату и, например, хотите извлечь только год.

search() расширяет возможности match и находит просто первое вхождение паттерна, не ориентируясь на начало строки.

In [16]:
our_string2 = 'The '+our_string2

In [17]:
re.match(my_regexp2, our_string2)

In [18]:
re.search(my_regexp2, our_string2)

<re.Match object; span=(4, 14), match='01.09.2001'>

И одной из наиболее полезных функций регулярных выражений является поиск и замена паттерна на заданную строку.

In [20]:
our_string2

'The 01.09.2001 was a good day. Or it was 09.01.2001'

In [19]:
re.sub(my_regexp2, 'Date', our_string2)

'The Date was a good day. Or it was Date'

Эта функция также позволяет почистить текст от ненужных символов или паттернов:

Этих функций хватит для большинства необходимых операций над регулярными выражениями.

Перейдем к языку регулярных выражений.

## Язык регулярных выражений

Специальные символы:
* ^ - Начало строки
* $ - Конец строки
* . - Любой символ, кроме переноса строки
* \* - 0 и большее повторение регулярного выражения
* \+ - 1 и большее повторение регулярного выражения
* ? - 0 или 1 повторение регулярного выражения
* {n} - n повторений регулярного выражения
* \ - экранирование спецсимвола
* [] - набор символов
* | - логическое "или"
* () - отделяет группу, содержит регулярное выражение
* \number - обозначает содержимое группы под номером number
* \d - обозначает цифру
* \D - обозначает любой символ кроме цифры
* \s - обозначает unicode пробел (все символы включая [ \t\n\r\f\v]) 
* \S - любой символ кроме unicode пробела
* \w - обозначает слово в unicode. иначе может быть записано как [^a-zA-Z0-9_]
* \W - все кроме unicode слов


In [21]:
string2 = 'London is the capital of Great Britain. London was founded in AD 43. Today is 07.12.2020 01:15 P.M., or 2020-12-07 13:15?'

In [22]:
re.findall('(\d.?\.\d.?\.\d+)|(\d+.?-\d.?-\d.)', string2)

[('07.12.2020', ''), ('', '2020-12-07')]

Как видим, данные регулярные выражения дают одинаковые результаты на данном примере, однако, видно, что они неэквивалентны, и второе более строгое. Более того, если мы захотим делать все более строго, то нам придется наложить ограничения и на диапазоны дат.

В качестве упражнения, попробуйте сделать выделение дат в формате yyyy-mm-dd с учетом диапазонов дней и месяцев.

Попробуем выделить именованные сущности из текста (названия городов, стран, имена). Используем упрощенное правило - подобное слово должно начинаться с большой буквы.

In [23]:
re.findall('[A-Z][a-z]+', string2)

['London', 'Great', 'Britain', 'London', 'Today']

Это уже почти готовый список. Дальнейшие доработки должны опираться на понимание сути текста. Здесь мы видим, что в список попало лишнее слово Today. Однако, не все так просто - здесь нужен индивидуальный подход к каждому тексту. Например, может оказаться , что это название кафе.

Также мы можем хотеть разбить текст на предложения. Очевидно str.split() тут не подойдет, так как даты у нас распадутся в случае сплита по разделителю.

In [24]:
re.split('\.\s', string2)

['London is the capital of Great Britain',
 'London was founded in AD 43',
 'Today is 07.12.2020 01:15 P.M., or 2020-12-07 13:15?']

Таким же образом можно выделять и нормировать даты, телефоны и любые последовательности символов с определенными требованиями к формату.

Другая задача - например нам необходимо взять все слова в тексте и подать их в какой-либо алгоритм, либо закодировать словарем, либо совершить что-то подобное. Тогда нам необходимо отфильтровать все не относящиеся к делу символы.

In [25]:
re.findall('[A-Za-z]+', string2)

['London',
 'is',
 'the',
 'capital',
 'of',
 'Great',
 'Britain',
 'London',
 'was',
 'founded',
 'in',
 'AD',
 'Today',
 'is',
 'P',
 'M',
 'or']

Это уже следует преобразовать в символы нижнего регистра, так как иначе Today и today у нас будут восприниматься как разные слова. Забегая в тему следующих занятий, совершим эту операцию с помощью преобразования списка, в котором у нас хранятся слова.

In [26]:
set_word = re.findall('[A-Za-z]+', string2)

In [27]:
set_word

['London',
 'is',
 'the',
 'capital',
 'of',
 'Great',
 'Britain',
 'London',
 'was',
 'founded',
 'in',
 'AD',
 'Today',
 'is',
 'P',
 'M',
 'or']

In [28]:
[i.lower() for i in set_word if len(i)>1]

['london',
 'is',
 'the',
 'capital',
 'of',
 'great',
 'britain',
 'london',
 'was',
 'founded',
 'in',
 'ad',
 'today',
 'is',
 'or']

Здесь мы дополнитиельно убрали односимволные слова.