Python предоставляет удобные средства для поиска в строках. Например, нам необходимо найти, есть ли в тексте статьи имя теннисистки Марии Шараповой.

Обратите внимание на вариант записи длинной строки. Альтернативой является три кавычки.

Функция find не просто проверяет наличие подстроки, но и возвращает позицию ее самого левого вхождения, если она найдена, или -1, если не найдена.

In [1]:
article="Американская теннисистка Серена Уильямс не сможет выступать в костюме кошки "\
"на Открытом чемпионате Франции. Об этом сообщает ESPN." \
"Глава Федерации тенниса Франции (FFT) Бернар Джудичелли заявил, что на очередном турнире будет действовать дресс-код для спортсменок. Костюм наподобие того, что носила Уильямс на турнире «Ролан Гаррос» теперь пол запретом. Чиновник отметил, что правила будут не настолько строгими, как на Уимблдоне, но будут очерчены определенные рамки." \
"Уильямс выступала в черном костюме кошки на последнем турнире «Ролан Гаррос». Американка дошла до 1/8 финала турнира, где должна была встретиться с россиянкой Марией Шараповой. Однако из-за травмы, полученной накануне, она была вынуждена отказаться от матча." \
"9 марта Уильямс вернулась в большой теннис после 13-месячного перерыва в связи с рождением ребенка. На турнире в Индиан-Уэллсе американка уступила теннисистке из Казахстана Зарине Дияс."

if article.find("Шарапов")!=-1:
    print("Представлен")

Представлен


Однако если теперь нам потребуется, например, выделить все имена и фамилии участников, это будет трудно сделать при помощи той же самой функции, так как она принимает на вход конкретную подстроку.<br>
На помощь приходят регулярные выражения, которые позволяют создать <b>шаблон</b> для поиска необходимой нам подстроки. Примерами шаблонов могут быть полное имя, почтовый адрес (как электронный, так и городской), даты, теги html, заданная цепочка в ДНК, имена файлов. Все они не могут быть заданы перечислением всех корректных вариантов записи, зато легко задаются одним шаблоном.<br>
Регулярные выражения реализованы и могут использоваться в разных программах: продвинутые блокноты, системные утилиты командной строки Unix, текстовые и табличные процессоры, языки программирования.

Итак, регулярное выражение - <i>это строка, которая задает шаблон поиска в другой строке.</i> Так как программисты древности работали в основном со строками, то и шаблон для поиска задается в виде строк, содержащих специальные символы с особой семантикой. Всё как в обычном программировании.<br>
Для использования регулярных выражений необходимо импортировать соответствующую библиотеку.

In [2]:
import re

Примером простейшего шаблона может служить просто искомая строка. Найдем ее при помощи функции findall из библиотеки re. Полная документация на данную библиотеку находится <a href="https://docs.python.org/3.10/library/re.html">здесь</a>. Хорошее описание регулярных выражений <a href="https://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D1%8B%D0%B5_%D0%B2%D1%8B%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F">здесь</a>. И имейте в виду, что база для регулярных выражений одна и та же во всех языках, а вот особенности зависят от диалекта.

Основная проблема с регулярными выражениями состоит в том, что их надо отлаживать. Если у вас есть проблема, и вы стали решать ее при помощи регулярных выражений, то теперь у вас две проблемы. Отлаживать регулярные выражения лучше при помощи специальных инструментов, например, сайта [https://regex101.com/](https://regex101.com/).

In [3]:
re.findall("Шарапов", article)

['Шарапов']

Так как фамилия встречается только один раз, нам был возвращен список с единственным вхождением. Если мы будем искать основную героиню статьи, то вхождений будет больше.

In [4]:
re.findall("Уильямс", article)

['Уильямс', 'Уильямс', 'Уильямс', 'Уильямс']

Для того, чтобы сообщить, что в данном месте может быть один (и только один!) символ из списка используются квадратные скобки.<br>
Например, нас интересует Шарапова (а вовсе не Шарапов) в именительном и винительном падежах. Такой шаблон будет содержать фиксированный префикс "Шарапов" после которого идет одна из двух букв: а или у. Для выражения такого шаблона используются квадратные скобки, внутри которых записываются альтернативы.

In [5]:
re.findall("Шарапов[ау]", article)

[]

Конечно же, в таком виде она не встречается в статье.<br>
Теперь попробуем найти все цифры и числа. Конечно, можно перечислить их всех, но вместо этого можно задать интервал при помощи знака минус.

In [11]:
re.findall("[0-9][0-9]", article)

['13']

Буквы сортируются в соответствии с таблицей кодировки. Следует иметь в виду, что в большинстве кодировок Ё не входит в интервал от А до Я, большие буквы предшествуют маленьим и отделены набором символов, латинские буквы идут перед кириллицей. Последовательность символов отличается в разных кодировках. Пример для UTF-8 можно посмотреть <a href="https://unicode-table.com/ru/">здесь</a>.

В примере выше мы искали только двузначные числа, тогда как в тексте присутствуют и однозначные. То есть в шаблоне у нас есть альтернатива. Альтернатива выражаетс при помощи вертикальной черты.<br>
В примере ниже мы ищем две цифры идущие подряд или одну цифру. Считается, что вертикальная черта разбивает всю строку.

In [12]:
re.findall("[0-9][0-9][0-9]|[0-9][0-9]|[0-9]", article)

['1', '8', '9', '13']

Обратите внимание что произойдет, если мы сперва напишем сперва одну цифру, а потом две.

In [7]:
re.findall("[0-9]|[0-9][0-9]", article)

['1', '8', '9', '1', '3']

Библиотека пытается найти первую альтернативу, и если у нее это получается, то она не будет смотреть на все следующие.<br>
Но попытаемся теперь найти все варианты написания для Шараповой. Здесь можно использовать круглые скобки, которые, как и в языках программирования, задают группировку символов.

In [13]:
re.findall("Шарапов([ау]|ой)", article)

['ой']

С круглыми скобками все не так просто. Они задают не только группировку, но и группы. В примере выше Питон посчитал, что "Шарапов" - это обязательный контекст, а выражение в скобках - это именно та граппа, которая нас интересует. При наличии в шаблоне хотя бы одного комплекта круглых скобок, в выдачу попадает только то, что находится в скобках. Причем вместо одной строки нам может выдаваться целый список. Элементы списка будут расположены в соответствии с порядком открывающихся скобок. Исправим ситуацию, заключив всё выражение в скобки.

In [16]:
re.findall("(Шарапов([ау]|ой))", article)

[('Шараповой', 'ой')]

Необязательность фрагмента задается при помощи вопросительного знака. Давайте перепишем пример с числами, сказав, что будет идти одна цифра, после которой может идти еще одна необязательная цифра. Обратите внимание, что вопросительный знак относится здесь к квадратным скобкам. он всегда относится к той конструкции, которая идет перед ним: символу, перечислению, группе в круглых скобках и т.д.

In [12]:
re.findall("[0-9][0-9]?[0-9]?", article)

['1', '8', '9', '13']

В регулярных выражениях определена масса комбинаций для наиболее часто используемых конструкций. Так, например, цифра обозначается как `\d` , любой разделитель (пробел, табуляция, перенос строки, ...) - `\s`. Всё, что угодно, кроме цифры, обозначается как `\D`, кроме разделителя - `\S`.

Теперь ту же задачу можно решить вот так.

In [17]:
re.findall("\d\d?\d?", article)

['1', '8', '9', '13']

Теперь давайте вернемся к Шараповой и попробуем переписать шаблон для ее фамилии вот так. Здесь я имел в виду сократить усилия и задать еще и множественное число.

In [14]:
print(re.findall("Шарапов[ауоы][йхм]?", article))
print(re.findall("Шарапов[ауоы][йхм]?", "Шараповох"))

['Шараповой']
['Шараповох']


К сожалению, новый шаблон находит и неправильные варианты.<br>
Этим примером я хотел продемонстрировать, что регулярные выыражения нуждаются в отладке. А еще они должны делать вде вещи:
<ul><li>находить то, что нужно;</li>
<li>не находить то, что не нужно.</li></ul>
Заметьте, обе части одинаково важны.

Но вернемся к самим шаблонам. Мы можем сказать, что некоторая конструкция встречается несколько раз, причем заранее мы не знаем сколько. Символом звездочка задается встречаемость от нуля и более раз, символом плюс - встречаемость один и более раз. Теперь мы можем записать поиск произвольного числа, в том числе и дробей.

In [7]:
print(re.findall("\d/\d|\d+", article))
print(re.findall("\d/\d|\d+", "28/12 345 1 434444"))
print(re.findall("\d+/\d+|\d+", "28/12 345 1 434444"))

['1/8', '9', '13']
['28', '12', '345', '1', '434444']
['28/12', '345', '1', '434444']


С дробями снова получилось некрасиво. Перепишем шаблон, чтобы дроби в нем могли записываться многозначными числами. Это число, мосле которого может идти (а может и не идти) слэш и еще одно число.

In [18]:
print(re.findall("(\d+(/\d+)?)", "28/12 28/12/22 345 1 434444"))
print(re.findall("(\d+(/\d+)*)", "28/12 28/12/22 345 1 434444"))

[('28/12', '/12'), ('28/12', '/12'), ('22', ''), ('345', ''), ('1', ''), ('434444', '')]
[('28/12', '/12'), ('28/12/22', '/22'), ('345', ''), ('1', ''), ('434444', '')]


Теперь попытаемся извлечь все имена и фамилии из статьи. Имя (как и фамилия) - это большая буква кроме мягкого и твердого знаков, за которой следует от нуля маленьких букв. \s обозначает любой пробельный символ. Пробел - это символ пробела (так что не стоит использовать их для красивого оформления).

In [19]:
print(re.findall("[А-ЩЫЭЮЯЁ][а-яё]*\s[А-ЩЫЭЮЯЁ][а-яё]*", article))
print(re.findall("[А-ЩЫЭЮЯЁ][а-яё]* [А-ЩЫЭЮЯЁ][а-яё]*", article))

['Серена Уильямс', 'Глава Федерации', 'Бернар Джудичелли', 'Ролан Гаррос', 'Ролан Гаррос', 'Марией Шараповой', 'Казахстана Зарине']
['Серена Уильямс', 'Глава Федерации', 'Бернар Джудичелли', 'Ролан Гаррос', 'Ролан Гаррос', 'Марией Шараповой', 'Казахстана Зарине']


 Для того, чтобы задать символы кроме определенных, можно использовать знак крышки, но только в начале перечисления.

In [20]:
# Два слова с большой буквы, разделенные одним символов, только не буквой русского алфавита
print(re.findall("[А-ЩЫЭЮЯ][а-я]*[^А-Яа-яЁё][А-ЩЫЭЮЯ][а-я]*", article))
print(re.findall("[А-ЩЫЭЮЯ][а-я]*[^А-Яа-яЁё][А-ЩЫЭЮЯ][а-я]*", "Матрица8Расстояний"))

['Серена Уильямс', 'Глава Федерации', 'Бернар Джудичелли', 'Ролан Гаррос', 'Ролан Гаррос', 'Марией Шараповой', 'Индиан-Уэллсе', 'Казахстана Зарине']
['Матрица8Расстояний']


Да, получается так себе. Здесь предсавлены не только имена, но и сочетание из начала предложения.<br>
Точка в регулярных выражениях обозначает любой символ (кроме переноса строки в зависимости от параметров). Для того, чтобы показать, что в тексте должен быть именно символ точки, используется обратный слэш. Он же используется для других служебных символов: скобок, минуса и др. Но внутри перечисления обратный слэш не используется.

In [23]:
print(re.findall("\.\s*[А-ЩЫЭЮЯ][а-я]*[^А-Яа-яЁё][А-ЩЫЭЮЯ][а-я]*", article))
print(re.findall("[^.]\s?([А-ЩЫЭЮЯ][а-я]*[^А-Яа-яЁё][А-ЩЫЭЮЯ][а-я]*)", article))

['.Глава Федерации']
['Серена Уильямс', 'Бернар Джудичелли', 'Ролан Гаррос', 'Ролан Гаррос', 'Марией Шараповой', 'Индиан-Уэллсе', 'Казахстана Зарине']


Допустим, что вам надо записать регулярное выражение для поиска перечислений фамилий. Перечисление ведется одним из двух способов: через запятую с пробелом или через слэш, но точно не при помощи и того, и другого одновременно.<br> Попробуем записать следующее регулярное выражение.

In [21]:
print(re.findall("([А-ЩЫЭЮЯ][а-я]*((/|, )[А-ЩЫЭЮЯ][а-я]*)*)", "Иванов, Петров, Сидоров"))
print(re.findall("([А-ЩЫЭЮЯ][а-я]*((/|, )[А-ЩЫЭЮЯ][а-я]*)*)", "Иванов/Петров, Сидоров"))

[('Иванов, Петров, Сидоров', ', Сидоров', ', ')]
[('Иванов/Петров, Сидоров', ', Сидоров', ', ')]


Как видите, последнее условие не соблюдено: при наличии сразу двух разделителей строка всё равно находится.<br>
Чтобы избежать этого, используем адресацию групп в круглых скобках. Все группы нумеруются в порядке появления открывающей скобки. Если необходимо указать, что здесь находится такой же текст, как в группе с соответствующим номером, пишется обратный слэш и номере группы.<br>
Теперь перечисление будет задаваться следующим образом: имя, разделитель, имя, тот же разделитель, имя, ...

`r` перед началом строки означает, что все слэши трактуются как таковые, а не как специальные символы.

Функция `search` возвращает специальный объект, который, с одной стороны, показывает что он нашел, с другой стороны, позволяет продолжить поиск.

Если необходимо найти все вхождения, лучше использовать функцию `findall`, которая возвращает список найенных строк или кортежей (в зависимости от регулярного выражения).

In [26]:
mo=re.search(r"([a-z]+) \1","the the no the")
print(mo.group(0))
mo=re.search(r"([^ ]+) (\1)","the the no the")
print(mo.group(0))
print(re.findall(r"1(\d+)3(\1)5", "1223225"))
print(re.findall(r"([А-ЩЫЭЮЯ][а-я]*((/|, )[А-ЩЫЭЮЯ][а-я]*)(\3[А-ЩЫЭЮЯ][а-я]*)*)", "Иванов, Петров, Сидоров"))
print(re.findall(r"([А-ЩЫЭЮЯ][а-я]*((/|, )[А-ЩЫЭЮЯ][а-я]*)(\3[А-ЩЫЭЮЯ][а-я]*)*)", "Иванов/Петров, Сидоров"))

the the
the the
[('22', '22')]
[('Иванов, Петров, Сидоров', ', Петров', ', ', ', Сидоров')]
[('Иванов/Петров', '/Петров', '/', '')]


По умолчанию регулярное выражение осуществляет "жадный" поиск, то есть ищет максимально длинную подстроку. Иногда нам бывает необходимо добиться обратного эффекта. Например, все теги html открываются и закрываются трегольными скобками. Если мы попросим найти все символы между двумя треугольными скобками, регулярное выражение возьмет всю подстроку от первого до последнего тега.

In [45]:
re.findall("<.+>", "asd <tag1> asd <tag2> sdf")

['<tag1> asd <tag2>']

Для того, чтобы вести "не жадный" поиск вместо \* и \+ необходимо использовать \*? и \+?.

In [37]:
re.findall("<.+?>", "asd <tag1> asd <tag2> sdf")

['<tag1>', '<tag2>']

Регулярные выражения позволяют не только искать по ним, но и делить строку на части. Например, если нам необходимо разделить текст на предложения, мы можем просто разделить его по соответствующим знакам препинания, пока не слишком задумываясь о точности такого разделения.

In [39]:
re.split("[.?!]", article)

['Американская теннисистка Серена Уильямс не сможет выступать в костюме кошки на Открытом чемпионате Франции',
 ' Об этом сообщает ESPN',
 'Глава Федерации тенниса Франции (FFT) Бернар Джудичелли заявил, что на очередном турнире будет действовать дресс-код для спортсменок',
 ' Костюм наподобие того, что носила Уильямс на турнире «Ролан Гаррос» теперь пол запретом',
 ' Чиновник отметил, что правила будут не настолько строгими, как на Уимблдоне, но будут очерчены определенные рамки',
 'Уильямс выступала в черном костюме кошки на последнем турнире «Ролан Гаррос»',
 ' Американка дошла до 1/8 финала турнира, где должна была встретиться с россиянкой Марией Шараповой',
 ' Однако из-за травмы, полученной накануне, она была вынуждена отказаться от матча',
 '9 марта Уильямс вернулась в большой теннис после 13-месячного перерыва в связи с рождением ребенка',
 ' На турнире в Индиан-Уэллсе американка уступила теннисистке из Казахстана Зарине Дияс',
 '']

Наконец, мы можем заменить одну подстроку на другую при помощи функции `sub`.

In [27]:
re.sub("(\d+(/\d+)?)", "ЧИСЛО", article)

'Американская теннисистка Серена Уильямс не сможет выступать в костюме кошки на Открытом чемпионате Франции. Об этом сообщает ESPN.Глава Федерации тенниса Франции (FFT) Бернар Джудичелли заявил, что на очередном турнире будет действовать дресс-код для спортсменок. Костюм наподобие того, что носила Уильямс на турнире «Ролан Гаррос» теперь пол запретом. Чиновник отметил, что правила будут не настолько строгими, как на Уимблдоне, но будут очерчены определенные рамки.Уильямс выступала в черном костюме кошки на последнем турнире «Ролан Гаррос». Американка дошла до ЧИСЛО финала турнира, где должна была встретиться с россиянкой Марией Шараповой. Однако из-за травмы, полученной накануне, она была вынуждена отказаться от матча.ЧИСЛО марта Уильямс вернулась в большой теннис после ЧИСЛО-месячного перерыва в связи с рождением ребенка. На турнире в Индиан-Уэллсе американка уступила теннисистке из Казахстана Зарине Дияс.'

Если одно и то же выражение используется многократно, можно ускорить его применение за счёт предварительной компиляции при помощи фукнции `compile`.  этом случае нужно получить откомпилированный объект, для которого можно вызывать те же самые функции, но уже не передавать регулярное выражение.

In [41]:
renumber=re.compile("(\d+(/\d+)?)")
renumber.sub("ЧИСЛО", article)

'Американская теннисистка Серена Уильямс не сможет выступать в костюме кошки на Открытом чемпионате Франции. Об этом сообщает ESPN.Глава Федерации тенниса Франции (FFT) Бернар Джудичелли заявил, что на очередном турнире будет действовать дресс-код для спортсменок. Костюм наподобие того, что носила Уильямс на турнире «Ролан Гаррос» теперь пол запретом. Чиновник отметил, что правила будут не настолько строгими, как на Уимблдоне, но будут очерчены определенные рамки.Уильямс выступала в черном костюме кошки на последнем турнире «Ролан Гаррос». Американка дошла до ЧИСЛО финала турнира, где должна была встретиться с россиянкой Марией Шараповой. Однако из-за травмы, полученной накануне, она была вынуждена отказаться от матча.ЧИСЛО марта Уильямс вернулась в большой теннис после ЧИСЛО-месячного перерыва в связи с рождением ребенка. На турнире в Индиан-Уэллсе американка уступила теннисистке из Казахстана Зарине Дияс.'

На результаты работы регулярного выыражения влияют также флаги компиляции, передающиеся параметром в функцию компиляции: `re.I` (ignore case), `re.L` (locale dependent), `re.M` (multi-line), `re.S` (dot matches all), `re.U` (Unicode dependent), and `re.X` (verbose).

Например, флаг re.S говорит, что символ `.` должен трактоваться не только как символ, но и как перенос строки.

In [44]:
tag=re.compile('<.+?>')
tag2=re.compile('<.+?>', re.S)
print(tag.findall("asd <tag> asd"))
print(tag.findall("asd <ta\ng> asd"))
print(tag2.findall("asd <tag> asd"))
print(tag2.findall("asd <ta\ng> asd"))

['<tag>']
[]
['<tag>']
['<ta\ng>']


Для того, чтобы раздвинуть свои просторы мышления в плане регулярных выражений, можно почитать документацию, а можно попробовать решать примеры из [Regex Golf](http://alf.nu/RegexGolf) (или даже поразбирать чужие решения, параллельно консультируясь с [документацией](https://docs.python.org/2/library/re.html)).
![](https://imgs.xkcd.com/comics/regex_golf.png)

Потренироваться в написании регулярных выражений можно на сайте <a href="https://regex101.com/">regex101.com</a><br>
Сверху пишется регулярное выражение, под ним поле для вашего текста, в котором будет проводиться поиск по этому регулярному выражению.<br>
Попробуйте написать регулярные выражения:
<ul><li>числа с плавающей точкой;</li>
<li>числа с плавающей точкой с экспонентой, причем экспоненты может не быть;</li>
<li>простой адрес электронной почты;</li>
<li>адрес электронной почты, возможно, с фрагментами, разделенными точкой;</li>
<li>фамилия и инициалы с одной из двух сторон;</li>
<li>дата;</li>
<li>дата в произвольном формате.</li></ul>

Я буду очень признателен, если вы сможете помочь мне в исследовании, пройдя [следующий тест](http://cosyco.ru/under/rus.html).