Создание вашего первого веб-скрапера с помощью регулярных выражений
Из предыдущего раздела вы узнали о самом эффективном способе поиска произвольных шаблонов текста в строковых значениях: регулярных
Создание вашего первого веб-скрапера с помощью 
выражениях. Этот раздел еще больше вдохновит вас на использование регулярных выражений и укрепит ваши знания с помощью практического примера.
Общее описание
Допустим, вы разработчик-фрилансер. Вашему заказчику — финансово-технологическому стартапу — постоянно нужны последние новости в сфере криптовалют. Они наняли вас для написания веб-скрапера, который бы регулярно извлекал исходный HTML-код из новостных сайтов и искал в нем слова, начинающиеся с 'crypto' (например, 'cryptocurrency', 'crypto-bot', 'crypto-crash' и т. д.).


Возникает идея: исключить ложноположительные
результаты за счет поиска только тех вхождений, в которых за словом 'crypto' следует до 30 произвольных символов, за которыми следует слово 'coin'. Грубо говоря, поисковый запрос выглядит так: crypto + <до 30 произвольных символов> + coin. Рассмотрим следующие два примера:
'crypto-bot that is trading Bitcoin' — да;
'cryptographic encryption methods that can be cracked easily with quantum computers' — нет.
Итак, проблема состоит в том, что регулярное выражение должно допускать до 30 произвольных символов между двумя строками символов. Как решить эту выходящую за пределы простого поиска строк задачу? Перебрать все комбинации символов не получится — их количество практически бесконечно. Например, нашему поисковому шаблону должны соответствовать все следующие строковые значения: 'cryptoxxxcoin', 'crypto coin', 'crypto bitcoin', 'crypto is a currency. Bitcoin', а также остальные сочетания до 30 символов между двумя строками. Даже если в алфавите всего 26 символов, количество теоретически удовлетворяющих нашему требованию строк символов превышает 26^30 = 2 813 198 901 284 745 919 258 621 029 615 971 520 741 376. Далее мы расскажем вам, как искать в тексте задаваемый регулярным выражением шаблон, которому соответствует большое количество возможных комбинаций символов.

В этом коде мы ищем в заданном строковом значении вхождения, в которых за строкой символов 'crypto' следует до 30 произвольных символов, за которыми следует слово 'coin'. 

In [1]:
import re
## Данные
text_1 = "crypto-bot that is trading Bitcoin and other currencies"
text_2 = "cryptographic encryption methods that can be cracked easily with quantum computers"

pattern = re.compile("crypto(.{1,30})coin")

print(pattern.match(text_1))
print(pattern.match(text_2))


<re.Match object; span=(0, 34), match='crypto-bot that is trading Bitcoin'>
None


Принцип работы
Во-первых, мы импортируем стандартный модуль для работы с регулярными выражениями в Python, re. Самое интересное происходит в однострочнике, где компилируется поисковый запрос crypto(.{1,30})coin. С помощью этого запроса мы и будем производить поиск в различных строковых значениях. В нем используются специальные символы регулярных выражений. Прочитайте их список внимательно, от начала до конца, и вы поймете смысл шаблона из листинга 5.2:
шаблон () предназначен для поиска соответствия указанному внутри него регулярному выражению;
шаблону . соответствует любой произвольный символ;
шаблону {1,30} соответствует от 1 до 30 вхождений предыдущего регулярного выражения;
шаблону ({1,30}) соответствует строковое значение, включающее от 1 до 30 произвольных символов;
шаблону crypto(.{1,30})coin соответствует строковое значение, состоящее из трех частей: слова 'crypto', последовательности, включающей от 1 до 30 символов, и следующего за ними слова 'coin'.
Мы упомянули, что шаблон скомпилирован, поскольку Python создает объект шаблона, который можно повторно применять в разных местах — подобно тому, как скомпилированную программу можно использовать многократно. Теперь можно вызвать функцию match() нашего скомпилированного шаблона, и будет произведен поиск по тексту. В результате получим следующее:

In [2]:
print(pattern.match(text_1))
print(pattern.match(text_2))

<re.Match object; span=(0, 34), match='crypto-bot that is trading Bitcoin'>
None


Строковая переменная text_1 соответствует шаблону (что видно из полученного объекта Match), а text_2 — нет (что видно из результата None). И хотя текстовое представление первого объекта выглядит не слишком изящно, но ясно указывает, что заданная строка 'crypto-bot that is trading Bitcoin' соответствует регулярному выражению.