Во-первых, нужно разобраться, как найти произвольный символ с помощью регулярного выражения «точка», то есть символа .. Регулярное выражение «точка» соответствует любому символу (включая пробельные). С его помощью можно указать, что неважно, какой именно символ найден, лишь бы был найден ровно один:

In [1]:
import re

text = '''A blockchain, originally block chain,
is a growing list of records, called blocks,
which are linked using cryptography.
'''

print(re.findall('b...k', text))

['block', 'block', 'block']


В этом примере используется метод findall() модуля re. Первый его аргумент — собственно, само регулярное выражение: мы ищем произвольную комбинацию символов, начинающуюся с символа 'b', за которым следуют три произвольных символа, ..., за которыми следует символ 'k'. Регулярному выражению b...k соответствует не только строка символов 'block', но и 'boook', 'b erk' и 'bloek'. Второй параметр метода findall() — текст, в котором производится поиск. Строковая переменная text содержит три подходящих шаблона символов, как видно из выведенных оператором print результатов.

Регулярное выражение «звездочка»
Во-вторых, пусть требуется найти текст, который будет начинаться и заканчиваться символом 'y', с произвольным количеством символов посередине.
Как это сделать? С помощью регулярного выражения «звездочка», то есть символа *. В отличие от регулярного выражения «точка», регулярное выражение «звездочка» не является самостоятельным, а лишь модифицирует смысл других регулярных выражений. Рассмотрим следующий пример:

In [2]:
print(re.findall('y.*y', text))

['yptography']


Оператор «звездочка» применяется к расположенному непосредственно перед ним регулярному выражению. В этом примере задаваемый регулярным выражением шаблон начинается с 'y', далее следует произвольное количество символов, .*, за которыми снова следует символ 'y'. Как видите, слово 'cryptography' содержит одно вхождение этого шаблона: 'yptography'.
Возможно, вы недоумеваете, почему этот код не находит длинную подстроку между 'originally' и 'cryptography', которая тоже вроде бы соответствует шаблону регулярного выражения y.*y. Дело в том, что оператор «точка» соответствует любому символу, кроме символа новой строки. В переменной text хранится многострочное строковое значение, включающее три символа новой строки. Оператор «звездочка» можно использовать и в сочетании с любым другим регулярным выражением. Например, регулярному выражению abc* соответствуют строки символов 'ab', 'abc', 'abcc' и 'abccdc'.

В-третьих, нужно уметь находить соответствие типа «один или ни одного» с помощью регулярного выражения, символа ?. Подобно оператору *, знак вопроса модифицирует какое-либо другое регулярное выражение, как можно видеть из следующего примера:

In [3]:
print(re.findall('blocks?', text))

['block', 'block', 'blocks']


Регулярное выражение «один или ни одного», ?, применяется к регулярному выражению, располагающемуся непосредственно перед ним, в данном случае к символу s. Регулярное выражение «один или ни одного» означает, что модифицируемый им шаблон необязателен.

В пакете re Python знак вопроса может использоваться и по-другому, но к регулярному выражению «один или ни одного» это отношения не имеет: знак вопроса в сочетании с оператором «звездочка», *?, служит для «нежадного» (nongreedy) поиска соответствия шаблону. Например, при указании регулярного выражения .*? Python ищет минимальное количество произвольных символов. И наоборот, при указании оператора «звездочка» * без знака вопроса он «жадно» ищет соответствие как можно большего количества символов.
Рассмотрим пример. При поиске в строке HTML-кода '<div>hello world</div>' по регулярному выражению <.*> возвращается вся строка символов '<div>hello world</div>', а не только префикс '<div>'. Если же нужен только префикс, необходимо воспользоваться «нежадным» регулярным выражением <.*?>:

In [6]:
txt = '<div>hello world</div>'

print(re.findall('<.*>', txt))
print(re.findall('<.*?>', txt))

['<div>hello world</div>']
['<div>', '</div>']


Роль входных данных играет строковое значение, а задача состоит в поиске с помощью «нежадного» подхода всех комбинаций символов, начинающихся с символа 'p', заканчивающихся символом 'r' и включающих посередине между ними хотя бы одно вхождение символа 'e' (и, возможно, произвольное количество других символов)!
Подобные текстовые запросы встречаются очень часто, особенно в компаниях, занимающихся обработкой текста, распознаванием речи или машинным переводом (например, компаниях, разрабатывающих поисковые системы, социальные сети и видеоплатформы).

In [7]:
import re

text1 = 'peter piper picked a peck of pickled peppers'

res = re.findall('p.*?e.*?r', text1)
print(res)

['peter', 'piper', 'picked a peck of pickled pepper']


. - любый один символ, * любое колличевство символов, ? - один или не одного символа, .*? - не жадный способ, тоесть искать будет минимум. 

Поисковый запрос регулярного выражения — p.*?e.*?r. Рассмотрим его по частям. Мы ищем фразу, начинающуюся с символа 'p' и заканчивающуюся символом 'r'. Кроме того, между ними должно встречаться хотя бы одно вхождение символа 'e'. Кроме того, допускается произвольное количество символов (как пробельных, так и прочих). Поиск производится «нежадным» образом, с помощью .*?, поэтому Python будет искать минимальное количество произвольных символов. Вот результат:

Сравните этот результат с получаемым при использовании «жадного» регулярного выражения p.*e.*r:

In [10]:
res = re.findall('p.*e.*r', text1)
print(res)

['peter piper picked a peck of pickled pepper']


Первый «жадный» оператор «звездочка» * захватывает практически всю строку до конца.