Тема урока: модуль re
Функция split()
Функция compile()
Аннотация. Данный урок посвящен модулю re, который позволяет работать с регулярными выражениями в Python.

Функция split()

Как мы знаем, строковый тип данных str содержит метод split(), который разбивает строку текста на подстроки, используя в качестве разделителя переданную строку.

In [1]:
print('stepik beegeek       python'.split())             # по умолчанию разбиваем через пробельные символы
print('aaa,bbbb,ccccc'.split(','))
print('hello---world---from---beegeek'.split('---'))

['stepik', 'beegeek', 'python']
['aaa', 'bbbb', 'ccccc']
['hello', 'world', 'from', 'beegeek']


В модуле re есть более мощная функция split(), работающая аналогичным образом.

Функция re.split() разбивает строку на подстроки, используя регулярное выражение в качестве разделителя, и возвращает подстроки в виде списка.

Аргументы функции:

pattern — шаблон регулярного выражения
string — строка для поиска
maxsplit=0 — максимальное количество разбиений (необязательный аргумент)
flags=0 — один или несколько флагов (необязательный аргумент)

In [2]:
import re

result = re.split(r'[,;.]', 'foo,bar.baz;qux;stepik,beegeek')
# разбивает строку на подстроки, используя в качестве разделителя один из трех символов ,, ; или .
print(result)

['foo', 'bar', 'baz', 'qux', 'stepik', 'beegeek']


In [3]:
import re

result = re.split(r'\s*[,;.]\s*', 'foo,   bar. baz   ;    qux ;  stepik   ,   beegeek')
# разбивает строку на подстроки, используя в качестве разделителя один из трех символов ,, ; или ., окруженный любым количеством пробелов s - spase
print(result)

['foo', 'bar', 'baz', 'qux', 'stepik', 'beegeek']


Если шаблон регулярного выражения содержит группы захвата, то возвращаемый список помимо подстрок также включает в себя эти группы.

In [4]:
import re

result1 = re.split(r'\s*([,;.])\s*', 'foo,   bar. baz   ;    qux ;  stepik   ,   beegeek')
result2 = re.split(r'(\s*[,;.]\s*)', 'foo,   bar. baz   ;    qux ;  stepik   ,   beegeek')

print(result1)
print(result2)

['foo', ',', 'bar', '.', 'baz', ';', 'qux', ';', 'stepik', ',', 'beegeek']
['foo', ',   ', 'bar', '. ', 'baz', '   ;    ', 'qux', ' ;  ', 'stepik', '   ,   ', 'beegeek']


Как мы видим, результирующий список result2 содержит не только подстроки, но и сами группы, соответствующие шаблону регулярного выражения:

',   '
'. '
'   ;    '
' ;  '
'   ,   '

Такое поведение может быть полезно, если мы хотим разделить строку на подстроки некоторыми разделителями, затем обработать все полученные подстроки, а затем снова собрать строку вместе, используя те же разделители.

In [5]:
import re

string = 'foo,bar.baz;  qux;stepik,    beegeek'
regex = r'(\s*[,;.]\s*)'

result = re.split(regex, string)

for index, value in enumerate(result):
    if not re.fullmatch(regex, value):
        result[index] = f'[{value}]'

new_string = ''.join(result)

print(string)
print(new_string)

foo,bar.baz;  qux;stepik,    beegeek
[foo],[bar].[baz];  [qux];[stepik],    [beegeek]


Если нам нужно использовать группы, но мы не хотим, чтобы разделители включались в результирующий список, то можно использовать группы без захвата, используя синтаксис (?:<regex>).

In [6]:
import re

result = re.split(r'(?:\s*[,;.]\s*)', 'foo,   bar. baz   ;    qux ;  stepik   ,   beegeek')

print(result)

['foo', 'bar', 'baz', 'qux', 'stepik', 'beegeek']


Ограничение количества разбиений

Мы можем использовать необязательный аргумент maxsplit для задания максимального количества разбиений строки.

In [7]:
import re

text = 'foo; bar;   baz; qux;   stepik;    beegeek'
regex = r';\s*'

result1 = re.split(regex, text)
result2 = re.split(regex, text, maxsplit=2)
result3 = re.split(regex, text, maxsplit=4)

print(result1)
print(result2)
print(result3)

['foo', 'bar', 'baz', 'qux', 'stepik', 'beegeek']
['foo', 'bar', 'baz; qux;   stepik;    beegeek']
['foo', 'bar', 'baz', 'qux', 'stepik;    beegeek']


Как мы видим, последний элемент в результирующем списке — это часть начальной строки, оставшаяся после того, как произошли все разбиения в заданном количестве maxsplit.

Явное указание maxsplit=0 эквивалентно его полному отсутствию. При этом если значение maxsplit является отрицательным числом, то функция re.split() возвращает исходную строку без изменений.

Примечания

Примечание 1. Функция re.split() неоценима для преобразования текстовых данных в структуры данных, которые могут быть легко прочитаны и изменены Python.

Примечание 2. Строковый метод split() также содержит необязательный аргумент maxsplit.

In [8]:
text = 'foo;bar;baz;beegeek;stepik;python'

print(text.split(sep=';', maxsplit=2))

['foo', 'bar', 'baz;beegeek;stepik;python']


In [9]:
import re 

result = re.split(r'(/)', '/beegeek/stepik/python/')

print(result)

['', '/', 'beegeek', '/', 'stepik', '/', 'python', '/', '']


В приведенном примере разделителем является один символ косой черты /, заключенный в группу. Таким образом, слева от первого разделителя и справа от последнего находится пустая строка. Поэтому функция re.split() помещает пустые строки в качестве первого и последнего элементов возвращаемого списка. Аналогично работает и строковый метод split().

In [10]:
result = '/beegeek/stepik/python/'.split('/')

print(result)

['', 'beegeek', 'stepik', 'python', '']


In [11]:
text = 'bee     geek py  stepik          python'

result1 = text.split()
result2 = text.split(' ')
# Несколько раз сталкивался но уже забыл, что в случае с sep=" ", могут оставаться пустые строки. А по умолчанию (the default value) пустые строки удаляются(discard empty strings from the result)
print(result1 == result2)

False


In [14]:
import re

result = re.split(r'\D+', '1 + 2 - 3 * 4')
# \d-[0-9]   - любая цифра
# \D-[^0-9] - любой нецифровой символ
print(result)

['1', '2', '3', '4']


In [12]:
import re

result = re.split(r'\D+', '1 + 2 - 3 =')

print(result)

['1', '2', '3', '']


In [None]:
import re

result = re.split(r'(\w+)\1', 're pypy py rere re')
# разделителем в этом примере будет набор из символов \w+, за которым следует этот же набор (повторение \1). В данном случае разделителя два:  pypy и  rere (состоят из повторяющихся слогов). То есть разделенная строка в виде списка частей будет выглядеть так: 're ', ' py ', ' re'. Но так как в регулярном выражении выделена группа (\w+), то к частям разделенной строки в списке будут добавлены элементы, соответствующие группе (в данном случае это py и re (мы не берем pypy и  rere, так как группа это только набор без повтора)). 
print(result)

Точка с запятой
Напишите программу, которая разбивает строку по символам точки, запятой и точки с запятой.

Формат входных данных
На вход программе подается строка, содержащая различные значения, разделенные символами точки ., запятой , или точки с запятой ;, вокруг которых могут располагаться пробелы.

Формат выходных данных
Программа должна разбить введенную строку по символам точки, запятой и точки с запятой, захватывая вокруг стоящие пробелы, и вывести все значения, полученные при разбиении, через пробел.

In [23]:
import re

result = re.split(r'(?:\s*[,;.]\s*)', input())

print(*result)

arthur timur dima anri


Логическое выражение
Дано логическое выражение, состоящее из переменных, а также операторов |, &, and или or. Напишите программу, которая разбивает данную строку по указанным операторам.

Формат входных данных
На вход программе подается строка, содержащая логическое выражение, которое состоит из переменных и операторов |, &, and или or, между которыми могут располагаться пробелы.

Формат  выходных данных
Программа должна разбить введенную строку по указанным логическим операторам, захватывая вокруг стоящие пробелы, и вывести все значения, полученные при разбиении, через запятую и пробел.

In [47]:
import re

result = re.split(r'\s*(?:and|or|\&|\|)\s*', input())

print(', '.join(result))

a, b, c


Функция multiple_split()
Реализуйте функцию multiple_split(), которая принимает два аргумента:

string — строка
delimiters — список строк
Функция должна разбивать строку string на подстроки, используя в качестве разделителей строки из списка delimiters, и возвращать полученный результат в виде списка.

Примечание 1. Другими словами, функция multiple_split() должна работать аналогично строковому методу split(), за тем исключением, что delimiters может содержать не единственный разделитель, а целый набор разделителей.

Примечание 2. В тестирующую систему сдайте программу, содержащую только необходимую функцию multiple_split(), но не код, вызывающий ее.

In [57]:
import re
def multiple_split(string: str, delimiters: list):    
    return re.split('|'.join(map(re.escape, delimiters)), string)
# Функция re.escape используется для экранирования (то есть, добавления обратных слэшей) специальных символов в строке, чтобы их можно было безопасно использовать в регулярных выражениях.
# '|'.join(...) joins the escaped delimiters into a single pattern with | (OR) to match any of the delimiters.
print(multiple_split('beegeek-python.stepik', ['.', '-']))

['beegeek', 'python', 'stepik']


Функция compile()

Модуль re поддерживает возможность предварительной компиляции регулярного выражения в специальный объект, который можно повторно использовать позже. Для этого используется функция compile().

Аргументы функции:

regex — шаблон регулярного выражения
flags=0 — один или несколько флагов (необязательный аргумент)

Существует два способа использования скомпилированного объекта регулярного выражения.

1 способ: мы можем его указать в качестве первого аргумента для функций модуля re, вместо шаблона регулярного выражения.

In [59]:
import re

regex_obj = re.compile(r'\d+')
text = 'ул. Часовая, дом № 25, корпус 2, квартира 69'
result = re.findall(regex_obj, text)

print(result)

['25', '2', '69']


 В общем случае:

```
import re

regex_obj = re.compile(<regex>, <flags>)

result = re.search(regex_obj, <string>)     # match(), fullmatch(), findall(), finditer()
```

2 способ: мы можем вызывать функции как методы непосредственно из объекта регулярного выражения.

In [62]:
import re

regex_obj = re.compile(r'\d+')
text = 'ул. Часовая, дом № 25, корпус 2, квартира 69'
result = regex_obj.findall(text)

print(result)

['25', '2', '69']


 В общем случае:

```
regex_obj = re.compile(<regex>, <flags>)
result = regex_obj.search(<string>)         # match(), fullmatch(), findall(), finditer()
```

Приведем пример с использованием флага.

In [63]:
import re

regex_obj = re.compile('ba[rz]', flags=re.I)

result1 = re.search('ba[rz]', 'FOOBARBAZ', flags=re.I)
result2 = re.search(regex_obj, 'FOOBARBAZ')
result3 = regex_obj.search('FOOBARBAZ')

print(result1)
print(result2)
print(result3)

<re.Match object; span=(3, 6), match='BAR'>
<re.Match object; span=(3, 6), match='BAR'>
<re.Match object; span=(3, 6), match='BAR'>


Как мы видим, все три объекта result1, result2 и result3 содержат одинаковые значения.

Возникает резонный вопрос: для чего нужна предварительная компиляция? Если мы часто используем одно и то же регулярное выражение, то предварительная компиляция позволяет нам отделить определение регулярного выражения от его использования, что повышает читабельность кода.

In [65]:
import re

s1, s2, s3, s4 = 'foo.bar', 'foo123bar', 'baz99', 'qux & grault'

print(re.search(r'\d+', s1))
print(re.search(r'\d+', s2))
print(re.search(r'\d+', s3))
print(re.search(r'\d+', s4))

None
<re.Match object; span=(3, 6), match='123'>
<re.Match object; span=(3, 5), match='99'>
None


Регулярное выражение \d+ появляется несколько раз. Если в результате поддержки (изменения) кода, мы решим, что нам нужно другое регулярное выражение, то нам нужно будет изменить его в каждом месте, что не очень удобно.

Приведенный ниже код, решает эту проблему, делая программный код более удобным в сопровождении:

In [67]:
import re

s1, s2, s3, s4 = 'foo.bar', 'foo123bar', 'baz99', 'qux & grault'

regex_obj = re.compile(r'\d+')

print(regex_obj.search(s1))
print(regex_obj.search(s2))
print(regex_obj.search(s3))
print(regex_obj.search(s4))

None
<re.Match object; span=(3, 6), match='123'>
<re.Match object; span=(3, 5), match='99'>
None


**Методы скомпилированного объекта регулярного выражения**

Скомпилированный объект регулярного выражения поддерживает следующие методы:

search(string, pos, endpos)
match(string, pos, endpos)
fullmatch(string, pos, endpos)
findall(string, pos, endpos)
finditer(string, pos, endpos)

Данные методы ведут себя так же, как соответствующие (одноименные) им функции модуля re, за исключением того, что они также поддерживают необязательные аргументы pos и endpos.

Если аргументы pos и endpos переданы, то поиск применяется только к части строки string, от pos (включительно), до endpos (не включительно), подобно индексам в срезах.

In [69]:
import re

regex_obj = re.compile(r'\d+')
text = 'foo12345barbaz'

print(regex_obj.search(text))
print(regex_obj.search(text, pos=4))
print(regex_obj.search(text, endpos=7))
print(regex_obj.search(text, pos=4, endpos=7))

<re.Match object; span=(3, 8), match='12345'>
<re.Match object; span=(4, 8), match='2345'>
<re.Match object; span=(3, 7), match='1234'>
<re.Match object; span=(4, 7), match='234'>


Если указать pos, но опустить endpos, то поиск будет применяться к подстроке от pos до конца строки. Аналогично, если указать endpos, но опустить pos, то поиск будет применяться к подстроке от начала строки до endpos.

Примечания

Примечание 1. Модуль re компилирует и кэширует регулярное выражение, когда оно используется в вызове функции. Если одно и то же регулярное выражение используется впоследствии в том же коде, оно не перекомпилируется. Вместо этого скомпилированное значение извлекается из кэша. В общем, нет никаких веских причин для компиляции регулярного выражения. Это всего лишь еще один инструмент в вашем наборе инструментов, который вы можете использовать, если считаете, что он улучшит читабельность или структуру вашего кода.

Примечание 2. Скомпилированный объект регулярного выражения имеет тип Pattern.

In [71]:
import re

regex_obj = re.compile(r'\d')

print(type(regex_obj))

<class 're.Pattern'>


Сумма чисел
Напишите программу, которая складывает все натуральные числа в строке, находящиеся в указанном диапазоне индексов.

Формат входных данных
На вход программе сначала подаются два целых числа a и b, больших или равных 0, разделенные пробелом, а затем — строка.

Формат выходных данных
Программа должна вывести сумму всех натуральных чисел в введенной строке, находящихся в диапазоне индексов от a (включительно) до b (не включительно). Если в указанном диапазоне нет ни одного числа, программа должна вывести 0.

In [83]:
import re

# a, b = map(int, input().split())
a, b = 0, 5
# a, b = 0, 10
# a, b = 0, 100
# text = input()
text = "11:20 a.m. - 12:00 p.m"
# text = "Нет ни одного числа в этой строке"

regex_obj = re.compile(r'\d+')
lst = regex_obj.findall(text, pos=a, endpos=b)

print(sum(map(int, lst)))

31


In [85]:
s = '0 5'
map(int, s.split())

<map at 0x1e4bd40d0f0>