Тема урока: модуль re
Функция sub()
Функция subn()
Аннотация. Данный урок посвящен модулю re, который позволяет работать с регулярными выражениями в Python.

Функция sub()

Функция sub() возвращает строку, полученную путем замены всех найденных неперекрывающихся вхождений регулярного выражения pattern в строке string на строку замены repl.

Аргументы функции:

pattern — шаблон регулярного выражения
repl — строка замены
string — строка для поиска
count=0 — максимальное число замен (необязательный аргумент)
flags=0 — один или несколько флагов (необязательный аргумент)

 Если шаблон регулярного выражения не найден, строка возвращается без изменений.

Аргумент repl может быть строкой или функцией. Если repl это строка, то в ней обрабатываются все обратные слеши, то есть \n преобразуется в символ новой строки, \r преобразуется в возврат каретки и т. д.

In [1]:
import re

text = 'Java самый популярный язык программирования в 2022 году.'

res = re.sub(r'Java', r'Python', text)

print(res)

Python самый популярный язык программирования в 2022 году.


Обратите внимание на то, что функция sub() создает и возвращает новую строку с указанными заменами. Исходная строка остается неизменной, ведь в Python строки неизменяемы по своей природе.

Рассмотрим подробнее ситуации, когда аргумент repl является строкой, а когда функцией.

Замена строкой

Если аргумент repl является строкой, то функция sub() вставляет ее в строку поиска string вместо любых последовательностей, соответствующих регулярному выражению pattern.

In [2]:
import re

text = 'foo.123.bar.456.baz.789.geek'

result1 = re.sub(r'\d+', r'#', text)
result2 = re.sub(r'[a-z]+', r'(*)', text)

print(result1)
print(result2)

foo.#.bar.#.baz.#.geek
(*).123.(*).456.(*).789.(*)


Первый вызов функции sub() заменяет последовательность подряд идущих цифр на символ #. Второй вызов функции sub() заменяет последовательность подряд идущих строчных латинских букв на (*).

При использовании функции sub() мы также можем использовать пронумерованные обратные ссылки (\<n>) в аргументе repl, которым будет соответствовать текст захваченной группы. Обратные ссылки, такие как \2, заменяются подстрокой, соответствующей группе №2 в шаблоне регулярного выражения.

In [3]:
import re

result = re.sub(r'(\w+),bar,baz,(\w+)', r'\2,bar,baz,\1', r'foo,bar,baz,qux')

print(result)

qux,bar,baz,foo


Захваченные группы \1 и \2 содержат foo и qux. В строке замены \2,bar,baz,\1, foo заменяет \1, а qux заменяет \2.

Мы также можем использовать именованные обратные ссылки, созданные с помощью уже знакомого нам синтаксиса (?P<name><regex>) в строке замены, используя последовательность метасимволов \g<name>.

In [4]:
import re

result = re.sub(r'foo,(?P<w1>\w+),(?P<w2>\w+),qux', r'foo,\g<w2>,\g<w1>,qux', r'foo,bar,baz,qux')

print(result)

foo,baz,bar,qux


Захваченные группы w1 и w2 содержат bar и baz. В строке замены foo,\g<w2>,\g<w1>,qux, bar заменяет \g<w1>, а baz заменяет \g<w2>.

Замена с помощью функции

Если в качестве аргумента repl использовать функцию, то функция sub() вызовет эту функцию для каждого найденного совпадения. Она передает каждый соответствующий объект совпадения (тип Match) в качестве аргумента функции для предоставления информации о совпадении, при этом возвращаемое из функции значение становится строкой замены.

In [5]:
import re
def func(match_obj):
    s = match_obj.group(0)         # строка совпадения
    if s.isdigit():
        return str(int(s) * 10)
    else:
        return s.upper()

result = re.sub(r'\w+', func, r'foo.10.bar.20.baz30.40')

print(result)

FOO.100.BAR.200.BAZ30.400


В этом примере функция func() вызывается для каждого найденного совпадения. Таким образом, функция sub() преобразует каждую буквенно-цифровую часть строки в верхний регистр и умножает каждую числовую часть на 10.

Функция, передаваемая в качестве аргумента repl, должна принимать один аргумент — объект соответствия (тип Match) и возвращать строку замены.

Ограничение количества замен

Мы можем использовать необязательные аргументы count (количество замен) и flags для более детальной настройки замены.

In [6]:
import re

text = 'Java самый популярный язык программирования в 2022 году. Язык java — строго типизированный объектно-ориентированный язык программирования общего назначения, разработанный компанией Sun Microsystems. Приложения Java обычно транслируются в специальный байт-код, поэтому они могут работать на любой компьютерной архитектуре, для которой существует реализация виртуальной Java-машины.'

res = re.sub(r'Java', r'Python', text, count=3, flags=re.I)

print(res)

Python самый популярный язык программирования в 2022 году. Язык Python — строго типизированный объектно-ориентированный язык программирования общего назначения, разработанный компанией Sun Microsystems. Приложения Python обычно транслируются в специальный байт-код, поэтому они могут работать на любой компьютерной архитектуре, для которой существует реализация виртуальной Java-машины.


Если необязательному аргументу count передать число, которое больше количества найденных вхождений в строке, то будет произведена замена всех этих вхождений.

Если в строке найдено, например, 4 вхождения, а вы передали count=5, то будут заменены 4 вхождения.
Если в строке найдено 4 вхождения, а вы передали count=3, то будут заменены только первые 3 вхождения.
Параметр count ограничивает количество замен.
Если count больше, чем количество найденных вхождений, заменяются все вхождения.
Если count меньше, чем количество найденных вхождений, заменяются только первые count вхождений.

Функция subn()

Функция subn() идентична функции sub(), за тем исключением, что она возвращает кортеж, состоящий из измененной строки и количества сделанных замен.

Аргументы функции:

pattern — шаблон регулярного выражения
repl — строка замены
string — строка для поиска
count=0 — максимальное число замен (необязательный аргумент)
flags=0 — один или несколько флагов (необязательный аргумент)

In [1]:
import re

text = 'foo.123.bar.456.baz.789.geek'

result1 = re.subn(r'\d+', r'#', text)
result2 = re.subn(r'[a-z]+', r'(*)', text, count=2)

print(result1)
print(result2)

('foo.#.bar.#.baz.#.geek', 3)
('(*).123.(*).456.baz.789.geek', 2)


In [2]:
import re
def func(match_obj):
    s = match_obj.group(0)         # строка совпадения
    if s.isdigit():
        return str(int(s) * 10)
    else:
        return s.upper()

result = re.subn(r'\w+', func, 'foo.10.bar.20.baz30.40')

print(result)

('FOO.100.BAR.200.BAZ30.400', 6)


Примечания

Примечание 1. Мы также можем ссылаться на нумерованные обратные ссылки, указывая номер группы внутри угловых скобок.

In [3]:
import re

result = re.sub(r'foo,(\w+),(\w+),qux', r'foo,\g<2>,\g<1>,qux', 'foo,bar,baz,qux')

print(result)

foo,baz,bar,qux


Такой способ использования обратных ссылок нужен для того, чтобы избежать двусмысленности в случаях, когда за нумерованной обратной ссылкой сразу следует цифровой символ. Например, у нас есть строка foo 123 bar, и мы хотим добавить цифру 0 в конце последовательности цифр.

In [6]:
import re

result = re.sub(r'(\d+)', r'\10', 'foo 123 bar')

print(result)

PatternError: invalid group reference 10 at position 1

поскольку Python интерпретирует \10 как обратную ссылку на десятую захваченную группу, которой в данном случае не существует.

In [7]:
import re

result = re.sub(r'(\d+)', r'\g<1>0', 'foo 123 bar')

print(result)

foo 1230 bar


Обратная ссылка \g<0> относится к тексту всего совпадения. Это справедливо, даже если в регулярном выражении нет группирующих скобок.

In [8]:
import re

result = re.sub(r'\d+', r'-\g<0>-', 'foo 123 bar 456')

print(result)

foo -123- bar -456-


Примечание 2. Если функция sub() не нашла соответствий шаблону регулярного выражения, то она вернет строку без изменения.

In [9]:
import re

result = re.sub(r'\d+', r'xxx', 'foo bar buz')

print(result)

foo bar buz


In [10]:
from re import sub

result = sub(r'(?P<surname>\w+) (?P<name>\w+)', r'\g<name> \g<surname>', 'Guev Timur')

print(result)

Timur Guev


In [11]:
from re import sub

def convert(match_obj):
    year, month, day = match_obj.group().split('-')
    return f'{day}.{month}.{year}'

result = sub(r'(\d{4}-\d{2}-\d{2})', convert, 'Gvido was born on 1956-01-31')

print(result)

Gvido was born on 31.01.1956


Функция normalize_jpeg()
Реализуйте функцию normalize_jpeg(), которая принимает один аргумент:

filename — название файла, имеющее расширение jpeg или jpg, которое может быть записано буквами произвольного регистра
Функция должна возвращать новое название файла с нормализованным расширением — jpg.

Примечание 1. В тестирующую систему сдайте программу, содержащую только необходимую функцию normalize_jpeg(), но не код, вызывающий ее.

In [30]:
import re

def normalize_jpeg(filename: str):
    return re.sub(r'\.jpe?g$', r'.jpg', filename, flags=re.I)

print(normalize_jpeg('stepik.jPeG'))
print(normalize_jpeg('mountains.JPG'))
print(normalize_jpeg('windows11.jpg'))
print(normalize_jpeg('stepik.jpeg.jpeg'))

stepik.jpg
mountains.jpg
windows11.jpg
stepik.jpeg.jpg


Функция normalize_whitespace()
Реализуйте функцию normalize_whitespace(), которая принимает один аргумент:

string — произвольная строка
Функция должна заменять все множественные пробелы в строке string на единственный пробел и возвращать полученный результат.

Примечание 1. В тестирующую систему сдайте программу, содержащую только необходимую функцию normalize_whitespace(), но не код, вызывающий ее.

In [33]:
import re

def normalize_whitespace(string: str):
    return re.sub(r'( )+', r' ', string)

import re

def normalize_whitespace(string):
    return re.sub(r' +', ' ', string)

print(normalize_whitespace('AAAA                A                AAAA'))

AAAA A AAAA


Ключевые слова
В Python существуют ключевые слова, которые нельзя использовать для названия переменных, функций и классов. Для получения списка всех ключевых слов можно воспользоваться атрибутом kwlist из модуля keyword.

Приведенный ниже код:

import keyword

print(keyword.kwlist)
выводит:

['False', 'None', 'True', 'and', 'as', 'assert', 'async', 'await', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'nonlocal', 'not', 'or', 'pass', 'raise', 'return', 'try', 'while', 'with', 'yield']
Напишите программу, которая принимает строку текста и заменяет в ней все ключевые слова на <kw>.

Формат входных данных
На вход программе подается строка.

Формат выходных данных
Программа должна в введенном тексте заменить все ключевые слова (в любом регистре) на строку <kw> и вывести полученный результат.

In [44]:
import keyword, re

regex = r'\b(' + '|'.join(keyword.kwlist) + r')\b'
# string = input()
string = 'True, assert, as, false, or, Import'
# string = "True or False - that's the question"
# string = "True and False - that is the question"

result = re.sub(regex, r'<kw>', string, flags=re.I)

print(result)

<kw>, <kw>, <kw>, <kw>, <kw>, <kw>


Первые буквы
Напишите программу, которая меняет местами первые две буквы в каждом слове, состоящем из двух или более букв.

Формат входных данных
На вход программе подается строка, содержащая слова.

Формат выходных данных
Программа должна в введенной строке заменить первые две буквы в каждом слове, состоящем из двух или более букв, и вывести полученный результат.

Примечание 1. Словом будем считать последовательность символов, соответствующих \w, окруженную символами, соответствующими \W.

In [65]:
import re

# string = input()
string = "This is Python"
# string = "Hi, everyone. Lets start a lesson!"
# regex = r'(?P<first>\w)(?P<second>\w)'
regex = r'(?<=\b)(?P<first>\w)(?P<second>\w)'
# (?<=\b) — положительное предусловие, которое ищет начало слова.
switch = r'\g<second>\g<first>'
# switch = r'\2\1'
result = re.sub(regex, switch, string)

print(result)

hTis si yPthon


Умножение строк

Назовем умножением строки на число запись в формате n(string), где n — неотрицательное целое число, а string — строка, которая должна быть записана n раз. Раскрытием умножения будем считать развернутый вариант данной записи, например, строка ti2(Be)3(Ge) после раскрытия в ней всех умножений будет иметь вид tiBeBeGeGeGe.

Напишите программу, которая раскрывает все умножения в тексте и выводит полученный результат.

Формат входных данных
На вход программе подается одна строка, содержащая строчные латинские буквы, числа и скобки.

Формат выходных данных
Программа должна вывести строку, в которой раскрыты все умножения с учетом приоритетности операций.

Примечание 1. Гарантируется, что умножение в подаваемой строке всегда записано корректно, то есть строго в формате n(string). Записи вида 4(2), 3q, (fg)7 не корректны.

Примечание 2. Рассмотрим третий тест. С учетом приоритетности операций сначала раскрываем умножение 2(a) и получаем промежуточную строку bbbb10(aa)bbb, далее раскрываем умножение 10(aa) и получаем конечный результат в виде строки bbbbaaaaaaaaaaaaaaaaaaaabbb.

Примечание 3. Строка, в которой раскрыты все умножения, всегда содержит исключительно строчные латинские буквы.

Примечание 4. Максимальная длина результирующей строки не превосходит 450000 символов.

In [66]:
import re

def expand(s):
    # Регулярное выражение для поиска выражений вида n(string)
    pattern = re.compile(r'(\d+)\(([^()]+)\)')
    
    # Функция для замены одного выражения n(string) на развернутое
    def replace_match(match):
        number = int(match.group(1))  # Читаем число
        inner_string = match.group(2)  # Читаем строку в скобках
        return inner_string * number  # Возвращаем строку, повторенную number раз
    
    # Пока находим такие выражения, продолжаем раскрывать
    while '(' in s:
        s = re.sub(pattern, replace_match, s)
    
    return s

# Пример использования:
# input_string = input().strip()
input_string = "hi2(priv3(d3(i)dd)qq)b0(pr)qwqdd"
result = expand(input_string)
print(result)

hiprivdiiidddiiidddiiiddqqprivdiiidddiiidddiiiddqqbqwqdd


In [None]:
from re import subn

s, n = input(), 1

while n:
    s, n = subn(r'(\d+)\((\w*)\)', lambda m: m[2] * int(m[1]), s) # subn возвращает новую строку и количество замен, n - это количество замен, когда-нибудь точно будет 0.

print(s)

Повторяющиеся слова 🌶️
Напишите программу, которая заменяет все повторяющиеся рядом стоящие слова на одно слово.

Формат входных данных
На вход программе подается строка, содержащая слова.

Формат выходных данных
Программа должна в введенной строке заменить все повторяющиеся рядом стоящие слова на одно слово и вывести полученный результат.

Примечание 1. Программа должна быть чувствительной к регистру, то есть, например, слова python и Python считаются различными.

Примечание 2. Словом будем считать последовательность символов, соответствующих \w, окруженную символами, соответствующими \W.

In [19]:
import re

# Ввод строки
# s = input()
# s = "beegeek,beegeek,beegeek! python python.. Python.. stepik?stepik?stepik"
s = "Ba-Ba-Ba-Ba-Barbara Ann"

# Изначально количество замен равно 1, чтобы начать цикл
n = 1

# Заменяем все подряд идущие одинаковые слова на одно
# s = re.sub(r'(\b\w+\b)(?:\W+\1)+', r'\1', s)
s = re.sub(r'(\b\w+\b)(?:[\W]+\1)+\b', r'\1', s)

# Выводим результат
print(s)

Ba-Barbara Ann


In [None]:
from re import sub

pattern = r'(\b\w+\b)(\W+\1\b)+'

print(sub(pattern, r'\1', input()))

Комментарии 🌶️🌶️
При написании программ мы нередко оставляем комментарии или строки-документации к функциям. Определим три вида комментариев:

однострочные комментарии — строки кода, начинающиеся с символа решетки #. Однострочные комментарии могут находиться на любом уровне вложенности. Например: 
# это однострочный комментарий

def func(a, b):
    # это однострочный комментарий
    return a + b
комментарии, следующие непосредственно за строкой кода. Другими словами, это строка кода, за которой следуют 
2
2 пробела, символ решетки #, пробел и сам комментарий, например:
numbers = [1, 2, 3]  # это комментарий
многострочные комментарии — одна или несколько строк кода, которые начинаются и заканчиваются тремя кавычками """. Многострочные комментарии могут находиться на любом уровне вложенности. Например:
"""это многострочный комментарий"""

def func(a, b):
    """это
    многострочный
    комментарий"""
    return a + b
Напишите программу, которая удаляет все комментарии из Python кода.

Формат входных данных
На вход программе подается произвольное число строк, представляющих собой Python код.

Формат выходных данных
Программа должна удалить все комментарии из введенного кода согласно условию задачи и вывести полученный результат.

Примечание 1. Гарантируется, что комментарий, следующий за строкой кода, определяется однозначно. Другими словами, в самих строках кода не используется символ #.

Примечание 2. Пустые строки в начале и конце всего Python кода, а также пробелы в конце строк кода при сравнении ответов не учитываются. Другими словами, записи:



def func(a, b):
    return a + b
def func(a, b):
    return a + b
def func(a, b):
    return a + b


считаются одинаковыми.

In [None]:
import re
import sys

regex = r'(\n#.*?$)' \          
        r'|\s*"""(.*?)"""' \
        r'|\n? *#.*?$'

s = sys.stdin.read()
print(re.sub(regex, '', s, flags=re.S | re.M))