Тема урока: модуль re
Функция findall()
Функция finditer()
Аннотация. Данный урок посвящен модулю re, который позволяет работать с регулярными выражениями в Python.

Функция findall()

Функция findall() возвращает все неперекрывающиеся совпадения с регулярным выражением в виде списка строк. Строка сканируется слева направо, и совпадения возвращаются в найденном порядке.

Аргументы функции:

pattern — шаблон регулярного выражения
string — строка для поиска
flags=0 — один или несколько флагов (необязательный аргумент)

In [3]:
import re

text = 'ул. Часовая, дом № 25, корпус 2, квартира 69'
result = re.findall(r'\d+', text)

print(result)

['25', '2', '69']


Если регулярное выражение содержит одну группу, то функция findall() вернет список соответствующих групп, а не список полных совпадений с регулярным выражением.

In [5]:
import re

result = re.findall(r'#(\w+)#', '#foo#.#bar#.#baz#')

print(result)

['foo', 'bar', 'baz']


В этом примере регулярному выражению #(\w+)# соответствуют строки #foo#, #bar# и #baz#. Но символы решетки (#) не отображаются в возвращаемом списке, потому что они находятся за пределами групп.

Если регулярное выражение содержит несколько групп, то функция findall() вернет список кортежей, каждый из которых содержит захваченные группы. При этом длина каждого кортежа равна указанному количеству групп.

In [13]:
import re

result1 = re.findall(r'(\w+),(\w+)', 'foo,bar,baz,qux,quux,corge,nope')
result2 = re.findall(r'(\w+),(\w+),(\w+)', 'foo,bar,baz,qux,quux,corge,nope,nope')

print(result1)
print(result2)

[('foo', 'bar'), ('baz', 'qux'), ('quux', 'corge')]
[('foo', 'bar', 'baz'), ('qux', 'quux', 'corge')]


Обратите внимание на то, что группы, которые не смогли захватить какой-либо результат, также включаются в результирующий список.

In [10]:
import re

result = re.findall(r'(\w+),(\w+),(\w+)?', 'foo,bar,')

print(result)

[('foo', 'bar', '')]


Функция finditer()

Функция finditer() возвращает все неперекрывающиеся совпадения с регулярным выражением в виде итератора, содержащего объекты соответствия (тип Match). Строка сканируется слева направо, и совпадения возвращаются в найденном порядке.

Аргументы функции:

pattern — шаблон регулярного выражения
string — строка для поиска
flags=0 — один или несколько флагов (необязательный аргумент)

In [2]:
import re

text = 'ул. Часовая, дом № 25, корпус 2, квартира 69'
result = re.finditer(r'\d+', text)

print(type(result))
print(list(result))

<class 'callable_iterator'>
[<re.Match object; span=(19, 21), match='25'>, <re.Match object; span=(30, 31), match='2'>, <re.Match object; span=(42, 44), match='69'>]


In [4]:
import re

result = re.finditer(r'#(\w+)#', '#foo#.#bar#.#baz#')

for match in result:
    print(match)
    print(match.group(), match.group(1))

<re.Match object; span=(0, 5), match='#foo#'>
#foo# foo
<re.Match object; span=(6, 11), match='#bar#'>
#bar# bar
<re.Match object; span=(12, 17), match='#baz#'>
#baz# baz


Функции findall() и finditer() очень похожи, но есть два отличия:

функция findall() возвращает список, в то время как функция finditer() возвращает итератор
функция findall() возвращает список, содержащий фактические строки, в то время как элементами итератора, который возвращает функция finditer(), являются объекты соответствия (тип Match)
Любая задача, решаемая с помощью одной функции, также может быть решена и с помощью другой функции. Однако нужно помнить, что объект соответствия (тип Match) содержит немало дополнительной и полезной информации.

In [5]:
from re import finditer

result = finditer(r'[Pp]\w+', 'Purse men of genuine python skin (the dorsal part)')

for match_obj in result:
    print(match_obj.group())

Purse
python
part


In [6]:
from re import finditer

result = finditer(r'A(\w+)', 'Timur, Arthur, Dima, Anri, Ruslan')

for match_obj in result:
    print(match_obj.group())

Arthur
Anri


Получается, что findall() и finditer() отличаются не только тем, что возвращают разные объекты, но и тем что первая не возвращает то, что вне группы, а вторая возвращает

In [7]:
from re import finditer

result = finditer(r'(\d\d):(\d\d)', 'You can call me from 10:00 to 12:00')

for match_obj in result:
    print(match_obj.groups())

('10', '00')
('12', '00')


In [8]:
from re import finditer

result = finditer(r'(\d\d):(\d\d)', 'You can call me from 10:00 to 12:00')

for match_obj in result:
    print(match_obj.group())

10:00
12:00


group(): Этот метод возвращает всю найденную подстроку, соответствующую регулярному выражению целиком.
groups(): Этот метод возвращает кортеж, содержащий все найденные подстроки, соответствующие группам регулярного выражения.

Вам доступна переменная article, содержащая некоторый многострочный текст. Дополните приведенный ниже код, чтобы он определил:

количество строк, которые начинаются со слова Stepik (в произвольном регистре);
количество строк, которые оканчиваются тремя точками ... или восклицательным знаком !.
и вывел два соответствующих числа, каждое на отдельной строке.

Примечание 1. Строка может одновременно удовлетворять обоим условиям.

In [21]:
import re

article = '''Stepik (до августа 2016 года Stepic) — это образовательная платформа и конструктор онлайн-курсов!

Первые образовательные материалы были выпущены на Stepik 3 сентября 2013 года.
В январе 2016 года Stepik выпустил мобильные приложения под iOS и Android. В 2017 году разработаны мобильные приложения для изучения ПДД в адаптивном режиме для iOS и Android...

На октябрь 2020 года на платформе зарегистрировано 5 миллионов пользователей!
Stepik позволяет любому зарегистрированному пользователю создавать интерактивные обучающие уроки и онлайн-курсы, используя видео, тексты и разнообразные задачи с автоматической проверкой и моментальной обратной связью. 

Проект сотрудничает как с образовательными учреждениями, так и c индивидуальными преподавателями и авторами.  
Stepik сегодня предлагает онлайн-курсы от образовательных организаций, а также индивидуальных авторов!

Система автоматизированной проверки задач Stepik была использована в ряде курсов на платформе Coursera, включая курсы по биоинформатике от Калифорнийского университета в Сан-Диего и курс по анализу данных от НИУ «Высшая школа экономики»...

Stepik также может функционировать как площадка для проведения конкурсов и олимпиад, среди проведённых мероприятий — отборочный этап Олимпиады НТИ (2016—2020) (всероссийской инженерной олимпиады школьников, в рамках программы Национальная технологическая инициатива), онлайн-этап акции Тотальный диктант в 2017 году, соревнования по информационной безопасности StepCTF-2015...'''

regex1 = r'^(stepik)'
regex2 = r'((\.\.\.)|!)$'

match = re.finditer(regex1, article, re.I|re.M)
print(len(list(match)))

match = re.finditer(regex2, article, re.M)
print(len(list(match)))
# for i in match:
#     print(i.group())

4
6


Подслова
Напишите программу, которая принимает на вход строку текста и некоторое слово и определяет, сколько раз данное слово встречается как подслово в введенном тексте.

Формат входных данных
На вход программе на первой строке подается текст, на второй — слово.

Формат выходных данных
Программа должна определить, сколько раз данное слово встречается как подслово в введенном тексте, и вывести полученный результат.

Примечание 1. Словом будем считать последовательность символов, соответствующих \w, окруженную символами, соответствующими \W. Подсловом же будет являться последовательность символов, соответствующих \w, окруженную символами, соответствующими \w. Например, is является подсловом optimist, а age не является подсловом ageless.

Примечание 2. Программа должна учитывать регистр. То есть, например, слова Python и python считаются разными.

In [62]:
import re, sys


line, word = '''
existing pessimist optimist this is
is
'''.strip().splitlines()

line, word = '''
I love Python very much, what about me hahah
ha
'''.strip().splitlines()

line, word = '''
thdbakru rubabadjso babadirnid iehedba  ibebibeb duabafbf
ba
'''.strip().splitlines()

line, word = '''
qwErty12 fierkus geEReRhsh erpuenrpRuner fEERRhherhsero 1e2e2e3e9elefrerkd kerfierd
er
'''.strip().splitlines()

# line, word = sys.stdin.read().splitlines()

regex = rf'\B{re.escape(word)}\B'

match = re.findall(regex, line)
print(len(match))

match = re.finditer(regex, line)
for i in match:
    print(i.group())

6
er
er
er
er
er
er


Слова
Напишите программу, которая принимает на вход строку текста и некоторое слово и определяет, сколько вхождений данного слова содержится в введенном тексте.

Формат входных данных
На вход программе на первой строке подается текст, на второй — слово.

Формат выходных данных
Программа должна определить, сколько вхождений данного слова содержится в веденном тексте, и вывести полученный результат.

Примечание 1. Словом будем считать последовательность символов, соответствующих \w, окруженную символами, соответствующими \W.

Примечание 2. Рассмотрим первый тест, в котором содержится 6 вхождений слова foo:

foo bar (foo) bar foo-bar foo_bar foo'bar bar-foo bar, foo.
foo_bar же является самостоятельным словом.

In [64]:
import re, sys


line, word = '''
foo bar (foo) bar foo-bar foo_bar foo'bar bar-foo bar, foo.
foo
'''.strip().splitlines()

# line, word = sys.stdin.read().splitlines()

regex = rf'\b{re.escape(word)}\b'

match = re.findall(regex, line)
print(len(match))

match = re.finditer(regex, line)
for i in match:
    print(i.group())

6
foo
foo
foo
foo
foo
foo


Одинаковые и разные 🍕
Американский английский и Британский английский языки имеют несколько различий, одно из которых наблюдается в написании слов. Например, слова, написанные на Американском английском языке и имеющие суффикс ze, в Британском варианте языка часто записываются с использованием суффикса se. 

Напишите программу, которая определяет, сколько раз слово встречается в тексте, учитывая его Британско-Американское написание.

Формат входных данных
На вход программе на первой строке подается слово, которое может быть записано как в Британском, так в Американском варианте, а на следующей — текст.

Формат выходных данных
Программа должна определить, сколько раз введенное слово встречается в тексте, учитывая его Британско-Американское написание, и вывести полученный результат.

Примечание 1. Словом будем считать последовательность символов, соответствующих \w, окруженную символами, соответствующими \W.

Примечание 2. Программа должна игнорировать регистр. То есть, например, слова Python и python считаются одинаковыми.

In [67]:
import re, sys


word, line = '''
Familiarize
stepik has such a good ui that it takes no time to familiarise its environment. To familiarize oneself with ui of stepik is easy
'''.strip().splitlines()

# word, line = sys.stdin.read().splitlines()

regex = rf'\b{re.escape(word)[:-2]}(se|ze)\b'

match = re.findall(regex, line, re.I)
print(len(match))

match = re.finditer(regex, line)
for i in match:
    print(i.group())

2


Одинаковые и разные ☕️
В одной из предыдущих задач мы уже наблюдали различие в написании Британских и Американских слов. Еще одно различие заключается в том, что Британия сохранила использование сочетания букв our в своих словах, в то время как Америка отказалась от буквы u и использует лишь or.

Напишите программу, которая определяет, сколько раз слово встречается в тексте, учитывая его Британско-Американское написание.

Формат входных данных
На вход программе на первой строке подается слово, которое записано в Британском варианте, а на следующей — текст.

Формат выходных данных
Программа должна определить, сколько раз введенное слово встречается в тексте, учитывая его Британско-Американское написание, и вывести полученный результат.

Примечание 1. Словом будем считать последовательность символов, соответствующих \w, окруженную символами, соответствующими \W.

Примечание 2. Гарантируется, что введенное слово состоит из 4 или более букв.

Примечание 3. Программа должна игнорировать регистр. То есть, например, слова Python и python считаются одинаковыми.

In [70]:
import re, sys


word, line = '''
Odour
the odour coming out of the left over food was intolerable. Ammonia has a very pungent odor
'''.strip().splitlines()

# word, line = sys.stdin.read().splitlines()

regex = rf'\b{re.escape(word)[:-3]}ou?r\b'

match = re.findall(regex, line, re.I)
print(len(match))

match = re.finditer(regex, line)
for i in match:
    print(i.group())

2


Функция abbreviate()
Аббревиатура — слово, образованное сокращением слова или словосочетания и читаемое по алфавитному названию начальных букв или по начальным звукам слов, входящих в него.

Реализуйте функцию abbreviate(), которая принимает один аргумент:

phrase — фраза
Функция должна создавать из фразы phrase аббревиатуру в верхнем регистре и возвращать её.

Примечание 1. В аббревиатуре должны присутствовать как начальные буквы слов, так и начальные буквы подслов, начинающихся с заглавной буквы, например, JavaScript Object Notation -> JSON.

Примечание 2. В тестирующую систему сдайте программу, содержащую только необходимую функцию abbreviate(), но не код, вызывающий ее.

In [90]:
import re

line = 'javaScript object notation'

regex = r'\b\w|[A-Z]'

match = re.findall(regex, line)
print(''.join(match).upper())

match = re.finditer(regex, line)
for i in match:
    print(i.group())
    
def abbreviate(phrase):
    return ''.join(re.findall(r'\b\w|[A-Z]', phrase)).upper()

JSON
j
S
o
n


HTML 🌶️
HTML-элементы — основа языка HTML. Каждый HTML-элемент обозначается начальным (открывающим) и конечным (закрывающим) тегами. Открывающий и закрывающий теги содержат имя элемента. Открывающий тег может содержать дополнительную информацию — атрибуты и значения атрибутов. Гиперссылки в языке HTML создаются с помощью тега <a></a>. Внутрь помещается текст, который будет отображаться на веб-странице. Обязательной составляющей тега <a></a> является атрибут href, который задает URL-адрес веб-страницы:

<a href="https://stepik.org">Stepik</a>  
Гиперссылка состоит из двух частей — указателя (Stepik) и адресной части (https://stepik.org). Указатель ссылки представляет собой фрагмент текста или изображение, видимые для пользователя. Адресная часть ссылки пользователю не видна, она представляет собой адрес ресурса, к которому необходимо перейти. Иногда указатель может быть окружен различными тегами (<b></b>, <h1></h1>):

<a href="https://stepik.org"><b><h1>Stepik</h1></b></a>
Напишите программу, которая находит во фрагменте HTML-страницы все гиперссылки и выводит их составляющие — адресные части и указатели.

Формат входных данных
На вход программе подается произвольное количество строк, которые образуют фрагмент HTML-страницы.

Формат выходных данных
Программа должна найти во введенном фрагменте HTML-страницы все гиперссылки и вывести их составляющие — адресные части и указатели, в следующем формате:

<адресная часть>, <указатель>
<адресная часть>, <указатель>
...
Примечание 1. Порядок следования данных об очередной гиперссылке должен совпадать с порядком их следования в введенном фрагменте HTML-страницы.

In [223]:
import re, sys


line = '''
<p><a href="https://stepik.org">Stepik</a></p>
<p><a href="https://beegeek.ru"><b>BEEGEEK</b></a></p>
'''

line = '''
<li class="tier-2 element-3" role="treeitem"><a href="https://wiki.python.org/moin/BeginnersGuide">Beginner&#39;s Guide</a></li>
<li class="tier-2 element-4" role="treeitem"><a href="https://devguide.python.org/">Developer&#39;s Guide</a></li>
<li class="tier-2 element-5" role="treeitem"><a href="https://docs.python.org/faq/">FAQ</a></li>
<li class="tier-2 element-6" role="treeitem"><a href="http://wiki.python.org/moin/Languages">Non-English Docs</a></li>
<li class="tier-2 element-7" role="treeitem"><a href="http://python.org/dev/peps/">PEP Index</a></li>
<li class="tier-2 element-8" role="treeitem"><a href="https://wiki.python.org/moin/PythonBooks">Python Books</a></li>
'''

# line = sys.stdin.read()

regex = r'href="(.+)">(.+)</a>'

match = re.findall(regex, line, re.I|re.M)
for link, text in match:
    print(f"{link}, {text}")

# match = re.finditer(regex, line, re.I|re.M)
# for i in match:
#     print(i.group())

https://wiki.python.org/moin/BeginnersGuide, Beginner&#39;s Guide
https://devguide.python.org/, Developer&#39;s Guide
https://docs.python.org/faq/, FAQ
http://wiki.python.org/moin/Languages, Non-English Docs
http://python.org/dev/peps/, PEP Index
https://wiki.python.org/moin/PythonBooks, Python Books


In [None]:
import re, sys

pattern = r"(?P<url>(?<=href=\").+(?=\">)).*(?P<name>(?<=\">).+(?=</a>))"
for s in sys.stdin:
    match = re.search(pattern, s)
    if match:
        print(f'{match.group("url")}, {match.group("name")}')

HTML 🌶️🌶️
HTML-элементы — основа языка HTML. Каждый HTML-элемент обозначается начальным (открывающим) и конечным (закрывающим) тегами. Открывающий и закрывающий теги содержат имя элемента. Открывающий тег может содержать дополнительную информацию — атрибуты и значения атрибутов:

<b>BeeGeek</b>
<a href="https://stepik.org">Stepik</a>
В примере выше тег <b> не содержит никаких атрибутов, а тег <a> содержит атрибут href со значением https://stepik.org.

Напишите программу, которая находит во фрагменте HTML-страницы все атрибуты каждого тега.

Формат входных данных
На вход программе подается произвольное количество строк, которые образуют фрагмент HTML-страницы.

Формат выходных данных
Программа должна найти в введенном фрагменте HTML-страницы все теги и вывести их, указав для каждого соответствующие атрибуты. Теги вместе со всеми атрибутами должны быть расположены каждый на отдельной строке, в следующем формате:

<тег>: <атрибут>, <атрибут>, ...
Теги, а также атрибуты тегов, должны быть расположены в лексикографическом порядке.

In [None]:
import sys
import re
from collections import defaultdict

# Читаем входные данные
html = sys.stdin.read()

# Регулярное выражение для поиска тегов и их атрибутов
pattern = re.compile(r'<(\w+)([^>]*)>')
attr_pattern = re.compile(r'(\w+(?:-\w+)*)=')

# Словарь для хранения тегов и их атрибутов
tags = defaultdict(set)

# Поиск всех тегов в HTML
for tag_match in pattern.finditer(html):
    tag_name = tag_match.group(1)  # Имя тега
    attributes_str = tag_match.group(2)  # Строка с атрибутами
    
    # Поиск атрибутов внутри тега
    attributes = attr_pattern.findall(attributes_str)
    
    # Добавляем атрибуты в словарь
    tags[tag_name].update(attributes)

# Выводим теги и их атрибуты в лексикографическом порядке
for tag in sorted(tags):
    print(f"<{tag}>: {', '.join(sorted(tags[tag]))}")

In [None]:
import sys
from bs4 import BeautifulSoup

soup = BeautifulSoup(sys.stdin.read(), 'html.parser')
dct = {i.name: i.attrs.keys() for i in soup.find_all(True)}

for k, v in sorted(dct.items()):
    print(f'{k}: {", ".join(sorted(v))}')