In [1]:
import re

In [2]:
# Регулярное выражение (Regular Expression, RegEx) - это эффективный инструмент для сопоставления текста на основе заранее определенного шаблона. 
# Регулярные выражения позволяют найти строки или наборы строк в тексте, используя специализированный синтаксис, с помощью которого описывается шаблон для поиска.

# Некоторые символы регулярных выражений:
# . - означает, что на месте точки может быть любой символ, кроме символа новой строки (\n). Например, 20.. год;
# [...] - любой символ из указанных в скобках. Символы можно задавать как перечислением, так и указывая диапазон через дефис. Например, [a-z], [А-Яа-яЁё], [0-9];
# [^...] - любой символ, кроме указанных в скобках. Например, [^abcdef];
# ^ - начало строки. Например, ^Уважаемый;
# $ - конец строки. Например, Спасибо, что остаетесь с нами. Вы важны для нас!$.

# 2.2 "Сырые" строки | Raw strings

In [3]:
# Чтобы строка стала «сырой», перед ней необходимо поставить символ r в любом регистре:

common_string = 'C:\file.txt' # Обычная строка
raw_string = r'C:\file.txt' # Сырая строка

In [4]:
# Можно использовать несколько префиксов сразу. 

# Используем 2 префикса одновременно:

raw_f_string = rf'C:\file.txt'
f_raw_string = fr'C:\file.txt'

print(raw_f_string)
print(f_raw_string)

C:\file.txt
C:\file.txt


# 2.3 Экранирование в строках и в регулярных выражениях

In [5]:
# Если для тестирования регулярных выражений вам понадобится английский/русский алфавит, цифры, или символы - можете воспользоваться следующей строчкой:
# <=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ !"#$%&\'()*+,-./0123456789:;

# Ну или можете получить похожую строчку в Python вот таким способом:

from string import printable

print(printable)

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



In [6]:
# Импортируем из модуля re единственное что нужно сейчас для проверки регулярных выражений
import re

# Вводим наш текст в переменную string:
string = 'fsdfdsf.mе&r!kX\q<ЫlХювк*ШЛ/PWЖЁRЩ-NнОaбъСНлdй(ф^4{sZjИ`@жЮБF7"ЕoиэП:Ьуь~№[0A+%_сGQv)ё$MuUSТCГя50ЦnДE;9АJ]В'

# Вводим эту странную мешанину из символов, которую здесь регулярными выражениями зовут:
regex = r'(?<=[^ё$MuUSТCГя50ЦnДE;9АJ])(?:\**?)(?=[ШП9В9фвфЛ]*/)'

# И наконец печатаем на экран что получилось найти:
print(*re.findall(regex, string))

*   


  string = 'fsdfdsf.mе&r!kX\q<ЫlХювк*ШЛ/PWЖЁRЩ-NнОaбъСНлdй(ф^4{sZjИ`@жЮБF7"ЕoиэП:Ьуь~№[0A+%_сGQv)ё$MuUSТCГя50ЦnДE;9АJ]В'


In [7]:
# 2.5 Знакомство с регулярными выражениями (синтаксис)

string = 'Мир, привет. Привет, мир. Привет!'

regex = r'Привет'
re.findall(regex, string)

['Привет', 'Привет']

In [8]:
# Пробел VS \b

# 1. Выражение r" ты " найдет ты окруженное пробелами вместе с пробелами, т.е. " ты "
# 2. Выражение r"\bты\b"  найдет ты в чистом виде, рядом с которым не стоит буква, цифра или _

string = 'Привет, ты когда успел купить банты и цветы?'

regex = r' ты '
print(re.findall(regex, string))

regex = r'\bты\b'
print(re.findall(regex, string))

[' ты ']
['ты']


In [9]:
# Напишите регулярное выражение, которое найдёт все последовательности \n в тексте.

string = f' *Пополнение счета*:\n\nQIWI: +7+++++++ \nКомментарий к платежу:...'

regex = r'\n'
print(re.findall(regex, string))

['\n', '\n', '\n']


In [10]:
# Отключаем экранирование всей строки префиксом r:
print(r"Переносим\nстроку")
print(r"\\'")

# Отключаем экранирование каждой последовательности с помощью слешей:
print("Переносим\\nстроку")
print("\\\\'")

print('\\\\\\\'')
print(r'\\\'')

Переносим\nстроку
\\'
Переносим\nстроку
\\'
\\\'
\\\'


In [11]:
# На вход программе подаётся два целых числа a и b, каждое на новой строке.

# Выведите в консоль строку вида: a\n + \nb\n = \nc, где a и  b - полученные числа, а c - их сумма.

a, b = 5, 2

print(fr'{a}\n + \n{b}\n = \n{a + b}')

(lambda a, b: print(rf'{a}\n + \n{b}\n = \n{a+b}'))(5, 2)

5\n + \n2\n = \n7
5\n + \n2\n = \n7


In [12]:
# Пересечения

s = '00000'

regex = r'00'

re.findall(regex, s)

# Нашел непересекающиеся значения

['00', '00']

# 2.6 Диапазоны | Квадратные скобки

## Поиск указанных символов

In [13]:
r'[cr1]'     # Найдёт c, r, и 1
r'[cr]at'    # Найдёт слова cat и rat
r'[12]7[56]' # Найдёт 175, 176, 275, 276

'[12]7[56]'

In [14]:
# От перестановки символов результат не меняется:

r'[cr1]' # Найдёт c, r, и 1
r'[rc1]' # Найдёт c, r, и 1
r'[1cr]' # Найдёт c, r, и 1
r'[1rc]' # Найдёт c, r, и 1
r'[c1r]' # Найдёт c, r, и 1
r'[r1c]' # Найдёт c, r, и 1
# Все регулярные выражения сверху выдают один и тот же результат

string = 'rasd1fascasdca1sadfgkcrerfas'

regex = r'[r1c]'

re.findall(regex, string)

['r', '1', 'c', 'c', '1', 'c', 'r', 'r']

## Исключение символов

In [15]:
r'[^12]'  # Найдёт всё, кроме 1 и 2
r'[^12]7' # Найдёт все последовательности, что заканчиваются на 7, и не начинаются на 1 и 2

'[^12]7'

In [16]:
# Если символ ^ не стоит в начале скобок или он экранирован - он воспринимается как обычный текст:

r'[0^]_[0^]' # Найдёт 0_0, 0_^, ^_0, ^_^
r'[\^0]_[\^0]' # Найдёт 0_0, 0_^, ^_0, ^_^

'[\\^0]_[\\^0]'

In [17]:
string = 'LoserLobsterLo[vs]erLosverLover'

regex = r'Lo[vs]er'

re.findall(regex, string)

['Loser', 'Lover']

In [18]:
string = '''
пёс
лук
лак
нос'''

regex = r'[пнл][а-я][кс]'

re.findall(regex, string)

['лук', 'лак', 'нос']

In [19]:
string = '''
\[1GД\]
[1GД]
G
Д
1
1GД'''

regex = r'\[1GД\]'

re.findall(regex, string)

  string = '''


['[1GД]']

## Диапазоны и сокращения

In [20]:
# Регулярное выражение в скобках можно сократить следующим образом:

r'[0-9]' # То же самое, что и [0123456789]
r'[a-z]' # То же самое, что и [abcdefghijklmnopqrstuvwxyz]
r'[A-Z]' # То же самое, что и [ABCDEFGHIJKLMNOPQRSTUVWXYZ]
r'[а-я]' # То же самое, что и [абвгдежзийклмнопрстуфхцчшщъыьэюя]
r'[А-Я]' # То же самое, что и [АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ]

# Можно получать неполный алфавит или не все цифры:

r'[4-7]' # То же самое, что и [4567]
r'[x-z]' # То же самое, что и [xyz]
r'[B-D]' # То же самое, что и [BCD]
r'[а-ж]' # То же самое, что и [абвгдеж]
r'[П-Т]' # То же самое, что и [ПРСТ]
r'[6-D]' # То же самое, что и [6789:;<=>?@ABCD]

# А также совмещать синтаксис:

r'[4-7qwerty]' # То же самое, что и [qwerty4567]
r'[23x-z1]'    # То же самое, что и [xyz123]
r'[B-DF]'      # То же самое, что и [BCDF]

r'[21-47]' # То же самое, что и [212347]

'[21-47]'

In [21]:
# Чтобы использовать - как обычный символ - его достаточно экранировать или поставить в конец или начало скобок:

r'[4\-7]' # Найдёт 4, -, и 7
r'[-xz]'  # Найдёт -, x, и z
r'[^-xz]' # Найдёт всё, кроме -, x, и z
r'[BD-]'  # Найдёт B, D, и -

'[BD-]'

## Исключение с использованием диапазонов

In [22]:
# Исключение символов тоже можно сократить:

r'[^0-9]' # То же самое, что и [^0123456789]
r'[^a-z]' # То же самое, что и [^abcdefghijklmnopqrstuvwxyz]
r'[^A-Z]' # То же самое, что и [^ABCDEFGHIJKLMNOPQRSTUVWXYZ]
r'[^а-я]' # То же самое, что и [^абвгдежзийклмнопрстуфхцчшщъыьэюя]
r'[^А-Я]' # То же самое, что и [^АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ]

# Можно исключать неполный алфавит, или не все цифры:

r'[^4-7]' # То же самое, что и [^4567]
r'[^x-z]' # То же самое, что и [^xyz]
r'[^B-D]' # То же самое, что и [^BCD]
r'[^а-ж]' # То же самое, что и [^абвгдеж]
r'[^П-Т]' # То же самое, что и [^ПРСТ]
r'[^6-D]' # То же самое, что и [^6789:;<=>?@ABCD]

# Ну и совмещать:

r'[^4-7qwerty]' # То же самое, что и [^qwerty4567]
r'[^23x-z1]'    # То же самое, что и [^xyz123]
r'[^B-DF]'      # То же самое, что и [^BCDF]

# Можно использовать столько сокращений, сколько мы захотим:

r'[a-zA-Z0-9]' # То же самое, что [abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789]
r'[^э-я1-3]'   # То же самое, что и [^эюя123]

'[^э-я1-3]'

## Экранирование квадратных скобок

In [23]:
# Если квадратные скобки нужно использовать как обычный текст - достаточно их просто экранировать:

r'\[\]' # Найдет []

# Шаблон [а-яА-Я] не захватывает буквы ё и Ё. Придётся указывать их вручную: [а-яА-ЯёЁ].

'\\[\\]'

## Задачи

In [24]:
# Напишите регулярное выражение, которое найдет все последовательности: сон, сок, сом.

string = 'Пью сок вместе с моим сомом.'

regex = r'со[мкн]'

re.findall(regex, string)

['сок', 'сом']

In [25]:
# Найдите все цифры 1-4 и 6-9

string = '<=>@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ !"#$%&\'()*+,-./0123456789:;'

regex = r'[^05\D]'
print(re.findall(regex, string))

regex = r'[1-46-9]'
print(re.findall(regex, string))

['1', '2', '3', '4', '6', '7', '8', '9']
['1', '2', '3', '4', '6', '7', '8', '9']


In [26]:
# Напишите регулярное выражение, которое найдёт все кабинеты с трёхзначным номером: 100 - 999.

string = 'Начальнику второго отделения прибыть в 314 кабинет в понедельник.'

regex =r'[1-9][0-9][0-9] кабинет'
print(re.findall(regex, string))

regex = r'[1-9][0-9]{2} кабинет'
print(re.findall(regex, string))

regex = r'[1-9]\d\d кабинет'
print(re.findall(regex, string))

regex = r'[1-9]\d{2} кабинет'
print(re.findall(regex, string))

['314 кабинет']
['314 кабинет']
['314 кабинет']
['314 кабинет']


In [27]:
# Напишите регулярное выражение, которое находит все шестизначные коды подтверждения.

string = '171038 - ваш код подтверждения, а не этот: 4125422'

regex = r'\b\d{6}\b'
print(f'Первый вариант: {re.findall(regex, string)}')

regex = r'\d{6}'
print(f'Второй вариант: {re.findall(regex, string)}')

Первый вариант: ['171038']
Второй вариант: ['171038', '412542']


# 2.7 Шаблоны для поиска и проверки

![image.png](attachment:image.png)

In [28]:
# Некоторые спецсимволы, например такие: $^.-[], используются по-разному в регулярных выражениях в зависимости от контекста:

# $
r'[A$Z]'  # Ищет символы A,$,Z
r'^text$' # Ищет text между началом и концом строки
r'100\$'  # Ищет 100$

# ^
r"[^abc]"      # Ищет любой символ, кроме a,b,c
r"^Some text$" # Ищет Some text между началом и концом строки
r"\^"          # Ищет символ ^ 
r"[a^bc]"      # Символ ^ не стоит первым в скобках, поэтому выражение ищет символы a,b,c,^

# .
r'[A.Z]'     # Ищет символы A,.,Z
r'text.'     # Ищет text с любым символом, кроме перехода на новую строку
r'1\.000\$'  # Ищет 1.000$

# -
r'Как-то так' # Ищет Как-то так
r'[+-]'       # Ищет символы +,-
r'[^-+]'      # Ищет любой символ, кроме +, -
r'[a-z]'      # Ищет все буквы латинского алфавита в нижнем регистре
r'[a\-z]'     # Ищет символы a,-,z

# []
r'[abc]'   # Ищет символы a,b,c
r'\[abc\]' # Ищет [abc]
r'[\[abc\]]' # Ищет символы [,a,b,c,]


# Шаблоны и квадратные скобки
# Не все шаблоны в квадратных скобках используются как текстовые символы: 

r'[.]'  # Находит точку

r'[\d]' # То же самое, что и \d

'[\\d]'

In [29]:
string = 'фыв2D43Fфыв'

regex = r'\w\w\w\w'
print(re.findall(regex, string))
regex = r'\D\d[1-90]\D'
print(re.findall(regex, string))
regex = r'\D\d\d\D'
print(re.findall(regex, string))
regex = r'\s\S\S\s'
print(re.findall(regex, string))
regex = r'\W\W\W\W'
print(re.findall(regex, string))
regex = r'\b\B\B\b'
print(re.findall(regex, string))

['фыв2', 'D43F']
['D43F']
['D43F']
[]
[]
[]


In [30]:
# Напишите регулярное выражение, которое найдёт все последовательности из любых пяти символов, кроме перехода на следующую строку.

string = 'Этот текст был разделён на последовательности из 5 символов, и каждая последовательность была выведена в консоль через пробел.'

regex = r'.{5}'
print(re.findall(regex, string))

['Этот ', 'текст', ' был ', 'разде', 'лён н', 'а пос', 'ледов', 'атель', 'ности', ' из 5', ' симв', 'олов,', ' и ка', 'ждая ', 'после', 'доват', 'ельно', 'сть б', 'ыла в', 'ыведе', 'на в ', 'консо', 'ль че', 'рез п', 'робел']


In [31]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из 3 букв
# Используется латинский и кириллический алфавиты верхнего и нижнего регистров
# Окружена пробелами с двух сторон

string = '''Lorem ipsum dolor sit amet, consectetur adipiscing elit. 
Nunc aliquam felis ut nisl fermentum porttitor. Integer condimentum arcu eget maximus tincidunt. 
Ut interdum ligula nulla, non tempor arcu consequat in. Aliquam molestie est mauris, efficitur lacinia nisl dictum et. 
Donec sit amet justo eros. Etiam fermentum justo lectus, vitae tincidunt dolor lobortis sed. 
Lorem ipsum dolor sit amet, consectetur adipiscing elit. '''

regex = r' [A-Za-zа-яА-яЁё]{3} '
print(re.findall(regex, string))

regex = r'\s[A-Za-zа-яА-яЁё]{3}\s'
print(re.findall(regex, string))

regex = r'\s[^_\d\W]{3}\s'  # Любые значения не равные цифрам от 0 до 9, не равные символу _, и не равные любым другим символам, повторить 3 раза
print(re.findall(regex, string))

[' sit ', ' non ', ' est ', ' sit ', ' sit ']
[' sit ', ' non ', ' est ', ' sit ', ' sit ']
[' sit ', ' non ', ' est ', ' sit ', ' sit ']


# 2.8 Жадные квантификаторы

In [32]:
# Квантификатор - конструкция, которая позволяет указывать количество повторений.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [33]:
r'\d{3}' # ищет три подряд идущие цифры в строке
r'a?b' # ищет последовательности, где 'a' может быть ноль или один раз, а затем следует символ 'b'
r'[^\d\s]+' # ищет последовательности символов, которые не являются цифрами и не являются пробелами
r'[A-Za-z]+\d*'# ищет последовательности, начинающиеся с буквенной части, за которой может следовать числовая часть
r'\d{3,5}-[A-Z]{2,4}' # ищет последовательности от трех до пяти цифр, за которыми следует дефис, а затем последовательность от двух до четырех заглавных букв

'\\d{3,5}-[A-Z]{2,4}'

In [34]:
regex = r'[А-Я а-я]{4,}!?'

string = '''
Лишь утратив всё до конца, мы обретаем свободу
Ждёшь мотивации чтобы начать действовать? Жди дальше.
Я не забыл использовать восклицательный знак в предложении!
путь
Я забыл использовать восклицательный знак в предложении
Нет!'''

re.findall(regex, string)

['Лишь утратив вс',
 ' до конца',
 ' мы обретаем свободу',
 'шь мотивации чтобы начать действовать',
 ' Жди дальше',
 'Я не забыл использовать восклицательный знак в предложении!',
 'путь',
 'Я забыл использовать восклицательный знак в предложении']

In [35]:
regex = r'[A-Za-z]+\d*'

string = '''
ideology\
consid3r
lionddd
feature\ddd
button\d1
wrestleddd123
sink44
agriculture\84'''

re.findall(regex, string)

  string = '''


['ideologyconsid3',
 'r',
 'lionddd',
 'feature',
 'ddd',
 'button',
 'd1',
 'wrestleddd123',
 'sink44',
 'agriculture']

In [36]:
# Напишите регулярное выражение, которое найдёт все use strict; и use strict в тексте.
string = 'someSpamuuse stricttещёспамstrict;use strict;use'

regex = r'use strict;?'
print(re.findall(regex, string))

regex = r'use strict;|use strict'
print(re.findall(regex, string))

regex = r'use strict;{0,1}'
print(re.findall(regex, string))

['use strict', 'use strict;']
['use strict', 'use strict;']
['use strict', 'use strict;']


In [37]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит как минимум из 2-ух букв
# Используется латинский и кириллический алфавиты верхнего регистра

string = '''Для поступления в МГИМО или ВШЭ на ХГФ нужно сдать ЕГЭ и ОГЭ на 666 баллов, 
получить отличные результаты на ДВИ, а также сдать все ВПР на отлично. 
Для сдачи ЕГЭ следует пройти через КПП, поздороваться с ОМОНом и СОБРом, 
которые будут пугать маленьких детей на экзамене, пройти в ППЭ, и получить КИМы.'''

regex = r'[A-ZА-ЯЁ]{2,}'
print(re.findall(regex, string))
regex

['МГИМО', 'ВШЭ', 'ХГФ', 'ЕГЭ', 'ОГЭ', 'ДВИ', 'ВПР', 'ЕГЭ', 'КПП', 'ОМОН', 'СОБР', 'ППЭ', 'КИМ']


'[A-ZА-ЯЁ]{2,}'

In [38]:
# Автомобильные номера

string = 'ё956эш87 ц584ву187 я201жн40 ш107ыщ15 э026сл503 х846ъц204 а527юя597 д013ёх733 п278цм688 н994зр288  р258мв097 р369оа04 а932ву004'

valid = 'авекмнорстух'
regex = rf'\b[{valid}]\d{{3}}[{valid}]{{2}}\d{{2,3}}\b'

print(re.findall(regex, string))

['р258мв097', 'р369оа04', 'а932ву004']


In [39]:
string = '0г0, я нашёл интересные места на картах: 54.468693951159835 64.79641683731889, 34.954139 -117.872506, 51.848611 -0.554439'

regex = r'\b-?\d{1,3}[.]\d+\s-?\d{1,3}[.]\d+\b'
print(re.findall(regex, string))

['54.468693951159835 64.79641683731889', '34.954139 -117.872506', '51.848611 -0.554439']


In [40]:
string = 'https://stepik.org/course/107335/ http://stepik.org/course/107335/'

regex = r'\bhttp[s]{0,1}\b'
print(re.findall(regex, string))

regex = r'\bhttps|http\b'
print(re.findall(regex, string))

regex = r'\bhttp|https\b'
print(re.findall(regex, string))

['https', 'http']
['https', 'http']
['http', 'http']


In [41]:
# Нужно найти последовательности, состоящие из римских цифр: IVXLCDM

string = 'В MMXIII году в школе CXXIII состоялся очередной выпуск XI классов.'

regex = r'\b[IVXLCDM]+\b'
print(re.findall(regex, string))

['MMXIII', 'CXXIII', 'XI']


In [42]:
# Смайлик состоит из трёх частей: глаз, носа (который может отсутствовать) и рта. В них используются следующие символы:

# Глаза: :8;¦=
# Нос: ^-
# Рот: |\0()/PODIC

string=':^PтfЫ¦^DoO:-CF:-/N8-)мi0Чn=-\jЩфд8-C9дxий=-04ю:-|MпьP¦-OW'

eyes = re.escape(r':8;¦=')
nose = re.escape(r'^-')
mouth = re.escape(r'|\0()/PODIC')

regex = fr'[{eyes}][{nose}]?[{mouth}]'
print(re.findall(regex, string))

[':^P', '¦^D', ':-C', ':-/', '8-)', '=-\\', '8-C', '=-0', ':-|', '¦-O']


  string=':^PтfЫ¦^DoO:-CF:-/N8-)мi0Чn=-\jЩфд8-C9дxий=-04ю:-|MпьP¦-OW'


# 2.9 Ленивые квантификаторы

In [43]:
# Сравнение жадного и ленивого квантификатора

string = '&{123}++{abcdef}--{789}*'

# Жадный
regex = r'{.*}'
print(*re.findall(regex, string))

# Ленивый
regex = r'{.*?}'
print(*re.findall(regex, string))

{123}++{abcdef}--{789}
{123} {abcdef} {789}


In [44]:
# Напишите регулярное выражение, которое разделит число из тестовых данных на числа, в конце которых стоит единица. 
# Это число будет единицей, только если перед ним не будет других цифр.

string = '775489413519934499420265256355466412345678910111221547424200102044455'

regex = r'\d*?1'
print(re.findall(regex, string))

['77548941', '351', '993449942026525635546641', '234567891', '01', '1', '1', '221', '5474242001']


In [45]:
# Составьте регулярное выражение, которое найдёт все чётные числа в тестовой строке.

string = '7754894135199344994202652563554'

regex = r'\d*?[02468]'
print(re.findall(regex, string))

['7754', '8', '94', '13519934', '4', '994', '2', '0', '2', '6', '52', '56', '3554']


In [46]:
# Нужно найти последовательности, подходящие по следующим условиям:

# В начале и в конце последовательности стоят квадратные скобки
# Между квадратными скобками могут находиться последовательности из любых символов
# Длина последовательности должна быть минимально возможной

string = '[a-zA-z0-9] (123) {456} ["DLightning McQueen", "Francesco", "Mater"]'

regex = r'\[.*?\]'
print(re.findall(regex, string))

['[a-zA-z0-9]', '["DLightning McQueen", "Francesco", "Mater"]']


In [47]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Начинается с <img
# Заканчивается на >
# Между началом и концом могут находиться последовательности из любых символов

string = '''<img src="smiley.gif" alt="Smiley face" width="42" height="42" style="vertical-align:bottom"><img src="smiley.gif" alt="Smiley face" width="42" height="42" style="vertical-align:middle"><img src="smiley.gif" alt="Smiley face" width="42" height="42" style="vertical-align:top"><img src="smiley.gif" alt="Smiley face" width="42" height="42" style="float:right"><img src="smiley.gif" alt="Smiley face" width="42" height="42" style="float:left">'''

regex = r'<img.*?>'
print(re.findall(regex, string))

['<img src="smiley.gif" alt="Smiley face" width="42" height="42" style="vertical-align:bottom">', '<img src="smiley.gif" alt="Smiley face" width="42" height="42" style="vertical-align:middle">', '<img src="smiley.gif" alt="Smiley face" width="42" height="42" style="vertical-align:top">', '<img src="smiley.gif" alt="Smiley face" width="42" height="42" style="float:right">', '<img src="smiley.gif" alt="Smiley face" width="42" height="42" style="float:left">']


In [48]:
# Нужно найти последовательности, подходящие по следующим условиям:

# В начале и в конце последовательности стоят двойные кавычки: "
# Между кавычками могут находиться последовательности из любых символов
# Между кавычками стоит как минимум один символ
# Длина последовательности должна быть минимально возможной

string = '"Поток" информации нужен для того, чтобы скрыть от тебя самое главное - мир не такой уж "радужный и веселый".'

regex = r'".+?"'
print(re.findall(regex, string))

['"Поток"', '"радужный и веселый"']


In [49]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Начинается и заканчивается буквой
# Используются буквы из латинского и кириллического алфавитов верхнего и нижнего регистров
# Между буквами могут находиться последовательности из любых символов
# Длина последовательности должна быть минимально возможной

string = '''аpM+m.tnDсм&ВksWУюзАЪlqе|гa?Ш=S9хzСцrХ4vc2ЦК':g^к`Щ6%б]{#yОЫГТшйЕБ0iЬfEжGAПjXыU)VЧтYF}дв_KИ[5>лOэLHbЯЖЮxЁ\ъ8!,рoо"hQЛu;щч7<РNTP@eНЗп1ДнBФё$я/ьdуЭ(М-3фR*~ JиZwЙCI'''

regex = r'[A-Za-zА-Яа-яЁё].*?[A-Za-zА-Яа-яЁё]'
print(re.findall(regex, string))

['аp', 'M+m', 'tn', 'Dс', 'м&В', 'ks', 'WУ', 'юз', 'АЪ', 'lq', 'е|г', 'a?Ш', 'S9х', 'zС', 'цr', 'Х4v', 'c2Ц', "К':g", 'к`Щ', 'б]{#y', 'ОЫ', 'ГТ', 'шй', 'ЕБ', 'iЬ', 'fE', 'жG', 'AП', 'jX', 'ыU', 'VЧ', 'тY', 'F}д', 'в_K', 'И[5>л', 'Oэ', 'LH', 'bЯ', 'ЖЮ', 'xЁ', 'ъ8!,р', 'oо', 'hQ', 'Лu', 'щч', 'РN', 'TP', 'eН', 'Зп', 'Дн', 'BФ', 'ё$я', 'ьd', 'уЭ', 'М-3ф', 'R*~ J', 'иZ', 'wЙ', 'CI']


# 2.10 Группирующие скобки / Именованные и нумерованные группы / Ссылки

In [50]:
# Если шаблон регулярного выражения обернуть в  круглые скобки (regex) - мы сгруппируем его. 
# Такие группы создаются для получения дополнительной информации о них.

![image.png](attachment:image.png)

In [51]:
string = 'test1test2asdkgtest30-2test112test231'

# Через обычный кванитфикатор
regex = r'test\d'
print(re.findall(regex, string))

# Через именованный кванитфикатор
regex = r'(?P<value>test\d).*(?P=value)'
print(re.findall(regex, string))

['test1', 'test2', 'test3', 'test1', 'test2']
['test1']


In [52]:
# Регулярное выражение с двумя именованными группами

pattern = r'(?P<word1>[A-Za-z]+) (?P=word1)'

text = 'hello hello'

match = re.match(pattern, text)
if match:
    print("Совпадение найдено:", match.group())
else:
    print("Совпадение не найдено.")

### Объяснение

# 1. (?P<word1>[a-zA-Z]+) : Эта часть создает именованную группу `word1`, которая соответствует одному или более буквам (как строчным, так и заглавным).

# 2. (?P=word1) : Эта часть ссылается на содержимое группы `word1`, что означает, что после первого слова должно следовать то же самое слово.

# 3. Пробел: Между двумя группами есть пробел, который также будет частью совпадения.

### Результат

# Если вы запустите этот код с текстом `'hello hello'`, программа выведет:

# Совпадение найдено: hello hello

Совпадение найдено: hello hello


In [53]:
### Пример с несколькими группами

# Если вы хотите использовать несколько различных именованных групп, вы можете сделать это следующим образом:

# Регулярное выражение с несколькими именованными группами
pattern = r'(?P<first>[a-zA-Z]+) (?P<second>[a-zA-Z]+) \1 \2'

text = 'hello world hello world'

match = re.match(pattern, text)
if match:
    print("Совпадение найдено:", match.group())
    print("Первая группа:", match.group('first'))
    print("Вторая группа:", match.group('second'))
else:
    print("Совпадение не найдено.")

### Объяснение

# 1. (?P<first>[a-zA-Z]+) : Первая именованная группа, соответствующая первому слову.
# 2. (?P<second>[a-zA-Z]+) : Вторая именованная группа, соответствующая второму слову.
# 3. \1 и \2 : Ссылки на первую и вторую группы соответственно, чтобы убедиться, что слова повторяются.

### Результат

# Если вы запустите этот код с текстом `'hello world hello world'`, программа выведет:

# Совпадение найдено: hello world hello world
# Первая группа: hello

Совпадение найдено: hello world hello world
Первая группа: hello
Вторая группа: world


In [54]:
# Нужно найти последовательности, подходящие по следующим условиям:

# В левой части любая последовательность из 3 арабских цифр
# В правой части точно такая же последовательность

string = '534535345377777753469669653'

regex = r'(?P<group>\d{3})(?P=group)'
print(re.search(regex, string))

regex = r'(?P<group>\d{3})\1'
print(re.search(regex, string))

<re.Match object; span=(10, 16), match='777777'>
<re.Match object; span=(10, 16), match='777777'>


In [55]:
# Нужно найти последовательности, подходящие по следующим условиям:

# В левой части любая последовательность букв кириллического алфавита нижнего регистра
# В правой части точно такая же последовательность
# Между ними может стоять тире
# Последовательность не может быть подпоследовательностью

string = 'йо-йо балалайка гиппопотам чуть-чуть мама папа дядя мимикрия татарин кокос довод'

regex = r'(?P<group>\b[а-яё]+)-?(?P=group)\b'
print(re.findall(regex, string))

['йо', 'чуть', 'ма', 'па', 'дя']


In [56]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Последовательность из 2 одинаковых букв
# Используются буквы латинского и кириллического алфавитов нижнего и верхнего регистров

string = 'carefully, AGREE, bill, сobble'

regex = r'([A-Za-zА-Яа-яЁё])\1'
print(re.findall(regex, string))

regex = r'([^\d_\W])\1'
print(re.findall(regex, string))

['l', 'E', 'l', 'b']
['l', 'E', 'l', 'b']


In [57]:
# Нужно найти последовательности из 2 одинаковых арабских цифр

string = '5353 7777'

regex = r'(\d{2})\1'
print(re.findall(regex, string))

['53', '77']


In [58]:
# Напишите регулярное выражение, которое найдёт все последовательности if и <if>, 
# но не <if и if>, стоящие между началом и концом строки.

string = '<if>'

regex = r'^(<)?if(?(1)>|)$'
print(re.match(regex, string))

<re.Match object; span=(0, 4), match='<if>'>


# 2.11 Скобочные выражения

In [59]:
# Lookahead

# (?<=y)x находит x, только если перед x следует y
# (?<!y)x находит x, только если перед x НЕ следует y

# <--------------------------------------------------->

# # Lookbehind

# x(?=y) находит x, только если за x следует y
# x(?!y) находит x, только если за x НЕ следует y

![image.png](attachment:image.png)

In [60]:
# Движок регулярных выражений в Python не может работать с выражениями неопределённой длины в Lookbehind из-за технических особенностей. 

# Вызовут ошибку:

r'(?<=test{0,})regex'
r'(?<=g?)regex'
r'(?<!Python+)regex'

# Длина вхождений выражений в Lookbehind может быть разной
# Поэтому появится ошибка



# Ошибки не будет:

r'(?<=test)regex'
r'(?<=g{21})regex'
r'(?<!Pytho[mn])regex'

# Длина вхождений выражений в Lookbehind фиксированная
# Всё выполнится без ошибок

'(?<!Pytho[mn])regex'

In [61]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Слева от неё стоит [^START]
# Справа от неё стоит {(END.)}
# Состоит из любых символов, кроме символа перехода на новую строку

string = '[^START]Это другой текст{(END.)}'

regex = r'(?<=\[\^START\]).+(?=\{\(END\.\)\})'
print(re.findall(regex, string))

['Это другой текст']


In [62]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Слева от неё не стоит /
# Справа от неё не стоит /
# Последовательность состоит из одного слеша: /

string = 'k}e09lQS>:)*N\/OYp+N//;Oy6///hS/.T//O/n/(_oR///////eD?/nxeZOg2=j-Zw+-z}>5Sl[VX:}zaB:sL7fe</3>tgqk(8vP701}bcWnT~a/MR0	'

regex = r'(?<!/)/(?!/)'
print(re.findall(regex, string))

['/', '/', '/', '/', '/', '/', '/']


  string = 'k}e09lQS>:)*N\/OYp+N//;Oy6///hS/.T//O/n/(_oR///////eD?/nxeZOg2=j-Zw+-z}>5Sl[VX:}zaB:sL7fe</3>tgqk(8vP701}bcWnT~a/MR0	'


In [63]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из символов x
# Длина последовательности чётная
# Последовательность не может быть подпоследовательностью

string = 'x xx xxx xxxx xxxxx xxxxxx xxxxxxx xxxxxxxx xxxxxxxxx xxxxxxxxxx xxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxxxx'

regex = r'(?<!x)(?:xx)+(?!x)'
print(re.findall(regex, string))

regex = r'\b(?:xx)+\b'
print(re.findall(regex, string))

['xx', 'xxxx', 'xxxxxx', 'xxxxxxxx', 'xxxxxxxxxx', 'xxxxxxxxxxxx']
['xx', 'xxxx', 'xxxxxx', 'xxxxxxxx', 'xxxxxxxxxx', 'xxxxxxxxxxxx']


In [64]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Последовательность букв, которая начинается на заглавную букву
# Используется кириллический алфавит нижнего и верхнего регистров
# Последовательность не стоит в начале предложения
# Перед последовательностью не должно заканчиваться предложение, т.е. не стоит: .!?

string = 'Меня зовут Егор. Мне нравится ходить у реки Волги, что проходит через город Ярославль. Надеюсь, что моя мечта - поездка во Владивосток, скоро осуществится.'

regex = r'(?<!^)(?<![.!?]\s)[А-ЯЁ][А-ЯЁа-яё]+'
print(re.findall(regex, string))

['Егор', 'Волги', 'Ярославль', 'Владивосток']


In [65]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из арабских цифр
# Перед последовательностью не стоит минус
# Не является подпоследовательностью

string = '4902 84234-32 3129 -1 -3 -1 3-1 31-3 12 391 -319-31-3-12-3912390193-4'

regex = r'(?<!-)\b\d+'
print(re.findall(regex, string))

regex = r'(?<![-\d])\d+'
print(re.findall(regex, string))

['4902', '84234', '3129', '3', '31', '12', '391']
['4902', '84234', '3129', '3', '31', '12', '391']


# 2.12 Операция ИЛИ

In [66]:
# Задача: Нужно найти слово Hi или Bye

string = 'Hi Bye 123Hi|Bye123Hi|Bye'

# Неправильное регулярное выражение, т.к. оно равносильно следующему выражению [BHeiy|]
# Квадратные скобки используются только для замены символов, условие или в них не работает
wrong_regex = r'[Hi|Bye]'
print(re.findall(wrong_regex, string))

# Поставленную выше задачу решает
correct_regex = r'(Hi|Bye)'
print(re.findall(correct_regex, string))

# Non-capturing group идеально подходит для группировки шаблонов
correct_regex2 = r'(?:Hi|Bye)'
print(re.findall(correct_regex2, string))

# Шаблон без групппировки. Также работает, поставленную выше задачу решает
correct_regex3 = r'Hi|Bye'
print(re.findall(correct_regex3, string))

['H', 'i', 'B', 'y', 'e', 'H', 'i', '|', 'B', 'y', 'e', 'H', 'i', '|', 'B', 'y', 'e']
['Hi', 'Bye', 'Hi', 'Bye', 'Hi', 'Bye']
['Hi', 'Bye', 'Hi', 'Bye', 'Hi', 'Bye']
['Hi', 'Bye', 'Hi', 'Bye', 'Hi', 'Bye']


In [67]:
# Что найдёт регулярное выражение (?:он|она) знает|ты знаешь?

string = '''
она знает
он знает
они знают
она знаешь
он знаешь
ты знаешь
вы знаете
он она знает'''

regex = r'(?:он|она) знает|ты знаешь'
print(re.findall(regex, string))

['она знает', 'он знает', 'ты знаешь', 'она знает']


In [68]:
string = '''
№ 345 Номер 741 Number 194'''

regex = r'№ \d{3}|Номер \d{3}|Number \d{3}'
print(*re.finditer(regex, string))

regex = r'(?:(№|Номер)|Number) \d{3}'
print(*re.finditer(regex, string))

regex = r'№|Номер|Number \d{3}'
print(*re.finditer(regex, string))

regex = r'(?:Номер|Number) \d{3}|№ \d{3}'
print(*re.finditer(regex, string))

regex = r'(№|Номер|Number) \d{3}'
print(*re.finditer(regex, string))

regex = r'[№|Номер|Number] \d{3}'
print(*re.finditer(regex, string))

regex = r'(?:№|Номер|Number) \d{3}'
print(*re.finditer(regex, string))

<re.Match object; span=(1, 6), match='№ 345'> <re.Match object; span=(7, 16), match='Номер 741'> <re.Match object; span=(17, 27), match='Number 194'>
<re.Match object; span=(1, 6), match='№ 345'> <re.Match object; span=(7, 16), match='Номер 741'> <re.Match object; span=(17, 27), match='Number 194'>
<re.Match object; span=(1, 2), match='№'> <re.Match object; span=(7, 12), match='Номер'> <re.Match object; span=(17, 27), match='Number 194'>
<re.Match object; span=(1, 6), match='№ 345'> <re.Match object; span=(7, 16), match='Номер 741'> <re.Match object; span=(17, 27), match='Number 194'>
<re.Match object; span=(1, 6), match='№ 345'> <re.Match object; span=(7, 16), match='Номер 741'> <re.Match object; span=(17, 27), match='Number 194'>
<re.Match object; span=(1, 6), match='№ 345'> <re.Match object; span=(11, 16), match='р 741'> <re.Match object; span=(22, 27), match='r 194'>
<re.Match object; span=(1, 6), match='№ 345'> <re.Match object; span=(7, 16), match='Номер 741'> <re.Match object; s

In [69]:
string = '«Да нет наверное» - фраза непонятная многим иностранцам. Это означает как бы "нет", только с сомнением "а вдруг?!"'

regex = r'\b(?:[Дд]а|[Нн]ет|[Нн]аверное)\b'
print(re.findall(regex, string))

regex = r'\b([Дд]а|[Нн]ет|[Нн]аверное)\b'
print(re.findall(regex, string))

['Да', 'нет', 'наверное', 'нет']
['Да', 'нет', 'наверное', 'нет']


In [70]:
# Адрес представляет собой набор из префикса (1, или 3, или bc1) и основной части длиной от 27 до 34 символов.

# В основной части используются:

# Весь латинский алфавит, кроме: O, I, l.
# Все арабские цифры, кроме 0.

string = '43aGVnZCm9hmJDqoRDJFTQm7B2VsESFa8a LxYHh12y7sPTrYqanvSwFU4SQQA5NsmNdG vj8Q9w16Ats5wSGjG6vbmFofr97x9Kz2M NT6cJZaDY7TDwRZ2NiVD7TG6wfS1gue3gV 2MAJzPUS2JwQ9T4Gya9kno7kpsEMn3hqG6L M6TdG68o7GCTzU1HCSMNMppKbWbsMsgevf 4NatRaPvbVjqoWP8W3bXV9r7mY1SjnAF7ER Pki745E2oZ7xsBzQWfyyYocKzKEiARufcq Mz3aXtGBgWQyVzuysVC6Dti47uy8ifMZDZ N8nBtfvFXfSzDYyVFsa7e5zeSgQpt4mEfz'

regex = r'\b(?:1|3|bc1)[1-9a-km-zA-HJ-NP-Z]{27,34}\b'
print(re.findall(regex, string))

string = '39Bett9aVjBtgLHkPL1Zv5P3kxtbVHiQqa 3Qbn5xTVuHDMtTGwkpgsjLrVMBecmobnNh'

regex = r'\b(?:1|3|bc1)[1-9a-km-zA-HJ-NP-Z]{27,34}\b'
print(re.findall(regex, string))

[]
['39Bett9aVjBtgLHkPL1Zv5P3kxtbVHiQqa', '3Qbn5xTVuHDMtTGwkpgsjLrVMBecmobnNh']


In [71]:
string = '''я готова я готов ты готова ты готов 
он готов она готова они готовы мы готовы вы готовы 
ты готовы он готовы он готова она готов вы готов вы готова мы готов мы готова они готова они готов'''

regex = r'\b((?:я|ты) (?:готова|готов)|он готов|она готова|(?:мы|вы|они) готовы)\b'
print(re.findall(regex, string))

pat1 = r'\b(?:я|ты|она)\b \bготова\b' 
pat2 = r'\b(?:я|ты|он)\b \bготов\b'
pat3 = r'\b(?:мы|вы|они)\b \bготовы\b'

regex = fr'{pat1}|{pat2}|{pat3}'
print(re.findall(regex, string))

['я готова', 'я готов', 'ты готова', 'ты готов', 'он готов', 'она готова', 'они готовы', 'мы готовы', 'вы готовы']
['я готова', 'я готов', 'ты готова', 'ты готов', 'он готов', 'она готова', 'они готовы', 'мы готовы', 'вы готовы']


In [72]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из 3 арабских цифр
# Слева от последовательности стоит №, Номер, или Number

string =  '№ 123 893 Номер 983 432 Number 948 481'

regex = r'(?:(?<=№ )|(?<=Номер )|(?<=Number ))\d{3}'
print(re.findall(regex, string))

['123', '983', '948']


# 2.13 Практика

In [73]:
# Нужно найти числа x, подходящие по следующим условиям:

# x ∈ [0, 1] т.е. 0 ≤ x ≤ 1
# x может быть как и десятичной дробью, так и целым числом
# Если x - десятичная дробь, то её максимальная точность должна быть до сотых
# В тестах не будет 0.00/0.0 или 1.00/1.0. Эти числа будут записаны без плавающей точки

string =  '10.01 10.11 11.11 1.01 1.11 1.001 10.001 0.11 0.10 0.111 0.101 10.0101 0.4352 0.45262 0.645475 0.5546448 0.16 0 1'

regex = r'\b(?:0|1|0\.[\d]{1,2})(?= |$)'
print(re.findall(regex, string))

string = '10a01 10h11 11\11 1501 10|001 10,0101 8745 2052 50.25'

regex = r'\b(?:0|1|0\.[\d]{1,2})(?= |$)'
print(re.findall(regex, string))

['0.11', '0.10', '0.16', '0', '1']
[]


In [74]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Используются буквы кириллического алфавита нижнего и верхнего регистров
# Последовательность должна содержать как минимум одну букву а
# Заглавную А искать не нужно
# Последовательность не может быть подпоследовательностью

string = 'Равным образом постоянный количественный рост и сфера нашей активности напрямую зависит от экономической целесообразности принимаемых решений...'

regex = r'\b[А-Яа-яЁё]*а[А-Яа-яЁё]*\b'
print(re.findall(regex, string))

['Равным', 'образом', 'сфера', 'нашей', 'активности', 'напрямую', 'зависит', 'целесообразности', 'принимаемых']


In [75]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из кириллических символов, но в ней есть как минимум 1 некириллический символ
# Состоит из некириллических символов, но в ней есть как минимум 1 кириллический символ
# Последовательности, состоящие полностью из кириллических или некириллических символов нужно игнорировать
# Используются буквы верхнего и нижнего регистров
# Знаки препинания не считаются некириллическими символами
# Не может являться подпоследовательностью

string = 'О, х0т табc. A что такое табс? Я зашéл нe туда, кyда н4до. Почему это твич не 3абанил - не совсем понятно. Господа, я полагаю стрим надо быстро заканчивать, и удалять...'

cyr = r'а-яА-ЯёЁ'
non_cyr = fr'[^{cyr}\s]'

pat1 = fr'(?:{non_cyr}+[{cyr}]+)+{non_cyr}*\b'
pat2 = fr'(?:[{cyr}]+{non_cyr}+)+[{cyr}]*\b'

regex = fr'{pat1}|{pat2}'

print(re.findall(regex, string))

['х0т', 'табc', 'зашéл', 'нe', 'кyда', 'н4до', '3абанил']


In [76]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Используются буквы кириллического алфавита верхнего и нижнего регистров
# В последовательности может содержаться дефис
# Последовательность стоит в начале строки, если её нет - первого слова нет

string = 'Привет. Я подсяду? Спасибо. Почему у меня на рюкзаке этот значок? Ну, просто мне понравился этот значок. А почему ты спрашиваешь? В смысле навязываю тебе что-то? Так ты же сам спросил. Ладно.'

regex = r'^[A-Za-zА-Яа-яЁё\-]*\b'
print(re.findall(regex, string))

['Привет']


In [77]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из букв латинского алфавита нижнего и верхнего регистров, -
# Начинается на n или N
# Не может быть подпоследовательностью

string = 'n-word some spam Nail ещё какой-то текст nature Ninja Nice normal'

regex = r'(?:(?<=^)|(?<=\s))[Nn][A-Za-zА-Яа-яЁё-]*(?!\S)'
print(re.findall(regex, string))

string = 'n-w0rd n_w0rd'

regex = r'(?:(?<=^)|(?<=\s))[Nn][A-Za-zА-Яа-яЁё-]*(?!\S)'
print(re.findall(regex, string))

['n-word', 'Nail', 'nature', 'Ninja', 'Nice', 'normal']
[]


In [78]:
# Нужно найти переменные, записаные в стиле lowerCamelCase, который включает в себя следующее:

# Первое слово начинается всегда с буквы нижнего регистра
# Последующие слова начинаются с букв в верхнем регистре
# Больше верхний регистр нигде не используется
# Используются буквы латинского алфавита
# Цифры в переменных из тестовых данных находятся только в конце

string = 'get_id sendMessage echo_all canvas wrapper RegularExpression vUpperCase nice_Flick_SHOT that_was_bad getLink variableWithNumbers3134 anotherOne1 another1 anotherONne1 '

regex = r'\b[a-z]+[A-Za-z]+[\d]*\b' # вариант неверный (anotherONne1)
print(re.findall(regex, string))

regex = r'\b[a-z]+(?:[A-Z][a-z]+)*\d*\b'
print(re.findall(regex, string))

['sendMessage', 'canvas', 'wrapper', 'vUpperCase', 'getLink', 'variableWithNumbers3134', 'anotherOne1', 'another1', 'anotherONne1']
['sendMessage', 'canvas', 'wrapper', 'vUpperCase', 'getLink', 'variableWithNumbers3134', 'anotherOne1', 'another1']


In [79]:
# Как вы уже поняли - snake_case это тоже стиль наименования переменных. В Python переменные принято называть, используя этот стиль. Вот что он из себя представляет:

# Всегда используется нижний регистр
# Слова разделяются нижним подчёркиванием
# Используются буквы латинского алфавита
# Цифры в переменных из тестовых данных находятся только в конце.

string = 'get_id sendMessage echo_all canvas wrapper RegularExpression upperCAse nice_Flick_SHOT that_was_bad project_one project_1 test_2 variable_5 var_6 var_7_ var_ var_42342354325'

regex = r'\b[a-z]+[_]*[a-z_]*\d*\b' # вариант неверный (var_)
print(re.findall(regex, string))

regex = r'\b[a-z]+(?:_[a-z\d*]+)*\b'
print(re.findall(regex, string))

['get_id', 'echo_all', 'canvas', 'wrapper', 'that_was_bad', 'project_one', 'project_1', 'test_2', 'variable_5', 'var_6', 'var_', 'var_42342354325']
['get_id', 'echo_all', 'canvas', 'wrapper', 'that_was_bad', 'project_one', 'project_1', 'test_2', 'variable_5', 'var_6', 'var_42342354325']


In [80]:
# В username, в котором выполняются следующие условия:

# Используются символы a-z, A-Z, 0-9, _
# Длина от 5 до 32 символов включительно
# Не может начинаться с цифры или _
# Не может заканчиваться на _

string = 'i0i#r ⇒ kigd@2 ⇒ taaphli-octoandri ⇒ crypticfrоg ⇒ тест ⇒ suDhAsa010 ⇒ Thematdev ⇒ oo?om09 ⇒ ooo>m11 ⇒ sac<charose ⇒ thekillerbun$ny12341 ⇒ shuse!kagari ⇒ du%eru42 ⇒ hy&perterminal ⇒ su*theta ⇒ adb(reboot)bootloader ⇒ marb=ololo ⇒ theminidev ⇒ a_e_i_o_u_hacker143 ⇒ aldyhk ⇒ bio_chain_2_bot ⇒ miiiiiyt ⇒ bederke ⇒ barry021 ⇒ aikaravinu ⇒ romangraef ⇒ awidok ⇒ mechanarutosucks'

regex = r'(?<!\S)[^\d_][A-Za-z\d_]{3,30}[^_](?!\S)'
print(re.findall(regex, string))

['suDhAsa010', 'Thematdev', 'theminidev', 'a_e_i_o_u_hacker143', 'aldyhk', 'bio_chain_2_bot', 'miiiiiyt', 'bederke', 'barry021', 'aikaravinu', 'romangraef', 'awidok', 'mechanarutosucks']


In [81]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Название файла состоит из: букв латинского алфавита верхнего и нижнего регистров, цифр, -
# Между названием и расширением файла стоит .
# Расширение файла состоит из букв латинского алфавита верхнего и нижнего регистров, цифр
# Минимальная длина названия и расширения - один символ
# Найденная последовательность может являться подпоследовательностью, 
# только если стоит в абсолютном или относительном пути: C:\Users\test.txt, ../Users/test.txt, 
# т.е. перед ней стоят символы / или \

string = r'Untitled-1.psd Untitled-1.jpg video.mp4 C:\Users\matv3\Desktop\script.js index.html @/assets/images/logo.svg .mp4 some-text .py test... te..st c#logs.txt query.$exe  :a.json  ?s.csv'

regex = r'(?:(?<= )|(?<=^)|(?<=\\)|(?<=/))[A-Za-z\d-]+\.[A-Za-z\d]+(?!\S)'
print(re.findall(regex, string))

regex = r'(?:(?<=[\/\\])|(?<!\S))[A-Za-z\d-]+\.[A-Za-z\d]+'
print(re.findall(regex, string))

['Untitled-1.psd', 'Untitled-1.jpg', 'video.mp4', 'script.js', 'index.html', 'logo.svg']
['Untitled-1.psd', 'Untitled-1.jpg', 'video.mp4', 'script.js', 'index.html', 'logo.svg']


In [82]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Cостоит из символов латинского алфавита обоих регистров, цифр, а также _
# Перед последовательностью стоит v=

string = 'https://youtu.be/watch?v=dQw4w9WgXcQ&list=PLi9drqWffJ9FWBo7ZVOiaVy0UQQEm4IbP https://www.youtube.com/watch?app=desktop&v=WUEVJ0N6I1A&t=1s'

regex = r'(?<=v=)[A-Za-z\d_]+\b'
print(re.findall(regex, string))

['dQw4w9WgXcQ', 'WUEVJ0N6I1A']


In [83]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Начинается с [ и заканчиваются на ]
# Внутри может быть пусто, а могут находиться числа
# Числом считаем произвольную последовательность из цифр
# Между числами должны стоять запятые
# Запятые могут быть как и с пробелом, так и без
# После последнего числа может стоять запятая, т.к. такие массивы: [123, 123, ] и [23, ] валидные в Python

string = '[1, 23, 3, 436, 5, 63673, 47] [2] [2, ] [2,] [2,,] [] [4, 05] [1, 2, 3, 4, 5, 6, 7424234234234243242, 5] [6246546456] [432] [0 ] [3240, 00] [402030, 404040] [2022 2022][1 2 3 4] [, ]'

single = '\[(?:\d+,?\s?|)\]'
multy = '\[(?:\d+,\s?\d*)*\]'

regex = rf'(?:{single}|{multy})'
print(*re.findall(regex, string))

[1, 23, 3, 436, 5, 63673, 47] [2] [2, ] [2,] [] [4, 05] [1, 2, 3, 4, 5, 6, 7424234234234243242, 5] [6246546456] [432] [0 ] [3240, 00] [402030, 404040]


  single = '\[(?:\d+,?\s?|)\]'
  multy = '\[(?:\d+,\s?\d*)*\]'


# 2.14 Catastrophic Backtracking

In [84]:
# В чём суть catastrophic backtracking?
# Допустим, у нас есть такое регулярное выражение: r"(a+)+b"

# Да, такое выражение можно представить как a+b, но давайте будем считать, что a и b - какие-то очень сложные регулярные выражения.

# Если строка, в которой мы ищем этот шаблон, не будет содержать b, то выражение перебирает строку огромным количеством способов, пытаясь найти совпадение. Время выполнения растёт экспоненциально:

# import re

# # Запустим выражение на строке из 20 символов a:
# re.findall(r"(a+)+b", "a" * 20) 
# # Выполнилось за 0.07218690006993711

# # Запустим выражение на строке из 30 символов a:
# re.findall(r"(a+)+b", "a" * 30) 
# # Выполнилось за 75.4667053000303

# # Прирост более чем в тысячу раз!!!
# Если совпадений нет, то движок возвращается к предыдущим позициям, где снова начинает поиск. Движок регулярных выражений пытается сделать это много раз, пока не исследует все возможные пути.

In [85]:
# Регулярные выражения, которые попадают под catastrophic backtracking:
# Если к группе применён квантификатор и внутри этой группы используется ещё один квантификатор или |, то регулярное выражение может быть неконтролируемым.

# Примеры таких выражений:

# (?:a+)+
# ([a-zA-Z_]+)*
# (?:a|aa)+
# (a|a?)+

# Что делать если в выражении есть catastrophic backtracking?

# Есть следующие способы решить эту проблему:
# Постараться переписать регулярное выражение, если это возможно (сократить количество квантификаторов и условий или)
# Перед использованием выражения проверять входные данные (например, не принимать слишком большой текст)
# Использовать специальные средства из модуля re
# Контролировать использование регулярного выражения (например, останавливать поиск, если он идёт слишком долго)

In [86]:
# Если после жадного квантификатора поставить +, то он станет притяжательным:

# {m,n}+
# {,n}+
# {m,}+
# *+
# ++
# ?+
# Притяжательные квантификаторы, как и жадные, пытаются найти максимально возможное количество вхождений. 
# Но, в отличие от жадных квантификаторов, они не разрешают back-tracking, когда регулярное выражение не может найти совпадение.
# Это значит, что движок не будет проходить огромное количество путей и закончит свою работу раньше, если совпадение не будет найдено.

# Как и в случае с ленивыми квантификаторами, смысла делать квантификатор {n} притяжательным нет.

In [87]:
# Второе решение проблемы с catastrophic backtracking - атомарная группировка:
# (?>regex)

# Пытается найти вхождения regex, как если бы оно было отдельным регулярным выражением. 
# Если совпадения найдены - движок регулярных выражений пытается найти совпадения для оставшейся части регулярного выражения, 
# следующего после атомарной группировки. 
# Если совпадений нет - движок регулярных выражения может откатиться назад только на место до атомарной группировки.
# С помощью атомарной группировки можно сказать движку, что откатываться в этом месте и искать всевозможные пути не имеет смысла: внутри (?>regex) откат запрещён.

# Например, выражение (?>.*). никогда не найдёт совпадений, потому что шаблон .* нашёл бы все возможные символы в тексте, и оставшаяся . не смогла бы найти совпадение.

# x{m,n}+ одно и то же, что и (?>x{m,n})

# x*+ одно и то же, что и (?>x*)
# x++ одно и то же, что и (?>x+)
# x?+ одно и то же, что и (?>x?)

In [88]:
regex = r'(?:a+)+b'

# Перепишем в:

regex = r'(?>a+)+b'

# 3.2  Объект Match

In [89]:
# Он нужен чтобы получать более детальную информацию о найденных совпадениях. 

In [90]:
text = 'Привет, как тебя зовут?'

regex = r'П.+?т'
print(re.match(regex, text))

# span - индексы начала и конца совпадения, а match - само совпадение.

<re.Match object; span=(0, 6), match='Привет'>


In [91]:
# group([group1, ...])
# Возвращает найденное совпадение по номеру группы.

print(match.group())  # Если в метод не передать аргумент, то он по умолчанию выведет нулевую группу
print(match.group(1)) # Можно передать номер нужной группы в метод
print(match[1])       # Благодаря геттеру в Match-объекте к группам можно обращаться с помощью квадратных скобок

# Все вызовы сверху выведут совпадение нулевой группы, т.е. всего регулярного выражения
# В данном случае они выведут строку "Привет"

hello world hello world
hello
hello


In [92]:
# start(__group=0), end(__group=0)
# Методы start и end возвращают индексы начала и конца совпадения с регулярным выражением группы, номер которой был передан в метод:

print(match.start())
print(match.end())
print(match.start(0))
print(match.end(0))

0
23
0
23


In [93]:
# span(__group=0)
# Метод span возвращает кортеж с индексом начала и конца совпадения группы, номер которой был передан в метод. Он работает аналогично методам start, end, но возвращает пару чисел:

print(match.span(1)) 
print(match.span(1))

(0, 5)
(0, 5)


In [94]:
# Атрибуты
 
# pos

# ⚠️ Используется вместе с объектом Pattern
# Если обратиться к атрибуту, то можно получить аргумент pos, переданный в функцию. pos - это позиция, с которой функция начинает искать совпадения.
# pos можно использовать только с объектом Pattern. В коде выше Pattern не используется, поэтому у pos стоит значение по умолчанию 0:

# print(match.pos) # 0
 

# endpos
# ⚠️ Используется вместе с объектом Pattern
# Если обратиться к атрибуту, то можно получить аргумент endpos, переданный в функцию. endpos - это позиция, до которой функция ищет совпадения.
# endpos можно использовать только с объектом Pattern. В коде выше Pattern не используется, поэтому у endpos стоит значение по умолчанию: индекс последнего символа в строке.

# print(match.endpos) # 23
 

# re
# Если обратиться к атрибуту, то можно получить регулярное выражение, которое использовалось для поиска:

# print(match.re) # re.compile('П.+?т')
# Правда возвращается не строка с регулярным выражением, а объект Pattern, который мы разберём чуть позже.

 
# string
# Если обратиться к атрибуту, то можно получить строку, в которой искались совпадения:

# print(match.string) # Привет, как тебя зовут?

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [95]:
# В переменной match записан объект Match. Выведите на экран:

# Его нулевую группу
# Начало вхождения нулевой группы
# Конец вхождения нулевой группы
# Атрибут pos
# Атрибут endpos
# Атрибут re
# Атрибут string# 

string = 'I love regex!'
regex = r'I'

match = re.match(regex, string)

print(match[0])
print(match.start())
print(match.end())
print(match.pos)
print(match.endpos)
print(match.re)
print(match.string)

[print(getattr(match, method)()) for method in ('group', 'start', 'end')]
[print(getattr(match, attr)) for attr in ('pos', 'endpos', 're', 'string')]

for i in ('group() start() end() pos endpos re string').split():
    print(eval(f'match.{i}'))

I
0
1
0
13
re.compile('I')
I love regex!
I
0
1
0
13
re.compile('I')
I love regex!
I
0
1
0
13
re.compile('I')
I love regex!


# 3.3  Match | re.search()

In [96]:
# re.search(pattern, string, flags=0) -  ищет первое совпадение в строке

# Параметры:
# pattern - регулярное выражение
# string - строка, к которой нужно применить регулярное выражение
# flags - флаги

# Возвращаемое значение:
# Объект Match, если совпадение было найдено
# None, если нету совпадений

In [97]:
# Поиск первой последовательности из трёх чисел в строке:

pattern = r'\d{3}'
string = 'abc 123 def 456 fed 321 cba'
# Ищет только одно вхождение, самое первое
result = re.search(pattern, string)

print(result) # <re.Match object; span=(4, 7), match='123'>

result = re.search(r'\d{3}', "abcdef")
print(result) # None

<re.Match object; span=(4, 7), match='123'>
None


In [98]:
# Нужно найти первый хештег в тексте:

# Начинается с символа #
# После # стоит последовательность из латинских букв нижнего регистра

string = '#traveler #traveller #traveltheworld #travelblog #traveladdict #mytravelgram #travels #travelphoto #traveldiaries #travellife #travelawesome #travelpics #natgeotravel #travelholic #travelbug #travelstoke #traveldeeper #travelgirl #luxurytravel #worldtraveler #travelers #solotravel #travelpic #travelmore #travellingthroughtheworld #traveldiary #ilovetravel'

regex = r'#[a-z]+'

if res := re.search(regex, string):
    print(res.group())

#traveler


In [99]:
# Найти строку, в которой есть последовательности код или Код. 
# Получить номер этой строки и номер начала вхождения последовательности.

lines = ['Хочу полететь на Марс(', 'Секретный код: Dogecoin', 'Батут работает!', 'Где ключи от моей Tesla?']

regex = r'[Кк]од'
flag = True

for n, line in enumerate(lines, start=1):
    if res := re.search(regex, line):
            print(n, res.start())
            flag = False
if flag:
    print('код не найден')

2 10


In [100]:
# Нужно найти ключ t и его значение:

# Значением является последовательностью из арабских цифр, символов . и +
# Перед значением стоит t=

string = '{"errorCode":909,"errorMessage":"Are you a robot? Please enter the captcha below","errorDescription":null,"logStatus":null,"captcha":"\/captcha\/view?_CAPTCHA&amp;t=0.555555+11232131"}'
regex = r'\bt=[\d\.\+]+\b'

print(re.search(regex, string).group())

t=0.555555+11232131


  string = '{"errorCode":909,"errorMessage":"Are you a robot? Please enter the captcha below","errorDescription":null,"logStatus":null,"captcha":"\/captcha\/view?_CAPTCHA&amp;t=0.555555+11232131"}'


# 3.4  Match | re.match()

In [101]:
# re.match(pattern, string, flags=0) – то же самое, что и re.search(), но ищет совпадение в начале строки.

# Параметры:
# pattern - регулярное выражение
# string - строка, к которой нужно применить регулярное выражение
# flags

# Возвращаемое значение:
# Объект Match, если совпадение было найдено
# None, если нету совпадений

In [102]:
pattern = r'\d{3}'
string = 'abc 123 def 456 fed 321 cba'

result = re.match(pattern, string)
print(result) # None

pattern = r'\d{3}'
string = '123 abc 456 def 654 cba 321'

result = re.match(pattern, string)
print(result[0]) # <re.Match object; span=(0, 3), match='123'>

None
123


In [103]:
# Нужно найти первое слово в начале строки:

# Состоит как минимум из одной буквы
# Используются буквы латинского алфавита обоих регистров

string = 'My car is the fastest!'

regex = r'[A-Za-z]+'

if res := re.match(regex, string):
    print(f'Первое слово в предложении: {res[0]}')

Первое слово в предложении: My


In [104]:
#  Нужно проверить, может ли текст содержать seed-фразу:

# Seed-фраза - это последовательность из 12, 18 или 24 случайных слов
# В данном случае нужно проверять, что текст начинается как минимум с 12 слов
# Слова состоят из букв латинского алфавита нижнего регистра
# Между словами могут стоять только пробелы

string = 'theme primary opinion edit dragon maid boil ankle link shield erupt melody'

regex = r'^([a-z]+\s){11}[a-z]+'

if res := re.match(regex, string):
    print('возможно, это seed-фраза')

возможно, это seed-фраза


In [105]:
# Нужно получить все символы до @ из адреса электронной почты.

string = 'ex4mpl3@mail.ru'

regex = r'.+(?=@)'
print(re.match(regex, string).group())

ex4mpl3


# 3.5 Match | re.fullmatch()

In [106]:
# re.fullmatch(pattern, string, flags=0) - определяет соответствие строки переданному шаблону. Если вся строка соответствует шаблону - выводит объект Match, иначе - None.

# Параметры:
# pattern - регулярное выражение
# string - строка, к которой нужно применить регулярное выражение
# flags - флаги

# Возвращаемое значение:
# Объект Match, если вся строка соответствует шаблону
# None, если строка не соответствует шаблону

In [107]:
print(re.fullmatch('\d', '111')) # None
print(re.fullmatch('\d', '1'))   # <re.Match object; span=(0, 1), match='1'>

None
<re.Match object; span=(0, 1), match='1'>


  print(re.fullmatch('\d', '111')) # None
  print(re.fullmatch('\d', '1'))   # <re.Match object; span=(0, 1), match='1'>


In [108]:
# Найдите все последовательности цифр, которые начинаются от 13 цифр включительно.

string = '8901112134572'

regex = r'^\d{13,}'

if res := re.fullmatch(regex, string):
    print(res[0])

print(bool(re.fullmatch(regex, string)))

8901112134572
True


In [109]:
# Проверить пароль на валидность. Валидным будем считать пароль, который:

# Состоит из a-z, A-Z, 0-9, @#$%^&*()_-+!?
# Его длина минимум 8 символов

string = 'g0JDQ0#(dka02b vp'

regex = r'[a-zA-Z0-9@#$%\^&\*()_\-\+!\?]{8,}'

if res := re.fullmatch(regex, string):
    print(res[0])

print(bool(re.fullmatch(regex, string)))

False


In [110]:
# Найдите все последовательности, которые могут быть номерами телефонов:

# Номер может начинаться с +
# Потом идут цифры
# В каждом номере минимум 11 цифр
# Между цифрами могут быть разделители: ( )-
# Длина разделителя от 0 до 2 символов включительно


phone_list = ['7(977)8179710', '+79786655917', '89175643308',
             '+7 902 7993132', '8 (922) 007-62-31', '8 983 353 12 49',
             '+7 909 789-33-08', '19362136208', '+688 893 512 92 14', 
             '8 (722) -007-62-31', '7 942 674 85 5', '7 809 789f33-08', 
             '7 809 789f33-08', '-8 (783 35312 49', '7[977]8179710', 
             '7(977)817_97_10', '+777866559', '+7 702 79938']

regex = r'^\+?(\d[() -]{0,2}){11,}'

for string in phone_list:
    print(f'{string.ljust(20)}{bool(re.fullmatch(regex, string))}')

7(977)8179710       True
+79786655917        True
89175643308         True
+7 902 7993132      True
8 (922) 007-62-31   True
8 983 353 12 49     True
+7 909 789-33-08    True
19362136208         True
+688 893 512 92 14  True
8 (722) -007-62-31  False
7 942 674 85 5      False
7 809 789f33-08     False
7 809 789f33-08     False
-8 (783 35312 49    False
7[977]8179710       False
7(977)817_97_10     False
+777866559          False
+7 702 79938        False


In [111]:
# Найдите все последовательности, которые могут быть многочленами. Многочлен состоит из слагаемых. Каждое слагаемое это следующее произведение:

# Первым множителем может быть целое число (любая последовательность цифр)
# Числа могут быть отрицательными
# Вторым множителем может быть x
# x может быть возведён в любую степень (любая последовательность цифр)
# Между множителями ничего не стоит
# в произведении может не быть одного из множителей
# x не всегда возведен в какую-либо степень
# Между слагаемыми стоит - или +.

string = 'x^3-11x^2+38x-40'


num = r'-?([1-9]\d?)'
x = r'-?(x\^[1-9]|x)'

regex = fr'({num}{x}?|{num}?{x})([+-]({num}{x}?|{num}?{x}))*'

if res := re.fullmatch(regex, string):
    print(res[0])

print(bool(re.fullmatch(regex, string)))

x^3-11x^2+38x-40
True


# 3.6 Match | re.finditer()

In [112]:
# re.finditer(pattern, string, flags=0) - возвращает итератор Match объектов с вхождениями pattern в строке string.

# Параметры:
# pattern - регулярное выражение
# string - строка, к которой нужно применить регулярное выражение
# flags - флаги

# Возвращаемое значение:
# Итератор Match объектов

In [113]:
pattern = r'\d{3}'
string = 'abc 123 def 456 fed 321 cba'

result = re.finditer(pattern, string, 0)

for i in result:
    print(i)

# В данном примере будет выведено:
# <re.Match object; span=(4, 7), match='123'>
# <re.Match object; span=(12, 15), match='456'>
# <re.Match object; span=(20, 23), match='321'>

<re.Match object; span=(4, 7), match='123'>
<re.Match object; span=(12, 15), match='456'>
<re.Match object; span=(20, 23), match='321'>


In [114]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из \w
# Длина - максимально возможная

string = 'Recognition is the most powerful motivation factor.'

regex = r'\w+'

for i in re.finditer(regex, string):
    print(i.group())

Recognition
is
the
most
powerful
motivation
factor


In [115]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из букв латинского и кириллического алфавитов обоих регистров
# Длина - 5 букв
# Не является подпоследовательностью

string = 'Мы вынуждены отталкиваться от того, что разбавленное изрядной долей эмпатии, рациональное мышление способствует подготовке и реализации модели развития. В целом, конечно, консультация с широким активом предоставляет широкие возможности для форм воздействия.'

regex = r'\b[A-Za-zА-Яа-яЁё]{5}\b'

for i in re.finditer(regex, string):
    print(i.group())

долей
целом


In [116]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из цифр и ,
# В конце последовательности стоит  ₽

string = '<div class="main-indicator_rates"><div class="main-indicator_rates-table"><div class="main-indicator_rates-head"><div class="col-md-2 col-xs-7"><a href="/currency_base/">Курсы валют</a></div><div class="col-md-2 col-xs-7 _right"><a href="/currency_base/daily/?UniDbQuery.Posted=True&amp;UniDbQuery.To=22.04.2022">22.04.2022</a></div><div class="col-md-2 col-xs-7 _right"><a href="/currency_base/daily/?UniDbQuery.Posted=True&amp;UniDbQuery.To=23.04.2022">23.04.2022</a></div></div><div class="main-indicator_rate"><div class="col-md-2 col-xs-9 _dollar">USD</div><div class="col-md-2 col-xs-9 _right mono-num">74,9990 ₽</div><div class="col-md-2 col-xs-9 _right mono-num">73,5050 ₽</div><div class="main-indicator_tooltip" id="V_R01235"><div class="main-indicator_tooltip-head"><button class="main-indicator_tooltip-head-btn _left "></button><div class="main-indicator_tooltip-head-text">19.04.2022 - 23.04.2022</div><button class="main-indicator_tooltip-head-btn _right _disabled "></button></div><table class="main-indicator_tooltip-table"><tr><td class="_day">вт</td><td class="_date">19.04</td><td>79,4529&nbsp;₽</td><td class="_green">-0,5908&nbsp;₽</td></tr><tr><td class="_day">ср</td><td class="_date">20.04</td><td>79,0287&nbsp;₽</td><td class="_green">-0,4242&nbsp;₽</td></tr><tr><td class="_day">чт</td><td class="_date">21.04</td><td>77,0809&nbsp;₽</td><td class="_green">-1,9478&nbsp;₽</td></tr><tr><td class="_day">пт</td><td class="_date">22.04</td><td>74,9990&nbsp;₽</td><td class="_green">-2,0819&nbsp;₽</td></tr><tr><td class="_day">сб</td><td class="_date">23.04</td><td>73,5050&nbsp;₽</td><td class="_green">-1,4940&nbsp;₽</td></tr></table><div class="main-indicator_tooltip-footer">Официальный курс Банка России</div></div></div><div class="main-indicator_rate"><div class="col-md-2 col-xs-9 _euro">EUR</div><div class="col-md-2 col-xs-9 _right mono-num">81,2239 ₽</div><div class="col-md-2 col-xs-9 _right mono-num">80,0249 ₽</div><div class="main-indicator_tooltip" id="V_R01239"><div class="main-indicator_tooltip-head"><button class="main-indicator_tooltip-head-btn _left "></button><div class="main-indicator_tooltip-head-text">19.04.2022 - 23.04.2022</div><button class="main-indicator_tooltip-head-btn _right _disabled "></button></div><table class="main-indicator_tooltip-table"><tr><td class="_day">вт</td><td class="_date">19.04</td><td>86,4289&nbsp;₽</td><td class="_green">-0,6426&nbsp;₽</td></tr><tr><td class="_day">ср</td><td class="_date">20.04</td><td>85,9674&nbsp;₽</td><td class="_green">-0,4615&nbsp;₽</td></tr><tr><td class="_day">чт</td><td class="_date">21.04</td><td>83,2705&nbsp;₽</td><td class="_green">-2,6969&nbsp;₽</td></tr><tr><td class="_day">пт</td><td class="_date">22.04</td><td>81,2239&nbsp;₽</td><td class="_green">-2,0466&nbsp;₽</td></tr><tr><td class="_day">сб</td><td class="_date">23.04</td><td>80,0249&nbsp;₽</td><td class="_green">-1,1990&nbsp;₽</td></tr></table><div class="main-indicator_tooltip-footer">Официальный курс Банка России</div></div></div></div><a class="main-indicator_rates-link" href="/key-indicators/">Все показатели</a></div>'

regex = r'\b[\d ,]*₽'

for i in re.finditer(regex, string):
    print(i.group())

print()

regex = r'\d{2,},\d{4} ₽'

for i in re.finditer(regex, string):
    print(i.group())

74,9990 ₽
73,5050 ₽
81,2239 ₽
80,0249 ₽

74,9990 ₽
73,5050 ₽
81,2239 ₽
80,0249 ₽


# 3.7 re.findall()

In [117]:
# re.findall(pattern, string, flags=0) - возвращает список всех найденных совпадений.

# Параметры:
# pattern - регулярное выражение
# string - строка, к которой нужно применить регулярное выражение
# flags - флаги

# Возвращаемое значение:
# Список совпадений, если они есть
# Пустой список, если совпадений нет

In [118]:
pattern = r'\d{3}'
string = 'abc 123 def 456 fed 321 cba'

result = re.findall(pattern, string)

print(result) # ['123', '456', '321']

['123', '456', '321']


In [119]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Начинается с https://imgur.com/
# Потом идёт 7 симолов из следующего диапазона: a-z, A-Z, 0-9

string = 'The standardhttps://imgur.com/8oHc67r Lorem Ipsumhttps://imgur.com/3rGUJqOpassage, used since the 1500s'

regex = r'https://imgur\.com/[A-Za-z\d]{7}'

print(*re.findall(regex, string), sep='\n')

https://imgur.com/8oHc67r
https://imgur.com/3rGUJqO


In [120]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Начинается как минимум с одного из следующих символов: a-z, A-Z, 0-9, -, _
# Потом идёт @
# После @ снова идёт как минимум один из следующих символов: a-z, A-Z, 0-9
# Потом идёт .
# После . снова идёт как минимум один из следующих символов: a-z, A-Z, 0-9
# Адрес почты не может быть подпоследовательностью.

string = 'test mihryutkamihryutka1@gmail.com serginio1963@gmail.com velesgod111@gmail.com ofice_plus@mail.ru borisbaranob46@gmail.com bradley@automatedmarine.com fddsfwfwefwdfwd@mail.ru'

regex = r'\b[A-Za-z\d\-_]+@[A-Za-z\d]+\.(?:ru|com)+\b'

print(*re.findall(regex, string), sep='\n')

mihryutkamihryutka1@gmail.com
serginio1963@gmail.com
velesgod111@gmail.com
ofice_plus@mail.ru
borisbaranob46@gmail.com
bradley@automatedmarine.com
fddsfwfwefwdfwd@mail.ru


In [121]:
# Найдите все даты в тексте. Датой в этом задании будем считать любую последовательность:

# nn/nn/nnnn
# nnnn/nn/nn
# nn.nn.nnnn
# nnnn.nn.nn
# где n - любая цифра от 0 до 9.

string = r'02.11.2072fs2012,09/18fsdg18/09/2012d2022.20.23d2014,25,03f25\03\1864g2015.24.06f2008.24.10 29.56.9157 8985.54.89 32.63/6666 8584.52/61 05/19.3577 5840/36.38 89/72/3110 4992/07/35 '

nn = r'(?:(?:\d{2}/){2}\d{4}|(?:\d{2}\.){2}\d{4})'
nnnn = r'(?:\d{4}(?:/\d{2}){2}|\d{4}(?:\.\d{2}){2})'


regex = rf'(?:{nn}|{nnnn})'
print(*re.findall(regex, string), sep='\n')

print()

regexp = r'\d{2}([./])\d{2}\1\d{4}|\d{4}([./])\d{2}\2\d{2}'
print(*re.findall(regex, string), sep='\n')

02.11.2072
18/09/2012
2022.20.23
2015.24.06
2008.24.10
29.56.9157
8985.54.89
89/72/3110
4992/07/35

02.11.2072
18/09/2012
2022.20.23
2015.24.06
2008.24.10
29.56.9157
8985.54.89
89/72/3110
4992/07/35


In [122]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Часы от 0 до 23
# Потом идёт :
# Минуты от 0 до 59
# Если в последовательности количество часов или минут меньше 10, то перед ним стоит 0
# Не является подпоследовательностью

string = '13:79 24:33 02:60 03:81 23:59 28:64 46:50 14:39 91:19 13:35 02:57 10:10 00:00 59:59 15:51'

regex = r'\b(?:[0-1]\d|2[0-3]):[0-5]\d\b'

print(*re.findall(regex, string), sep='\n')

23:59
14:39
13:35
02:57
10:10
00:00
15:51


In [123]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Ссылка находится в теге a
# Слева и справа от ссылки стоят двойные или одинарные кавычки
# Перед левой кавычкой стоит href=
# Сама ссылка может состоять из любых символов
# Длина ссылки как минимум 1 символ
# Попробуйте сначала найти все теги a, и только потом извлекайте из них ссылку.

string = '<a target="_blank" href="https://stepik.org/">Hyperlink</a><html lang="en"><head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>Пролистай вниз</title><link rel="stylesheet" href="./css/normalize.css"><link rel="stylesheet" href="./css/style.css"><link rel="icon" href="./img/icon.jpg"></head><body><header><h1 class="privet">Привет!<br>Пролистай страничку вниз.</h1><img src="./img/photo.jpg" alt="" class="logo_icon"></header><main><p class="paragraph">Чтобы продолжить - отправь боту любое фото.</p></main><footer><a class="link" href="./img/photo.jpg" download="">Фото</a><p class="link">id стикера - CAACAgIAAxkBAAIDxWITCaZnaUelQ0SNlHMTrjd2klAmAAIBAQACVp29CiK-nw64wuY0IwQ</p><a class="link" href="./img/tochno.txt" download="">Документ</a></footer></body></html>'

regex = r'<a.*?href="(.+?)"'
print(*re.findall(regex, string), sep='\n')

https://stepik.org/
./img/photo.jpg
./img/tochno.txt


# 3.8  re.split()

In [124]:
# re.split(pattern, string, maxsplit=0, flags=0) – разбивает строки по заданному паттерну.

# Параметры:
# pattern - регулярное выражение
# string - строка, к которой нужно применить регулярное выражение
# maxsplit - максимальное количество делений строки
# flags - флаги

# Возвращаемое значение:
# Если совпадения есть - список частей разделённой строки.
# [string], если совпадений нет

In [125]:
# Если совпадения есть, то разделит строку на части:

pattern = r'\s\d{3}\s'
string = 'abc 123 def 456 fed 321 cba'

result = re.split(pattern, string)

print(result) # ['abc', 'def', 'fed', 'cba']

['abc', 'def', 'fed', 'cba']


In [126]:
# Если нужно разделить строку только определённое количество раз, то можно передать аргумент в maxsplit:

pattern = r'\s\d{3}\s'
string = 'abc 123 def 456 fed 321 cba'

result = re.split(pattern, string, 2)

print(result) # ['abc', 'def', 'fed 321 cba']

['abc', 'def', 'fed 321 cba']


In [127]:
# Если совпадений нет, то функция вернёт [string]:

pattern = r'123'
string = '456'

result = re.split(pattern, string)

print(result) # ['456']

['456']


In [128]:
# Нужно разделить текст на предложения по следующим знакам препинания: .?!.

string = "The first one is heavy!This actually goes really well with Chris's workout he's doing."

regex = r'[\.\?!]'

print(re.split(regex, string))

['The first one is heavy', "This actually goes really well with Chris's workout he's doing", '']


In [129]:
# Нужно разделить текст на слова по следующим символам: .?!,

string = "The first one is heavy!This actually goes really well with Chris's workout he's doing."

regex = r'[\.\?!,\s]'

print(re.split(regex, string))

['The', 'first', 'one', 'is', 'heavy', 'This', 'actually', 'goes', 'really', 'well', 'with', "Chris's", 'workout', "he's", 'doing', '']


In [130]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Начинается с Категория: 
# Потом идёт последовательность из кириллических символов обоих регистров и пробелов
# Минимальная длина последовательности 1 символ
# Заканчивается на \n

string = r"Категория: Телефоны\nSupreme Burner\nMotorola Razr\nКатегория: Смарт часы и браслеты\nApple Watch 6\nGarmin Venu\nXiaomi Mi Smart Band 6\nКатегория: Игры\nSpore"

regex = r'Категория:[А-Яа-яЁё\s]+\\n'

print(re.split(regex, string))

['', 'Supreme Burner\\nMotorola Razr\\n', 'Apple Watch 6\\nGarmin Venu\\nXiaomi Mi Smart Band 6\\n', 'Spore']


# 3.9  re.sub()

In [131]:
# re.sub(pattern, replace, string, count=0, flags=0) – заменяет найденные вхождения на заданные символы и возвращает исправленную строку.

# Параметры:
# pattern - регулярное выражение
# replace - то, на что нужно заменить найденное вхождение
# string - строка, к которой нужно применить регулярное выражение
# count - необязательный аргумент, максимальное число вхождений, подлежащих замене. Если этот параметр опущен или равен нулю, то произойдет замена всех вхождений.
# flags - флаги

# Возвращаемое значение:
# Если совпадения есть - изменённая строка
# string, если совпадений нет

In [132]:
# Заменяем все трёхбуквенные последовательности на 111:

pattern = r'[a-z]{3}'
replace = '111'
string = 'abc 123 def 456 fed 321 cba'

result = re.sub(pattern, replace, string)

print(result) # 111 123 111 456 111 321 111

111 123 111 456 111 321 111


In [133]:
# Заменяем первые две трёхбуквенные последовательности на 111:

pattern = r'[a-z]{3}'
replace = '111'
string = 'abc 123 def 456 fed 321 cba'

result = re.sub(pattern, replace, string, 2)

print(result) # 111 123 111 456 fed 321 cba

111 123 111 456 fed 321 cba


In [134]:
# Если совпадений нет, но получаем строку обратно:

pattern = r'[a-z]{10}'
replace = '111'
string = 'abc 123 def 456 fed 321 cba'

result = re.sub(pattern, replace, string)

print(result) # abc 123 def 456 fed 321 cba

abc 123 def 456 fed 321 cba


In [135]:
# Нужно заменить все гласные на ! в тексте: aeioyuAEIOUауоыиэяюёеАУОЫИЭЯЮЁЕ

string = 'Especially this one my kinda favourite, and here we go, you dropped it!'

regex = r'[aeioyuAEIOUауоыиэяюёеАУОЫИЭЯЮЁЕ]'

print(re.sub(regex, '!', string))

!sp!c!!ll! th!s !n! m! k!nd! f!v!!r!t!, !nd h!r! w! g!, !!! dr!pp!d !t!


In [136]:
# Нужно удалить все теги в html-разметке:

# Начинается с <
# Потом идёт последовательность любых символов любой длины
# Заканчивается с >

string = '<html lang="en"><head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>Timer ⏲</title><link rel="icon" href="./img/goes.png"><link rel="stylesheet" href="./css/normalize.css"><link rel="stylesheet" href="./css/style.css"></head><body><div class="time_wrapper"><h1 class="bold minutes">1:00:00</h1><img class="time" src="./img/start_end.png"></div><div class="buttons"><button class="buttons_button regular start" onclick="start()">Start</button><button class="buttons_button regular notshow pause" onclick="pause()">Pause</button></div></body>'

regex = r'<.*?>'

print(re.sub(regex, '', string))

Timer ⏲1:00:00StartPause


In [137]:
# Нужно найти все ФИО в тексте и заменить их на строку ФИО.

# ФИО могут быть двух видов:

# Фамилия Имя Отчество
# Фамилия И. О.
# Также ФИО могут склоняться.  Генерируйте регулярное выражение "на ходу".

# Обрезайте последние 2 символа в фамилии, имени, и отчестве. Используйте префикс f.

f, i, o = 'Калашников Дмитрий Митрофанович'.split()

string = 'Калашников Д. М. Калашникову Д. М. Калашникова Д. М. Калашниковым Д. М. Калашникове Д. М. | Калашников Дмитрий Митрофанович Калашникову Дмитрию Митрофановичу Калашникова Дмитрия Митрофановича Калашниковым Дмитрием Митрофановичем Калашникове Дмитрие Митрофановиче Калашников Денис Митрофанович Калашёв Дмитрий Митрофанович Калашёв Д. М. Калашников Дмитрий Митрофанов'

regex = r'<.*?>'

print(re.sub(f, 'Ф', string))

Ф Д. М. Фу Д. М. Фа Д. М. Фым Д. М. Фе Д. М. | Ф Дмитрий Митрофанович Фу Дмитрию Митрофановичу Фа Дмитрия Митрофановича Фым Дмитрием Митрофановичем Фе Дмитрие Митрофановиче Ф Денис Митрофанович Калашёв Дмитрий Митрофанович Калашёв Д. М. Ф Дмитрий Митрофанов


# 3.10 re.subn()

In [138]:
# re.subn(pattern, replace, string, count=0, flags=0) выполняет ту же операцию, что и функция re.sub(), но возвращает кортеж.

# Параметры:
# pattern - регулярное выражение
# replace - то, на что нужно заменить найденное вхождение
# string - строка, к которой нужно применить регулярное выражение
# count - необязательный аргумент, максимальное число вхождений, подлежащих замене. Если этот параметр опущен или равен нулю, то произойдет замена всех вхождений.
# flags - флаги

# Возвращаемое значение:
# Кортеж (new_string, number_of_subs), где

# new_string - новая строка, или старая, если не было совершено замен.
# number_of_subs - количество сделанных замен

In [139]:
pattern = r'[a-z]{3}'
replace = '111'
string = 'abc 123 def 456 fed 321 cba'

result = re.subn(pattern, replace, string)

print(result) # ('111 123 111 456 111 321 111', 4)

('111 123 111 456 111 321 111', 4)


In [140]:
# Нужно удалить все знаки препинания в тексте: .?!,:.

string = '<Maybe it’s my fault. Maybe I led you to believe it was easy, when it wasn’t. Maybe I made you think my highlights started at the free throw line, and not in the gym. Maybe I made you think that every shot I took was a game winner. That my game was built on flash, and not fire. Maybe it’s my fault that you didn’t see that failure gave me strength, that my pain was my motivation. Maybe I led you to believe that basketball was a God given gift, and not something I worked for, every single day of my life.'

regex = r'[\.\?!,:]'

print(re.subn(regex, '', string)[-1])

13


# 3.11  re.escape()

In [141]:
# re.escape(pattern) - экранирует специальные символы в pattern. 
# Полезно, если нужно использовать полученную строку как регулярное выражение, но в ней могут содержаться спецсимволы.

# Если в метод передавать не сырую строку, а обычную - некоторые символы могут экранироваться и "потеряться". 
# В итоге вы получите немного не ту строку для регулярного выражения, которую вы ожидали.
# Это и логично, ведь если мы передаём строку в метод re.escape(), то мы ожидаем, 
# что она может содержать экранируемые последовательности или спецсимволы из регулярных выражений.

# Параметры:
# pattern - строка, в которой нужно экранировать спецсимволы, чтобы впоследствии использовать в регулярном выражении.

# Возвращаемое значение:
# Строка, с экранированными спецсимволами

print(re.escape(r'https://stepik.org/lesson/694442/step/1?unit=694231'))

https://stepik\.org/lesson/694442/step/1\?unit=694231


# 4.1 Группы в Match объектах

In [142]:
regex = r'П(?P<name>.+?)т' # Захватим весь текст между П и т в группу с именем name
text = 'Привет, как тебя зовут?'

match = re.match(regex, text) 

print(match)

# Где span - индексы начала и конца совпадения, а match - само совпадение.


<re.Match object; span=(0, 6), match='Привет'>


In [143]:
# group([group1, ...])
# Возвращает найденное совпадение по номеру или имени группы.

# 1) Попробуем получить нулевую группу, т.е. всё, что захватило регулярное выражение:

# Выведет строку "Привет":

print(match.group())  # Если в метод не передать аргумент, то он по умолчанию выведет нулевую группу
print(match.group(0)) # Можно передать номер нужной группы в метод
print(match[0])       # Благодаря геттеру в Match-объекте к группам можно обращаться с помощью квадратных скобок

# 2) Теперь переходим к первой группе

# Выведет строку "риве":

print(match.group(1)) # Получаем то, что захватила первая группа
print(match[1])       # Получаем то, что захватила первая группа через квадратные скобки

# 3) Если обратиться к несуществующей группе, то получим ошибку IndexError: no such group:

# Ошибка: IndexError: no such group

# print(match.group(2))
# print(match[2])

# 4) Если у группы есть имя, то по нему можно получить нужную группу:

# Выведет строку "риве":

print(match.group("name")) # Получаем то, что захватила группа с именем name
print(match["name"])       # Получаем то, что захватила группа с именем name через квадратные скобки

# 5) Через метод можно получить сразу несколько групп. Для этого нужно указать нужные группы через запятую:

# Выведет кортеж ('Привет', 'риве', 'риве'):

print(match.group(0, "name", 1))

Привет
Привет
Привет
риве
риве
риве
риве
('Привет', 'риве', 'риве')


In [144]:
# start(__group=0), end(__group=0)
# Методы start и end возвращают индексы начала и конца совпадения с регулярным выражением группы, номер или имя которой были переданы в метод:

print(match.start(0)) # 0
print(match.end(0))   # 6
print(match.start(1)) # 1
print(match.end(1))   # 5

0
6
1
5


In [145]:
# span(__group=0)
# Метод span возвращает кортеж с индексом начала и конца совпадения группы, номер или имя которой были переданы в метод. Он работает аналогично методам start, end, но возвращает пару чисел:

print(match.span(0)) # (0, 6)
print(match.span(1)) # (1, 5)

(0, 6)
(1, 5)


In [146]:
# groups(default=None)
# Метод groups возвращает кортеж со всеми группами, кроме нулевой:

print(match.groups()) # ('риве',)

('риве',)


In [147]:
# Если какая-либо группа ничего не нашла, то вместо найденного совпадения будет значение аргумента default, по умолчанию это None:

regex = r'П(?P<name>.+?)т,(2 группа)?'
text = 'Привет, как тебя зовут?'
match = re.match(regex, text) 

print(match.groups())                    # ('риве', None)
print(match.groups("Ничего не найдено")) # ('риве', 'Ничего не найдено')

('риве', None)
('риве', 'Ничего не найдено')


In [148]:
# groupdict(default=None)
# Метод groupdict возвращает словарь, ключи которого - имена групп, а значения - найденные совпадения этих групп:

print(match.groupdict()) # {'name': 'риве'}
# Если в регулярном выражении не используются именованные группы, то он вернёт пустой словарь.

# Аргумент default работает точно так же, как и в методе groups.

{'name': 'риве'}


In [149]:
# expand(template)
# Метод работает почти точь-в-точь как функция re.sub() с группами. Поэтому он будет пройден вместе с re.sub().

In [150]:
# Атрибуты

# pos
# ⚠️ Используется вместе с объектом Pattern

# Если обратиться к атрибуту, то можно получить аргумент pos, переданный в функцию. pos - это позиция, с которой функция начинает искать совпадения.

# pos можно использовать только с объектом Pattern. В коде выше Pattern не используется, поэтому у pos стоит значение по умолчанию 0:

print(match.pos) # 0

0


In [151]:
# endpos
# ⚠️ Используется вместе с объектом Pattern

# Если обратиться к атрибуту, то можно получить аргумент endpos, переданный в функцию. endpos - это позиция, до которой функция ищет совпадения.

# endpos можно использовать только с объектом Pattern. В коде выше Pattern не используется, поэтому у endpos стоит значение по умолчанию: индекс последнего символа в строке.

print(match.endpos) # 23

23


In [152]:
# re
# Если обратиться к атрибуту, то можно получить регулярное выражение, которое использовалось для поиска:

print(match.re) # re.compile('П(?P<name>.+?)т')
# Правда возвращается не строка с регулярным выражением, а объект Pattern.

re.compile('П(?P<name>.+?)т,(2 группа)?')


In [153]:
# string
# Если обратиться к атрибуту, то можно получить строку, в которой искались совпадения:

print(match.string) # Привет, как тебя зовут?

Привет, как тебя зовут?


In [154]:
# lastindex
# Возвращает номер последней найденной группы. None, если группы не используются.

print(match.lastindex) # 1

1


In [155]:
# lastgroup
# Возвращает имя последней найденной именованной группы. None, если именованные группы не используются.

print(match.lastgroup) # name

name


In [156]:
regex = r'П(?P<name>.+?)в(?P<name2>2 группа)?(?P<name3>ет)?,'
text = 'Привет, как тебя зовут?'
match = re.match(regex, text)

print(match.groups(0))
print(match.groupdict(0))
print(match.lastindex)
print(match.lastgroup)
print(match.group(1, "name2", 0))
print(match[0])

('ри', 0, 'ет')
{'name': 'ри', 'name2': 0, 'name3': 'ет'}
3
name3
('ри', None, 'Привет,')
Привет,


In [157]:
# Нужно найти теги, подходящие по следующим условиям:

# В начале тега стоит:

# <p
# Тут может быть последовательность символов минимально возможной длины
# >
# Внутри тега последовательность из любых символов минимально возможной длины

# В конце тега стоит </p>

string = '<noscript class="noscript"><p class="l-header">Сайт не работает<br>без JavaScript 😕</p></noscript> <p>Это параграф</p> <main><section class="faq__section content"><h2 class="h-header">Частозадаваемые вопросы</h2><div class="faq__megawrapper"><div class="faq__wrapper"><details><summary class="l-header">Какой-то вопрос?</summary><p class="details__paragraph p-paragraph">Какой-то ответ</p></details><details><summary class="l-header">Какой-то вопрос?</summary><p class="details__paragraph p-paragraph">Какой-то ответ</p></details><details><summary class="l-header">Какой-то вопрос?</summary><p class="details__paragraph p-paragraph">Какой-то <p Неправильный параграф</p></p>1</p><p>2</p><p3/p>'
regex = r'(?P<name1><p.*?>)(?P<name2>.*?)(?P<name3></p>)'

match = re.finditer(regex, string)
for res in match:
    print(res.group('name2'))

Сайт не работает<br>без JavaScript 😕
Это параграф
Какой-то ответ
Какой-то ответ
Какой-то <p Неправильный параграф
2


In [158]:
string = '<noscript class="noscript"><p class="l-header">Сайт не работает<br>без JavaScript 😕</p></noscript> <p>Это параграф</p> <main><section class="faq__section content"><h2 class="h-header">Частозадаваемые вопросы</h2><div class="faq__megawrapper"><div class="faq__wrapper"><details><summary class="l-header">Какой-то вопрос?</summary><p class="details__paragraph p-paragraph">Какой-то ответ</p></details><details><summary class="l-header">Какой-то вопрос?</summary><p class="details__paragraph p-paragraph">Какой-то ответ</p></details><details><summary class="l-header">Какой-то вопрос?</summary><p class="details__paragraph p-paragraph">Какой-то <p Неправильный параграф</p></p>1</p><p>2</p><p3/p>'
regex = r'<p.*?>(.*?)</p>'

for i in re.findall(regex, string):
    print(i)

Сайт не работает<br>без JavaScript 😕
Это параграф
Какой-то ответ
Какой-то ответ
Какой-то <p Неправильный параграф
2


In [159]:
string = '<noscript class="noscript"><p class="l-header">Сайт не работает<br>без JavaScript 😕</p></noscript> <p>Это параграф</p> <main><section class="faq__section content"><h2 class="h-header">Частозадаваемые вопросы</h2><div class="faq__megawrapper"><div class="faq__wrapper"><details><summary class="l-header">Какой-то вопрос?</summary><p class="details__paragraph p-paragraph">Какой-то ответ</p></details><details><summary class="l-header">Какой-то вопрос?</summary><p class="details__paragraph p-paragraph">Какой-то ответ</p></details><details><summary class="l-header">Какой-то вопрос?</summary><p class="details__paragraph p-paragraph">Какой-то <p Неправильный параграф</p></p>1</p><p>2</p><p3/p>'
regex = r'(?:<p.*?>)(?<!</p>)(.*?)</p>'

for i in re.finditer(regex, string):
    print(i.group(1))

Сайт не работает<br>без JavaScript 😕
Это параграф
Какой-то ответ
Какой-то ответ
Какой-то <p Неправильный параграф
2


In [160]:
# Нужно найти ссылки, подходящие по следующим условиям:

# Протокол https или http
# После протокола идёт ://
# Домен состоит из символов a-z, .
# Путь состоит из символов a-z, 0-9, -, _, /
# Параметры начинаются с ? и состоят из a-z, =, &, 0-9
# Якорь начинается с # и состоит из a-z
# Протокол и адрес у ссылок есть всегда, остальных частей может не быть
# Ссылка не может быть подпоследовательностью

string = '''Наступаешь на одни и те же грабли: https://vk.com/video-460389_160321403 
https://pikabu.ru/story/vse_schitayut_sebya_unikalnyimi_poka_ne_prikhoditsya_pokupat_domen_dlya_svoego_startapa_9132005#comments 
https://www.google.com/search?q=query https://yandex.ru/search/?lr=16&text=query'''

regex = r'(?P<protocol>(?:https|http))://(?P<domen>[a-z\d\.]+?)/[a-z\d\-_/]*(?P<params>\?[^# ]*)?(?P<anc>#[a-z]*)?'

match = re.finditer(regex, string)

for res in match:
    print(f'''Полная ссылка: {res.group()}
Протокол: {res.group("protocol")} | Домен: {res.group("domen")} | Параметры: {res.group("params")} | Якорь: {res.group("anc")}''')
    print()

Полная ссылка: https://vk.com/video-460389_160321403
Протокол: https | Домен: vk.com | Параметры: None | Якорь: None

Полная ссылка: https://pikabu.ru/story/vse_schitayut_sebya_unikalnyimi_poka_ne_prikhoditsya_pokupat_domen_dlya_svoego_startapa_9132005#comments
Протокол: https | Домен: pikabu.ru | Параметры: None | Якорь: #comments

Полная ссылка: https://www.google.com/search?q=query
Протокол: https | Домен: www.google.com | Параметры: ?q=query | Якорь: None

Полная ссылка: https://yandex.ru/search/?lr=16&text=query
Протокол: https | Домен: yandex.ru | Параметры: ?lr=16&text=query | Якорь: None



# 4.2 Группы и re.findall()

In [161]:
# Если в регулярном выражении используются скобочные группы, 
# то вместо списка со всеми соответствиями вернётся список с кортежами совпадений соответствующих групп.


pattern = r'(=)(\w{3})='
string = '=abc= =123= =def= 456 =fed= =321= =cba='

result = re.findall(pattern, string)

print(result) # [('=', 'abc'), ('=', '123'), ('=', 'def'), ('=', 'fed'), ('=', '321'), ('=', 'cba')]

[('=', 'abc'), ('=', '123'), ('=', 'def'), ('=', 'fed'), ('=', '321'), ('=', 'cba')]


In [162]:
# Нужно найти названия html-тегов. Большинство html-тегов выглядит так:

# В начале тега стоит < или </
# В середине название тега, оно состоит из латинских букв нижнего регистра и арабских цифр максимальной длины
# После названия может идти последовательность из любых символов минимальной длины
# В конце тега стоит >

string = r'<div class="o3j99 LLD4me yr19Zb LS8OJ"><style>.LS8OJ{display:flex;flex-direction:column;align-items:center}.k1zIA{height:100%;margin-top:auto}</style><div class="k1zIA rSk4se"><style>.rSk4se{max-height:92px;position:relative}.lnXdpd{max-height:100%;max-width:100%;object-fit:contain;object-position:center bottom;width:auto}</style><img class="lnXdpd" alt="Google" src="/images/branding/googlelogo/2x/googlelogo_color_272x92dp.png" srcset="/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png 1x, /images/branding/googlelogo/2x/googlelogo_color_272x92dp.png 2x" data-atf="1" data-frt="0" width="272" height="92"></div></div>'

regex = r'(?:(?<=<)|(?<=</))[a-z\d]+(?=>?)'
print(re.findall(regex, string))

regex = r'</?(\w+?)\b'
print(re.findall(regex, string))

['div', 'style', 'style', 'div', 'style', 'style', 'img', 'div', 'div']
['div', 'style', 'style', 'div', 'style', 'style', 'img', 'div', 'div']


In [163]:
# Нужно найти логин, пароль, и токен:

# Логин состоит из 0-9
# Пароль состоит из a-z, A-Z, 0-9
# Токен состоит из a-z, 0-9
# Длина минимум 1 символ

string = '15073073928:j7jzvKkcrojW4W2G:bde5ef73cb767c9d949717978467e5a798ce70c1a67fdbeeb2744caf6a2c87d034a8d74beeab95cbb88a5 13345187013:SLkeIUOZqJ7Ddu5:177eafc83a25a3924c6f9593c7619ac3199d585a613d1341c87c32790014a975642865bbacfb9e5933da8 15715705448:hqQ5lJxuVX2sTuJj:cb3694f38d146847f758c36e79200f160a141a76d57af62ffe3d25659f8434976a2097712318cd1eed6c7 12368040749:Iw2DeXGe4xnqJLxN:8277679e1a629144e7b9a02046ed829d1a89d3662abb23ad84d710a5a545f98ba79b585ed5733b98455d4'
regex = r'(\d+):([A-Za-z\d]+):([a-z\d]+)'

print(re.findall(regex, string))

[('15073073928', 'j7jzvKkcrojW4W2G', 'bde5ef73cb767c9d949717978467e5a798ce70c1a67fdbeeb2744caf6a2c87d034a8d74beeab95cbb88a5'), ('13345187013', 'SLkeIUOZqJ7Ddu5', '177eafc83a25a3924c6f9593c7619ac3199d585a613d1341c87c32790014a975642865bbacfb9e5933da8'), ('15715705448', 'hqQ5lJxuVX2sTuJj', 'cb3694f38d146847f758c36e79200f160a141a76d57af62ffe3d25659f8434976a2097712318cd1eed6c7'), ('12368040749', 'Iw2DeXGe4xnqJLxN', '8277679e1a629144e7b9a02046ed829d1a89d3662abb23ad84d710a5a545f98ba79b585ed5733b98455d4')]


# 4.3 Группы и re.split()

In [164]:
# Если в шаблоне регулярного выражения используются групппы, то их значения будут вставлены между разделёнными строками:

res1 = re.split(r'\s[+*=]\s', '2 + 2 * 2 = 6')
print(res1)
# ['2', '2', '2', '6']

# Если в шаблоне нет групп, re.split работает так же, как и str.split

res2 = re.split(r'(\s)([+*=])(\s)', '2 + 2 * 2 = 6')
print(res2)
# ['2', ' ', '+', ' ', '2', ' ', '*', ' ', '2', ' ', '=', ' ', '6']

# Если использовать группы, то между каждыми разделёнными строками будут значения из групп

res3 = re.split(r'\s([+*=])\s', '2 + 2 * 2 = 6')
print(res3)
# ['2', '+', '2', '*', '2', '=', '6']

# Сначала не очень понятно, зачем использовать группы с re.split. 
# Но если убрать ненужные группы из второго примера, то всё становится ясно

# Это может понадобиться, если нужно разделить строки, и оставить между ними разделитель.

['2', '2', '2', '6']
['2', ' ', '+', ' ', '2', ' ', '*', ' ', '2', ' ', '=', ' ', '6']
['2', '+', '2', '*', '2', '=', '6']


In [165]:
# Нужно разделить строку по следующей последовательности:

# В левой части нечисловая последовательность символов любой длины
# В середине стоит один из символов +:=*/-
# В правой части нечисловая последовательность символов любой длины

string = '3снова+в5 *тексте6спам-.4 : 4 = 32'

regex = r'[^\d]+([+:=*/-])[^\d]+'
print(re.split(regex, string))


['3', '+', '5', '*', '6', '-', '4', ':', '4', '=', '32']


In [166]:
# Нужно разделить строку по символвам ? и &, оставив эти символы в полученном списке.

string = 'https://stackoverflow.com/questions/tagged/regex?tab=votes&page=11&pagesize=15'

regex = r'\b([?&])\b'
print(re.split(regex, string))

regex = r'([?&])'
print(re.split(regex, string))

['https://stackoverflow.com/questions/tagged/regex', '?', 'tab=votes', '&', 'page=11', '&', 'pagesize=15']
['https://stackoverflow.com/questions/tagged/regex', '?', 'tab=votes', '&', 'page=11', '&', 'pagesize=15']


# 4.4 Группы в re.sub() и re.subn()

In [167]:
# Группы в re.sub() и re.subn() ничего не дают, но их можно использовать в заменах!

# Если в строке, на которую будет происходить замена найденных совпадений написать \n или \g<name>, 
# где n это номер группы, 
# а name это имя группы, 
# то они будут заменены на совпадения этих групп:

string = "Ненавижу людей, которые пишут дату в формате mm/dd/yyyy. Ну кто пишет 02/22/2022 или 07/13/2022?"

print(re.sub(r'(\d{2}).(\d{2}).(\d{4})', r'\2.\1.\3', string))
# Ненавижу людей, которые пишут дату в формате mm/dd/yyyy. Ну кто пишет 22.02.2022 или 13.07.2022?

Ненавижу людей, которые пишут дату в формате mm/dd/yyyy. Ну кто пишет 22.02.2022 или 13.07.2022?


In [168]:
# Нужно заменить 2 повторяющиеся слова на одно:

# Слова состоят из кириллических букв
# Между ними стоит пробел
# Если у слов разный регистр - слова разные

string = 'Нужно удалять удалять повторяющиеся слова слова.'

print(re.sub(r'([А-Яа-яЁё]+) \1', r'\1', string))

Нужно удалять повторяющиеся слова.


In [169]:
# Нужно найти следующие последовательности:

# Начинается и заканчивается с ** или *
# В середине последовательность любой длины из букв кириллического и латинского алфавитов обоих регистров, а также пробелов
# И заменить **text** на <strong>text</strong>, а *text* на <em>text</em>

string = 'Как же я люблю **Markdown**! *Курсив* и **Жирный текст**'

temp = re.sub(r'\*\*([A-Za-zА-Яа-яЁё\s]+)\*\*', r'<strong>\1</strong>', string)

print(re.sub(r'\*([A-Za-zА-Яа-яЁё\s]+)\*', r'<em>\1</em>', temp))

Как же я люблю <strong>Markdown</strong>! <em>Курсив</em> и <strong>Жирный текст</strong>


In [170]:
# Нужно найти следующие последовательности:

# Адрес состоит из любых числовых последовательностей, разделённых .
# В середине стоит :
# Порт является любой числовой последовательностью
# и в начало к ним добавить протокол http://.

string = 'Будем 193.193.240.37:45944 считать 221.182.31.54:8080 что 200.199.38.234:8080 все 212.83.166.175:5836 прокси 74.121.98.90:8080 валидные 82.200.181.54:3128 125.25.82.191:8080 187.108.90.163:44574 103.89.235.226:83 154.126.211.169:41014 54.189.97.191:3128 85.114.98.246:8080 190.242.98.61:8083 173.82.74.62:5836 202.21.105.115:80'

print(re.sub(r'((\d+\.)+\d+:\d+)', r'http://\1', string))

Будем http://193.193.240.37:45944 считать http://221.182.31.54:8080 что http://200.199.38.234:8080 все http://212.83.166.175:5836 прокси http://74.121.98.90:8080 валидные http://82.200.181.54:3128 http://125.25.82.191:8080 http://187.108.90.163:44574 http://103.89.235.226:83 http://154.126.211.169:41014 http://54.189.97.191:3128 http://85.114.98.246:8080 http://190.242.98.61:8083 http://173.82.74.62:5836 http://202.21.105.115:80


In [171]:
# Нужно найти следующие последовательности:

# Дата типа mm/dd/yyyy
# mm, dd, yyyy - любые числовые последовательности длиной 2, 2, 4 соответственно
# Между ними стоят разделители . или /
# и переставить mm с dd местами, чтобы получилась дата вида dd/mm/yyyy

string = 'Сегодня 04/24/2022. Завтра будет 05/23/2022 Ловите дату, разделённую точками: 01.22.2089.'

print(re.sub(r'(\d{2})([\./])(\d{2})\2(\d{4})', r'\3\2\1\2\4', string))

Сегодня 24/04/2022. Завтра будет 23/05/2022 Ловите дату, разделённую точками: 22.01.2089.


In [172]:
# Нужно найти следующие последовательности:

# Начинается с его/её/их или Его/Её/Их
# Потом идёт последовательность кириллических букв максимальной длины
# и убрать из них ненужную часть.

string = '''Это был егонный билет.
Ихние книги лежали на полке.
Слова "егонный", "еённый" (т.е. его и её) уже норма языка, или принимается уже в норму?'''

print(re.sub(r'((?:[Ее]го|[Ее]ё|[Ии]х))([А-Яа-яЁё]+)', r'\1', string))

Это был его билет.
Их книги лежали на полке.
Слова "его", "её" (т.е. его и её) уже норма языка, или принимается уже в норму?


# 4.4 match.expand(template)

In [173]:
# Метод работает почти как функция re.sub()

# match.expand() генерирует строку, путём вставки в неё значений из найденных групп.
# re.sub() ищет совпадения в тексте, если совпадения найдены, то генерирует строку, 
# путём вставки в неё значений из найденных групп, и заменяет совпадения на сгенерированные строки.

# С помощью match.expand() удобно генерировать строки с найденными данными.

match = re.search(r"(\d{4})", "Бойцовский клуб (1999)")

print(match.expand(r"Год выпуска фильма: \1"))    # Год выпуска фильма: 1999

Год выпуска фильма: 1999


In [174]:
# Нужно найти первую цену в тексте:

# Любая числовая последовательность
# В конце стоит ₽$
# и подставить её в строку Цена данного товара x.

string = 'Хочу купить себе какую-то ненужную вещь за 1000₽ или 5000₽, ведь вся моя жизнь построена на потреблении и удовлетворении своих никчёмных потребностей самым примитивным способом.'

match = re.search(r'\b(\d+[₽$])', string)

if match:   # проверка на пустой match
    print(match.expand(r'Цена данного товара \1'))

Цена данного товара 1000₽


# 4.5 Функции в re.sub() и re.subn()

In [175]:
# Вместо строки, на которую нужно заменить вхождение, в re.sub() и re.subn() можно передать функцию, которая будет генерировать ту самую строку.

# В функцию передаётся Match объект, и теперь мы можем получать доступ к группам, а также как-либо изменять и обрабатывать эти данные.

In [176]:
# Например, нам нужно найти все слова и заменить их на их же длину. Давайте сделаем это с помощью функций!

def func(m):
    return str(len(m[0]))

regex = r'[a-zA-Z]{1,}'
text = 'Lorem Ipsum is simply dummy text of the printing and typesetting industry.'

res_func = re.sub(regex, func, text)
res_lambda = re.sub(regex, lambda m: str(len(m[0])), text)

print(res_func)  # 5 5 2 6 5 4 2 3 8 3 11 8.
print(res_func == res_lambda)  # True

# Получаю Match объект в функции.
# Из него беру нулевую группу - т.е. всё, что захватило регулярное выражение.
# Получаю её длину, конвертирую в строку, и возвращаю значение.
# Можно использовать как и лямбда-функции, так и обычные.

5 5 2 6 5 4 2 3 8 3 11 8.
True


In [177]:
# Нужно найти все числовые последовательности и заменить на их квадрат.

string = '''2 в квадрате это 4
Интересно, какое число получится, если 2022 возвести в квадрат?
3 в квадрате + 4 в квадрате = 5 в квадрате'''

print(re.sub(r'(\b\d+\b)', lambda x: str(int(x[0])**2), string))

4 в квадрате это 16
Интересно, какое число получится, если 4088484 возвести в квадрат?
9 в квадрате + 16 в квадрате = 25 в квадрате


In [178]:
# Нужно заменить все am на pm, а pm на am.

string = '''2:00 am 3:00 pm 10:00 pm 3:00 am 1:00 am  5:00 am 8:00 am 7:00 am 5:00 pm 8:00 pm 7:00 pm 6:00 pm 11:00 am 4:00 am 9:00 pm 6:00 am 12:00 am 12:00 pm 9:00 am 1:00 pm 11:00 pm 4:00 pm 2:00 pm 10:00 am '''

print(re.sub(r'(?:am|pm)', lambda x: 'am' if x[0] == 'pm' else 'pm', string))

2:00 pm 3:00 am 10:00 am 3:00 pm 1:00 pm  5:00 pm 8:00 pm 7:00 pm 5:00 am 8:00 am 7:00 am 6:00 am 11:00 pm 4:00 pm 9:00 am 6:00 pm 12:00 pm 12:00 am 9:00 pm 1:00 am 11:00 am 4:00 am 2:00 am 10:00 pm 


In [179]:
# Найти все числа в тексте, и проверить, кратно число 3 или нет:

# Если кратно, то заменить его на это же число, разделённое на 3
# Если нет - оставить его как есть

string = '0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21'

print(re.sub(r'\d+', lambda x: x[0] if int(x[0]) % 3 else str(int(x[0]) // 3), string))


0 1 2 1 4 5 2 7 8 3 10 11 4 13 14 5 16 17 6 19 20 7


In [180]:
# Нужно найти все слова, которые начинаются на букву А или а и заменить их на удалено(n), где n - длина удалённого слова.

string = 'Акционер, акцентируя внимание на актуальность аналога данного продукта, прикупил несколько акций компании-производителя этого товара.'

def func(x):
    return f'удалено({len(x[0])})'

print(re.sub(r'\b([Аа][А-Яа-яЁё]*)\b', func, string))

удалено(8), удалено(10) внимание на удалено(12) удалено(7) данного продукта, прикупил несколько удалено(5) компании-производителя этого товара.


# 5.1 Pattern | re.compile()

In [181]:
# re.compile(pattern, flags=0) - метод, который позволяет вручную компилировать регулярные выражения.

# Параметры:
# pattern - регулярное выражение
# flags - флаги

# Возвращаемое значение:
# Объект Pattern - скомпилированное регулярное выражение

In [182]:
regex = re.compile(r'[a-zA-Z]{1,}')
# Регулярное выражение скомпилировано

print(regex)  # re.compile('[a-zA-Z]{1,}')

# Теперь можно использовать методы:

print(regex.findall('Some words.'))  # ['Some', 'words']
print(regex.sub('deleted', 'Some words again.'))  # deleted deleted deleted.

re.compile('[a-zA-Z]{1,}')
['Some', 'words']
deleted deleted deleted.


In [183]:
# Каждый раз, когда вы используете регулярное выражение в каком-либо методе, оно автоматически компилируется. 
# С помощью метода re.compile() можно вручную скомпилировать регулярное выражение, и уже использовать его по назначению.

# С помощью re.compile() можно:

# уменьшить количество кода, если одно регулярное выражение используется несколько раз
# увеличить производительность кода, если одно регулярное выражение используется несколько раз

# Если вы не используете много регулярных выражений - не стоит бояться что производительность упадёт, 
# так как все использованные регулярные выражения кешируются, и им не приходится компилироваться во второй раз, 
# пока не очистится кеш. Кеш кстати очищается с помощью метода re.purge(), 
# но его нет смысла использовать, так как кеш чистится автоматически.

In [184]:
# Скомпилировать регулярное выражение, которое находит все mac-адреса: 
# nn:nn:nn:nn:nn:nn, где n это 16-ричное число от 0 до F, и записать его в переменную pattern.

string = 'Мак-адрес моего друга:F0:98:9D:1C:93:F6. Мой мак-адрес: 0F:70:DE:55:60:19.'
pattern = re.compile(r'(?:[\dA-F]{2}:){5}[\dA-F]{2}')

pattern.findall(string)

['F0:98:9D:1C:93:F6', '0F:70:DE:55:60:19']

In [185]:
# Атрибуты

# pattern.flags
# Каждый флаг - хранится как какое-либо число. pattern.flags возвращает сумму этих чисел:

print(pattern.flags)

# pattern.groups
# Возвращает количество групп в регулярном выражении:

print(pattern.groups)

# pattern.groupindex
# Возвращает словарь, в котором ключи - именованные группы, а значения - номера этих групп:

print(pattern.groupindex)

# pattern.pattern
# Возвращает регулярное выражение:

print(pattern.pattern)

32
0
{}
(?:[\dA-F]{2}:){5}[\dA-F]{2}


In [186]:
# Методы

# Благодаря объекту Pattern в методах search(), match(), fullmatch(), finditer(), findall() появляются дополнительные параметры:

# pos - позволяет указывать индекс в строке, с которого надо начать искать совпадение
# endpos - указывает, до какого индекса надо выполнять поиск

pattern = re.compile(r'(?P<group1>[a-zA-Z]{1,})')

match1 = pattern.match("Some words.", 4)
print(match1)

match2 = pattern.match("Some words.", 5)
print(match2)

None
<re.Match object; span=(5, 10), match='words'>


In [187]:
# Найти первое слово, состоящее из a-z в определённом диапазоне. Слово не может являться подпоследовательностью.

string = 'soda senior tuition library task tone few torch vacuum'
start = 2
end = 29

pattern = re.compile(r'\b[a-z]+\b')

res = pattern.search(string, start, end)

print(res[0])

senior


# 6.1 Флаги

In [188]:
# Флаги нужны для изменения работы регулярных выражений. Всего существует 9 флагов, которые открывают нам доступ к новым свойствам регулярных выражений.

![image.png](attachment:image.png)

In [189]:
# Чтобы использовать флаги, достаточно их передать как именованный аргумент в нужный метод:

test1 = re.findall('123', '123', flags=re.MULTILINE)  # 1 флаг
test2 = re.findall('123', '123', flags=re.MULTILINE + re.IGNORECASE)  # 2 флага
test3 = re.findall('123', '123', flags=re.MULTILINE + re.IGNORECASE + re.DOTALL)  # 3 флага

# Если нужно использовать несколько флагов сразу - нужно сложить их вместе. Да, именно сложить.

# Ну или написать между ними символ |:

test1 = re.findall('123', '123', flags=re.MULTILINE)  # 1 флаг
test2 = re.findall('123', '123', flags=re.MULTILINE | re.IGNORECASE)  # 2 флага
test3 = re.findall('123', '123', flags=re.MULTILINE | re.IGNORECASE | re.DOTALL)  # 3 флага

In [190]:
# Сокращённые версии

test1 = re.findall('123', '123', flags=re.M)  # 1 флаг
test2 = re.findall('123', '123', flags=re.M + re.I)  # 2 флага
test3 = re.findall('123', '123', flags=re.M + re.I + re.S)  # 3 флага

In [192]:
# Встроенные флаги

# Также флаги можно указать в самом регулярном выражении. 
# Достаточно просто поставить встроенный флаг перед регулярным выражением r"(?i)I like flags":

string = 'I like flags I lIkE FlAgS I LIKE FLAGS'

regex = r"(?i)I like flags"
print(re.findall(regex, string))

['I like flags', 'I lIkE FlAgS', 'I LIKE FLAGS']


In [194]:
# Объект RegexFlag
# Ещё совсем недавно мы получали из объекта Pattern флаги в числовом виде. 
# Чтобы конвертировать их в привычный нам вид, достаточно провести следующие манипуляции:

pattern = re.compile(r'[a-zA-Z]{1,}')
print(pattern.flags) # 32
print(re.RegexFlag(32)) # re.UNICODE

32
re.UNICODE


In [195]:
# Локальные и глобальные флаги
# Все флаги которые только что были пройдены - глобальные, т.е. они действуют на всё регулярное выражение целиком.

# Но что если нам нужно отключить флаг в какой-либо части выражения, или вообще использовать его только там?

# На помощь приходят локальные флаги! Пока они есть только в встроенном виде: (?aiLmsux-imsx:regex)

# Все флаги до - используются вместе с regex, а флаги, стоящие после - перестают работать с regex.

# Например, в следующем регулярном выражении:

regex = r"(?i)(?ms-i:local) global"

# Используется глобальный флаг i, но он будет работать только при поиске текста global.

# А при поиске текста local, флаг i отключается, и вместо него используются флаги m и s.

# 6.2 re.IGNORECASE

In [None]:
# Зачем нужен:
# При использовании флага регулярные выражения будут игнорировать регистр.

# Полная версия:
# re.IGNORECASE

# Сокращённая версия:
# re.I

# Встроенный флаг:
# (?i)

# Числовое представление:
# 2

In [199]:
# Нужно исправить код, чтобы он смог заменить O на X, o на x.

string = 'OOasdoo'

def get_x(m):
    return {'o': 'x', 'O':'X'}[m[0]]

print(re.sub('(?i)O', get_x, string))

XXasdxx


In [201]:
# Нужно найти слова привет в разном регистре.

string = 'ПРИВЕТспампрИвЕТspamпРИвет123ПРИвЕт456ПРиВет789ПРиВет10пРиВЕТПокаПРиВеТHiпРИВетHelloПРиветTestприветStringПривЕт'

regex = r'(?i)привет'
print(re.findall(regex, string))

['ПРИВЕТ', 'прИвЕТ', 'пРИвет', 'ПРИвЕт', 'ПРиВет', 'ПРиВет', 'пРиВЕТ', 'ПРиВеТ', 'пРИВет', 'ПРивет', 'привет', 'ПривЕт']


# 6.3 re.MULTILINE

In [None]:
# Зачем нужен:
# При использовании флага спецсимволы ^ и $ будут совпадать не с началом и концом всего текста, а с началом и концом строк. Это было разобрано тут.

# Полная версия:
# re.MULTILINE

# Сокращённая версия:
# re.M

# Встроенный флаг:
# (?m)

# Числовое представление:
# 8

In [216]:
# Из всех строк в переменной text найти только те, которые полностью состоят из символов ^$

string = '''$$^^$^$$4^^$^^$$$
^$^$
^$$^$^^^$^^$$^$$$$
^^^^$$S^$^$^$^$^^$$'''

regex = r'(?m)^[\^$]+$'
print(re.findall(regex, string))

['^$^$', '^$$^$^^^$^^$$^$$$$']


# 6.4 re.ASCII и re.UNICODE

In [None]:
# re.ASCII

# Зачем нужен:
# Шаблоны \w, \W, \b, \B, \d, \D, \s и \S будут выполнять только ASCII соответствие, вместо соответствия по умолчанию - соответствия по UNICODE .

# Полная версия:
# re.ASCII

# Сокращённая версия:
# re.A

# Встроенный флаг:
# (?a)

# Числовое представление:
# 256

# Примеры использования:
# В некоторых шаблонах, описанных выше, теперь будут искаться только латинские буквы или только арабские цифры. 
# Можно использовать, чтобы отсечь ненужные языки и не писать длинные выражения в квадратных в скобках. 
# Возможно поиск будет происходить чуть быстрее, т.к. будет обрезано большое количество символов.

In [None]:
# re.UNICODE

# Зачем нужен:
# Шаблоны \w, \W, \b, \B, \d, \D, \s и \S будут выполнять соответствие по UNICODE. 
# Существует для обратной совместимости с re.ASCII, но он является излишеством, так как по умолчанию Python выполняет сопоставления в UNICODE.

# Полная версия:
# re.UNICODE

# Сокращённая версия:
# re.U

# Встроенный флаг:
# (?u)

# Числовое представление:
# 32

# Примеры использования:
# Python по умолчанию выполняет сопоставления в UNICODE ¯\_(ツ)_/¯

# 6.5 re.LOCALE

In [None]:
# Зачем нужен:
# Сопоставляет \w, \W, \b, \B  без учета регистра, зависимо от текущей локали. 
# Использование этого флага не рекомендуется, так как механизм локализации очень ненадежен и он работает только с 8-битными локалями.

# Полная версия:
# re.LOCALE

# Сокращённая версия:
# re.L

# Встроенный флаг:
# (?L)

# Числовое представление:
# 4

# Примеры использования:
# Не нашёл применения для этого флага ¯\_(ツ)_/¯

# 6.6 re.DOTALL

In [None]:
# Зачем нужен:
# Точка . теперь будет соответствовать любому символу. Если флаг не используется - точка соответствует любому символу, кроме символа новой строки.

# Полная версия:
# re.DOTALL

# Сокращённая версия:
# re.S

# Встроенный флаг:
# (?s)

# Числовое представление:
# 16

In [217]:
string = '''
I like flags
I like flags
I like flags
'''

test1 = re.findall(r'I like flags.', string, flags=re.DOTALL)
test2 = re.findall(r'I like flags.', string, flags=re.S)
test3 = re.findall(r'(?s)I like flags.', string)

print(test1)  # ['I like flags\n', 'I like flags\n', 'I like flags\n']
print(test1 == test2 and test2 == test3)  # True

['I like flags\n', 'I like flags\n', 'I like flags\n']
True


In [219]:
# Нужно найти весь текст от start до end, текст может быть растянут на несколько строк.

string = '''start
Каждое
Слово
На
Новой
Строке
end'''

print(re.findall(r'(?s)(?<=start).+(?=end)', string))

['\nКаждое\nСлово\nНа\nНовой\nСтроке\n']


# 6.7 re.VERBOSE

In [None]:
# Зачем нужен:
# Позволяет писать более читабельные регулярные выражения, отделять части регулярного выражения пробелами и переносами строк, а также писать комментарии после символа #.

# Полная версия:
# re.VERBOSE

# Сокращённая версия:
# re.X

# Встроенный флаг:
# (?x)

# Числовое представление:
# 64

In [220]:
test1 = re.findall(r"""[1-9] +
                   .
                   \d {2,}""", '4G22', flags=re.VERBOSE)

test2 = re.findall(r"""[1-9] +
                   .
                   \d {2,}""", '4G22', flags=re.X)

test3 = re.findall(r"""(?x)
                   [1-9] +
                   .
                   \d {2,}""", '4G22')

print(test3)  # ['4G22']
print(test1 == test2 and test2 == test3)  # True

['4G22']
True


# 6.8 re.DEBUG

In [222]:
# Зачем нужен:
# Показывает отладочную информацию о скомпилированном выражении. Используется только с re.compile.

# Полная версия:
# re.DEBUG

# Сокращённая версия:
# Нет

# Встроенный флаг:
# Нет

# Числовое представление:
# 128

regex = re.compile(r'I like flags', flags=re.DEBUG)

LITERAL 73
LITERAL 32
LITERAL 108
LITERAL 105
LITERAL 107
LITERAL 101
LITERAL 32
LITERAL 102
LITERAL 108
LITERAL 97
LITERAL 103
LITERAL 115

 0. INFO 30 0b11 12 12 (to 31)
      prefix_skip 12
      prefix [0x49, 0x20, 0x6c, 0x69, 0x6b, 0x65, 0x20, 0x66, 0x6c, 0x61, 0x67, 0x73] ('I like flags')
      overlap [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
31: LITERAL 0x49 ('I')
33. LITERAL 0x20 (' ')
35. LITERAL 0x6c ('l')
37. LITERAL 0x69 ('i')
39. LITERAL 0x6b ('k')
41. LITERAL 0x65 ('e')
43. LITERAL 0x20 (' ')
45. LITERAL 0x66 ('f')
47. LITERAL 0x6c ('l')
49. LITERAL 0x61 ('a')
51. LITERAL 0x67 ('g')
53. LITERAL 0x73 ('s')
55. SUCCESS


# 6.9 re.NOFLAG

In [None]:
# Зачем нужен:
# Указывает, что в функции/методе не применяется флаг.

# Полная версия:
# re.NOFLAG

# Сокращённая версия:
# Нет

# Встроенный флаг:
# Нет

# Числовое представление:
# 0

In [None]:
# Можно использовать как значение по умолчанию для своих функций:

def myfunc(text, flags=re.NOFLAG):
    return re.match(text, flags)