In [1]:
import re

In [2]:
# Регулярное выражение (Regular Expression, RegEx) - это эффективный инструмент для сопоставления текста на основе заранее определенного шаблона. 
# Регулярные выражения позволяют найти строки или наборы строк в тексте, используя специализированный синтаксис, с помощью которого описывается шаблон для поиска.

# Некоторые символы регулярных выражений:
# . - означает, что на месте точки может быть любой символ, кроме символа новой строки (\n). Например, 20.. год;
# [...] - любой символ из указанных в скобках. Символы можно задавать как перечислением, так и указывая диапазон через дефис. Например, [a-z], [А-Яа-яЁё], [0-9];
# [^...] - любой символ, кроме указанных в скобках. Например, [^abcdef];
# ^ - начало строки. Например, ^Уважаемый;
# $ - конец строки. Например, Спасибо, что остаетесь с нами. Вы важны для нас!$.

# 2.2 "Сырые" строки | Raw strings

In [3]:
# Чтобы строка стала «сырой», перед ней необходимо поставить символ r в любом регистре:

common_string = 'C:\file.txt' # Обычная строка
raw_string = r'C:\file.txt' # Сырая строка

In [4]:
# Можно использовать несколько префиксов сразу. 

# Используем 2 префикса одновременно:

raw_f_string = rf'C:\file.txt'
f_raw_string = fr'C:\file.txt'

print(raw_f_string)
print(f_raw_string)

C:\file.txt
C:\file.txt


# 2.3 Экранирование в строках и в регулярных выражениях

In [5]:
# Если для тестирования регулярных выражений вам понадобится английский/русский алфавит, цифры, или символы - можете воспользоваться следующей строчкой:
# <=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ !"#$%&\'()*+,-./0123456789:;

# Ну или можете получить похожую строчку в Python вот таким способом:

from string import printable

print(printable)

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



In [6]:
# Импортируем из модуля re единственное что нужно сейчас для проверки регулярных выражений
import re

# Вводим наш текст в переменную string:
string = 'fsdfdsf.mе&r!kX\q<ЫlХювк*ШЛ/PWЖЁRЩ-NнОaбъСНлdй(ф^4{sZjИ`@жЮБF7"ЕoиэП:Ьуь~№[0A+%_сGQv)ё$MuUSТCГя50ЦnДE;9АJ]В'

# Вводим эту странную мешанину из символов, которую здесь регулярными выражениями зовут:
regex = r'(?<=[^ё$MuUSТCГя50ЦnДE;9АJ])(?:\**?)(?=[ШП9В9фвфЛ]*/)'

# И наконец печатаем на экран что получилось найти:
print(*re.findall(regex, string))

*   


In [7]:
# 2.5 Знакомство с регулярными выражениями (синтаксис)

string = 'Мир, привет. Привет, мир. Привет!'

regex = r'Привет'
re.findall(regex, string)

['Привет', 'Привет']

In [8]:
# Пробел VS \b

# 1. Выражение r" ты " найдет ты окруженное пробелами вместе с пробелами, т.е. " ты "
# 2. Выражение r"\bты\b"  найдет ты в чистом виде, рядом с которым не стоит буква, цифра или _

string = 'Привет, ты когда успел купить банты и цветы?'

regex = r' ты '
print(re.findall(regex, string))

regex = r'\bты\b'
print(re.findall(regex, string))

[' ты ']
['ты']


In [9]:
# Напишите регулярное выражение, которое найдёт все последовательности \n в тексте.

string = f' *Пополнение счета*:\n\nQIWI: +7+++++++ \nКомментарий к платежу:...'

regex = r'\n'
print(re.findall(regex, string))

['\n', '\n', '\n']


In [10]:
# Отключаем экранирование всей строки префиксом r:
print(r"Переносим\nстроку")
print(r"\\'")

# Отключаем экранирование каждой последовательности с помощью слешей:
print("Переносим\\nстроку")
print("\\\\'")

print('\\\\\\\'')
print(r'\\\'')

Переносим\nстроку
\\'
Переносим\nстроку
\\'
\\\'
\\\'


In [11]:
# На вход программе подаётся два целых числа a и b, каждое на новой строке.

# Выведите в консоль строку вида: a\n + \nb\n = \nc, где a и  b - полученные числа, а c - их сумма.

a, b = 5, 2

print(fr'{a}\n + \n{b}\n = \n{a + b}')

(lambda a, b: print(rf'{a}\n + \n{b}\n = \n{a+b}'))(5, 2)

5\n + \n2\n = \n7
5\n + \n2\n = \n7


In [12]:
# Пересечения

s = '00000'

regex = r'00'

re.findall(regex, s)

# Нашел непересекающиеся значения

['00', '00']

# 2.6 Диапазоны | Квадратные скобки

## Поиск указанных символов

In [13]:
r'[cr1]'     # Найдёт c, r, и 1
r'[cr]at'    # Найдёт слова cat и rat
r'[12]7[56]' # Найдёт 175, 176, 275, 276

'[12]7[56]'

In [14]:
# От перестановки символов результат не меняется:

r'[cr1]' # Найдёт c, r, и 1
r'[rc1]' # Найдёт c, r, и 1
r'[1cr]' # Найдёт c, r, и 1
r'[1rc]' # Найдёт c, r, и 1
r'[c1r]' # Найдёт c, r, и 1
r'[r1c]' # Найдёт c, r, и 1
# Все регулярные выражения сверху выдают один и тот же результат

string = 'rasd1fascasdca1sadfgkcrerfas'

regex = r'[r1c]'

re.findall(regex, string)

['r', '1', 'c', 'c', '1', 'c', 'r', 'r']

## Исключение символов

In [15]:
r'[^12]'  # Найдёт всё, кроме 1 и 2
r'[^12]7' # Найдёт все последовательности, что заканчиваются на 7, и не начинаются на 1 и 2

'[^12]7'

In [16]:
# Если символ ^ не стоит в начале скобок или он экранирован - он воспринимается как обычный текст:

r'[0^]_[0^]' # Найдёт 0_0, 0_^, ^_0, ^_^
r'[\^0]_[\^0]' # Найдёт 0_0, 0_^, ^_0, ^_^

'[\\^0]_[\\^0]'

In [17]:
string = 'LoserLobsterLo[vs]erLosverLover'

regex = r'Lo[vs]er'

re.findall(regex, string)

['Loser', 'Lover']

In [18]:
string = '''
пёс
лук
лак
нос'''

regex = r'[пнл][а-я][кс]'

re.findall(regex, string)

['лук', 'лак', 'нос']

In [19]:
string = '''
\[1GД\]
[1GД]
G
Д
1
1GД'''

regex = r'\[1GД\]'

re.findall(regex, string)

['[1GД]']

## Диапазоны и сокращения

In [20]:
# Регулярное выражение в скобках можно сократить следующим образом:

r'[0-9]' # То же самое, что и [0123456789]
r'[a-z]' # То же самое, что и [abcdefghijklmnopqrstuvwxyz]
r'[A-Z]' # То же самое, что и [ABCDEFGHIJKLMNOPQRSTUVWXYZ]
r'[а-я]' # То же самое, что и [абвгдежзийклмнопрстуфхцчшщъыьэюя]
r'[А-Я]' # То же самое, что и [АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ]

# Можно получать неполный алфавит или не все цифры:

r'[4-7]' # То же самое, что и [4567]
r'[x-z]' # То же самое, что и [xyz]
r'[B-D]' # То же самое, что и [BCD]
r'[а-ж]' # То же самое, что и [абвгдеж]
r'[П-Т]' # То же самое, что и [ПРСТ]
r'[6-D]' # То же самое, что и [6789:;<=>?@ABCD]

# А также совмещать синтаксис:

r'[4-7qwerty]' # То же самое, что и [qwerty4567]
r'[23x-z1]'    # То же самое, что и [xyz123]
r'[B-DF]'      # То же самое, что и [BCDF]

r'[21-47]' # То же самое, что и [212347]

'[21-47]'

In [21]:
# Чтобы использовать - как обычный символ - его достаточно экранировать или поставить в конец или начало скобок:

r'[4\-7]' # Найдёт 4, -, и 7
r'[-xz]'  # Найдёт -, x, и z
r'[^-xz]' # Найдёт всё, кроме -, x, и z
r'[BD-]'  # Найдёт B, D, и -

'[BD-]'

## Исключение с использованием диапазонов

In [22]:
# Исключение символов тоже можно сократить:

r'[^0-9]' # То же самое, что и [^0123456789]
r'[^a-z]' # То же самое, что и [^abcdefghijklmnopqrstuvwxyz]
r'[^A-Z]' # То же самое, что и [^ABCDEFGHIJKLMNOPQRSTUVWXYZ]
r'[^а-я]' # То же самое, что и [^абвгдежзийклмнопрстуфхцчшщъыьэюя]
r'[^А-Я]' # То же самое, что и [^АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ]

# Можно исключать неполный алфавит, или не все цифры:

r'[^4-7]' # То же самое, что и [^4567]
r'[^x-z]' # То же самое, что и [^xyz]
r'[^B-D]' # То же самое, что и [^BCD]
r'[^а-ж]' # То же самое, что и [^абвгдеж]
r'[^П-Т]' # То же самое, что и [^ПРСТ]
r'[^6-D]' # То же самое, что и [^6789:;<=>?@ABCD]

# Ну и совмещать:

r'[^4-7qwerty]' # То же самое, что и [^qwerty4567]
r'[^23x-z1]'    # То же самое, что и [^xyz123]
r'[^B-DF]'      # То же самое, что и [^BCDF]

# Можно использовать столько сокращений, сколько мы захотим:

r'[a-zA-Z0-9]' # То же самое, что [abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789]
r'[^э-я1-3]'   # То же самое, что и [^эюя123]

'[^э-я1-3]'

## Экранирование квадратных скобок

In [23]:
# Если квадратные скобки нужно использовать как обычный текст - достаточно их просто экранировать:

r'\[\]' # Найдет []

# Шаблон [а-яА-Я] не захватывает буквы ё и Ё. Придётся указывать их вручную: [а-яА-ЯёЁ].

'\\[\\]'

## Задачи

In [25]:
# Напишите регулярное выражение, которое найдет все последовательности: сон, сок, сом.

string = 'Пью сок вместе с моим сомом.'

regex = r'со[мкн]'

re.findall(regex, string)

['сок', 'сом']

In [28]:
# Найдите все цифры 1-4 и 6-9

string = '<=>@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ !"#$%&\'()*+,-./0123456789:;'

regex = r'[^05\D]'
print(re.findall(regex, string))

regex = r'[1-46-9]'
print(re.findall(regex, string))

['1', '2', '3', '4', '6', '7', '8', '9']
['1', '2', '3', '4', '6', '7', '8', '9']


In [None]:
# Напишите регулярное выражение, которое найдёт все кабинеты с трёхзначным номером: 100 - 999.

string = 'Начальнику второго отделения прибыть в 314 кабинет в понедельник.'

regex =r'[1-9][0-9][0-9] кабинет'
print(re.findall(regex, string))

regex = r'[1-9][0-9]{2} кабинет'
print(re.findall(regex, string))

regex = r'[1-9]\d\d кабинет'
print(re.findall(regex, string))

regex = r'[1-9]\d{2} кабинет'
print(re.findall(regex, string))

['314 кабинет']
['314 кабинет']
['314 кабинет']
['314 кабинет']


In [58]:
# Напишите регулярное выражение, которое находит все шестизначные коды подтверждения.

string = '171038 - ваш код подтверждения, а не этот: 4125422'

regex = r'\b\d{6}\b'
print(f'Первый вариант: {re.findall(regex, string)}')

regex = r'\d{6}'
print(f'Второй вариант: {re.findall(regex, string)}')

Первый вариант: ['171038']
Второй вариант: ['171038', '412542']


# 2.7 Шаблоны для поиска и проверки

![image.png](attachment:image.png)

In [None]:
# Некоторые спецсимволы, например такие: $^.-[], используются по-разному в регулярных выражениях в зависимости от контекста:

# $
r'[A$Z]'  # Ищет символы A,$,Z
r'^text$' # Ищет text между началом и концом строки
r'100\$'  # Ищет 100$

# ^
r"[^abc]"      # Ищет любой символ, кроме a,b,c
r"^Some text$" # Ищет Some text между началом и концом строки
r"\^"          # Ищет символ ^ 
r"[a^bc]"      # Символ ^ не стоит первым в скобках, поэтому выражение ищет символы a,b,c,^

# .
r'[A.Z]'     # Ищет символы A,.,Z
r'text.'     # Ищет text с любым символом, кроме перехода на новую строку
r'1\.000\$'  # Ищет 1.000$

# -
r'Как-то так' # Ищет Как-то так
r'[+-]'       # Ищет символы +,-
r'[^-+]'      # Ищет любой символ, кроме +, -
r'[a-z]'      # Ищет все буквы латинского алфавита в нижнем регистре
r'[a\-z]'     # Ищет символы a,-,z

# []
r'[abc]'   # Ищет символы a,b,c
r'\[abc\]' # Ищет [abc]
r'[\[abc\]]' # Ищет символы [,a,b,c,]


# Шаблоны и квадратные скобки
# Не все шаблоны в квадратных скобках используются как текстовые символы: 

r'[.]'  # Находит точку

r'[\d]' # То же самое, что и \d

'[\\d]'

In [None]:
string = 'фыв2D43Fфыв'

regex = r'\w\w\w\w'
print(re.findall(regex, string))
regex = r'\D\d[1-90]\D'
print(re.findall(regex, string))
regex = r'\D\d\d\D'
print(re.findall(regex, string))
regex = r'\s\S\S\s'
print(re.findall(regex, string))
regex = r'\W\W\W\W'
print(re.findall(regex, string))
regex = r'\b\B\B\b'
print(re.findall(regex, string))

['фыв2', 'D43F']
['D43F']
['D43F']
[]
[]
[]


In [69]:
# Напишите регулярное выражение, которое найдёт все последовательности из любых пяти символов, кроме перехода на следующую строку.

string = 'Этот текст был разделён на последовательности из 5 символов, и каждая последовательность была выведена в консоль через пробел.'

regex = r'.{5}'
print(re.findall(regex, string))

['Этот ', 'текст', ' был ', 'разде', 'лён н', 'а пос', 'ледов', 'атель', 'ности', ' из 5', ' симв', 'олов,', ' и ка', 'ждая ', 'после', 'доват', 'ельно', 'сть б', 'ыла в', 'ыведе', 'на в ', 'консо', 'ль че', 'рез п', 'робел']


In [72]:
# Нужно найти последовательности, подходящие по следующим условиям:

# Состоит из 3 букв
# Используется латинский и кириллический алфавиты верхнего и нижнего регистров
# Окружена пробелами с двух сторон

string = '''Lorem ipsum dolor sit amet, consectetur adipiscing elit. 
Nunc aliquam felis ut nisl fermentum porttitor. Integer condimentum arcu eget maximus tincidunt. 
Ut interdum ligula nulla, non tempor arcu consequat in. Aliquam molestie est mauris, efficitur lacinia nisl dictum et. 
Donec sit amet justo eros. Etiam fermentum justo lectus, vitae tincidunt dolor lobortis sed. 
Lorem ipsum dolor sit amet, consectetur adipiscing elit. '''

regex = r' [A-Za-zа-яА-яЁё]{3} '
print(re.findall(regex, string))

regex = r'\s[A-Za-zа-яА-яЁё]{3}\s'
print(re.findall(regex, string))

regex = r'\s[^_\d\W]{3}\s'
print(re.findall(regex, string))

[' sit ', ' non ', ' est ', ' sit ', ' sit ']
[' sit ', ' non ', ' est ', ' sit ', ' sit ']
[' sit ', ' non ', ' est ', ' sit ', ' sit ']
