### Регулярные выражения

Начать логичнее всего с регулярных выражений. Это один из самых полезных инструментов, который пригождается практически всегда и везде. А иногда регулярок хватает, чтобы решить всю задачу от начала и до конца.

Регулярные выражения - это огромная и технически сложная штука, но для 99% случаев хватает знания самых базовых вещей. Давайте их разберем.

В питоне есть встроенная библиотека для работы с регулярками - **re**

In [3]:
import re

У **re** несколько основных функций:    
  -  **re.findall** (возвращает все совпадения списком),   
  -  **re.match** (сравнивает паттерн со строкой с начала),  
  -  **re.search** (ищет во всей строке совпадения с паттерном),  
  -  **re.sub** (заменяет в строке совпадения с паттерном на что-то еще),  
  -  **re.split** (делит строку по совпадению с паттерном)

Паттерн - это само регулярное выражение. В нем на специальном языке описывается то, что мы хотим найти в строке. Понятнее будет на примерах.

In [4]:
# возьмем любой текст
text = "ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО "\
       "ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ "\
       "ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, "\
       "ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА"

Самый простой паттерн - подстрока, которую мы хотим найти. Например, мы хотим найти все заглавные буквы Ф, тогда паттерном будет просто "Ф"

In [15]:
# в строке 3 Ф
# findall возвращает результат списком
re.findall('Ф', text)

CPU times: user 22 µs, sys: 1 µs, total: 23 µs
Wall time: 28.8 µs


['Ф', 'Ф', 'Ф']

Регистр важен, поэтому "ф" не даст результатов

In [13]:
re.findall('ф', text)

[]

Попробуем заменить все буквы О на а

In [14]:
re.sub('О', 'а', text)

'ДАННаЕ СааБЩЕНИЕ (МАТЕРИАЛ) СаЗДАНа И (ИЛИ) РАСПРаСТРАНЕНа ИНаСТРАННЫМ СРЕДСТВаМ МАССаВаЙ ИНФаРМАЦИИ, ВЫПаЛНЯЮЩИМ ФУНКЦИИ ИНаСТРАННаГа АГЕНТА, И (ИЛИ) РаССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦаМ, ВЫПаЛНЯЮЩИМ ФУНКЦИИ ИНаСТРАННаГа АГЕНТА'

Но такие операции с единичными символами можно сделать и без дополнительных библиотек, просто используя базовый функционал питона. И зачастую это будет даже быстрее.

In [18]:
# пример поиска умоминаний
[t for t in text if t == 'Ф']

['Ф', 'Ф', 'Ф']

In [19]:
# пример замены
text.replace("О", "а")

'ДАННаЕ СааБЩЕНИЕ (МАТЕРИАЛ) СаЗДАНа И (ИЛИ) РАСПРаСТРАНЕНа ИНаСТРАННЫМ СРЕДСТВаМ МАССаВаЙ ИНФаРМАЦИИ, ВЫПаЛНЯЮЩИМ ФУНКЦИИ ИНаСТРАННаГа АГЕНТА, И (ИЛИ) РаССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦаМ, ВЫПаЛНЯЮЩИМ ФУНКЦИИ ИНаСТРАННаГа АГЕНТА'

### Перечисления

Но вот когда количество символов для матчинга увеличивается, код на голом питоне становится очень громоздким. Регулярные выражения позволяют задавать перечисления гораздно эффективнее. Базовые оператор перечисления это квадратные скобки `[]`

In [17]:
re.findall("[ФЦ]", text) # матчим и большую и маленькую

['Ф', 'Ц', 'Ф', 'Ц', 'Ц', 'Ф', 'Ц']

Внутри квадратных скобок также действует особенный синтаксис, который заточен на перечисления. Например, можно использовать интервалы, чтобы не перечислять, например, все буквы нужного алфавита или все цифры

Основные интервалы:
 - \[а-яА-ЯЁё\] - все русские буквы (заглавные и маленькие)
 - \[a-zА-Z\] - все английские буквы (заглавные и маленькие)
 - \[0-9\] все цифры

In [36]:
# такой интервал сматчит почти все кроме пробелов и скобок
re.findall('[А-Я]', text)

['Д',
 'А',
 'Н',
 'Н',
 'О',
 'Е',
 'С',
 'О',
 'О',
 'Б',
 'Щ',
 'Е',
 'Н',
 'И',
 'Е',
 'М',
 'А',
 'Т',
 'Е',
 'Р',
 'И',
 'А',
 'Л',
 'С',
 'О',
 'З',
 'Д',
 'А',
 'Н',
 'О',
 'И',
 'И',
 'Л',
 'И',
 'Р',
 'А',
 'С',
 'П',
 'Р',
 'О',
 'С',
 'Т',
 'Р',
 'А',
 'Н',
 'Е',
 'Н',
 'О',
 'И',
 'Н',
 'О',
 'С',
 'Т',
 'Р',
 'А',
 'Н',
 'Н',
 'Ы',
 'М',
 'С',
 'Р',
 'Е',
 'Д',
 'С',
 'Т',
 'В',
 'О',
 'М',
 'М',
 'А',
 'С',
 'С',
 'О',
 'В',
 'О',
 'Й',
 'И',
 'Н',
 'Ф',
 'О',
 'Р',
 'М',
 'А',
 'Ц',
 'И',
 'И',
 'В',
 'Ы',
 'П',
 'О',
 'Л',
 'Н',
 'Я',
 'Ю',
 'Щ',
 'И',
 'М',
 'Ф',
 'У',
 'Н',
 'К',
 'Ц',
 'И',
 'И',
 'И',
 'Н',
 'О',
 'С',
 'Т',
 'Р',
 'А',
 'Н',
 'Н',
 'О',
 'Г',
 'О',
 'А',
 'Г',
 'Е',
 'Н',
 'Т',
 'А',
 'И',
 'И',
 'Л',
 'И',
 'Р',
 'О',
 'С',
 'С',
 'И',
 'Й',
 'С',
 'К',
 'И',
 'М',
 'Ю',
 'Р',
 'И',
 'Д',
 'И',
 'Ч',
 'Е',
 'С',
 'К',
 'И',
 'М',
 'Л',
 'И',
 'Ц',
 'О',
 'М',
 'В',
 'Ы',
 'П',
 'О',
 'Л',
 'Н',
 'Я',
 'Ю',
 'Щ',
 'И',
 'М',
 'Ф',
 'У',
 'Н',
 'К'

In [38]:
# а такой не сматчит ничего потому что все написано капсом
re.findall('[а-я]', text)

[]

Почему нужно задавать интервалы для заглавных букв и прописных отдельно? Почему нельзя просто написать `[А-я]` ? На самом деле можно и для русского это даже будет работать точно также как и `[А-Яа-я]`

In [42]:
re.sub("[А-Яа-я]", '', text) == re.sub("[А-я]", '', text)

True

Но важно понимать почему! 

Такие интервалы считаются по таблице юникода. Эта таблица - это стандартизированный маппинг между кодировкой и конкретным символом. Про него еще можно думать как про список в питоне - это просто линейная последовательность символов, где индекс это кодировка. Соответственно, такие интервалы работают просто как слайс этого списка - `[A-Z]` означает все символы с индексами от индекса символа A и до индекса символа Z. Заглавные и прописные символы русского алфавита идут сразу друг за другом, поэтому интервал выше работает. А вот между заглавными и прописными символами латиницы есть другие символы, поэтому интервал `[A-z]` будет матчить символы, которые вы не будете ожидать

In [45]:
# эти символы идут между Z и a - "[\]^_`"
re.sub("[A-Za-z]", '', "Some text in English, just to demonstrate! [quote]") 

'   ,   ! []'

In [47]:
# поэтому вот такой интервал сматчит и квадратные скобки!
re.sub("[A-z]", '', "Some text in English, just to demonstrate! [quote]") 

'   ,   ! '

In [48]:
# а вот такое не сработает вообще, потому что z идет после A
re.sub("[z-A]", '', "Some text in English, just to demonstrate! [quote]") 

error: bad character range z-A at position 1

По этой же причине `Ёё` нужно добавлять отдельно. Большая Ё стоит до кириллицы, а ё немного позже. 

Посмотреть таблицу юникода можно, например, тут - https://unicode-table.com/ru/ Так вы сможете понять, какие интервалы сработают, а какие нет.

Одна из неприятных возможных ошибок, которые можно допустить с интервалами это - `[A-я]` (од латинской A до киррилической я). Это очень большой интервал, который будет включать очень много лишнего. И при этом сложно увидеть, что A неправильная.


 

Кроме интервалов в `[]` работает отризание через символ ^. Иногда проще сказать, какие символы не нужно матчить:

In [49]:
# матчим все кроме букв от Д до Я
re.findall('[^Д-Я]', text)

['А',
 ' ',
 'Б',
 ' ',
 '(',
 'А',
 'А',
 ')',
 ' ',
 'А',
 ' ',
 ' ',
 '(',
 ')',
 ' ',
 'А',
 'А',
 ' ',
 'А',
 ' ',
 'В',
 ' ',
 'А',
 'В',
 ' ',
 'А',
 ',',
 ' ',
 'В',
 ' ',
 ' ',
 'А',
 'Г',
 ' ',
 'А',
 'Г',
 'А',
 ',',
 ' ',
 ' ',
 '(',
 ')',
 ' ',
 ' ',
 ' ',
 ',',
 ' ',
 'В',
 ' ',
 ' ',
 'А',
 'Г',
 ' ',
 'А',
 'Г',
 'А']

Есть еще абстрактные операторы, которыми можно указать еще больше вариантов. 

Основные такие операторы:  
 - `\w` `\W` - любая буква или цифра и любая не буква и не цифра
 - `\d` `\D` - любая цифра и любая не цифра
 -  `.` - любой символ кроме новой строки
 - `\s` - пробельный символ (пробел, таб, новая строка)

In [29]:
# останутся только пробелы и знаки препинания
re.sub('\w', '', text)

'  ()   ()     ,    ,  ()   ,    '

In [30]:
# останутся только буквы
re.sub('\W', '', text)

'ДАННОЕСООБЩЕНИЕМАТЕРИАЛСОЗДАНОИИЛИРАСПРОСТРАНЕНОИНОСТРАННЫМСРЕДСТВОММАССОВОЙИНФОРМАЦИИВЫПОЛНЯЮЩИМФУНКЦИИИНОСТРАННОГОАГЕНТАИИЛИРОССИЙСКИМЮРИДИЧЕСКИМЛИЦОМВЫПОЛНЯЮЩИМФУНКЦИИИНОСТРАННОГОАГЕНТА'

In [32]:
# \d - цифр нет в строке, поэтому пусто
re.findall('\d', text)

[]

In [34]:
# \D - матчит любую не цифру, т.е. всю строку
re.sub('\D', '_', text)

'____________________________________________________________________________________________________________________________________________________________________________________________________________________________'

In [38]:
# \s - а так можно написать простой токенайзер
re.split("\s",  text)

['ДАННОЕ',
 'СООБЩЕНИЕ',
 '(МАТЕРИАЛ)',
 'СОЗДАНО',
 'И',
 '(ИЛИ)',
 'РАСПРОСТРАНЕНО',
 'ИНОСТРАННЫМ',
 'СРЕДСТВОМ',
 'МАССОВОЙ',
 'ИНФОРМАЦИИ,',
 'ВЫПОЛНЯЮЩИМ',
 'ФУНКЦИИ',
 'ИНОСТРАННОГО',
 'АГЕНТА,',
 'И',
 '(ИЛИ)',
 'РОССИЙСКИМ',
 'ЮРИДИЧЕСКИМ',
 'ЛИЦОМ,',
 'ВЫПОЛНЯЮЩИМ',
 'ФУНКЦИИ',
 'ИНОСТРАННОГО',
 'АГЕНТА']

In [46]:
# добавим к тексту новую строку, видно что все кроме нее сматчилось
re.sub(".", '', text + '\n')

'\n'

Точка в квадратных скобках перестает быть абстрактным символом!

In [53]:
# добавим к тексту новую строку, видно что все кроме нее сматчилось
re.findall("[.]", text + '\n')

[]

### Последовательности

Чтобы повторить один и тот же символ можно поставить после него + (1 и больше повторений) или \* (0 и больше повторений).

In [47]:
# все последовательности букв и цифр
re.findall('\w+', text) 

['ДАННОЕ',
 'СООБЩЕНИЕ',
 'МАТЕРИАЛ',
 'СОЗДАНО',
 'И',
 'ИЛИ',
 'РАСПРОСТРАНЕНО',
 'ИНОСТРАННЫМ',
 'СРЕДСТВОМ',
 'МАССОВОЙ',
 'ИНФОРМАЦИИ',
 'ВЫПОЛНЯЮЩИМ',
 'ФУНКЦИИ',
 'ИНОСТРАННОГО',
 'АГЕНТА',
 'И',
 'ИЛИ',
 'РОССИЙСКИМ',
 'ЮРИДИЧЕСКИМ',
 'ЛИЦОМ',
 'ВЫПОЛНЯЮЩИМ',
 'ФУНКЦИИ',
 'ИНОСТРАННОГО',
 'АГЕНТА']

In [48]:
# все последовательности букв и цифр 
# (и пустое место т.к. \w не обязательный с * и пустая строка удовлетворяет такому паттерну)
re.findall('\w*', text) 

['ДАННОЕ',
 '',
 'СООБЩЕНИЕ',
 '',
 '',
 'МАТЕРИАЛ',
 '',
 '',
 'СОЗДАНО',
 '',
 'И',
 '',
 '',
 'ИЛИ',
 '',
 '',
 'РАСПРОСТРАНЕНО',
 '',
 'ИНОСТРАННЫМ',
 '',
 'СРЕДСТВОМ',
 '',
 'МАССОВОЙ',
 '',
 'ИНФОРМАЦИИ',
 '',
 '',
 'ВЫПОЛНЯЮЩИМ',
 '',
 'ФУНКЦИИ',
 '',
 'ИНОСТРАННОГО',
 '',
 'АГЕНТА',
 '',
 '',
 'И',
 '',
 '',
 'ИЛИ',
 '',
 '',
 'РОССИЙСКИМ',
 '',
 'ЮРИДИЧЕСКИМ',
 '',
 'ЛИЦОМ',
 '',
 '',
 'ВЫПОЛНЯЮЩИМ',
 '',
 'ФУНКЦИИ',
 '',
 'ИНОСТРАННОГО',
 '',
 'АГЕНТА',
 '']

Если символ не обязательный, то можно поставить знак вопроса.

In [49]:
# запятая в конце обязательна
re.findall('\w+,', text)

['ИНФОРМАЦИИ,', 'АГЕНТА,', 'ЛИЦОМ,']

In [50]:
# необязательна
re.findall('\w+,?', text)

['ДАННОЕ',
 'СООБЩЕНИЕ',
 'МАТЕРИАЛ',
 'СОЗДАНО',
 'И',
 'ИЛИ',
 'РАСПРОСТРАНЕНО',
 'ИНОСТРАННЫМ',
 'СРЕДСТВОМ',
 'МАССОВОЙ',
 'ИНФОРМАЦИИ,',
 'ВЫПОЛНЯЮЩИМ',
 'ФУНКЦИИ',
 'ИНОСТРАННОГО',
 'АГЕНТА,',
 'И',
 'ИЛИ',
 'РОССИЙСКИМ',
 'ЮРИДИЧЕСКИМ',
 'ЛИЦОМ,',
 'ВЫПОЛНЯЮЩИМ',
 'ФУНКЦИИ',
 'ИНОСТРАННОГО',
 'АГЕНТА']

Вопрос можно совместить с +, чтобы сматчить минимально возможный паттерн.

In [58]:
re.findall('\s.+\s', text) # матчит все от первого до последнего пробела

[' СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО ']

In [59]:
re.findall('\s.+?\s', text) # матчит все подстроки между пробелами

[' СООБЩЕНИЕ ',
 ' СОЗДАНО ',
 ' (ИЛИ) ',
 ' ИНОСТРАННЫМ ',
 ' МАССОВОЙ ',
 ' ВЫПОЛНЯЮЩИМ ',
 ' ИНОСТРАННОГО ',
 ' И ',
 ' РОССИЙСКИМ ',
 ' ЛИЦОМ, ',
 ' ФУНКЦИИ ']

Если нужно указать точное число повторений, можно указать его в фигурных скобках {min, max} (значение макс не включается)

In [55]:
# только валидные номера 
# " " в конце нужно чтобы не матчить частично последний номер
re.findall('\+79\d{1,9} ', "+79121231232 +79991238899 +7923111112222211 ") 

['+79121231232 ', '+79991238899 ']

### Группы

Если нужно выбрать только часть из паттерна, то эту часть можно заключить в скобки

In [75]:
re.findall('\s(.+?)\s', text) # матчится по пробелам, но выбирается только то, что между пробелов

['СООБЩЕНИЕ',
 'СОЗДАНО',
 '(ИЛИ)',
 'ИНОСТРАННЫМ',
 'МАССОВОЙ',
 'ВЫПОЛНЯЮЩИМ',
 'ИНОСТРАННОГО',
 'И',
 'РОССИЙСКИМ',
 'ЛИЦОМ,',
 'ФУНКЦИИ']

Вообще скобки - это синтаксис групп и он сильно сложнее, чем просто подвыбор части паттерна. Групп в паттерне может быть много и к ним можно обращаться по индексам

In [73]:
m = re.search('\s(.+?)\s', text) # в search вот так можно достать то что попало в скобки
m.group(1) # в паттерне одна группа и нумерация начинается с 1

'СООБЩЕНИЕ'

In [67]:
m = re.search('\s(ИНО\w+)\s(АГ\w+)', text) # две группы
print('1 - ', m.group(1)) # 
print('2 - ', m.group(2)) 

1 -  ИНОСТРАННОГО
2 -  АГЕНТА


Помимо самого матча регулярные выражения еще сохраняют информацию об индексах в изначальной строке и ее можно достать через функцию span. В нее также можно подавать индекс группы

In [85]:
m = re.search('\s(ИНО\w+)\s(АГ\w+)', text) # те же две группы
print('1 - ', m.span(1),) # спан ИНОСТРАННОГО
print('2 - ', m.span(2)) # спан АГЕНТА

1 -  (122, 134)
2 -  (135, 141)


Можно пойти в строку по этим индексам и убедиться:

In [88]:
text[122:134], text[135:141]

('ИНОСТРАННОГО', 'АГЕНТА')

Еще одна продвинутая фича групп - это то, что к ним можно отсылаться напрямую в паттерне. Например, можно написать вот такой паттерн, чтобы дедуплицировать С в тексте

In [68]:
re.sub('СС', 'С', text)

'ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАСОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОСИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА'

Но как сделать паттерн, которой дедуплицирует все символы сразу?

In [71]:
# \1 отсылает к первой группе в паттерне
# то есть мы матчим любой алфавитный символ и его повторения, а затем заменяем только на первое упоминание
re.sub('(\w)\\1+', '\\1', text)

'ДАНОЕ СОБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАНЫМ СРЕДСТВОМ МАСОВОЙ ИНФОРМАЦИ, ВЫПОЛНЯЮЩИМ ФУНКЦИ ИНОСТРАНОГО АГЕНТА, И (ИЛИ) РОСИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИ ИНОСТРАНОГО АГЕНТА'

В питоне обратные слеши интерпретируются как экранирование, поэтому чтобы поставить `\` в строке нужно написать `\\` . Чтобы этого избежать можно добавить к строке `r''`

In [72]:
re.sub(r'(\w)\1+', r'\1', text)

'ДАНОЕ СОБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАНЫМ СРЕДСТВОМ МАСОВОЙ ИНФОРМАЦИ, ВЫПОЛНЯЮЩИМ ФУНКЦИ ИНОСТРАНОГО АГЕНТА, И (ИЛИ) РОСИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИ ИНОСТРАНОГО АГЕНТА'

Иногда скобки вместе с символом | (или) можно использовать для создания паттерна, который выбирает между несколькими последовательностями. 
В этом случае удобнее выключить функционал групп совсем. Это можно сделать добавив `?:` в начале скобок. Сравните:

In [84]:
re.findall('ИН(ФОРМАЦИИ|ОСТРАННОГО)', text) # выбирается то что в скобках

['ФОРМАЦИИ', 'ОСТРАННОГО', 'ОСТРАННОГО']

In [85]:
re.findall('ИН(?:ФОРМАЦИИ|ОСТРАННОГО)', text) # выбирается все

['ИНФОРМАЦИИ', 'ИНОСТРАННОГО', 'ИНОСТРАННОГО']

Регулярные выражения матчат по строкам (до символа \n). Поэтому .+ не сматчит все строчки текста целиком. Нужно либо указать \n как вариант, либо использовать флаг re.DOTALL

In [90]:
re.findall('.+', "1\n2") # матч прерывается новой строкой

['1', '2']

In [92]:
re.findall('.+', "1\n2", re.DOTALL) # матчится все от начала до конца вместе с \n

['1\n2']

### Границы

При работе со словами часто нужно указать границы матча (от начала стоки, до конца слова и тп). Для этого есть операторы `^` (вне квадратных скобок) - указывает на начало строки и `\b`, который означает границу слова. 

In [89]:
text

'ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА'

In [106]:
re.search('^ДАННОЕ', text) # матчит

<re.Match object; span=(0, 6), match='ДАННОЕ'>

In [105]:
re.search('^СООБЩЕНИЕ', text) # не матчит потому что не в начале строки

In [113]:
re.findall(r'11', "1 11 111 1111 $11 _11_ !11! #11 ") # матчит 8 раз в том числе 11 в 1111

['11', '11', '11', '11', '11', '11', '11', '11']

In [116]:
re.findall(r'\b11\b', "1 11 111 1111 $11 _11_ !11! #11 ") # матчит только 11 $11 _11_ !11! #11 потому что там 
                                                          # есть границы

['11', '11', '11', '11']

Если вам перестанет хватать этого набора или вы запутаетесь, можно посмотреть в более подробную документацию - https://docs.python.org/3/howto/regex.html

Говоря о регуляках, стоит еще упомянуть библиотеку - [regex](https://pypi.org/project/regex/) Это можно сказать re 2.0 - тут есть все, что есть в re, но есть и много дополнительных штук. Вот несколько полезных фичей regex:

In [73]:
import regex

Можно искать с ошибками (это называется fuzzy matching). В фигурных скобках нужно указать вид ошибки и максимальное допустимое количество:
 - e - любая ошибка
 - d - удаление 
 - i - вставка
 - s - замена

In [74]:
regex.findall('(вообще){e<=1}', 'вобще')

['вобще']

In [75]:
regex.findall('(вообще){d<=1}', 'вобще')

['вобще']

In [76]:
regex.findall('(вообще){i<=1}', 'вобще')

[]

In [77]:
regex.findall('(вообще){s<=1}', 'воабще')

['воабще']

Результат сплита можно вернуть генератором (это полезно если данных очень много)

In [81]:
tokens = regex.splititer(' +', text)

In [98]:
next(tokens)

'(ИЛИ)'

Варианты для матчинга последовательностей можно перечислить удобнее

In [31]:
option_set = ["нет", "не", "он", 'она']
p = regex.compile(r"\L<options>", options=option_set)

In [67]:
p.findall(text)[:10]

['не', 'не', 'он', 'не', 'она', 'не', 'он', 'не', 'не', 'не']

Еще больше фичей regex можно узнать тут - https://pypi.org/project/regex/

Регуляки очень быстро разрастаются до нечитаемых колбас символов. Если регулярка нужна больше одного раза, то поддерживать ее очень сложно - достаточно пары дней, чтобы забыть контекст и перестать понимать, что вообще происходит и зачем. Для таких случаев можно писать ругялки в многострочном формате и даже с комментариями!


Давайте посмотрит как это выглядит. Чтобы это заработало нужно передать доп флаг re.VERBOSE или re.X и потом можно делать пробельные отступы между символами, отступать новые строки и писать комментарии

In [6]:
import re

# пример строки, так часто выглядят логи
example = "2024-09-10 14:55:23 INFO Some event occurred"

# эту регуляку еще можно усложнить если добавить другие форматы дат/времени или учитывать что часы могут быть только от 0 до 23, а не любые две цифры рядом
pattern = re.compile(r"""
    ^                               # начало строки
    (?P<date>\d{4}-\d{2}-\d{2})     # дата в формате YYYY-MM-DD
    \s+                             # один или несколько пробелов
    (?P<time>\d{2}:\d{2}:\d{2})     # время в формате HH:MM:SS
    \s+                             # опять пробелы
    (?P<level>INFO|DEBUG|ERROR|WARNING) # тип ошибки
    \s+                             # пробелы
    (?P<message>[A-Za-z0-9 ]+)      # сообщение ошибки
    $                               # конец строки
""", re.VERBOSE)

In [8]:
# Еще в регуляке выше заданы группы и каждой приписано имя
# в итоге код будет выглядеть очень понятно и читаемо 
match = pattern.match(example)

if match:
    print("Match found!")
    print(f"Date: {match.group('date')}")
    print(f"Time: {match.group('time')}")
    print(f"Level: {match.group('level')}")
    print(f"Message: {match.group('message')}")
else:
    print("No match found")


Match found!
Date: 2024-09-10
Time: 14:55:23
Level: INFO
Message: Some event occurred


In [5]:
text

'ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА'

In [None]:
re.findall("""
    (?:пре|пере|по)?  # префикс
    \.    # основа
    \d *  # постфикс
    """, text, re.X)