> *Когда некоторые люди сталкиваются с проблемой, думают «Я знаю, я решу её с помощью регулярных выражений.» Теперь у них две проблемы*

### Введение в регулярные выражения

Регулярное выражение — это строка, задающая шаблон поиска подстрок в тексте. Одному шаблону может соответствовать много разных строчек. Термин «Регулярные выражения» является переводом английского словосочетания «Regular expressions». Перевод не очень точно отражает смысл, правильнее было бы «шаблонные выражения». Регулярное выражение, или коротко «регулярка», состоит из обычных символов и специальных командных последовательностей. Например, \d задаёт любую цифру, а \d* — задает любую последовательность из нуля или более цифр

В Python поиск по регулярному выражению обычно записывается как:

In [None]:
import re
match = re.search(pattern, string)

Метод re.search() принимает шаблон регулярного выражения (pattern) и строку (string), затем ищет этот шаблон в строке. Если поиск успешен, search() возвращает соответствующий объект, None в противном случае. В примере ниже мы проверим строку на наличие котов:

In [2]:
import re
str = 'Я люблю котиков и мятные пряники'
match = re.search(r'кот\w*', str)
if match:
    print('Нашёл слово:', match.group())
else:
    print('В этом тексте нет котов :(')

Нашёл слово: котиков


Код match = re.search(r'кот\w*', str) сохраняет результат поиска в переменную с именем match. Затем оператор if проверяет совпадение - если true, поиск завершился успешно, то match.group() является совпадающим текстом (в нашем случае "котиков", так это "кот" плюс некоторое количество или ноль букв в конце). В противном случае, если match = false, то совпадения нет и соответствующий текст отсутствует.

Кстати, любая строка, в которой нет символов, сама по себе является регулярным выражением. Так, выражению "привет" будет соответствовать строка “привет” и только она. Регулярные выражения являются регистрозависимыми, поэтому строка “ПрИвЕт” уже не подойдёт. Подобно строкам в языке Python, регулярные выражения имеют спецсимволы **.^$*+?{}[]\|()**, которые в регулярках являются управляющими конструкциями. Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак \

Например, если вы хотите найти выражение в скобках, то надо написать \ ( \w* \ ), a если найти слэш, то \\\\\\

## Базовые обозначения в регулярных выражениях

**.**   Один любой символ, кроме новой строки

**\d**	Любая цифра

**\D**	Любой символ, кроме цифры

**\s**	Любой пробельный символ (пробел, табуляция, конец строки и т.п.)

**\S**	Любой непробельный символ	(не пробел, не табуляция, не конец строки и т.п.)

**\w**	Любая буква (то, что может быть частью слова), а также цифры и _

**\W**	Любая не-буква, не-цифра и не подчёркивание	

**[..]**	Один из символов в скобках в рамках диапазона, то есть:

**\d** равносильно выражению [0-9]

**\D** равносильно выражению [^0-9], так как символ ^ означает любой символ, кроме перечисленных

**\w** равносильно выражению [0-9a-zA-Z], эта запись сочетает в себе последовательность из любых цифр, букв в обоих регистрах

**\s** равносильно [\f\n\r\t] (тут надо постараться, чтобы вспомнить что есть что!)

**\b** Начало или конец слова (слева пусто или не-буква и справа буква, или наоборот). В отличие от предыдущих соответствует позиции, а не символу.

**^ и $**	тоже обозначение начало и конца строки соответственно

### Пока теории хватит, посмотрим на примеры!

In [3]:
# давайте зададим шаблон: любой символ (точка) + окончание "ом" и посмотрим, какие примеры подойдут
all_strings = ['дом', 'ком', 'космодром', '5ом', '666ом', '_ом', 'ом']
for element in all_strings:
    match = re.search(r'.ом', element)
    if match:
        print(match.group(), end = ', ')

дом, ком, ром, 5ом, 6ом, _ом, 

In [4]:
#в фигурных скобках количество повторений заданного символа, в этом случае мы ищем 3 числа после слова БЖУР
all_strings = ['Самые умные студенты учатся в группе БЖУР192']
for element in all_strings:
    match = re.search(r'БЖУР\d{3}', element)
    if match:
        print(match.group(), end = ', ')

БЖУР192, 

In [6]:
# обратим внимание, что первые три строки не прошли проверку (т.к. в них меньше 4х чисел)
# а дальше выводились первые 4 цифры оставшихся строк
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'\d{4}', element)
    if match:
        print(match.group(), end = ', ')

1234, 1234, 1234, 

In [3]:
# добавили условие с помощью \b - эти 4 цифры должны стоять в конце
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'\d{4}\b', element)
    if match:
        print(match.group(), end = ', ')

1234, 2345, 3456, 

In [2]:
# если нам надо найти последовательности ТОЛЬКО из 4х чисел
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'^\d{4}$', element)
    if match:
        print(match.group(), end = ', ')

1234, 

In [9]:
# зададим условие для поиска правильных Брэд Питтов
# Брэдд Питт не обижается, если его имя пишут с маленькой буквы
# но ему неприятно, если между именем и фамилией нет символа табуляции
all_strings = ['Брэд Питт', 'брэд Питт', 'брэд питт', 'брэд_питт', 'Брэд666Питт']
for element in all_strings:
    match = re.search(r'[Бб]рэд\s[Пп]итт', element)
    if match:
        print(match.group(), end = ', ')

Брэд Питт, брэд Питт, брэд питт, 

In [18]:
# загадочная буква ё, на которой всё ломается
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
print(re.search(r'[А-Яа-я\s]+',st).group(0))

у любви у нашей села батарейка ОООООО


In [19]:
#как исправить? не забыть добавить Ё после а-я!
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
print(re.search(r'[А-Яа-яЁё\s]+',st).group(0))

у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА


### Вернёмся к теории

Как в регулярном выражении объяснить, сколько раз нам нужно то или иное вхождение символов?

**{n}**	 Ровно n повторений	

**{m,n}**	От m до n повторений включительно	

**{m,}**	Не менее m повторений	

**{,n}**	Не более n повторений	

**?**	Ноль или одно вхождение, аналогично {0,1}

**\***	Ноль или более вхождений, аналогично {0,}

**\+**	Одно или более вхождений, аналогично {1,}	

**|** логический оператор или 

In [8]:
## найдём в слове столько i, сколько возможно
match = re.search(r'pi+', 'piiiiiig')
print(match.group())

piii


In [20]:
## Сталкиваемся с особенностью метода search - метод search ищет только самое первое (самое левое) вхождение
match = re.search(r'i+', 'piigiiiiii')
print(match.group())

ii


In [24]:
#теперь попробуем найти не только свиней, но и мопсов (pug - мопс)
all_strings = ['pig', 'pog', 'pug', 'piug', 'pigpugpig', 'pig_pug']
for element in all_strings:
    match = re.search(r'(p[i|u]g_*)+', element)
    if match:
        print(match.group(), end = ', ')

pig, pug, pigpugpig, pig_pug, 

In [42]:
# посмеялись и хватит, давайте найдём строки где не больше 5и смешков
# с условием, что кто-то смеётся с дефисом, а кто-то без
all_strings = ['ха-ха', 'ха-хаха-ха-хаха-ха','хо-хоха-хахо-хохах-ах', 'хахоха']
for element in all_strings:
    match = re.search(r'(х[а|о]-*){,5}', element)
    if match:
        print(match.group(), end = ', ')

ха-ха, ха-хаха-ха-ха, хо-хоха-хахо-, хахоха, 

### Повторение - мать учения! Найдём все e-mailы в строке

In [19]:
# как бы мы делали раньше
import re
str = 'purple alice-b@google.com monkey dishwasher'
match = re.search(r'\w+@\w+', str) # что-то, потом @, потом ещё что-то
if match:
    print(match.group())

b@google


В этом случае поиск не дает полного адреса электронной почты, потому что \w не соответствует дефису или точке в адресе. Исправим это, используя функции регулярных выражений ниже. Коды \ w, \ s и другие работают точно так же внутри квадратных скобок. Исключение - точка (.), которая внутри скобок означает просто буквальную точку. Итак, собираем регулярное выражение:

**[\w.-]** всё, что может находиться в адресе электронной почты

**[\w.-]+** добавим плюс, так как там может быть сколько угодно символов

**[\w.-]+@[\w.-]+** посередине знак @, готово!

In [43]:
# как мы будем делать, зная регулярные выражения
import re
str = 'purple alice-b@google.com monkey dishwasher'
match = re.search(r'[\w.-]+@[\w.-]+', str)
if match:
    print(match.group())

alice-b@google.com



### Группировка 

Функция "группировки" регулярного выражения позволяет вам выделять части совпадающего текста. Предположим, что для проблемы электронной почты мы хотим извлечь имя пользователя и хост отдельно. Для этого добавьте круглые скобки () вокруг имени пользователя и хоста в шаблоне. В этом случае круглые скобки не меняют то, чему будет соответствовать шаблон, вместо этого они создают логические «группы» внутри текста соответствия. При успешном поиске **match.group(1)** - это текст совпадения, соответствующий 1-й левой круглой скобке, а **match.group(2)** - текст, соответствующий 2-й левой скобке. Обычный **match.group()**, как обычно, по-прежнему представляет собой весь текст соответствия.

In [44]:
str = 'purple alice-b@google.com monkey dishwasher'
match = re.search('([\w.-]+)@([\w.-]+)', str)
if match:
    print(match.group())   ## 'alice-b@google.com' (полное совпадение)
    print(match.group(1))  ## 'alice-b' (юзернейм)
    print(match.group(2))  ## 'google.com' (домен электронной почты)

alice-b@google.com
alice-b
google.com


### Функции кроме search()

**re.split(pattern, string, maxsplit=0)**	Аналог str.split(), только разделение происходит по подстрокам, подходящим под шаблон pattern;

**re.findall(pattern, string)**	  Найти в строке string все непересекающиеся шаблоны pattern;

**re.finditer(pattern, string)**	Итератор по всем непересекающимся шаблонам pattern в строке string (выдаются match-объекты);

**re.sub(pattern, repl, string, count=0)**	Заменить в строке string все непересекающиеся шаблоны pattern на repl;

**re.IGNORECASE** Не различать заглавные и маленькие буквы. Работает медленнее, но иногда удобно

In [46]:
## Задание - найти все email
str = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'

## re.findall() возвращает список со всеми вхождениями шаблона
emails = re.findall(r'[\w\.-]+@[\w\.-]+', str) 
for email in emails:
    print(email)

alice@google.com
bob@abc.com


In [58]:
# Обратим внимание, как записаны даты: день(1-2 числа) - месяц (строго 2 числа) - год (строго 4 числа)
# match.start() индекс в исходной строке, начиная с которого идёт найденная подстрока
for match in re.finditer(r'\d{1,2}\.\d{2}\.\d{4}', r'Первый локдаун начался 27.03.2020, а последний - 1.11.2021'): 
    print('Дата', match.group(), 'начинается с позиции', match.start()) 

Дата 27.03.2020 начинается с позиции 23
Дата 1.11.2021 начинается с позиции 49


In [62]:
# тестируем функцию split, которая поделит строку на две части по дефису, окружённому знаками табуляции (пробелами)
print(re.split(r'\s-\s', 'В моём сердце дырка - мне нужна таблетка')) 

['В моём сердце дырка', 'мне нужна таблетка']


In [100]:
#замена всех непересекающихся шаблонов в строке
print(re.sub(r'Аль\-\w+|Талиб\w+', 
             r'запрещенная в россии террористическая организация'.upper(), 
             r'Недавно Аль-Каида совместо с Аль-Джихадом признала себя виновной в совершении тяжких преступлений, в отношении Талибов так же будут приняты ответные меры')) 

Недавно ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ совместо с ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ признала себя виновной в совершении тяжких преступлений, в отношении ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ так же будут приняты ответные санкции


In [101]:
# последнии пример, игнорирование регистра в регулярных выражениях
print(re.findall(r'[оам]+', 'ОООО ааааа оооо ММММ мМммМММм', flags=re.IGNORECASE)) 

['ОООО', 'ааааа', 'оооо', 'ММММ', 'мМммМММм']


### Где потренироваться в регулярных выражениях

* [https://pythex.org/](https://pythex.org/)

* [https://regex101.com/r/F8dY80/3](https://regex101.com/r/F8dY80/3)

### Cамостоятельные упражнения


**Задача №1**

Владимир устроился на работу в одно очень важное место. И в первом же документе он ничего не понял,
там были сплошные ФГУП НИЦ ГИДГЕО, ФГОУ ЧШУ АПК и т.п. Тогда он решил собрать все аббревиатуры, чтобы потом найти их расшифровки на [http://sokr.ru/](http://sokr.ru/). Помогите ему.

Будем считать аббревиатурой слова только лишь из заглавных букв (как минимум из двух). Если несколько таких слов разделены пробелами, то они считаются одной аббревиатурой.

**Задача №2**

Найти дату в строке. В отличие от прошлого примера год может записыватьс двумя способами - 2007 или 07, то есть 4 или 2 символа, вывести месяц.

**Задача №3**

Найти все имена собственные в тексте. Случаи, когда проедложение начинается с имени собственного, можно игнорировать.