# Регулярные выражения

Регулярные выражения (RE, regexp) нужны, чтобы находить в строках подстроки не по точному вхождению, а описываемые *правилами-шаблонами*.

Специальные символы, с помощью которых мы будем задавать правила поиска строк:
- `.` один любой символ
- `?` 0 или 1 вхождение предыдущего символа
- `*` предыдущий символ повторяется ≥ 0 раз (0, 1, 2, 3 и т. д.)
- `+` предыдущий символ повторяется ≥ 1 раз (1, 2, 3 и т. д.)
- `^` начало строки
- `$` конец строки
- `[abc]` «или»: любой из символов а, b, c
- `[а-я]` любая буква русского алфавита от «а» до «я» Внутри квадратных скобок большинство специальных символ не действуют: . обозначает точку, ? — вопросительный знак. Вне квадратных скобок, чтобы получить точку или, например, плюс, специальные символы надо экранировать с помощью \ (`\.`обозначает точку, `\+` обозначает плюс).
- `[^abc]` — отрицание: любой символ, кроме a, b, c.
- `\d` любая цифра, аналогично `[0-9]`
- `\D` — любой символ, кроме цифр (отрицание `\d` или `[^0-9]`)
- `\w` — буквы, цифры, _ (то же, что `[a-zA-Z0-9_]`), `\W` — всё кроме букв, цифр, _.
- `\s` — любой пробелоподбный символ (`[ \t\n\r\f\v]`), `\S` — любой непробелоподбный символ

Всё о **модуле `re`**: https://docs.python.org/3/howto/regex.html

Regex тренировка: https://regex101.com/


In [1]:
import re

**`re.search(pattern, string)`** - возвращает первое вхождение подстроки, которая подходит под регулярное выражение. re.search(что_ищем; где_ищем)

In [2]:
re.search('кот.', 'Кто кота найдёт, тот с котом, которого найдёт, время проведёт.')

<re.Match object; span=(4, 8), match='кота'>

In [3]:
re.search('кот.', 'Кто кота найдёт, тот с котом, которого найдёт, время проведёт.').group()

'кота'

Но если по шаблону ничего не нашлось, `.group()` вызовет ошибку.

In [4]:
re.search('собак.', 'Кто кота найдёт, тот с котом, которого найдёт, время проведёт.').group()

AttributeError: 'NoneType' object has no attribute 'group'

Поэтому для надёжности стоит проверять, нашлось ли что-то:

In [5]:
first_match = re.search('кот.', 'Кто кота найдёт, тот с котом, которого найдёт, время проведёт.')
if first_match:
    print(first_match.group())
else:
    print('Nothing found.')

кота


Что найдётся, если искать 'кот..'?

In [6]:
re.search('кот..', 'Кто кота найдёт, тот с котом, которого найдёт, время проведёт.').group()

'кота '

**`re.findall(pattern, string)`** - находит все вхождения подходящих строк

In [7]:
all_results = re.findall('кот.', 'Кто кота найдёт, тот с котом, которого найдёт, время проведёт.')
all_results

['кота', 'кото', 'кото']

### Про экранирование и сырые строки

In [8]:
digits = re.findall('\d', 'Сегодня 08 февраля 2024 года')
digits

['0', '8', '2', '0', '2', '4']

In [9]:
digits = re.findall(r'\d', 'Сегодня 08 февраля 2024 года')
digits

['0', '8', '2', '0', '2', '4']

При этом:

In [10]:
print('часть 1\nчасть 2')

часть 1
часть 2


In [11]:
print(r'часть 1\nчасть 2')

часть 1\nчасть 2


Что значит `r`?

`r` перед строкой превращает её в сырую, `r` говорит, что в строке нет спец символов. \ - просто слэш, n - просто n.

Ещё один способ сказать, что символ - не спецсимвол - **экранировать**, поставить перед ним слэш.

In [12]:
digits = re.findall('\\d', 'Сегодня 08 февраля 2024 года')
digits

['0', '8', '2', '0', '2', '4']

In [13]:
print('часть 1\\nчасть 2')

часть 1\nчасть 2


### Тренировка регулярных выражений

**Найдите только год в строке 'Сегодня 08 февраля 2024 года'**

In [14]:
re.findall(r'\d\d\d\d', 'Сегодня 08 февраля 2024 года')

['2024']

In [15]:
re.findall(r'\d{4}', 'Сегодня 08 февраля 2024 года')

['2024']

In [16]:
re.findall('[0-9]{4}', 'Сегодня 08 февраля 2024 года')

['2024']

В фигурных скобках указывается, сколько раз может повториться предыдущий элемент.

In [17]:
re.findall(r'.{4}', 'Сегодня 08 февраля 2024 года')

['Сего', 'дня ', '08 ф', 'евра', 'ля 2', '024 ', 'года']

В квадратных скобках указывается, какие элементы могут стоять на этом месте. Можно перечислять подряд или указывать промежутки. Внутри квадратных скобок не работает большинство спецсимволов.

In [18]:
re.findall('[а-я]{4}', 'Сегодня 08 февраля 2024 года')

['егод', 'февр', 'года']

In [19]:
re.findall('[А-Яа-я]{4}', 'Сегодня 08 февраля 2024 года')

['Сего', 'февр', 'года']

In [20]:
re.findall('[А-Яа-я]{4}', 'Сёдня 08 февраля 2024 года')

['февр', 'года']

In [21]:
re.findall('[А-Яа-яЁё]{4}', 'Сёдня 08 февраля 2024 года')

['Сёдн', 'февр', 'года']

С помощью `^` указывается, какие символы мы не хотим найти.

In [22]:
re.findall('[^ёя]', 'Сёдня')

['С', 'д', 'н']

С помощью `+` указывается, что предыдущий символ повторяется ≥ 1 раз

In [23]:
re.findall('а+', 'аааа, а я понял!')

['аааа', 'а']

С помощью `*` указывается, что предыдущий символ повторяется ≥ 0 раз

In [24]:
re.findall('а*', 'аааа, а я понял!')

['аааа', '', '', 'а', '', '', '', '', '', '', '', '', '', '']

**Найдите телефоны в контактах ФГН**

In [25]:
fgn = '''Справочная:
Тел.: +7 (495) 771-32-32
Факс: +7 (495) 628-79-31
Для соединения с внутренним номером подразделения/работника:
+7 (495) 531-00-00
Довузовская подготовка:
Сайт: http://fdp.hse.ru
E-mail: fdp@hse.ru
Адреса и телефоны: https://fdp.hse.ru/contacts
Приемная комиссия:
Тел.: 84957713242; +7(495)916-88-44'''

In [26]:
re.findall(r'\+7 \(\d{3}\) \d{3}-\d{2}-\d{2}', fgn)

['+7 (495) 771-32-32', '+7 (495) 628-79-31', '+7 (495) 531-00-00']

`?` - предыдущий символ повторяется 0 или 1 раз (способ указать необязательность)

In [27]:
re.findall(r'\+7 ?\(?\d{3}\)? ?\d{3}-?\d{2}-?\d{2}', fgn)

['+7 (495) 771-32-32',
 '+7 (495) 628-79-31',
 '+7 (495) 531-00-00',
 '+7(495)916-88-44']

In [28]:
# Читаемый пример
colours = re.findall('colou?r', 'In US English, “color” is the correct spelling. In UK English, “colour” is standard.')
colours

['color', 'colour']

In [29]:
# Отступление про варианты
re.findall('(с(о|а)бака)', 'Правильно собака или сабака?')

[('собака', 'о'), ('сабака', 'а')]

In [30]:
re.findall(r'((\+7|8) ?\(?\d{3}\)? ?\d{3}-?\d{2}-?\d{2})', fgn)

[('+7 (495) 771-32-32', '+7'),
 ('+7 (495) 628-79-31', '+7'),
 ('+7 (495) 531-00-00', '+7'),
 ('84957713242', '8'),
 ('+7(495)916-88-44', '+7')]

**Найдите всех терьеров в строке**

In [31]:
terier = 'Современные терьеры (около 30 пород) используются как служебные (например, эрдельтерьер), охотничьи (фокстерьер, немецкий ягдтерьер), универсальные фермерские (бордер-терьер, ирландский терьер) и декоративные (бивер-йоркширский терьер) собаки.'
# ваш код

### Про `.group()`

Если нужно найти в строке несколько подстрок, то каждую из них можно выделить с помощью круглых скобок.

In [32]:
s = 'корова молоко '
r = re.search('(.+?оро.+?) (.+?оло.+?) ', s)
print(r)
print(r.group())
print(r.group(0))  # то же самое, что r.group()

<re.Match object; span=(0, 14), match='корова молоко '>
корова молоко 
корова молоко 


In [33]:
print(r.group(1))

корова


In [34]:
r.group(2)

'молоко'

### Про жадность поиска

In [35]:
s = 'Онегин, добрый мой приятель'
r = re.search('.+ ', s)
print(r.group())

Онегин, добрый мой 


In [36]:
s = 'Онегин, добрый мой приятель'
r = re.search('.+? ', s)
print(r.group())

Онегин, 


Если не поставить `?`, находится максимальная строка (жадный поиск). Ограничение - пробел, но пробел входит в множество любых символов.

Чтобы сделать поиск нежадным, поставьте `?` перед символом, тогда подходящая строка будет находиться до первого его вхождния, а не последнего.

In [37]:
s = 'корова молоко ворота'
r = re.search('.+оро.+ ', s)
print(r)
print(r.group())

<re.Match object; span=(0, 14), match='корова молоко '>
корова молоко 


In [38]:
s = 'корова молоко ворота'
r = re.search('.+оро.+? ', s)
print(r)
print(r.group())

<re.Match object; span=(0, 7), match='корова '>
корова 


**Найдите в почтовом адресе логин и домен**

In [39]:
pattern = r'([a-zA-Z0-9_.]+)@(([a-zA-Z0-9_]+)\.([a-zA-Z]+))'
print(re.search(pattern, fgn).group(1))
print(re.search(pattern, fgn).group(4))

fdp
ru


Чтобы не путаться в нумерации скобочек, можно проименовать их.

In [40]:
pattern = r'(?P<login>[a-zA-Z0-9_.]+)@(?P<provider>(?P<name>[a-zA-Z0-9_]+)\.(?P<domain>[a-zA-Z]+))'
re.search(pattern, fgn).group('domain')

'ru'

### Можно делать замены по регулярным выражениям

In [41]:
re.sub('.', 'а', 'строчка')

'ааааааа'