# Регулярные выражения
В этом лонгриде рассмотрим основные методы, используемые при работе с регулярными выражениями.
А как составить сам шаблон (регулярное выражение), лучше посмотреть в [статьях, составленных специально для этого](https://habr.com/ru/post/349860/)

In [1]:
# модуль re содержит реализацию регулярных выражений в Python
import re

## Основные методы:
* `search()`
* `match()`
* `findall()`
* `split()`
* `sub()`

## `re.match(pattern, string)`
Метод ищет по заданному шаблону в начале строки.
Вывести содержимое можно с помощью метода `group()`.

Необходимо использовать **«r»** перед строкой шаблона, чтобы показать, что это «сырая» строка в Python.

In [2]:
result = re.match(r'AV', 'AV Analytics Vidhya AV')
print(result)

<re.Match object; span=(0, 2), match='AV'>


In [3]:
result.group()

'AV'

In [4]:
# можно найти начальную и конечную позиции вхождения
print(result.start())
print(result.end())

0
2


In [5]:
# match ищет только в начале строки!
result = re.match(r'Analytics', 'AV Analytics Vidhya AV')
print(result)

None


## `re.search(pattern, string)`
Тот же `match()`, но ищет шаблон не только в начале строки

In [6]:
# поэтому пример заработает, если использовать search
result = re.search(r'Analytics', 'AV Analytics Vidhya AV')
print(result.group())

Analytics


## `re.findall(pattern, string)`
Тот же `search()`, но ищет **все** вхождения шаблона

In [7]:
result = re.findall(r'AV', 'AV Analytics Vidhya AV')
print(result)

['AV', 'AV']


In [8]:
# можно, например, вытащить список доменов из строки с адресами электронной почты
result = re.findall(r'@\w+.\w+', 'abc.test@gmail.com, xyz@test.in, test.first@mail.ru, first.test@rest.org')
print(result)

['@gmail.com', '@test.in', '@mail.ru', '@rest.org']


## `re.split(pattern, string, [maxsplit=0])`
Разделяет строку по заданному шаблону.

Метод `split()` принимает также аргумент **maxsplit** со значением по умолчанию, равным 0. В данном случае он разделит строку столько раз, сколько возможно, но если указать этот аргумент, то разделение будет произведено не более указанного количества раз.

In [9]:
result = re.split(r'i', 'Analytics Vidhya')
print(result)

['Analyt', 'cs V', 'dhya']


## `re.sub(pattern, substring, string)`
Заменяет шаблон pattern в стоке **string** строкой **substring**

In [10]:
result = re.sub(r'y', '?','Analytics Vidhya')
print(result)

Anal?tics Vidh?a


## `re.compile(pattern)`
Позволяет подготовить шаблон регулярного выражения.
Это удобно, если шаблон длинный или вам нужно будет часто использовать его.

In [11]:
# как делали выше
result = re.findall(r'@\w+.\w+', 'abc.test@gmail.com, xyz@test.in, test.first@mail.ru, first.test@rest.org')
print(result)

['@gmail.com', '@test.in', '@mail.ru', '@rest.org']


In [12]:
# как сделать через compile
regex_pattern = re.compile(r'@\w+.\w+')
string = 'abc.test@gmail.com, xyz@test.in, test.first@mail.ru, first.test@rest.org'

result = regex_pattern.findall(string)
print(result)

['@gmail.com', '@test.in', '@mail.ru', '@rest.org']


Компиляция шаблона регулярного выражения может способствовать укорению его поиска. Однако, скомпилированные версии недавно использованных регулярных выражений кешируются в памяти.

Поэтому программам, использующим небольшое количество выражений, можно не компилировать каждое самостоятельно - интерпретатор и так самостоятельно сделает это.