# Регулярные выражения

Реrулярные выражения предназначены для выполнения сложного поиска или замены в строке.  В языке Python использовать регулярные выражения позволяет модуль re. Прежде чем использовать функции из этого модуля, необходимо подключить модуль с помощью инструкции:


In [2]:
import re # Библиотека для работы с регулярными выражениями

# Синтаксис регулярных выражений

Создать откомпилированный шаблон регулярного выражения позволяет функция compile(). Функция имеет следующий формат:

<Шаблон>= rе.соmрilе(<Регулярное выражение>[, <Модификатор>]) 

In [3]:
# Пример регулярного выражения
p = re.compile(r"[а-яё]{0,6}", re.I) # Шаблон, соответствующий строке, начинающейся на 0-6 русских букв
p.match('тикtik').group(0) # Возвращаем результат поиска подстроки по указанному шаблону в строке "тикtik"

'тик'

### Составление регулярных выражений

Внутри регулярного выражения (внутри кавычек, его определяющих) символы 

#### .   ^   $  *  +  ?   {  [  ]  \  |  ( ) 

имеют специальное значение. Если эти символы требуется выводить как есть, то их следует экранировать
с помощью слэша. Некоторые сnециальные символы теряют свое особое значение, если их
разместить внутри квадратных скобок. В этом случае экранировать их не нужно. 

В квадратных скобках [] можно указать символы, которые могут встречаться на этом месте в строке. Можно перечислять символы подряд или указать их диапазон через тире. Примеры:

* [09] - соответствует цифре 0 или 9 <br>
* [0-9] - соответствует одной цифре от 0 до 9 <br>
* [абв] - соответствует букве "а", "б" или "в" <br>
* [а-г] - соответствует букве "а", "б", "в" или "г" <br>
* [а-я] - соответствует любой букве от "а" до "я", кроме буквы "ё" <br>
* [а-яё] - соответствует любой букве от "а" до "я" <br>
* [АБВ] - соответствует букве "А", "Б" или "В" <br>
* [А-ЯЁ] - соответствует любой букве от "А" до "Я" <br>
* [а-яА-ЯёЁ] - соответствует любой русской букве в любом регистре <br>
* [0-9а-яА-ЯёЁа-zА-Z] - любая цифра и любая буква независимо от регистра и языка

In [4]:
#Пример

date_ = "29,10.2016"
p = re.compile(r'[0-3][0-9].[01][0-9].[12][09][0-9][0-9]') # Шаблон корректной даты
if p.match(date_): # Проверка на соответствие заданному шаблону
    print('Введено правильно')
else: 
    print('Введено неправильно')
#Так как точка не экранирована, то выведет "Введено правильно", т.к. точка означает любой символ, кроме перевода строки

p = re.compile(r'(([0-2][0-9])|([3][01]))\.[01][0-9]\.[12][09][0-9][0-9]') # Шаблон корректной даты с экранированием точки
                                    # и более жесткими ограничениями на цифры дня 
if p.match(date_):
    print('Введено правильно')
else: 
    print('Введено неправильно')
#Точка экранирована. Выведет "Введено неправильно"

p = re.compile(r'[0-3][0-9][.][01][0-9][.][12][09][0-9][0-9]') # Еще один вариант указать точку в шаблоне - заключить ее в квадратные скобки
if p.match(date_):
    print('Введено правильно')
else: 
    print('Введено неправильно')
#Точка внутри квадратных скобок. Выведет "Введено неправильно"

Введено правильно
Введено неправильно
Введено неправильно


Если после первой скобки указать ^, то все указанные в квадратных скобках символы должны отсутствовать на данной позиции шаблона.

In [None]:
p=re.compile(r'[^09][^0-9][^а-яА-ЯёЁa-zA-Z]') # Первый символ - не 0 и не 9; второй символ - не цифра; третий символ - не буква.

if p.search('1а2'):
    print('Строка соответствует шаблону')
else:
    print('Строка не соответствует шаблону')


if p.search('04Q'):
    print('Строка соответствует шаблону')
else:
    print('Строка не соответствует шаблону')

Вместо перечисления символов можно использовать стандартные классы: <br>

* . - любой символ, кроме перевода строки (если точка не экранирована и не заключена в квадратные скобки)
* \d - соответствует любой цифре (эквивалентно [0-9]) <br>
* \w - соответствует любой букве, цифре или символу подчеркивания ([a-zA-Zа-яЁА-ЯЁ0-9_]) <br>
* \s - любой пробельный символ (пробел, перевод строки, табуляция и т.д.) <br>
* \D - не цифра (эквивалентно [^0-9]) <br>
* \W - не буква, не цифра и не символ подчеркивания (эквивалентно [^a-zA-Zа-яЁА-ЯЁ0-9_]) <br>
* \S - не пробельный символ <br>
* \b - обозначение левой или правой границы слова (где слово трактуется как последовательность букв или цифр)

In [5]:
p = re.compile(r'[\d][\D][\s][\S]')

if p.search('1a 2'):
    print('Строка соответствует шаблону')
else:
    print('Строка не соответствует шаблону')


if p.search('1a2 '):
    print('Строка соответствует шаблону')
else:
    print('Строка не соответствует шаблону')

Строка соответствует шаблону
Строка не соответствует шаблону


#### Квантификаторы

С помощью квантификаторов задается количество вхождений символа в строку. Указывается после символа, к которому относится разрешенное количество повторений: <br>

* {n} - n вхождений символа в строку. Например. шаблон r"[0-9]{2}" соответствует двум вхождениям любой цифры;<br>
* {n,} - n или более вхождений символа в строку. Например. шаблон r"[0-9]{2,}" соответствует двум и более вхождениям любой цифры;<br>
* {n,m} - не менее n и не более m вхождений символа в строку. Числа указываются через запятую без пробела. _Например, <br>
шаблон r"[0-9]{2,4}" соответствует от двух до четырех вхождениям любой цифры;_<br>
* \* - ноль или большее число вхождений символа в строку. Эквивалентно комбинации {0,}<br>
* \+ - одно или большее число вхождений символа в строку. Эквивалентно комбинации {1,}<br>
* ? - ни одного или одно вхождение символа в строку. Эквивалентно комбинации {0,1}. 

In [25]:
p = re.compile(r'[0-9]{4}') #Вместо r'[0-9][0-9][0-9][0-9]'

if p.search('111'):
    print('Строка соответствует шаблону')
else:
    print('Строка не соответствует шаблону')

if p.search('1111'):
    print('Строка соответствует шаблону')
else:
    print('Строка не соответствует шаблону')

Строка не соответствует шаблону
Строка соответствует шаблону


Все квантификаторы являются "жадными": при поиске соответствия ищется самая длинная подстрока, соответствующая шаблону, и не учитываются более короткие соответствия. Например:

In [6]:
s="<b>Text1</b>Text2<b>Text3</b>"
p = re.compile(r'<b>.*</b>')
p.findall(s)

['<b>Text1</b>Text2<b>Text3</b>']

In [7]:
#Для ограничения жадности необходимо указать символ ? после квантификатора. 
# В этом случае будут искаться самые короткие подстроки

p=re.compile(r'<b>.*?</b>')
p.findall(s)

['<b>Text1</b>', '<b>Text3</b>']

Если необходимо получить только содержимое тегов, то нужный фрагмент шаблона следует разместить внутри круглых скобок

In [8]:
p=re.compile(r'<b>(.*?)</b>')
p.findall(s)

['Text1', 'Text3']

Круглые скобки также часто используются для группировки фрагментов внутри шаблона. По умолчанию все фрагменты в скобках выводятся в результат. Чтобы избежать вывода конкретного фрагмента, следует после его открывающей круглой скобки разместить символы ?:

In [9]:
s = 'test tent text contest'
p=re.compile(r'[a-z]+((st)|(xt))') #Выводятся только фрагменты, которые заключены в круглые скобки
print(p.findall(s))

p=re.compile(r'([a-z]+((st)|(xt)))') #За счет внешних скобок выводятся и целые слова, соответствующие паттерну
print(p.findall(s))

p=re.compile(r'([a-z]+(?:(?:st)|(?:xt)))') #С помощью ?: во всех вложенных фрагментах на печать выводятся только целые слова
p.findall(s)

[('st', 'st', ''), ('xt', '', 'xt'), ('st', 'st', '')]
[('test', 'st', 'st', ''), ('text', 'xt', '', 'xt'), ('contest', 'st', 'st', '')]


['test', 'text', 'contest']

#### Привязка к началу строки или подстроки

^ - привязка к началу строки или подстроки. Зависит от модификаторов M (или MULTILINE) и S (или DOTALL) <br>
$ - привязка к концу строки или подстроки. Зависит от модификаторов M (или MULTILINE) и S (или DOTALL) <br>
\А - привязка к началу строки (не зависит от модификатора) <br>
\Z - привязка к концу строки (не зависит от модификатора). <br>
(модификаторы рассматриваются ниже)

In [10]:
p = re.compile(r'^help') #Привязка к началу строки, т.е. проверка на соответствие начала строки заданному выражению
s = 'help '
print(p.findall(s))
s = ' help'
print(p.findall(s)) # Строка начинается с пробела, поэтому не соответствует регулярному выражению

['help']
[]


In [26]:
p = re.compile(r'help$') #Привязка к концу строки (проверка на соответствие конца строки заданному выражению)
s = 'help '
print(p.findall(s))
s = ' help'
print(p.findall(s))

[]
['help']


При одновременном использовании привязок к началу и к концу строки, мы говорим, что ищем строку с данным количеством символов, которые соответствуют шаблону

In [11]:
p=re.compile(r'[a-zA-Zа-яА-Я]{3}') #Без привязок
p.findall('2qwer')


['qwe']

In [12]:
p=re.compile(r'^[a-zA-Zа-яА-Я]{3}$') #С привязками
print(p.findall('qwer'))
p=re.compile(r'^[a-zA-Zа-яА-Я]{4}$')
print(p.findall('qwer'))

[]
['qwer']


## Модификаторы 

При определении регулярного выражения в параметре <Модификатор> могут быть указаны следующие флаги (или их комбинация через оператор | ):

* L или LOCALE- учитываются настройки текущей локали

* I или IGNORECASE- поиск без учета регистра.

* M или МULTILINE- поиск в строке, состоящей из нескольких подстрок, разделенных символом новой строки ("\n"). Символ ^ соответствует привязке к началу каждой подстроки, а символ $ соответствует позиции перед символом перевода строки

* S или DOTALL- метасимвол "точка" будет соответствовать любому символу, включая символ перевода строки {\n). По умолчанию метасимвол "точка" не соответствует символу перевода строки. Символ ^ будет соответствовать привязке к началу всей строки, а cимвол $ - привязке к концу всей строки.

* X или VERBOSE - Включает многословные (подробные) регулярные выражения, которые могут быть организованы более ясно и понятно. Если указан этот флаг, пробелы в строке регулярного выражения игнорируются, кроме случаев, когда они имеются в классе символов (напр. в квадратных скобках) или им предшествует неэкранированный бэкслеш; это позволяет организовать регулярные выражения более ясным образом. Этот флаг также позволяет помещать в регулярные выражения комментарии, начинающиеся с '#', которые будут игнорироваться движком.

In [None]:
p = re.compile(r'[a-z]{3}', re.I) #Поиск без учета регистра
s = 'QWE'
p.findall(s)

In [24]:
p = re.compile(r'''\d{1,2} #Ищем цифру или 2 цифры
[a-z]? #Ищем 0-1 букву
[\w]+ #Ищем непробельные символы (более 1)
''', re.X|re.I)
p1 = re.compile(r'\d{1,2}[a-z]?[\w]+', re.I) # То же самое в строку: менее наглядно
s = 'sss40A2'
s1 = '444a_banana293'
s2 = '4 banana'
p.findall(s), p1.findall(s1), p.findall(s2)

(['40A2'], ['444a_banana293'], [])

## Часто используемые методы

* _re.match()_ - Этот метод ищет по заданному шаблону в начале строки. Возвращает первое вхождение подстроки в виде объекта SRE_Match object, из которого можно получить результирующую подстроку с помощью функции group, а индексы начальной и конечной позиции с помощью функций start() и end(), соответственно. <br>
* re.search() - Этот метод ищет по заданному шаблону во всей строке. Возвращает первое вхождение подстроки в виде объекта SRE_Match object, из которого можно получить результирующую подстроку с помощью функции group, а индексы начальной и конечной позиции с помощью функций start() и end(), соответственно. <br>
* re.findall() - Этот метод возвращает список всех найденных совпадений (подстрок). <br>
* re.split() - Этот метод разделяет строку по заданному шаблону. Первый аргумент функции - регулярное выражение, обозначающее разделитель, второй аргумент - исходная строка. <br>
* re.sub() - Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. <br>
* re.compile() - собирает регулярное выражение в отдельный объект, который может быть использован для поиска. Это также избавляет от переписывания одного и того же выражения.

### re.match(pattern, string)

In [30]:
result = re.match(r'Analytics', 'AV Analytics Vidhya AV')
print(result)

None


In [29]:
result = re.match(r'AV', 'AV Analytics Vidhya AV')
print(result)
print(result.group())
print("Индекс начальной позиции найденной подстроки = {}, \
Индекс конечной позиции найденной подстроки = {}".format(result.start(), result.end()))

<re.Match object; span=(0, 2), match='AV'>
AV
Индекс начальной позиции найденной подстроки = 0, Индекс конечной позиции найденной подстроки = 2


### re.search(pattern, string)

In [16]:
result = re.search(r'Analytics', 'AV Analytics Vidhya AV')
print(result.group())

Analytics


In [15]:
result = re.search(r'AV', 'AV Analytics Vidhya AV')
print(result)
print(result.group(0))
print("Индекс начальной позиции найденной подстроки = {}, \
Индекс конечной позиции найденной подстроки = {}".format(result.start(), result.end()))

<re.Match object; span=(0, 2), match='AV'>
AV
Индекс начальной позиции найденной подстроки = 0, Индекс конечной позиции найденной подстроки = 2


Метод search() ищет по всей строке, но возвращает только первое найденное совпадение.

### re.findall(pattern, string)

In [18]:
result = re.findall(r'AV', 'AV Analytics Vidhya')
print (result)

['AV']


### re.split(pattern, string, [maxsplit=0])

In [22]:
result = re.split(r't', 'Analytics')
print(result)

['Analy', 'ics']


С помощью модуля re можно задать несколько шаблонов и знаков, по которым нужно разбить одну строку

In [19]:
result = re.split(r'\.|\\|_', r'User\Homework_Ivanov.docs')
print(result)

['User', 'Homework', 'Ivanov', 'docs']


### re.sub(pattern, repl, string)### 

In [23]:
result = re.sub(r'India', 'the World', 'AV is largest Analytics community of India')
print (result)

AV is largest Analytics community of the World


In [20]:
result = re.sub(r'\.|\'| |,|=|-', '_', 'We don\'t.need=no-education')
print(result)

We_don_t_need_no_education


### re.compile(pattern, repl, string)

In [21]:
pattern = re.compile(r'\.|\'| |,|=|-')
s = 'We don\'t.need=no-education'
pattern.sub('_', s), pattern.split(s)

('We_don_t_need_no_education', ['We', 'don', 't', 'need', 'no', 'education'])