# Введение в регулярные выражения

Регулярное выражение — это строка, задающая шаблон поиска подстрок в тексте.

Чаще всего регулярные выражения используются для:

- поиска в строке;
- разбиения строки на подстроки;
- замены части строки.

В Python для работы с регулярными выражениями необходимо подключить модуль `re`.

In [1]:
import re

## Основы синтаксиса регулярных выражений

Регулярные выражения используют два типа символов:

- **специальные символы**: как следует из названия, у этих символов есть специальные значения. Аналогично символу *, который как правило означает «любой символ» (но в регулярных выражениях работает немного иначе, о чем поговорим ниже);
- **литералы** (например: a, b, 1, 2 и т. д.).

Любая строка (в которой нет символов `.^$*+?{}[]\|()`) сама по себе является регулярным выражением. Так, выражению Хаха будет соответствовать строка “Хаха” и только она.

Регулярные выражения являются регистрозависимыми, поэтому строка “хаха” (с маленькой буквы) уже не будет соответствовать выражению выше. Подобно строкам в языке Python, регулярные выражения имеют спецсимволы `.^$*+?{}[]\|()`, которые в регулярках являются управляющими конструкциями. Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак `\`. Так же, как и в питоне, в регулярных выражения выражение `\n` соответствует концу строки, а `\t` — табуляции.

### Группирующие скобки (...)

Если в шаблоне регулярного выражения встречаются скобки (...), то они становятся группирующими. К этим группам можно обращаться по номеру \n. Это особенно полезно при замене.

**Квантификаторы**

|Шаблон|Описание|
|---|:---|
|n*|0 или более символов n|
|n+|1 или более символов n|
|n?|0 или 1 символ n|
|n{2}|ровно 2 символа n|
|n{2,}|2 или более символа n|
|n{2,4}|2, 3 или 4 символа n|

**Диапазоны**

|Шаблон|Описание|
|---|:---|
|.|Любой символ, кроме новой строки (`\n`)|
|(A\|B)|A или B|
|(...)|Группа символов (каждой из них соответствует порядковый номер, на который можно ссылаться - \1, \2, ... \n)|
|[ABC]|A, B или C|
|[^ABC]|Не(A, B или C)|
|[A-Z]|Символы от A до Z, верхний регистр|
|[0-9]|Цифры от 0 до 9|
|[A-Z0-9]|Символы от A до Z ицифры от 0 до 9|
|\n|ссылка на группу|

**Якори**

|Шаблон|Описание|
|---|:---|
|^|Начало строки|
|$|Конец строки|

**Классы символов**

|Шаблон|Описание|
|---|:---|
|\w|Word (a-z, A-Z, 0-9, включая `_`))
|\W|Non-word|
|\d|Digit (0-9)|
|\D|Non-digit|
|\s|Пробел (включая табуляцию и прочие виды отступов)|
|\S|Не пробел|
|\b|Начало или конец слова (слева пусто или не-буква, справа буква и наоборот)|
|\B|Не граница слова: либо и слева, и справа буквы, либо и слева, и справа НЕ буквы|
|\0|NUL|
|\n|Новая строка|

![Позиции](09/09-03.png)

**Позиционная проверка (lookahead, lookbehind)**

|Шаблон|Описание|
|---|:---|
|n(?=o)|Положительный Lookahead, ищем n, за которым следует o|
|n(?!o)|Отрицательный lookahead, ищем n, за которым не следует o|
|(?<=o)n|Положительный Lookbehind, ищем n, которому предшествует o|
|(?<!o)n|Отрицательный lookbehind, ищем n, которому не предшествует o|

![Lookahead, lookbehind](09/09-02.png)

## Методы работы с регулярными выражениями в Python

Вот наиболее часто используемые методы для работы с регулярными выражениями:

- re.match()
- re.search()
- re.findall()
- re.split()
- re.sub()
- re.compile()

### re.match(pattern, string)

Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод `match()` на строке «AV Analytics AV» с шаблоном «AV», то он завершится успешно. Однако если мы будем искать «Analytics», то результат будет отрицательный.

In [10]:
result = re.match(r'AV A', 'AV Analytics Vidhya AV')
print(result)

# Чтобы вывести искомый паттерн, используется метод group()
print(result.group())

<re.Match object; span=(0, 4), match='AV A'>
AV A


In [7]:
# group() или group(0) выведет весь паттерн
# group(n) выведет скобочную группу, если она есть
result = re.match(r'AV(.{5})', 'AV Analytics Vidhya AV') # В первую группу попадут любые 3 символа после AV
print(result.group())
print(result.group(1))

# Выведем начальную и конечную позицию найденного паттерна
print(result.start())
print(result.end())

AV Anal
 Anal
0
7


In [8]:
result = re.match(r'Analytics', 'AV Analytics Vidhya AV')
print(result)

None


### re.search(pattern, string)

Этот метод похож на `match()`, но он ищет не только в начале строки. В отличие от предыдущего, `search()` вернет объект, если мы попытаемся найти «Analytics».

Метод `search()` ищет по всей строке, но возвращает только первое найденное совпадение.

In [12]:
result = re.search(r'Analytics', 'AV Analytics Vidhya AV')
print(result.group(0))

Analytic


### re.findall(pattern, string)

Этот метод возвращает список всех найденных совпадений. У метода `findall()` нет ограничений на поиск в начале или конце строки. Если мы будем искать «AV» в нашей строке, он вернет все вхождения «AV». Для поиска рекомендуется использовать именно `findall()`, так как он может работать и как `re.search()`, и как `re.match()`.

In [14]:
result = re.findall(r'\w+', 'AV Analytics Vidhya AV')
print(result)

['A', 'A', 'A']


### re.split(pattern, string, [maxsplit=0])

Этот метод разделяет строку по заданному шаблону.

Метод `split()` принимает также аргумент `maxsplit` со значением по умолчанию, равным 0. В данном случае он разделит строку столько раз, сколько возможно, но если указать этот аргумент, то разделение будет произведено не более указанного количества раз.

In [15]:
result = re.split(r'y', 'Analytics')
print(result)

result = re.split(r'i', 'Analytics Vidhya')
print(result)

result = re.split(r'i', 'Analytics Vidhya', maxsplit=1)
print(result)

result = re.split(r'\d', 'a1b2c3d45e6')
print(result)

['Anal', 'tics']
['Analyt', 'cs V', 'dhya']
['Analyt', 'cs Vidhya']
['a', 'b', 'c', 'd', '', 'e', '']


### re.sub(pattern, repl, string)

Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

In [16]:
result = re.sub(r'India', 'the World', 'AV is largest Analytics community of India')
print(result)

AV is largest Analytics community of the World


In [17]:
result = re.sub(r'\d', '-', 'a1b2c3d456567g')
print(result)

a-b-c-d------g


### re.compile(pattern, repl, string)

Мы можем собрать регулярное выражение в отдельный объект, который может быть использован для поиска. Это также избавляет от переписывания одного и того же выражения.

In [13]:
pattern = re.compile('AV')

result = pattern.findall('AV Analytics Vidhya AV')
print(result)

result2 = pattern.findall('AV is largest analytics community of India')
print(result2)

['AV', 'AV']
['AV']


## Использование дополнительных флагов в питоне

Каждой из функций, перечисленных выше, можно дать дополнительный параметр flags, что несколько изменит режим работы регулярок. В качестве значения нужно передать сумму выбранных констант, вот они:

|Константа|Её смысл|
|---|:---|
|re.ASCII|По умолчанию \w, \W, \b, \B, \d, \D, \s, \S соответствуют все юникодные символы с соответствующим качеством. Например, \d соответствуют не только арабские цифры, но и вот такие: ٠١٢٣٤٥٦٧٨٩|
|re.ASCII|Ускоряет работу, если все соответствия лежат внутри ASCII|
|re.IGNORECASE|Не различать заглавные и маленькие буквы. Работает медленнее, но иногда удобно|
|re.MULTILINE|Специальные символы ^ и $ соответствуют началу и концу каждой строки|
|re.DOTALL|По умолчанию символ \n конца строки не подходит под точку. С этим флагом точка — вообще любой символ|

In [18]:
print(re.findall(r'\d+', '12 + ٦٧'))
print(re.findall(r'\w+', 'Hello, мир!'))
print(re.findall(r'\d+', '12 + ٦٧', flags=re.ASCII))
print(re.findall(r'\w+', 'Hello, мир!', flags=re.ASCII))
print(re.findall(r'[уеыаоэяию]+', 'ОООО ааааа ррррр ЫЫЫЫ яяяя'))
print(re.findall(r'[уеыаоэяию]+', 'ОООО ааааа ррррр ЫЫЫЫ яяяя', flags=re.IGNORECASE))

print()
text = r""" 
Торт
с вишней1 
вишней2 
""" 

print(re.findall(r'Торт.с', text)) 
print(re.findall(r'Торт.с', text, flags=re.DOTALL)) 
print(re.findall(r'виш\w+', text, flags=re.MULTILINE)) 
print(re.findall(r'^виш\w+', text, flags=re.MULTILINE)) 

['12', '٦٧']
['Hello', 'мир']
['12']
['Hello']
['ааааа', 'яяяя']
['ОООО', 'ааааа', 'ЫЫЫЫ', 'яяяя']

[]
['Торт\nс']
['вишней1', 'вишней2']
['вишней2']


## Примеры некоторых регулярных выражений

In [19]:
# Проверить телефонный номер (номер должен быть длиной 11 знаков и начинаться с 7 или 8)

li = ['89999999999', '79979799999', 'email@email.com', '7999', '8999999-999', '799999x9999']

pattern = re.compile(r'[78][0-9]{10}$')

for val in li:
    if pattern.match(val):
        print(val, 'yes', sep="\t")
    else:
        print(val, 'no', sep="\t")

89999999999	yes
79979799999	yes
email@email.com	no
7999	no
8999999-999	no
799999x9999	no


In [20]:
# Пример с группирующими скобками

pattern = r'\s*([А-Яа-яЁё]+)(\d+)\s*' 
string = r'---   Опять45   ---'

match = re.search(pattern, string)

print(f'Найдена подстрока >{match[0]}< с позиции {match.start(0)} до {match.end(0)}') 
print(f'Группа букв >{match[1]}< с позиции {match.start(1)} до {match.end(1)}') 
print(f'Группа цифр >{match[2]}< с позиции {match.start(2)} до {match.end(2)}') 

Найдена подстрока >   Опять45   < с позиции 3 до 16
Группа букв >Опять< с позиции 6 до 11
Группа цифр >45< с позиции 11 до 13


![Визуализация регулярного выражения](09/09-00.png)

![Группы регулярного выражения](09/09-01.png)

In [20]:
# Использование групп при заменах

text = "We arrive on 03/25/2018. So you are welcome after 04/01/2018." 
print(re.sub(r'(\d\d)/(\d\d)/(\d{4})', r'\2.\1.\3', text))

We arrive on 25.03.2018. So you are welcome after 01.04.2018.


In [22]:
# Замена с обработкой шаблона функцией в питоне

def repl(m): 
    return '>censored(' + str(len(m[0])) + ')<' 

text = "Некоторые хорошие слова подозрительны: хор, хоровод, хороводоводовед." 
print(re.sub(r'\b[хХxX]\w*', repl, text)) 

Некоторые >censored(7)< слова подозрительны: >censored(3)<, >censored(7)<, >censored(15)<.


In [23]:
# Ссылки на группы при поиске

text = "SPAM <foo>Here we can <boo>find</boo> something interesting</foo> SPAM" 
print(re.search(r'<(\w+?)>.*?</\1>', text)[0])

text = "SPAM <foo>Here we can <foo>find</foo> OH, NO MATCH HERE!</foo> SPAM" 
print(re.search(r'<(\w+?)>.*?</\1>', text)[0]) 

<foo>Here we can <boo>find</boo> something interesting</foo>
<foo>Here we can <foo>find</foo>


In [24]:
# Приведение текста к печатному виду

line = input('Введите строку:\n')
line = re.sub(r'- ', r'— ', line)
line = re.sub(r'"(.+?)"', r'«\1»', line)
line = re.sub(r'\.\.\.', '…', line)
print(line)

rddddfgvvvvvggg fffffffffffffffffffffffffffff………….,knhgyffdfxcfgvhbjnkmljhytrdrty


# Задание

Написать функцию, которая на вход принимает строку, а на выход выдает булево значение (True или False), которое истинно, если полученная строка соответствует номеру телефона или адресу электронной почты.

In [28]:
# можно попрактиковаться тут
#s = input()
li = ['89999999999', '79979799999', 'email@mail.com', '7999', '8999999-999', '799999x9999']

pattern = re.compile(r'[78][0-9]{10}$')
pattern1 = re.compile(r'.*@mail\.com$')

for val in li:
    if pattern.match(val):
        print(val, 'True', sep="\t")
    elif pattern1.match(val):
        print(val, 'True', sep="\t")
    else:
        print(val, 'False', sep="\t")

89999999999	True
79979799999	True
email@mail.com	True
7999	False
8999999-999	False
799999x9999	False
