# Регулярные выражения

Регулярные выражения - это шаблоны соответствия текста, описанные формальным синтаксисом. Часто можно услышать в беседе, что регулярные выражения называют 'regex' или 'regexp'. Регулярные выражения могут содержать различные правила, например поиск повторений, соответствие текста и многое другое. По мере того, как Вы продвигаетесь в использовании Python, Вы увидите, что многие задачи парсинга решаются с помощью регулярных выражений (также это частый вопрос на собеседованиях!).


Если Вы знакомы с Perl, то заметите, что синтаксис для регулярных выражений в Python выглядит очень похоже. В этой лекции мы будем использовать модуль <code>re</code> в Python.


Начнём!

## Поиск шаблонов в тексте

Один из наиболее частых сценариев использования модуля re - это поиск шаблонов в тексте. Рассмотрим пример использования метода search модуля re, чтобы найти некоторый текст:

In [2]:
import re

# Список шаблонов для поиска
patterns = ['Термин1', 'Термин2']

# Текст для анализа
text = 'В этом тексте есть термин term1, но в нём нет второго термина.'

for pattern in patterns:
    print('Ищем "%s" внутри следующей строки:\n "%s"\n' %(pattern,text))
    
    #Check for match
    if re.search(pattern,text):
        print('Соответствие найдено. \n')
    else:
        print('Соответствие не найдено.\n')

Ищем "term1" внутри следующей строки:
 "В этом тексте есть термин term1, но в нём нет второго термина."

Соответствие найдено. 

Ищем "term2" внутри следующей строки:
 "В этом тексте есть термин term1, но в нём нет второго термина."

Соответствие не найдено.



Итак, мы увидели, что <code>re.search()</code> берёт шаблон, сканирует текст, и возвращает объект **Match**. Если шаблон не найден, то возвращается **None**. Чтобы лучше увидеть этот объект match, посмотрите на следующий код:

In [2]:
# Список шаблонов для поиска
pattern = 'term1'

# Текст для анализа
text = 'В этом тексте есть термин term1, но в нём нет второго термина.'

match = re.search(pattern,text)

type(match)

_sre.SRE_Match

Этот объект **Match**, возвращаемый методом search() - это больше, чем просто Boolean или None. Этот объект содержит информацию о соответствии текста и шаблона, включая изначальную входную строку, использованное регулярное выражение, и местоположение найденной части. Рассмотрим методы объекта match:

In [3]:
# показать начало соответствия
match.start()

22

In [4]:
# показать окончание
match.end()

27

## Разбиение с помощью регулярных выражений

Теперь посмотрим, как можно с помощью регулярных выражений выполнять разбиение. Это выглядит похоже на то, как мы использовали метод split() для строк.

In [3]:
# Term to split on
split_term = '@'

phrase = 'Найдём домен для следующего адреса электронной почты: hello@gmail.com'

# Split the phrase
re.split(split_term,phrase)

['Найдём домен для следующего адреса электронной почты: hello', 'gmail.com']

Обратите внимание, что <code>re.split()</code> возвращает список, в котором отсутствует термин, по которому выполняется разбиение. Термины в списке - это отдельные части строки, которую разбили на части. Напишите пару примеров сами, чтобы убедиться, что Вы понимаете то, что здесь происходит!

## Найти все случаи нахождения шаблона

Для поиска всех соответствий шаблона в строке, можно использовать метод <code>re.findall()</code>. Например:

In [5]:
# Получить список всех соответствий
re.findall('match','в этой фразе есть слово match в середине, и слово match в конце строки')

['match', 'match']

## re - синтаксис для шаблонов

Это будет основная часть лекции по использованию re в Python. Регулярные выражения поддерживают огромный набор различных шаблонов, кроме простого поиска вхождения одной строки. 

Мы также можем использовать *метасимволы*, чтобы найти специальные типы шаблонов. 

Поскольку мы будем тестировать различные формы синтаксиса re, давайте создадим функцию, которая будет показывать результаты для указанного на входе регулярного выражения, и фразы для анализа:

In [6]:
def multi_re_find(patterns,phrase):
    '''
    Принимает на вход список шаблонов regex
    Выводит на экран список всех соответствий
    '''
    for pattern in patterns:
        print('Выполняем поиск фразы, используя следующую проверку re: %r' %(pattern))
        print(re.findall(pattern,phrase))
        print('\n')

### Синтаксис повторений

Есть пять способов указать повторения в шаблоне:

   1. Шаблон, после него мета-символ <code>*</code> - значит шаблон повторяется ноль или более раз. 
   2. Заменим <code>*</code> на <code>+</code>, тогда шаблон должен присутствовать по крайней мере один раз. 
   3. Символ <code>?</code> означает, что шаблон может присутствовать ноль или один раз. 
   4. Для конкретного количества повторений шаблона, используйте <code>{m}</code> после шаблона, где **m** это количество раз, сколько раз шаблон должен повторяться. 
   5. Используйте <code>{m,n}</code> чтобы сказать, что **m** это минимальное количество повторений шаблона, а **n** максимальное. Если не указываем **n**, то <code>{m,}</code> означает, что шаблон должен встретиться минимум **m** раз, без ограничения максимума.
    
Теперь давайте рассмотрим примеры для каждого из этих способов, используя нашу собственную функцию multi_re_find:

In [7]:
test_phrase = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

test_patterns = [ 'sd*',     # s, затем ноль или несколько d
                'sd+',          # s, затем одна или несколько d
                'sd?',          # s, затем ноль или одна d
                'sd{3}',        # s, затем три d
                'sd{2,3}',      # s, затем от двух до трех d
                ]

multi_re_find(test_patterns,test_phrase)

Выполняем поиск фразы, используя следующую проверку re: 'sd*'
['sd', 'sd', 's', 's', 'sddd', 'sddd', 'sddd', 'sd', 's', 's', 's', 's', 's', 's', 'sdddd']


Выполняем поиск фразы, используя следующую проверку re: 'sd+'
['sd', 'sd', 'sddd', 'sddd', 'sddd', 'sd', 'sdddd']


Выполняем поиск фразы, используя следующую проверку re: 'sd?'
['sd', 'sd', 's', 's', 'sd', 'sd', 'sd', 'sd', 's', 's', 's', 's', 's', 's', 'sd']


Выполняем поиск фразы, используя следующую проверку re: 'sd{3}'
['sddd', 'sddd', 'sddd', 'sddd']


Выполняем поиск фразы, используя следующую проверку re: 'sd{2,3}'
['sddd', 'sddd', 'sddd', 'sddd']




## Наборы символов

Наборы символов используются, когда Вы хотите найти некоторые из указанных символов в определенной точке входной строки. Для наборов символов используются квадратные скобки. Например: набор символов <code>[ab]</code> выполняет  поиск или a, или b.
Рассмотрим несколько примеров:

In [9]:
test_phrase = 'sdsd..sssddd...sdddsddd...dsds...dsssss...sdddd'

test_patterns = ['[sd]',    # или s, или d
                's[sd]+']   # s, затем одна или больше буква либо s, либо d

multi_re_find(test_patterns,test_phrase)

Выполняем поиск фразы, используя следующую проверку re: '[sd]'
['s', 'd', 's', 'd', 's', 's', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 's', 'd', 'd', 'd', 'd', 's', 'd', 's', 'd', 's', 's', 's', 's', 's', 's', 'd', 'd', 'd', 'd']


Выполняем поиск фразы, используя следующую проверку re: 's[sd]+'
['sdsd', 'sssddd', 'sdddsddd', 'sds', 'sssss', 'sdddd']




Первый шаблон <code>[sd]</code> возвращает любое совпадение с s или d. Второй шаблон <code>s[sd]+</code> находит любые строки, которые начинаются с s, и продолжаются символами s или d до тех пор, пока не встретится другой символ.

## Исключение

Мы можем использовать <code>^</code>, чтобы исключить какие-либо термины. Для этого можно включить их в квадратные скобки. Например: <code>[^...]</code> будет соответствовать любому одному символу, который *не* содержится к скобках. Рассмотрим несколько примеров:

In [11]:
test_phrase = 'Это строка! Но в ней есть символы пунктуации. Как мы можем убрать их?'

Мы можем использовать <code>[^!.? ]</code> для проверки того, что символы не равны !, ., ?, или пробелу. Добавим <code>+</code> чтобы проверить, что совпадение выполняется хотя бы один раз. По сути, мы ищем отдельные слова.

In [12]:
re.findall('[^!.? ]+',test_phrase)

['Это',
 'строка',
 'Но',
 'в',
 'ней',
 'есть',
 'символы',
 'пунктуации',
 'Как',
 'мы',
 'можем',
 'убрать',
 'их']

## Диапазоны символов

При увеличении количества символов, которые должны (или не должны) встретиться в строке, работа с большим количеством символов становится неудобной. Более компактный формат - это диапазоны символов, все символы от одного до другого символа. Формат следующий: <code>[start-end]</code>.

Чаще всего это поиск набора букв в алфавите. Например, <code>[a-f]</code> вернет соответствие любому символу для букв от a до f. 

Рассмотрим несколько примеров:

In [13]:

test_phrase = 'This is an example sentence. Lets see if we can find some letters.'

test_patterns=['[a-z]+',      # последовательности букв в нижнем регистре
               '[A-Z]+',      # последовательности букв в верхнем регистре
               '[a-zA-Z]+',   # последовательности букв в нижнем или верхнем регистре
               '[A-Z][a-z]+'] # одна буквы в верхнем регистре, затем буквы в нижнем регистре
                
multi_re_find(test_patterns,test_phrase)

Выполняем поиск фразы, используя следующую проверку re: '[a-z]+'
['his', 'is', 'an', 'example', 'sentence', 'ets', 'see', 'if', 'we', 'can', 'find', 'some', 'letters']


Выполняем поиск фразы, используя следующую проверку re: '[A-Z]+'
['T', 'L']


Выполняем поиск фразы, используя следующую проверку re: '[a-zA-Z]+'
['This', 'is', 'an', 'example', 'sentence', 'Lets', 'see', 'if', 'we', 'can', 'find', 'some', 'letters']


Выполняем поиск фразы, используя следующую проверку re: '[A-Z][a-z]+'
['This', 'Lets']




## Экранирующие символы (Escape Codes)

Вы можете использовать специальные экранирующие символы, чтобы найти в Ваших данных такие шаблоны, как цифры, не-цифры, пробелы и т.д. Например:

<table border="1" class="docutils">
<colgroup>
<col width="14%" />
<col width="86%" />
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Code</th>
<th class="head">Meaning</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\d</span></tt></td>
<td>цифра</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\D</span></tt></td>
<td>не-цифра</td>
</tr>
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\s</span></tt></td>
<td>пробельный символ (табуляция, пробел, новая строка и т.д.)</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\S</span></tt></td>
<td>не-пробельный символ</td>
</tr>
<tr class="row-even"><td><tt class="docutils literal"><span class="pre">\w</span></tt></td>
<td>альфа-числовой символ</td>
</tr>
<tr class="row-odd"><td><tt class="docutils literal"><span class="pre">\W</span></tt></td>
<td>не-альфа-числовой символ</td>
</tr>
</tbody>
</table>

Экранирующие коды начинаются с обратного слэша <code>\</code>. К сожалению, сам обратный слэш приходится экранировать в обычных строках Python, и это приводит к тому, что строки становятся сложными для чтения. Чтобы избежать этого, можно использовать обычные строки, добавляя к значению префикс <code>r</code>.

Что касается меня, я думаю что использование <code>r</code> для экранирования обратного слэша - это одна из тех вещей, которые делают сложным чтение кода для тех, кто не знаком с regex в Python. Надеюсь, что после рассмотрения примеров ниже этот синтаксис станет ясным.

In [13]:
test_phrase = 'This is a string with some numbers 1233 and a symbol #hashtag'

test_patterns=[ r'\d+', # последовательность цифр
                r'\D+', # последовательность не-цифр
                r'\s+', # последовательность пробельных символов
                r'\S+', # последовательность не-пробельных символов
                r'\w+', # альфа-цифровые символы
                r'\W+', # не-альфа-цифровые символы
                ]

multi_re_find(test_patterns,test_phrase)

Searching the phrase using the re check: '\\d+'
['1233']


Searching the phrase using the re check: '\\D+'
['This is a string with some numbers ', ' and a symbol #hashtag']


Searching the phrase using the re check: '\\s+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']


Searching the phrase using the re check: '\\S+'
['This', 'is', 'a', 'string', 'with', 'some', 'numbers', '1233', 'and', 'a', 'symbol', '#hashtag']


Searching the phrase using the re check: '\\w+'
['This', 'is', 'a', 'string', 'with', 'some', 'numbers', '1233', 'and', 'a', 'symbol', 'hashtag']


Searching the phrase using the re check: '\\W+'
[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' #']




## Резюме

Теперь Вы понимаете, как использовать модуль регулярных выражений в Python. Есть ещё много различных специальных символов, но было бы неразумно разбирать все возможные варианты. Если Вам понадобится найти конкретный шаблон, то можете найти его в [документации](https://docs.python.org/3/library/re.html#regular-expression-syntax).

Также можете посмотреть следующую полезную [статью](http://www.tutorialspoint.com/python/python_reg_expressions.htm) на английском языке.

Отличная работа!
