# Лабораторная работа 4. Изучение регулярных выражений и их использование

Очень часто при обработке текстовых данных возникает задача о сопоставлении строки с образцом. Самый простой пример — проверка корректности вводимых пользователем данных. Допустим, у нас имеются следующие требования к паролю, используемому в системе:

* пароль должен иметь длину не меньше 6 символов, но не больше 15;
* пароль может содержать как строчные, так и прописные буквы, а также цифры;
* пароль должен начинаться с заглавной буквы, а заканчиваться строчной буквой.

В принципе, можно написать функцию, которая будет проверять, соответствует ли строка предъявляемым требованиям:

In [1]:
def check_password(s):
    if not 6 <= len(s) <= 15:
        return False
    if not 'A' <= s[0] <= 'Z':
        return False
    if not 'a' <= s[-1] <= 'z':
        return False
    for c in s[1:-1]:
        if not ('a' <= c <= 'z' or 'A' <= c <= 'Z' or '0' <= c <= '9'):
            return False
    return True

А можно пойти другим путём и воспользоваться специально предназначенным для этого инструментом — регулярными выражениями:

In [2]:
import re

def check_password_with_regexp(s):
    return re.match(r'^[A-Z]{1}[a-zA-Z0-9]{4,13}[a-z]{1}$', s)

Как видно из примера, вид функции check_password сильно изменился. Мы не будем на данном этапе пытаться разобраться в том, как именно работает новая версия функции, а лишь отметим одно важное отличие: первая версия функции выполняла ряд проверок, пытаясь найти символ, не соответствующий предъявляемым требованиям, вторая же версия функции вместо этого выясняет, соответствует ли переданная строка заранее заданному образцу. Именно в этом и заключается основное предназначение регулярных выражений — они позволяют описать, как должна выглядеть строка, если она удовлетворяет определённым критериям.

### Модуль `re` стандартной библиотеки языка Python предоставляет набор функций и классов для работы с регулярными выражениями. Вот список наиболее часто используемых из них:

https://docs.python.org/3/library/re.html


Теперь рассмотрим несколько примеров работы с регулярными выражениями. Пока что мы не знаем синтаксиса, используемого для описания регулярных выражений, поэтому рассмотрим самый простой случай: когда в качестве регулярного выражения выступает непосредственно искомая строка.

In [7]:
import re

s = 'с самого начала у меня была какая-то тактика, и я её придерживался'

re.match('с самого', s)



<re.Match object; span=(0, 8), match='с самого'>

In [8]:
re.match('была', s)
re.search('была', s)


<re.Match object; span=(23, 27), match='была'>

In [10]:
re.findall('и', s)

['и', 'и', 'и', 'и']

In [11]:
re.split(' ', s)


['с',
 'самого',
 'начала',
 'у',
 'меня',
 'была',
 'какая-то',
 'тактика,',
 'и',
 'я',
 'её',
 'придерживался']

In [2]:
re.split(',', s)
re.sub('придерживался', 'использовал', s)

NameError: name 're' is not defined

In [1]:
regexp = re.compile('с самого')
regexp.match(s)

NameError: name 're' is not defined

Как видно из примера, функции re.match и re.search возвращают в случает совпадения экземпляр класса SRE_Match или None, если совпадение не найдено, в то время как функции re.findall, re.split возвращают список, состоящий из строк, функция re.sub возвращает строку, получающуюся после выполнения замены.

### Базовый синтаксис

В предыдущих примерах мы использовали искомую строку в качестве регулярного выражения. Теперь настало время
познакомиться более подробно с синтаксисом описания регулярных выражений.

Помимо непосредственно искомых символов регулярное выражение может содержать специальные символы, которые позволяют
задать **шаблон**. Вот краткий список основных из них:

## Задание 1. 
Обратите внимание, что в файле указано ожидаемое поведение программы для конкретного набора строк, а не чёткая формулировка задания наподобие «напишите регулярное выражение, соответствующее строке, состоящей только из прописных букв». Это сделано сознательно: дело в том, что при помощи регулярных выражений обычно решают некую вполне конкретную задачу, а не какую-то абстрактную общую задачу. И поэтому во многих задачах из этой работы возможно более одного правильного решения. Например, строка ABabAB соответствует как регулярному выражению [ABab]+, так и выражению ^A.*B$, да и ещё достаточно большому количеству других выражений.

В файл simple_match.py впишите требуемые регулярные выражения REGEXP_1, REGEXP_2 и т.д., после чего запустите на выполнение тесты из файла simple_match_test.py. Добейтесь прохождения всех тестов.

Обратите внимание, что в файле указано ожидаемое поведение программы для конкретного набора строк, а не чёткая формулировка задания наподобие «напишите регулярное выражение, соответствующее строке, состоящей только из прописных букв». Это сделано сознательно: дело в том, что при помощи регулярных выражений обычно решают некую вполне конкретную задачу, а не какую-то абстрактную общую задачу. И поэтому во многих задачах из этой работы возможно более одного правильного решения. Например, строка ABabAB соответствует как регулярному выражению [ABab]+, так и выражению ^A.*B$, да и ещё достаточно большому количеству других выражений.

In [1]:
%run simple_match_test.py

........
----------------------------------------------------------------------
Ran 8 tests in 0.037s

OK


## Задание 2. 
Теперь перейдём к рассмотрению более сложных специальных символов, поддержка которых присутствует в библиотеке re. Эти символы нужны как для написания сложных, так и для сокращения длинных регулярных выражений. Неполный список специальных символов приведён в таблице ниже:

In [60]:
import re
re.match(r'\Aab', 'abcd')

<re.Match object; span=(0, 2), match='ab'>

In [61]:
re.match(r'\Aab', 'dabcd')
re.search(r'\bbbb', 'abbba bbb ccc')

<re.Match object; span=(6, 9), match='bbb'>

In [62]:
re.search(r'\Bbbb', 'abbba bbb ccc')

<re.Match object; span=(1, 4), match='bbb'>

In [63]:
re.search(r'\d+', 'ab123cd')

<re.Match object; span=(2, 5), match='123'>

In [64]:
re.search(r'\D+', 'ab123cd')


<re.Match object; span=(0, 2), match='ab'>

In [66]:
re.sub(r'\s+', '_', 'aa bb cc dd')


'aa_bb_cc_dd'

In [67]:
re.findall(r'\S+', 'aa bb cc dd')

['aa', 'bb', 'cc', 'dd']

In [68]:
re.search(r'\w+', 'ab123cd')

<re.Match object; span=(0, 7), match='ab123cd'>

In [69]:
re.search(r'\W+', 'ab123cd')
re.search(r'\w+', 'ab123cd  aaa')

<re.Match object; span=(0, 7), match='ab123cd'>

In [70]:
re.search(r'\W+', 'ab123cd  aaa')

<re.Match object; span=(7, 9), match='  '>

In [71]:
re.search(r'aa\Z', 'bbaa')

<re.Match object; span=(2, 4), match='aa'>

In [8]:
import re
re.search(r'((cat)|(mouse))[\w\W]+[^!\.]', 'I know that cat can catch a mouse!')

<re.Match object; span=(12, 33), match='cat can catch a mouse'>

В файл simple_search.py впишите требуемые регулярные выражения REGEXP_1, REGEXP_2 и т.д., после чего запустите на выполнение тесты из файла simple_search_test.py. Добейтесь прохождения всех тестов.

In [1]:
%run simple_search_test.py

.......
----------------------------------------------------------------------
Ran 7 tests in 0.047s

OK
