# Регулярные выражения с помощью модуля re

## <a href="https://docs.python.org/2/library/re.html">Документация re (python)</a>

Регулярные выражения по сути микроязык, входящий в состав практически всех современных языков программирования. Их знание не является необходимым для прохождения специализации, однако является полезным.

Если вы не планируете изучать регулярные выражения, а только хотите посмотреть пример использования, необходимый для выполнения для задания 2 недели, просто перейдите к разделу 1.

**Эта памятка не претендует на звание учебника по регулярным выражениям!** Её цель - демонстрация работы нескольких функций модуля и несльких примеров работы с регулярными выражениями.

## Чит-таблица Доктора Чака

Таблица заботливо предоставлена <a href="http://www.dr-chuck.com/">Dr. Charles R.</a> из Университета Мичигана и переведена на русский язык.

Таблица содержит самые простые символы и их комбинации в регулярных выражениях.

<table>
<tbody>
<tr><td><strong>^</strong></td><td>Начало новой строки</td></tr>
<tr><td><strong>\$</strong></td><td>Окончание строки</td></tr>
<tr><td><strong>.</strong></td><td>Любой символ</td></tr>
<tr><td><strong>\s</strong></td><td>Пробел</td></tr>
<tr><td><strong>\S</strong></td><td>Любой не пробельный символ</td></tr>
<tr><td><strong>\*</strong></td><td>Повтор символа 0 и более раз</td></tr>
<tr><td><strong>\*?</strong></td><td>Повтор символа 0 и более раз (не жадный)</td></tr>
<tr><td><strong>+</strong></td><td>Повтор символа 1 и более раз</td></tr>
<tr><td><strong>+?</strong></td><td>Повтор символа 1 и более раз (не жадный)</td></tr>
<tr><td><strong>[aeiou]</strong></td><td>1 символ из набора</td></tr>
<tr><td><strong>[^XYZ]</strong></td><td>1 символ <em>не</em> из набора</td></tr>
<tr><td><strong>[a-z0-9]</strong></td><td>Набор символов в диапазоне от a до z и от 0 до 9</td></tr>
<tr><td><strong>(</strong></td><td>Означает начало регулярного выражения</td></tr>
<tr><td><strong>)</strong></td><td>Означает окончание регулярного выражения</td></tr>
</tbody>
</table>

Больше правил для составления регулярных выражений можно найти здесь - https://docs.python.org/2/howto/regex.html

В рамках этого документа мы будем работать с небольшим произвольным текстом, состоящим из нескольких строк:

In [1]:
a = '''Any large snake that "constricts" its prey (see Constriction), if applied loosely, was called anaconda, though this usage is now archaic.
An anaconda is a large snake found in tropical South America.
Although the name applies to a group of snakes, it is often used to refer only to one species in particular, the common or green anaconda, Eunectes murinus, which is the largest snake in the world by weight, and the second longest.
The giant anaconda is a mythical snake of enormous proportions said to be found in South America.
Anaconda is an unincorporated community in Franklin County, Missouri, in the United States.
In 1903, the Socialist Party of America won its first victory west of the Mississippi when Anaconda voters elected a socialist mayor, treasurer, police judge, and three councilmen.
Anaconda was founded by Marcus Daly, one of the Copper Kings, who financed the construction of a smelter on nearby Warm Springs Creek to process copper ore from the Butte mines.
Это последняя строка
Win!!!'''

## Импорт библиотеки

как и все стандартные библиотеки Python, re загружается командой import:

In [2]:
import re

## Раздел 1 - re.split()

Функция split служит для разбиения строки на список подстрок по регулярному выражению. При этом регулярное выражение вырезается.

Функция применяется следующим образом:

<pre>re.split(регулярное_выражение, строка_для_поиска)</pre>

- регулярное выражение может быть как строковой переменной, так и задано в явном виде в теле функции
    
- строка для поиска может быть как строковой переменной, так и задано в явном виде в теле функции
    
*Во всех примерах мы будем задавать регулярное выражение прямо в теле функции, а строку передавать в переменной*

Рассмотрим простой пример в которой разделим нашу строку на список подстрок длинной в 1 символ (т.е. просто разделим на отдельные символы), воспользуемся для этого исмволом переноса строки - '\n':

In [3]:
import re
re.split('\n', a)

['Any large snake that "constricts" its prey (see Constriction), if applied loosely, was called anaconda, though this usage is now archaic.',
 'An anaconda is a large snake found in tropical South America.',
 'Although the name applies to a group of snakes, it is often used to refer only to one species in particular, the common or green anaconda, Eunectes murinus, which is the largest snake in the world by weight, and the second longest.',
 'The giant anaconda is a mythical snake of enormous proportions said to be found in South America.',
 'Anaconda is an unincorporated community in Franklin County, Missouri, in the United States.',
 'In 1903, the Socialist Party of America won its first victory west of the Mississippi when Anaconda voters elected a socialist mayor, treasurer, police judge, and three councilmen.',
 'Anaconda was founded by Marcus Daly, one of the Copper Kings, who financed the construction of a smelter on nearby Warm Springs Creek to process copper ore from the Butte 

Как видим в результате получен список строк, раждая из которых соответсвует одной строке исходного документа, все переносы строк исчезли.

В рамках задания рекомендуется:
* разбить исходный текст на строки, либо считать его построчно из файла с помощью file.readline()
* привести каждую строку к нижнему регистру с помощью функции lower()
* токенизировать, т.е. разбить на слова каждую из приведённых к нижнему регистру строк с помощью re.split('[^a-z]', t)

**В рамках этого примера мы выполним только 2 и 3 пункты (т.е. сознательно не будем разделять текст на строки, т.к. это показано выше):**

In [4]:
import re

re.split('[^a-z]', a.lower())

['any',
 'large',
 'snake',
 'that',
 '',
 'constricts',
 '',
 'its',
 'prey',
 '',
 'see',
 'constriction',
 '',
 '',
 'if',
 'applied',
 'loosely',
 '',
 'was',
 'called',
 'anaconda',
 '',
 'though',
 'this',
 'usage',
 'is',
 'now',
 'archaic',
 '',
 'an',
 'anaconda',
 'is',
 'a',
 'large',
 'snake',
 'found',
 'in',
 'tropical',
 'south',
 'america',
 '',
 'although',
 'the',
 'name',
 'applies',
 'to',
 'a',
 'group',
 'of',
 'snakes',
 '',
 'it',
 'is',
 'often',
 'used',
 'to',
 'refer',
 'only',
 'to',
 'one',
 'species',
 'in',
 'particular',
 '',
 'the',
 'common',
 'or',
 'green',
 'anaconda',
 '',
 'eunectes',
 'murinus',
 '',
 'which',
 'is',
 'the',
 'largest',
 'snake',
 'in',
 'the',
 'world',
 'by',
 'weight',
 '',
 'and',
 'the',
 'second',
 'longest',
 '',
 'the',
 'giant',
 'anaconda',
 'is',
 'a',
 'mythical',
 'snake',
 'of',
 'enormous',
 'proportions',
 'said',
 'to',
 'be',
 'found',
 'in',
 'south',
 'america',
 '',
 'anaconda',
 'is',
 'an',
 'unincorporate

Обратите внимание на множество пустых строк - они являеются результатом того, что наше регулярное выражение не полное. Есть много специальных символов, которые не являются буквами: цифры, русские буквы, латинские большие буквы, запятые, точки, апострофы и т.п.

Если вы внимательно посмотрите на список выше, то заметите, что он не содержит числа 1903 и ни одного из слов последней строки, написанно по-русски.

Именно поэтому в рамках задания 2 недели важно:

* разделить текст на строки
* провести приведение к нижнему регистру перед токенизацией
* удалить пустые строки после токенизации


**Подсказка.** *Для этого можно использовать сравнение с пустой строкой (<a href ="http://ru.stackoverflow.com/questions/422461/%D0%A3%D0%B4%D0%B0%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5-%D0%BF%D1%83%D1%81%D1%82%D1%8B%D1%85-%D1%8D%D0%BB%D0%B5%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2-%D1%81%D0%BF%D0%B8%D1%81%D0%BA%D0%B0-python">stackoverflow</a>)*

# Описанные далее не требуется для выполнения задания 2 недели
## Но позволит лучше понять регулярные выражения (они крайне полезны во многих ситуациях)
В нашем случае можно усложнить регулярное выражение, добавив в него заглавные буквы, цифры и кириллические символы:

In [5]:
import re

re.split('[^A-z0-9А-я]', a)

['Any',
 'large',
 'snake',
 'that',
 '',
 'constricts',
 '',
 'its',
 'prey',
 '',
 'see',
 'Constriction',
 '',
 '',
 'if',
 'applied',
 'loosely',
 '',
 'was',
 'called',
 'anaconda',
 '',
 'though',
 'this',
 'usage',
 'is',
 'now',
 'archaic',
 '',
 'An',
 'anaconda',
 'is',
 'a',
 'large',
 'snake',
 'found',
 'in',
 'tropical',
 'South',
 'America',
 '',
 'Although',
 'the',
 'name',
 'applies',
 'to',
 'a',
 'group',
 'of',
 'snakes',
 '',
 'it',
 'is',
 'often',
 'used',
 'to',
 'refer',
 'only',
 'to',
 'one',
 'species',
 'in',
 'particular',
 '',
 'the',
 'common',
 'or',
 'green',
 'anaconda',
 '',
 'Eunectes',
 'murinus',
 '',
 'which',
 'is',
 'the',
 'largest',
 'snake',
 'in',
 'the',
 'world',
 'by',
 'weight',
 '',
 'and',
 'the',
 'second',
 'longest',
 '',
 'The',
 'giant',
 'anaconda',
 'is',
 'a',
 'mythical',
 'snake',
 'of',
 'enormous',
 'proportions',
 'said',
 'to',
 'be',
 'found',
 'in',
 'South',
 'America',
 '',
 'Anaconda',
 'is',
 'an',
 'unincorporate

Напомним, вы использовали конструкцию:
* [] для обозначения, что внутри квадратных скобок находится один из символов набора, который нас интересует
* [^] для отрицания (т.е. что нас интересует один из символов, которые НЕ перечислены дальше
* a-z - любая из строчных букв латинского алфавита от a до z: a, b, c, d, e, ... x, y, z.
* 0-9 любая из цифры от 0 до 9: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9.
* A-z - любая из строчных или прописных букв латинского алфавита от a до z: A, a, B, b, C, c, D, d, ... Y, y, Z, z.
* A-z0-9 - любая из строчных или прописных букв латинского алфавита или цифр от 0 до 9.
* ...
* [^A-z0-9А-я] - символ НЕ из набора строчных или прописных букв русского или латинского алфавита или цифр.

В данном случае так же можно было перечислить знаки препинания, которые могут быть разделителями в явном виде. Какие у нас могут быть разделители?

- запятая - ,
- двойная кавычка - "
- перенос строки - \n
- пробел - \s (см чит таблицу выше)
- открывающаяся кавычка - (
- закрывающаяся кавычка - )

Но как быть с точкой и одинарной кавычкой? Точка - сама по себе выражение (см чит-таблицу), означающая ЛЮБОЙ символ, а одинарная кавычка просто закроет строковую переменную!

Выход - символ экранирования, которым является обратный слеш \:

точка - \.
одинарная кавычка - \'

Получится довольно непростая (и даже страшновата конструкция:

In [6]:
import re

re.split('[\n,"\s()\.\']', a)

['Any',
 'large',
 'snake',
 'that',
 '',
 'constricts',
 '',
 'its',
 'prey',
 '',
 'see',
 'Constriction',
 '',
 '',
 'if',
 'applied',
 'loosely',
 '',
 'was',
 'called',
 'anaconda',
 '',
 'though',
 'this',
 'usage',
 'is',
 'now',
 'archaic',
 '',
 'An',
 'anaconda',
 'is',
 'a',
 'large',
 'snake',
 'found',
 'in',
 'tropical',
 'South',
 'America',
 '',
 'Although',
 'the',
 'name',
 'applies',
 'to',
 'a',
 'group',
 'of',
 'snakes',
 '',
 'it',
 'is',
 'often',
 'used',
 'to',
 'refer',
 'only',
 'to',
 'one',
 'species',
 'in',
 'particular',
 '',
 'the',
 'common',
 'or',
 'green',
 'anaconda',
 '',
 'Eunectes',
 'murinus',
 '',
 'which',
 'is',
 'the',
 'largest',
 'snake',
 'in',
 'the',
 'world',
 'by',
 'weight',
 '',
 'and',
 'the',
 'second',
 'longest',
 '',
 'The',
 'giant',
 'anaconda',
 'is',
 'a',
 'mythical',
 'snake',
 'of',
 'enormous',
 'proportions',
 'said',
 'to',
 'be',
 'found',
 'in',
 'South',
 'America',
 '',
 'Anaconda',
 'is',
 'an',
 'unincorporate

Заметим, что в результате по прежнему есть пустые строки. Откуда они взялись?

Это те участки текста, где встречаются подряд 2 разделителя, удовлетворяющих регулярному выражению (которое у нас состоит из 1 символа, описанного внутри квадратных скобок). Если мы воспользуемся символом + после квадратных скобок, то в качестве разделителя будет искаться 1 и более символов, идущих подряд, удовлетворяющих набору из квадратных скобок.

**Примечание.** Т.к. по умолчанию выражения "жадные", то разделителем станет самое длинное найденное выражение. Если подряд будут идти 3 таких символа, то разделителем станут все 3, а не 1 и не 2. О "Жадности" мы ещё поговорим.

In [7]:
import re

re.split('[\n,"\s()\.\']+', a)

['Any',
 'large',
 'snake',
 'that',
 'constricts',
 'its',
 'prey',
 'see',
 'Constriction',
 'if',
 'applied',
 'loosely',
 'was',
 'called',
 'anaconda',
 'though',
 'this',
 'usage',
 'is',
 'now',
 'archaic',
 'An',
 'anaconda',
 'is',
 'a',
 'large',
 'snake',
 'found',
 'in',
 'tropical',
 'South',
 'America',
 'Although',
 'the',
 'name',
 'applies',
 'to',
 'a',
 'group',
 'of',
 'snakes',
 'it',
 'is',
 'often',
 'used',
 'to',
 'refer',
 'only',
 'to',
 'one',
 'species',
 'in',
 'particular',
 'the',
 'common',
 'or',
 'green',
 'anaconda',
 'Eunectes',
 'murinus',
 'which',
 'is',
 'the',
 'largest',
 'snake',
 'in',
 'the',
 'world',
 'by',
 'weight',
 'and',
 'the',
 'second',
 'longest',
 'The',
 'giant',
 'anaconda',
 'is',
 'a',
 'mythical',
 'snake',
 'of',
 'enormous',
 'proportions',
 'said',
 'to',
 'be',
 'found',
 'in',
 'South',
 'America',
 'Anaconda',
 'is',
 'an',
 'unincorporated',
 'community',
 'in',
 'Franklin',
 'County',
 'Missouri',
 'in',
 'the',
 'U

**Важно!** Данное выражение содержит не все возможные разделители. Например, оно не учитывает символ -. Вы сами можете расширить его. Мы лишь пытались продемонстрировать то насколько громоздкой может получиться полностью универсальная конструкция для сложны задач и насколько простой пример достаточек в рамках задачи - re.split('[^a-z]', t)

## Раздел 2 - re.findall()

Функция findall служит для нахождениях всех подстрок в строку. Синтаксис аналогичен:

<pre>re.findall(регулярное_выражение, строка_для_поиска)</pre>

*Частая ошибка в задании 2 недели - подсчёт числа слов с помощью этой функции в тексте/строке*

Поясним на примере поиска слова 'is' во всём тесте:

In [8]:

print ('Результат поиска "is" в исходном тексте, с помощью re.findall(): ', re.findall('is', a))
print ('Число вхождений слова "is" в исходных текст, подсчитанное с помощью re.findall(): ', len(re.findall('is', a)))
print ('Число вхождений слова "is" в исходных текст, подсчитанное с помощью count(): ', a.count('is'))

Результат поиска "is" в исходном тексте, с помощью re.findall():  ['is', 'is', 'is', 'is', 'is', 'is', 'is', 'is', 'is', 'is', 'is', 'is']
Число вхождений слова "is" в исходных текст, подсчитанное с помощью re.findall():  12
Число вхождений слова "is" в исходных текст, подсчитанное с помощью count():  12


Если присмотретсья к исходнмоу тексту, то там легко обнаружить следующие слова:

* this
* Missouri
* Socialist
* Mississippi
* socialist

Легко заметить, что такое регулярное выражение, как написано выше посчитало вхождение "слова" 'is' и в эти слова тоже! Так же, как и стандартная функция count()!

Для того чтобы исправить эту ошибку давайте пойдём на хитрость, будем искать слово 'is' так, чтобы справа и слева от него стояли символы, не являющиеся буквой.

* \W - оператор символа, не являющегося буквой/цифрой.

так же возьмём искомое слово 'is' в круглые скобки. Это означает, что вернуть наше регулярное выражение должно только то, что внутир скобок, а то что находится снаружи должно присутствовать там для попадения во внимание нашего регулярного выражения, но в результат добавлено **не будет**.

In [9]:
print (re.findall('\W(is)\W', a))

['is', 'is', 'is', 'is', 'is', 'is']


Подсчитаем в качестве контрольной меры число вхождений "в лоб". Для этого:
* разобьём исходный текст на список слов (каждое слово будет строкой) с помощью функции re.split() как было показано выше
* пройдём по всем элементам получившегося словаря в цикле for
* Если текущий элемент совпадает с эталонной строкой (слово 'is'), то добавим к счётчику 1. Считать начнём с 0.

In [10]:
print ('Число реальных вхождений слова is в исходный текст, посчитанное регуляркой: ', len(re.findall('\W(is)\W', a)))

c = 0
for w in re.split('[\n,"\s()\.\']+', a):
    if w == 'is':
        c += 1
print ('Число реальных вхождений слова is в исходный текст, посчитанное "в лоб": ', c)

Число реальных вхождений слова is в исходный текст, посчитанное регуляркой:  6
Число реальных вхождений слова is в исходный текст, посчитанное "в лоб":  6


## Раздел 3 - некоторые простые примеры построения регулярных выражений

Мы рассмотрим конструирование регулярных выражений с помощью уже знакомого re.findall().

*Обратим внимание, что в некоторых ситуациях функция может возвращать пустой список (если ничего не нашлось).*

**1** Регулярное выражение, равное конкретному слову:

In [11]:
print (re.findall('constricts', a)) # слово есть в тексте
print (re.findall('constructor', a)) # слова нет в тексте

['constricts']
[]


**2** Регулярное выражение, равное конкретному слову, с которого начинается строка (возвращено будет только слово):

In [12]:
print (re.findall('^Any', a)) # слово есть в тексте и оно первое в строке
print (re.findall('^Many', a)) # слова нет в тексте
print (re.findall('^is', a)) # слова есть в тексте, но оно не первое в строке

['Any']
[]
[]


**3** Регулярное выражение, возвращающее слово, после которого стоит другой символ, например двоеточие:

In [13]:
print (re.findall('(From):', 'From:a@coffediz.ru To:info@coursera.org')) 

['From']


**4** Регулярное выражение, возвращающее любое слово (хотя бы из 1 символа), перед которым стоит другой символ, например двоеточие:

In [14]:
print (re.findall(':(.+)', 'From:a@coffediz.ru To:info@coursera.org')) 

['a@coffediz.ru To:info@coursera.org']


Как видим, регулярное выражение из-за своей жадности съело слишком много лишнего. Попробуем воспользоваться символом ? для ограничения жадности плюса и посмотрим что из этого выйдет:

**5** Регулярное выражение, возвращающее любое слово (хотя бы из 1 символа **не жадное**), перед которым стоит другой символ, например двоеточие:

In [15]:
print (re.findall(':(.+?)', 'From:a@coffediz.ru To:info@coursera.org')) 

['a', 'i']


Как видим, ограничив "жадность" регулярного выражения мы сделили только хуже. Зато мы узнали что это такое.

**"Жадность"** - стремление регулярного выражения найти **максимальное** вхождение, удовлетворяющее правилу.

**"НЕ жадность"** - стремление регулярного выражения найти **минимальное** вхождение, удовлетворяющее правилу.

Поэтому в пункте 4 мы получили одну строку с двумя имейлами, а в пункте 5 две строки из 1 символа каждая.

В рамках этого учебного материала мы получим отдельно обма email'а:

**6** Регулярные выражения, позвращающие 1 и 2 слово, перед которыми стоит двоеточие (причём пробел есть после 1 блоком и перед 2 блоком):

In [16]:
print (re.findall(':(.+)\s', 'From:a@coffediz.ru To:info@coursera.org')) # Перед словом есть двоеточие, а после слова пробел
print (re.findall('\s.+:(.+)', 'From:a@coffediz.ru To:info@coursera.org')) # Перед словом есть пробел, не менее 1 любого символа и пробел

['a@coffediz.ru']
['info@coursera.org']
