<a href="https://colab.research.google.com/github/delhian/NLP_course/blob/master/regular_expressions/1_1_regex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1><center>Регулярные выражения</center></h1>



**Регулярные выражения** _\(regular expressions, RegExp\)_ —  это формальный язык для операций \(поиск, замена и т.п.\) с подстроками в тексте. Иными словами, это способ задать некоторый паттерн и найти / заменить на что-либо те кусочки текста, которые с ним совпадают.

Для работы с регулярными выражениями в питоне есть библиотека `re` (документацию можно почитать [вот здесь](https://docs.python.org/3/library/re.html)). Для работы нужно сначала ее импортировать, как и любую другую библиотеку. Рассмотрим наиболее часто используемые методы:

* re.match()
* re.search()
* re.findall()
* re.sub()
* re.compile()

### re.match()

Этот метод ищет по заданному шаблону **только** в начале строки. Например, если мы вызовем метод `match()` на строке "the cat is on the mat" с шаблоном "the", то он найдет первое "the" в строке и завершится успешно. Однако если поискать "cat", то результат будет пустой. У этого метода два аргумента:

* что найти (шаблон)
* где найти (строка)

In [None]:
import re

re.match('the', 'the cat is on the mat')

<re.Match object; span=(0, 3), match='the'>

In [None]:
print(re.match('cat', 'the cat is on the mat'))

None


Теперь попробуем искать нечетким поиском, с использованием регулярного выражения, и для этого нам понадобятся диапазоны:

* **\[A-Z\]** — _один любой_ символ верхнего регистра \(латиница\)
* **\[a-z\]** — _один любой_ символ нижнего регистра \(латиница\)
* **\[А-Я\]** — _один любой_ символ верхнего регистра \(кириллица\)
* **\[а-я\]** — _один любой_ символ нижнего регистра \(кириллица\)
* **\[0-9\]** или **\d** — одна цифра

^ в начале диапазона означает отрицание, то есть, любой символ, не входящий в этот диапазон:
* **\[^0-9\]** или **\D** — _один любой_ символ, кроме цифры

А еще есть служебный символ точка **.** — означает "любой символ".

In [None]:
re.match('[a-z]', 'the cat is on the mat')

<re.Match object; span=(0, 1), match='t'>

In [None]:
re.match('[0-9]', 'the cat is on the mat')

In [None]:
re.match('.', 'the cat is on the mat')

<re.Match object; span=(0, 1), match='t'>

In [None]:
re.match('.', ' the cat is on the mat')

<re.Match object; span=(0, 1), match=' '>

Диапазоны можно комбинировать:

* **\[A-Za-z\]** — _один любой_ символ верхнего и нижнего регистра \(латиница\)
* **\[A-Za-z0-9\]** — _один любой_ символ верхнего и нижнего регистра \(латиница\) и цифры
* **\[A-Za-z0-9\_\]** или **\w** — _один любой_ символ верхнего и нижнего регистра \(латиница\), цифры и \_
* **\[^A-Za-z0-9\_\]** или **\W** — все, кроме символов верхнего и нижнего регистра \(латиница\), цифр и \_
* Можно выбрать нужный диапазон из [юникодной таблицы](https://unicode-table.com/ru/) самостоятельно — например, **[à-ÿ]** 

In [None]:
re.match('[А-Яа-я]', 'Заглавные буквы'),


(<re.Match object; span=(0, 1), match='З'>,)

In [None]:
re.match('[А-Я]', 'без заглавных букв')

### re.search()

Этот метод, в отличие от предыдущего, ищет заданный шаблон в **любом** месте строки, но возвращает только первое найденное совпадение. Аргументы те же.

In [None]:
re.search('the', 'the cat is on the mat')

<re.Match object; span=(0, 3), match='the'>

In [None]:
re.search('cat', 'the cat is on the mat')

<re.Match object; span=(4, 7), match='cat'>

А как вывести не объект, а саму строку, которая нашлась по шаблону? 

In [None]:
re.search('cat', 'the cat is on the mat')[0]

'cat'

In [None]:
re.search('[A-Za-z.]', 'The cat is on the mat')[0]

'T'

### re.findall()

Этот метод возвращает список **всех** найденных совпадений в любом месте строки. Аргументы у него те же,  что и у предыдущих двух методов, а возвращает он список совпадений.

In [None]:
re.findall('the', 'the cat is on the mat')

['the', 'the']

In [None]:
re.findall('the', 'the cat is on the mat')[1]

'the'

Кроме того, можно задавать длину строки, которую мы ищем:

###### Количественные операторы \(квантификаторы\)

* **?** — предыдущий символ/группа может быть, а может не быть
* **+** — предыдущий символ/группа может повторяться 1 и более раз
* **\*** — предыдущий символ/группа может повторяться 0 и более раз
* **{n,m}** — предыдущий символ/группа может повторяться от от n до m включительно
* **{n,}** — предыдущий символ/группа в скобках может повторяться n и более раз 
* **{,m**} — предыдущий символ/группа может повторяться до m раз
* **{n}** — предыдущий символ/группа повторяется n раз

**Важно!** Внутри \[ \] не работают _операторы_ __.__ __\\__ __\*__ __+__ и т.д.

In [None]:
re.findall('[a-z ]+', 'the cat is on the mat')

['the cat is on the mat']

In [None]:
re.findall('[a-z]{2,3}', 'the cat is on the mat')

['the', 'cat', 'is', 'on', 'the', 'mat']

In [None]:
re.findall('[a-z]*', 'the cat is on the mat')

['the', '', 'cat', '', 'is', '', 'on', '', 'the', '', 'mat', '']

In [None]:
re.findall('[a-z]?', 'the cat is on the mat')

['t',
 'h',
 'e',
 '',
 'c',
 'a',
 't',
 '',
 'i',
 's',
 '',
 'o',
 'n',
 '',
 't',
 'h',
 'e',
 '',
 'm',
 'a',
 't',
 '']

###### "Жадные" и "ленивые" операторы

Квантификаторы по умолчанию ведут себя жадно: это значит, что они стремятся "съесть" как можно больше символов и из всех возможных вариантов они поймают наиболее длинную строку. Например, мы хотим найти в строке _кот выпил компот_ слова "кот" и "компот" и пишем такое выражение: **к.\*от** \(читается как "к, любой символ в количестве от 0 до бесконечности, от"\), где __.\*__ — любое количество любых символов. Однако такое выражение выдаст даст следующий результат:


In [None]:
s = 'кот выпил компот'
re.findall('к.*от', s)

['кот выпил компот']

Максимальное количество символов между "к" и "от" в этой строке — 13, _"от выпил компо"_, и наш жадный оператор поймал именно его. Чтобы найти более короткие совпадения, т.е. отдельно "кот" и "компот", нужно превратить **жадный оператор** в **ленивый**, поставив после него знак "?". 

In [None]:
s = 'кот выпил компот'
re.findall('к.*?т', s)

['кот', 'компот']

Это работает со всеми квантификаторами.

| Жадные квантификаторы | Ленивые квантификаторы |
| :--- | :--- |
| \* | \*? |
| + | +? |
| {min, max} | {min, max}? |

###### Экранирование служебных символов

Вы уже заметили, что как и любой язык, регулярные выражения записываются с помощью особого алфавита - точек, звездочек, скобочек и т.д. Но что делать, если нужно найти служебные символы вроде + или \* в тексте? Все просто: нужно **экранировать** их, т.е. поставить перед ними __\\__. В этом примере мы экранируем \*, чтобы сделать ее из служебного символа текстовым, а вот + так и остался служебным и означает "один и более раз".

Давайте попробуем поискать смайлики в тексте:

In [None]:
tweet = 'всем хорошего дня :)'
re.findall('[:\)\(]+', tweet)

[':)']

Или все знаки препинания: 

In [None]:
tweet = 'Дождь - это прекрасно, в дожде можно спрятать слезы...'
re.findall('[\-\.!?:;,]|[.]+', tweet)

['-', ',', '.', '.', '.']

Тут мы использовали еще один символ регулярных выражений  **|** - это **или**.

In [None]:
tweet = 'Дождь - это прекрасно, в дожде можно спрятать слезы...'
re.findall('[.]+?|[\-\.!?:;,]', tweet)

['-', ',', '.', '.', '.']

Обратите внимание на троеточие в этом примере!

Поищем формулы в тексте:

In [None]:
tweet = 'Формула всем известная: (a+b)^2 = a^2 + 2*a*b + b^2'
re.findall('[\^\+\(\)=\-\* 0-9a-z]{2,}', tweet)

[' (a+b)^2 = a^2 + 2*a*b + b^2']

### re.sub()

Этот метод ищет шаблон в строке и заменяет его на указанную подстрок. Если шаблон не найден, строка остается неизменной. Соответствено, в отличие от предыдущих методов, у него 3 аргумента:
* что заменить
* на что заменить
* где заменить

Заменяются все подстроки, которые нашлись по шаблону.

In [None]:
re.sub('the', 'my', 'the cat is on the mat')

'my cat is on my mat'

В синтаксисе регулярных выражений есть основные служебные символы:

* **\t** — табуляция
* **\s** — любой пробельный символ
* **\S** — все, кроме пробелов
* **\n** — перенос строки
* **^** — начало строки
* **$** — конец строки

Давайте, например, уберем все лишние пробелы из строки:

In [None]:
s  = 'а  я иду,     шагаю   по   Москве '
re.sub(' +', ' ', s)

'а я иду, шагаю по Москве '

Или приведем отрывок пьесы к удобочитаемому виду:

In [None]:
s = '''
Дездемона: 

Кто здесь? Отелло, ты?

Отелло: 

Я, Дездемона. 

Дездемона: 

Что ж не идешь ложиться ты, мой друг?

Отелло:

Молилась ли ты на ночь, Дездемона?

Дездемона:

Да, милый мой.

'''
print(s)


Дездемона: 

Кто здесь? Отелло, ты?

Отелло: 

Я, Дездемона. 

Дездемона: 

Что ж не идешь ложиться ты, мой друг?

Отелло:

Молилась ли ты на ночь, Дездемона?

Дездемона:

Да, милый мой.




In [None]:
s = re.sub('\n+', '\n', s)
print(s)


Дездемона: 
Кто здесь? Отелло, ты?
Отелло: 
Я, Дездемона. 
Дездемона: 
Что ж не идешь ложиться ты, мой друг?
Отелло:
Молилась ли ты на ночь, Дездемона?
Дездемона:
Да, милый мой.



In [None]:
s = re.sub(':[ \n]+', ': ', s)
print(s)


Дездемона: Кто здесь? Отелло, ты?
Отелло: Я, Дездемона. 
Дездемона: Что ж не идешь ложиться ты, мой друг?
Отелло: Молилась ли ты на ночь, Дездемона?
Дездемона: Да, милый мой.



###  re.compile()

Мы можем собрать регулярное выражение в отдельный объект. Это полезно, когда нам нужно много раз использовать один и тот же паттерн: во-первых, не придется каждый раз переписывать одно и то же выражение, а во вторых, так программа будет работать быстрее! 

In [None]:
# компилируем регулярное выражение для поиска котиков
cats = re.compile('cat')

# а теперь можно использовать эту переменную вместо re с любым из методов
# но во всех будет на один аргумент ("что искать/заменять") меньше 
print(cats.search('the cat is on the mat').group(0))
print(cats.findall('my cat is black, my cat is fat, my cat likes rats, rats are gray and fat'))
print(cats.sub('dog', 'the cat is on the mat'))

cat
['cat', 'cat', 'cat']
the dog is on the mat


## А теперь в бой!

Напишем регулярное выражение для поиска названия вулкана Eyjafjallajökull на русском. 

Варианты написания: 
Эйяфьядлайёкудль, 
Эяфьядлайёкудль, 
Эйяфьятлайёкудль, 
Эйяфьядлайёкутль, Эйяфьядлайёкюдль, Эяфьядлайокудль, Эйяфьядлаёкудль, Эяфьядлаёкудль,
Эйяфьядлаёкутль, Эяфьядлайёкюдль.

In [None]:
s = '''
Эйяфьядлайёкудль, Эяфьядлайёкудль, Эйяфьятлайёкудль, Эйяфьядлайёкутль, Эйяфьядлайёкюдль, Эяфьядлайокудль, Эйяфьядлаёкудль, Эяфьядлаёкудль,
Эйяфьядлаёкутль, Эяфьядлайёкюдль.
'''
len(s.split(','))

10

In [None]:
volcano = re.compile('Эй?яфья[д|т]ла.*?ль')
res = volcano.findall(s)
res

['Эйяфьядлайёкудль',
 'Эяфьядлайёкудль',
 'Эйяфьятлайёкудль',
 'Эйяфьядлайёкутль',
 'Эйяфьядлайёкюдль',
 'Эяфьядлайокудль',
 'Эйяфьядлаёкудль',
 'Эяфьядлаёкудль',
 'Эйяфьядлаёкутль',
 'Эяфьядлайёкюдль']

In [None]:
len(res)

10

Напишем регулярные выражения для поиска e-mail'ов и телефонов:

In [None]:
with open ('./data/instruction.txt', 'r') as f:
    text = f.read()
    
print(text)

ИНСТРУКЦИЯ ПО ОФОРМЛЕНИЮ ЦИФРОВОГО ПРОПУСКА

Технические вопросы
Как заказать пропуск в Москву при условии, что на даче интернет работает плохо? При звонке по номеру телефона: +7 (495) 777-7777 приходится очень долго ждать.
В связи с большим количеством звонков время ожидания по номеру телефона: 8-495-777-77-77 может достигать нескольких минут. Кроме того, вы можете воспользоваться возможностью получить пропуск по СМС на короткий номер 7377.

Списываются ли деньги при отправке СМС для получения пропуска?
Нет. За СМС средства не списывают. 

Что делать если сайт не доступен, а при звонке на телефон: 84957777777 сеть занята?
Обратиться на почту по адресу gosuslugi@mail.ru


Как заказать оформленный пропуск на электронную почту через СМС?
Для этого нужно отправить цель получения пропуска (в кавычках) и через пробел почту, например,
"для поездок на работу", golikova_t67@gmail.com
"для иных целей", natysik@ya.ru

По любым вопросам пишите на круглосуточную линию поддержки support24@mos.ru.


In [None]:
mails = re.compile('[A-Za-z0-9_]+@[a-z]+\.ru|[A-Za-z0-9_]+@[a-z]+\.com')
mails.findall(text)

['gosuslugi@mail.ru',
 'golikova_t67@gmail.com',
 'natysik@ya.ru',
 'support24@mos.ru']

In [None]:
phones = re.compile('\+?[78][\(\) \-0-9]{10,14}')
phones.findall(text)

### Итого:

Научились использовать регулярные выражения для поиска и замен в тексте.