## 10.2 Регулярные выражения в python

Среди стандартных модулей python существует библиотека для работы [с регулярными выражениями re](https://docs.python.org/3/library/re.html) (подробнее [тут](https://tproger.ru/translations/regular-expression-python/))

Простешая задача для регулярных выражений - разделение текста на отдельные слова.

In [2]:
import re
import pandas as pd

text_df = pd.read_csv("./data/content_description.csv", sep='\t')
text_df.head()

# строка для примера
test_string = text_df.description.values[4]
# шаблон регулярного выражения
reg_expr = r'\w+'
# компилируем регулярное выражение
reg_expr_compiled = re.compile(reg_expr)
print("компилированное регулярное вырадение ", type(reg_expr_compiled), '\n\n')
# применяем метод findall для поиска всех совпадений с шаблоном регулярного выражения в тексте 
res = reg_expr_compiled.findall(test_string) 
# результат
print (res)

компилированное регулярное вырадение  <class '_sre.SRE_Pattern'> 


['Леди', 'удача', 'авантюрная', 'романтическая', 'комедия', 'снятая', 'в', 'двадцатые', 'годы', 'ХХ', 'века', 'на', 'заре', 'звукового', 'кинематографа', 'Главную', 'роль', 'исполнила', 'обаятельная', 'Норма', 'Ширер', 'пятикратный', 'номинант', 'и', 'лауреат', 'премии', 'Оскар', 'за', 'фильм', 'Развод', 'Сюжет', 'и', 'посыл', 'картины', 'несмотря', 'на', 'ее', 'почтенный', 'возраст', 'нисколько', 'не', 'устарели', 'В', 'мелодраме', 'которую', 'вы', 'можете', 'посмотреть', 'онлайн', 'представлена', 'забавная', 'история', 'авантюристки', 'по', 'прозвищу', 'Ангельское', 'Личико', 'С', 'равным', 'успехом', 'показанные', 'события', 'могли', 'произойти', 'и', 'в', 'наше', 'время', 'как', 'вы', 'сами', 'можете', 'убедиться', 'люди', 'за', 'несколько', 'десятилетий', 'мало', 'изменились', 'в', 'глобальных', 'вещах', 'Прелестная', 'девушка', 'Долли', 'опасная', 'авантюристка', 'со', 'стажем', 'Она', 'зарабатывает', 'на', 'жизн

В этом примере можно увидеть базовые приёмы применения библиотеки регулярных выражений в python

* регулярное выражение - строка в кавычках (перед кавычками вспомогательный символ `r`)
* строку перед использованием нужно скомпилировать в специальный объеrn [Regular expression object](https://docs.python.org/3/library/re.html#regular-expression-objects)
* В шаблонах можно использовать `спецсимволы`

Примеры спецсимволов:

* `.` Любой символ
* `\w`  Любая буква (то, что может быть частью слова), а также цифры и _ 
*  `\W`  Всё, что не входит в `\w` 
*  `\d`  Любая цифра 
*  `\D`  Всё, что не входит в `\d` 
* `\b` граница слова
* `[…]`  Символьный класс - любой из перечисленных символов 

Кроме спецсимволов можно использовать т.н. квантификаторы - указатели количества

* `+` - одно или более вхождений
* `*` ноль или больше вхождений
* `{m,n}` от m до n вхождений
* `{n}` ровно `n` вхождений
* `\s` пробельный символ - например, табуляция
* `^` начало вхождения
* `$` конец вхождения
* `()` - группирующие скобки. Позволяет искать подстроки

Продемонстрируем простейшие примеры применения регулярных выражений.

In [3]:
sample_str = 'Мама mama@ya.ru мыла раму с мылом'

result = re.findall(r'.', sample_str)
print(result)

['М', 'а', 'м', 'а', ' ', 'm', 'a', 'm', 'a', '@', 'y', 'a', '.', 'r', 'u', ' ', 'м', 'ы', 'л', 'а', ' ', 'р', 'а', 'м', 'у', ' ', 'с', ' ', 'м', 'ы', 'л', 'о', 'м']


Усложним регулярку и извлечём все слова - идущие подряд непробельные символы (спецсимволы не в счёт)

In [4]:
result = re.findall(r'\w*', sample_str)
print(result)

['Мама', '', 'mama', '', 'ya', '', 'ru', '', 'мыла', '', 'раму', '', 'с', '', 'мылом', '']


В выдаче есть пробелы - заменим `*` на `+`

In [5]:
result = re.findall(r'\w+', sample_str)
print(result)

['Мама', 'mama', 'ya', 'ru', 'мыла', 'раму', 'с', 'мылом']


Первое слово в тексте

In [6]:
result = re.findall(r'^\w+', sample_str)
print(result)

['Мама']


Последнее слово в тексте

In [7]:
result = re.findall(r'\w+$', sample_str)
print(result)

['мылом']


Вернуть все пары символов

In [8]:
result = re.findall(r'\w\w', sample_str)
print(result)

['Ма', 'ма', 'ma', 'ma', 'ya', 'ru', 'мы', 'ла', 'ра', 'му', 'мы', 'ло']


Вернуть все пары символов только в начале слова (включая пробелы)

In [9]:
result = re.findall(r'\b\w.', sample_str)
print(result)

['Ма', 'ma', 'ya', 'ru', 'мы', 'ра', 'с ', 'мы']


Вернуть список доменов электронной почты

In [10]:
result = re.findall(r'@\w+', sample_str)
print(result)

['@ya']


Добавим в результат доменную зону(домен верхнего уровня)

In [11]:
result = re.findall(r'@\w+.\w+', sample_str)
print(result)

['@ya.ru']


Второй вариант — вытащить только доменную зону, используя группировку

In [12]:
result = re.findall(r'@\w+.(\w+)', sample_str)
print(result)

['ru']


Наконец, извлечём email полностью

In [13]:
result = re.findall(r'\w+@\w+.\w+', sample_str)
print(result)

['mama@ya.ru']


Разбив текст на отдельные слова, мы получаем список отдельных сущностей (т.н. токенов) каждый токен можно обработать отдельно своей регуляркой - например проверить телефонный номер - номер должен быть длиной 10 знаков и начинаться с 8 или 7.

In [14]:
tokens = ['7999999999', '999999-999', '99999x9999', '7996663132']

for val in tokens:
    if re.match(r'[7-8]{1}[0-9]{9}', val) and len(val) == 10:
        print('phone number')
    else:
        print('no')

phone number
no
no
phone number


Другой интересный кейс - вытаскивание из текста всех имён собственных. Именем собственным мы будем считать любой текст, заключённый внутри кавычек. Для этой задачи нам помогут группирующие скобки `()`.

In [15]:
print(text_df.description.values[4])
raw_text = text_df.description.values[4]

print("\n\nПользуясь регулярными выражения, доcтанем из текста имена собственные (всё, что внутри кавычек):\n\n")
regular_expr = r'«(.*?)»'
reg_expr_compiled = re.compile(regular_expr)
# применяем выражение к тексту
for g in reg_expr_compiled.findall(raw_text):
    print(g)

«Леди удача» – авантюрная романтическая комедия, снятая в двадцатые годы ХХ века, на заре звукового кинематографа. Главную роль исполнила обаятельная Норма Ширер, пятикратный номинант и лауреат премии «Оскар» за фильм «Развод». Сюжет и посыл картины, несмотря на ее почтенный возраст, нисколько не устарели. В мелодраме, которую вы можете посмотреть онлайн, представлена забавная история авантюристки по прозвищу Ангельское Личико. С равным успехом показанные события могли произойти и в наше время – как вы сами можете убедиться, люди за несколько десятилетий мало изменились в глобальных вещах.   Прелестная девушка Долли – опасная авантюристка со стажем. Она зарабатывает на жизнь шантажом по простой и многократно отработанной схеме. Долли знакомится с богатым мужчиной, приглашает его к себе на квартиру, а затем начинает требовать деньги за соблюдение молчания. В результате полицейских происков девушка оказывается под арестом, однако избегает строгого наказания. Выйдя на свободу, она снимает