Регулярные выражения – грамматика поиска подстрок в строках.  
Другими словами, это набор правил, описывающий искомую строку в  
тексте.   

Удобно подбирать регулярные выражения в оналйн песочницах, так как там есть подсветка слов  
https://regex101.com/

regex кроссворды  
https://regexcrossword.com/  



Среди стандартных модулей python существует библиотека для работы [с регулярными выражениями re](https://docs.python.org/3/library/re.html) (подробнее [тут](https://tproger.ru/translations/regular-expression-python/))

Простешая задача для регулярных выражений - разделение текста на отдельные слова.

In [1]:
import re
import pandas as pd

Методы модуля `re`  

`объект match` содержит полностью найденный шаблон и все группы и имеет много полезных методов  
`re.search` - находит первое вхождение шаблона и возвращает для него объект match  
`re.finditer` - работает как `re.search`, но содержит все найденные вхождения шаблона (если итерировать, то вернет все `match`)  
`re.findall` - возвращет список со всеми вхождениями шаблона, если указать группировку, то вернет только группы,    
`re.sub` - заменяет найденную подстроку в строке на заменитель (заменителем может быть функция, которая возвращает заменитель) и возвращает всю строку   
c помощью `re.sub` можно обрамлять любые элементы по бокам, напримем можем из строки 'слово дом в скобках' сделать строку 'слово (дом) в скобках'  
`re.subn` -  вернет кортеж (строка с заменой, количество замен)  
`re.split` - разбивает строку на подстроки, разделителем является то, что подходит под паттерн  
`re.match` - проверяет совпадение патерна с начала строки (то есть, если первый символ не подходит, то стоп)  
`re.compile` - компилирует регулярное выражение (если указаны флаги, то применяет их) и возращает объект класса Pattern   
далее мы можем вызывать все методы выше используя аналогичные методы объекта Pattern, при этом шаблон указывать уже не нужно

In [1]:
text_df = pd.read_csv("content_description.csv", sep='\t')
text_df.head()

# строка для примера
test_string = text_df.description.values[4]
# шаблон регулярного выражения
reg_expr = r'\w+'
# компилируем регулярное выражение
reg_expr_compiled = re.compile(reg_expr)
print("компилированное регулярное вырадение ", type(reg_expr_compiled), '\n\n')
# применяем метод findall для поиска всех совпадений с шаблоном регулярного выражения в тексте 
res = reg_expr_compiled.findall(test_string) 
# результат
print (res)

компилированное регулярное вырадение  <class 're.Pattern'> 


['Леди', 'удача', 'авантюрная', 'романтическая', 'комедия', 'снятая', 'в', 'двадцатые', 'годы', 'ХХ', 'века', 'на', 'заре', 'звукового', 'кинематографа', 'Главную', 'роль', 'исполнила', 'обаятельная', 'Норма', 'Ширер', 'пятикратный', 'номинант', 'и', 'лауреат', 'премии', 'Оскар', 'за', 'фильм', 'Развод', 'Сюжет', 'и', 'посыл', 'картины', 'несмотря', 'на', 'ее', 'почтенный', 'возраст', 'нисколько', 'не', 'устарели', 'В', 'мелодраме', 'которую', 'вы', 'можете', 'посмотреть', 'онлайн', 'представлена', 'забавная', 'история', 'авантюристки', 'по', 'прозвищу', 'Ангельское', 'Личико', 'С', 'равным', 'успехом', 'показанные', 'события', 'могли', 'произойти', 'и', 'в', 'наше', 'время', 'как', 'вы', 'сами', 'можете', 'убедиться', 'люди', 'за', 'несколько', 'десятилетий', 'мало', 'изменились', 'в', 'глобальных', 'вещах', 'Прелестная', 'девушка', 'Долли', 'опасная', 'авантюристка', 'со', 'стажем', 'Она', 'зарабатывает', 'на', 'жизнь', 'ш

В этом примере можно увидеть базовые приёмы применения библиотеки регулярных выражений в python

* регулярное выражение - строка в кавычках (перед кавычками вспомогательный символ `r`)
* строку перед использованием нужно скомпилировать в специальный объеrn [Regular expression object](https://docs.python.org/3/library/re.html#regular-expression-objects)
* В шаблонах можно использовать `спецсимволы`

Когда нужно символ взять только 1, например 1 пробел, то не нужно ставить квантификатор  
`\w\s\d` - найдет все подстроки где сначала одна буква (или цифра и _), потом один пробел и потом одна цифра

Для кириллицы не забываем дописывать ё [А-Яа-яЁё], так как ё не входит в набор

Чтобы указать поиск пробела, то ставим сам пробел  
Анологично таб и символ переноса строки  
`\s` это группа пробел, таб и перенос строки

Примеры спецсимволов:

* `.` Любой символ, кроме `\n`  
**Очень важный момента с переносом строк**  
Если нам нужно найти фрагмент, в котором есть переносы строк, то  
шаблон `.*` ничего не найдет, так как перенос строки не входит в `.`  
В этом случае нужно использовать `\w\W`  
* `\w`  Любая буква (то, что может быть частью слова), а также цифры от 0 до 9 и _  
Эквивалентно `[A-Za-z0-9_]`
В модуле `re` по умолчанию `\w` учитывает и русские буквы  
`flags = re.ASCII` - устновит набор символов для `\w` такой [a-zA-Z0-0_]  
*  `\W`  Всё, что не входит в `\w` 
*  `\d`  Любая цифра 
*  `\D`  Всё, что не входит в `\d` 
* `\b` граница слова (начало слова или конец слова)  
(внутри символьных классов `[]` воспринимается как `backspace`)
* `\B` не граница слова
* `\A` начало текста
* `\Z` конец текста
* `[…]`  Символьный класс - любой из перечисленных символов   
если нам нужно только один символ из списка, то не нужно ставить квантификатор  
`[a-z]` любая  буква от a до z    
`[^a-z]` все что угодно, но не буква от a до z   
`[0-9]` любая цифра, эквивалентно `\d`   
`[123]` символ 1, 2 или 3, не 123  
`[A-Za-z0-9_]` эквивалентно `\w`  
`[a-z^]` любая  буква от a до z или начало строки  
`[0-9$]` любая цифра или конец строки 
`[0-9]` любая цифра, эквивалентно `\d`     
* ` \ ` экранирует спецсимвол, например `\.` точка будет восприниматься как точка  
также используется как индекс для обращения к элементу группы
* ` | ` аналог ИЛИ. Требует скобок, когда хотим или для части запроса `(http|www)`  
также можно так `"abc\s=\sabc|cba\s=\scba"` в данном случае будет или один целый патерн или другой целый  
* `\n` и `\t` не являются спецсимволами, они воспринимаются как символ переноса строки и табуляции

Кроме спецсимволов можно использовать т.н. квантификаторы - указатели количества

* `+` - одно или более вхождений
* `*` ноль или больше вхождений
* `?` ноль или одно вхождение (может быть символ, а может не быть)
* `{m,n}` от m до n вхождений
* `{n}` ровно `n` вхождений
* `{n,}` от `n` раз, то есть `n` и более раз
* `{,n}` не более `n` раз
* `\s` пробельный символ - например, табуляция, перенос строки, любые из `\n\t\r\f\v`
* `\S` любой не пробельный символ
* `^` начало вхождения
* `$` конец вхождения  
`^$` означает, что в строке должоно быть только то, что мы указали как шаблон,  
мы не берем строки, в которых наш паттерн является подстрокой  
* `()` - группирующие скобки. Позволяет искать подстроки  
`(?:pattern)` - означает, что группирующая скобка является не сохраняющей    
Если мы хотим сохранить оба уровня группировки (то есть то что в скобках и весь найденный кусок),   
то нужно ещё поставить скобки в начале и конце `((\w*)\s=\s(\w*))` - это вернет кортеж, в уровнями группировки    
То есть когда мы ставим в начале в круглых скобках `?:`, то мы превращаем это в обычный патерн, а не группировку,  
и тут важно, что если у нас есть скобки без `?:` и с `?:`, то скобки с `?:` будут как обычный патерн и в результат не попадут  
И скобок можно ставить сколько угодно, каждая группа будет элементом кортежа, например  
`r'(((выа|ооо)о)о)'` будет давать такой результат  `[('выаоо', 'выао', 'выа'), ('ооооо', 'оооо', 'ооо')]`  
Работает по разному для search и findall  
Для findall без `?:`он будут искать патерн как и нужно, но вернет, только то, что указано в скобках  
Если нужно использовать и группы и найти все, то нужно использовать `re.finditer`  
Без скобок шаблон go+ означает символ g и идущий после него символ o,  
который повторяется один или более раз. Например, goooo или gooooooooo.  
Скобки группируют символы вместе. Так что (go)+ означает go, gogo, gogogo и т.п.    


Например, регулярное выражение '(\w+\.)+\w+' найдет любое из перечисленного,   
за счет группировки буквы (1 или более раз) и точки, и эта групп может быть 1 или более раз     
mail.com  
users.mail.com  
smith.users.mail.com  

Также скобки позволяют обращаться к группе по индексу,  то есть если написать регулярку '([AB])\s([cde])\1\2'  
то у нас создались 2 группы в скобках и мы можем обращаться к символу (последовательности символов), которые нашлись  
то есть у нас \1 это будт либо буква A, либо буква B, смотря что попадется  
а \2 это будет c, d или e

Имена для групп вместо `\1`  
Если мы добавим ещё где-то группы, то нам придется следить, чтобы индексы были верными,  
чтобы этих проблем не было, можно группам давать имена  
Когда создаем группу, то пишем  
`(?P<name>...)` - мы присвоили этой группе имя `name`  
Когда нужно указать индекс (то есть указать, что в каком-то месте должен идти элемент группы), то пишем    
`(?P=name)`  
Например  
создаем группу `(?P<q>123)`  аналог `(123)`  
обращаемся к группе `(?P=q)`  аналог `\1`  

Флажки

* `/i` ignore case, то есть регистронезависимый  
* `/m` multiline, то конструкция `^$` будет считать началом строки первый символ после переноса строки,  
а последним символовм символ пере переносом.  
А если этот флаг не стоит, то начало строки это начало всего текста в ковычках (не важно есть переносы или нет),  
а конец текста это конец всего текста в ковычках.   
Поэтому он и называется multiline, так как включает режим 'много строк'
* `/g` (global) Он включает поиск всех сопоставлений в строке и не останавливает поиск после первого совпадения.  
не в питоне /pattern/img  
в питоне  
`re.findall(pattern, string, flags=re.I|re.M)`  
`re.ASCII` - устновит набор символов для `\w` такой [a-zA-Z0-0_]  
если этот флаг не включаем, то `\w` будет любой символ слова, в том числе и русские буквы

Квантификаторы
Располагаются следом за символьным классом, группой или одиночным символом, указывая количество их повторений, например .* обозначает любые символы в любом количестве.

По умолчанию квантификаторы являются «жадными», например если произвести поиск всех тегов в HTML-коде <.*>, то все теги будут трактоваться как один, так как после первого совпадения следующие теги будут соответствовать .*. Для решения задачи нужно или уточнить искомый результат <[^>]*>, или сделать квантификатор «ленивым», поставив ? после квантификатора <.*?>.

Существует еще один «сверхжадный» режим, его еще называют «ревнивым», он является самым быстродейственным и служит для поиска самого длинного варианта. Данный режим полезен для проверки существования подстроки в строке, а также для исключения из результатов поиска нежелаемых совпадений. Для включения «ревнивого» режима нужно поставить + после квантификатора.

Жадный	Ленивый	Ревнивый  

?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;??&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;?+  
\+&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;+?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ++  
\*&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;*? &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; *+  

Подмаски  
Подмаска дает возможность применять условия типа if и if-else:   
В шаблон-условие используется либо индекс группы, либо имя

(?(шаблон-условие)шаблон-если-успех);  
(?(шаблон-условие)шаблон-если-успех|шаблон-если-провал).  

| Формат | Название | Пример | Результат |
| - | - | - | - |
| (?=...) |	Просмотр вперёд (проверяются символы впереди на опрежение, и если нашли шаблон, то стоп, шаблон не берем) |	.*(?=\\.com)	| **example**.com example.org  |
| (?!...) |	Просмотр назад (проверяются символы, которые уже взяли, то есть ретроспективно и шаблон берем) |	.*(?!\\.com)	| example.com **example**.org  |
| (?<=...) |	Позитивный просмотр назад, аналогично (?=...), но шаблон входит в результат  |	(?<=example\\.).* |	example.**com** example.**org**  |
| (?<!...) |	Негативный просмотр назад |	(?<!example\\.).* |	example.com example.org  |

Продемонстрируем простейшие примеры применения регулярных выражений.

Использование группировки и индексов групп  
В следующем примере, нам нужно взять то, что в ковычках в значении `src`, но проблема в том,  
что если встретится открывающаяся `"`, а закрывающаяся `'` или наоборот, нам это не подходит  
для этого ипользуем индексы групп и первую ковычку добавим в группу

In [17]:
# Хотим выбрать занчение scr
s = "<p> Picture <img src='bg.jpg'> in text"
re.findall(r"<img\s+[^>]*src\s*=\s*([\"'])(.+?)\1", s)

[("'", 'bg.jpg')]

Если нам нужно взять подстроку до какого-то символа, то удобно так  
`r'{^symbol}'` получается мы берем все кроме этого символа, и как только он появится, то будет остановка

In [18]:
s = 'key1=value1; key2=value2; key3 = value3;   key4     =   value4'

re.findall(r'\w+\s*=\s*[^;]+', s)

['key1=value1', 'key2=value2', 'key3 = value3', 'key4     =   value4']

А если добавить группировку, то мы можем вытищить кортежами нужные нам пары ключ и значение.  
Если в паттерне несколько групп, то они помещаются в один общий кортеж, то есть один патерн - один кортеж и каждый элемент кортежа,  
это отдельная группа (то что в круглых скобках)

In [21]:
s = 'key1=value1; key2=value2; key3 = value3;   key4     =   value4'

re.findall(r'(\w+)\s*=\s*([^;]+)', s)

[('key1', 'value1'),
 ('key2', 'value2'),
 ('key3', 'value3'),
 ('key4', 'value4')]

Использование группировок ()

Если нужно использовать функционал search,  
то есть мы хотим работать с объектом `Match`  
Например, мы хотим использовать методы `group`, `groups`, `span`, `groupdict` и другие  
то нужно использовать `re.finditer`  
если его итерировать, то он будет возвращать `match` объекты для каждого найденного шаблона   

In [28]:
s = 'this is a x3453x string with word and digits y1323y sdfasf z4324z'

# мы ищем любое количество цифр, перед которыми стоит или x или y и в конце тоже x или y

iter = re.finditer(r'([xy])\d+\1', s)
for el in iter:
    print(el)
    print(el.groups())

<re.Match object; span=(10, 16), match='x3453x'>
('x',)
<re.Match object; span=(45, 51), match='y1323y'>
('y',)


In [113]:
s = 'this is a x3453x string with word and digits y1323y sdfasf z4324z'

# мы ищем любое количество цифр, перед которыми стоит или x или y и в конце тоже x или y
# находит паттерн, но вернет только то, что в группе

re.findall(r'([xy])\d+\1', s)

['x', 'y']

`re.sub(pattern, repl, string, count, flags)`   
выполняет замену в строке `string`, найденных совпадений строкой, строкой `repl` или результатом работы функции  
`count` максимальное число замен, если не указан, то неограниченное число замент (заменит всё)

In [42]:
s = '''Moscow
Kazan
Tver
Samara
Ufa
'''

# заменяет найденную подстроку в строке на заменитель и возвращает всю строку 
res = re.sub(pattern = r'\s*(\w+)\s*', repl= r'<option>\1</option>\n', string=s)
print(res)

<option>Moscow</option>
<option>Kazan</option>
<option>Tver</option>
<option>Samara</option>
<option>Ufa</option>



Можно испоьзовать функцию вместо заменителя,  
на вход функции будет подаваться найденный элемент, который нужно заменить 

In [58]:
s = '''Moscow
Kazan
Tver
Samara
Ufa
'''

# заменяет найденную подстроку в строке на заменитель и возвращает всю строку 

def func():
    count = 0
    def wrapper(match: re.Match):
        nonlocal count
        count += 1
        return f"<option value='{count}'>{match.group(1)}</option>\n"
    return wrapper
func = func()    
res = re.sub(pattern = r'\s*(\w+)\s*', repl= func, string=s)
print(res)

<option value='1'>Moscow</option>
<option value='2'>Kazan</option>
<option value='3'>Tver</option>
<option value='4'>Samara</option>
<option value='5'>Ufa</option>



In [35]:
s = 'this is a 3453 string with word and digits 123'

# заменяет найденную подстроку в строке на заменитель и возвращает всю строку 
def func(x):
    print(x)
    return 'REPLACEMENT'
re.sub(pattern = r'\d+', repl= func, string=s, count=1)

<re.Match object; span=(10, 14), match='3453'>


'this is a REPLACEMENT string with word and digits 123'

In [41]:
s = 'this is a 3453 string with word and digits 123'

# вернет кортеж (строка с заменой, количество замен)

re.subn(pattern = r'\d+', repl= 'REPLACEMENT', string=s)

('this is a REPLACEMENT string with word and digits REPLACEMENT', 2)

`search` возращает только первое вхождение шаблона в строку  
`search` возращает под индексом 0 всё найденное выражение,  
и под индексами 1, 2, ... возвращаются сохраненные группы,  
елси были группировки

In [31]:
s = 'this 4435 is a string 345 with 555 word and digits 123' 

# возвращает объект re.Match, в котором первый найденный элемент и его индексы
# чтобы получить индексы или само совпадение используем методы span и group
# если не нашел, то вернет None

match = re.search(r'(\d+)[^\d]*(\d+)', s)
match

None


В индексе 0 всё найденное (как будто у нас скобки без сохранения)

In [11]:
match.group(0)

'4435 is a string 345'

В индексах 1 и 2 будут группы

In [15]:
match.group(1)

'4435'

In [6]:
match.groups()

('4435', '345')

In [18]:
s = 'this 4435 is a string 345 with 555 word and digits 123' 

# возвращает объект re.Match, в котором первый найденный элемент и его индексы
# чтобы получить индексы или само совпадение используем методы span и group
# если не нашел, то вернет None

match = re.search(r'(\d+)[^\d]*(\d+)', s)
match == None

False

In [19]:
match.span()

(5, 25)

In [None]:
# `span` с индексом возвращает начальный и конечный индексы группы встроке

In [21]:
match.span(1)

(5, 9)

Пример жадного и ленивого варианта

In [7]:
s = 'выаоооооыфв ооооооыва оовыа'

re.findall(r'о{2,5}', s)

['ооооо', 'ооооо', 'оо']

In [8]:
s = 'выаоооооыфв ооооооыва оовыа'

re.findall(r'о{2,5}?', s)

['оо', 'оо', 'оо', 'оо', 'оо', 'оо']

search и группы

In [76]:
s = 'this 4435-2344 is a string 345 with word and digits 123-324' 


match = re.search(r'(\d+)-(\d+)', s)
match

<re.Match object; span=(5, 14), match='4435-2344'>

In [85]:
match.group(1)

'4435'

In [86]:
match.groups()

('4435', '2344')

Если мы группам дадим имена, то в `groupdict` будет словарь,  
где имена групп ключи, а значения группы

In [24]:
s = 'this 4435-2344 is a string 345 with word and digits 123-324' 


match = re.search(r'(?P<gr1>\d+)-(?P<gr2>\d+)', s)
match

<re.Match object; span=(5, 14), match='4435-2344'>

In [26]:
match.groupdict()

{'gr1': '4435', 'gr2': '2344'}

Использование группировок для проверок  

`?=` опережающая проверка, то есть шаблон не попадет в результа  
как только встречаем то, что находится после `?=` в скобках, мы прерываем проверку  

In [33]:
s = "<p> Picture <img src='bg.jpg'> <img src='bg.jpg'> in text"
re.findall(r"^.*?(?=<img)", s)

['<p> Picture ']

`?<=` ретроспективная, то есть снаала находим, а потом проверяем,  
поэтому шаблон попадает в результат

In [31]:
s = "<p> Picture <img src='bg.jpg'> in text"
re.findall(r"^.*(?<=<img)", s)

['<p> Picture <img']

Констрикция если, иначе в регулярных выражениях  
`(?(if)then|else)`

In [54]:
s = "любые слова 11 одиннадцать тут могут быть любые слова 12 двенадцать"
re.findall(r".*(?P<q>11)\s(?(q)одиннадцать)", s)

['11']

Функция findall() модуля re возвращает все неперекрывающиеся совпадения шаблона pattern в строке string в виде списка строк или список кортежей.     
Строка сканируется слева направо, и совпадения возвращаются в найденном порядке.

Результат зависит от количества групп захвата в шаблоне:

Если групп нет, то возвращается список строк, соответствующих всему шаблону.  
Если существует ровно одна группа, то возвращается список строк, соответствующих этой группе.  
Если присутствует несколько групп, то возвращается список кортежей строк, соответствующих группам.  

In [63]:
s = 'this 4435 is a string 345 with word and digits 123' 

# находит все подстроки по шаблону и возвращает список вхождений

re.findall(r'\d+', s)

['4435', '345', '123']

split разбивает строку, разделителем является совпадение с шаблоном

In [31]:
s = '''this is first 7 string with numbers
    this is second string without numbers, this is third string
    this is fourth string; this is fifth string
'''

re.split(r'[\n,;]+', s)

['this is first 7 string with numbers',
 '    this is second string without numbers',
 ' this is third string',
 '    this is fourth string',
 ' this is fifth string',
 '']

In [88]:
s = 'this is a 3453 string 345 with word and digits 1323 sdfasf 4324'

# разбивает строку на подстроки, разделителем является то, что подходит под паттерн

re.split(r'\d+', s)

['this is a ', ' string ', ' with word and digits ', ' sdfasf ', '']

Про флаг /m и начало/конец строки

In [22]:
s = '''fsadfasdf sdfas dsfdasf
sadfasf sdfsadf
sdfasdf dsfdasf dsfasd dsfdasf'''
# так будет искать любое количество букв подряд от начала до конца строки,  
# и конец строки это конец текта, естественно не найдет, так как переноса строки нет в группе поиска
re.findall(r'^[\w]+$', s)

[]

In [26]:
s = '''fsadfasdf sdfas dsfdasf
sadfasf sdfsadf
sdfasdf dsfdasf dsfasd dsfdasf'''
# так будет искать любое количество букв подряд от начала до конца строки,  
# но теперь конец строки это символ переноса  
re.findall(r'^[\w ]+$', s, flags=re.M)

['fsadfasdf sdfas dsfdasf',
 'sadfasf sdfsadf',
 'sdfasdf dsfdasf dsfasd dsfdasf']

match проверяет совпадение шаблона в начале строки  
вернет None, если нет совпадения   
и дополнительно использование условного  оператора

In [27]:
# если + есть, то ищем после него 7, а если плюса нет, то ищем после него 8
s = '+74354325534'

re.match(r'(?P<plus>\+)?(?(plus)7|8)(?P<bracket>\()?\d{3}(?(bracket)\)|)\d{3}-?\d{2}-?\d{2}', s)

<re.Match object; span=(0, 12), match='+74354325534'>

Пример различия пробела и `\s`

In [28]:
s = '''fsadfasdf sdfas dsfdasf
sadfasf sdfsadf
sdfasdf dsfdasf dsfasd dsfdasf'''
# если мы укажем \s, то у нас поймает и пробел и перенос строки
re.findall(r'^[\w\s]+$', s)

['fsadfasdf sdfas dsfdasf\nsadfasf sdfsadf\nsdfasdf dsfdasf dsfasd dsfdasf']

In [17]:
sample_str = 'Мама mama@ya.ru мыла раму с мылом'

result = re.findall(r'.', sample_str)
print(result)

['М', 'а', 'м', 'а', ' ', 'm', 'a', 'm', 'a', '@', 'y', 'a', '.', 'r', 'u', ' ', 'м', 'ы', 'л', 'а', ' ', 'р', 'а', 'м', 'у', ' ', 'с', ' ', 'м', 'ы', 'л', 'о', 'м']


Усложним регулярку и извлечём все слова - идущие подряд непробельные символы (спецсимволы не в счёт)

In [11]:
result = re.findall(r'\w*', sample_str)
print(result)

['Мама', '', 'mama', '', 'ya', '', 'ru', '', '7', '', 'мы7ла', '', 'раму', '', 'с', '', 'мылом', '']


В выдаче есть пробелы - заменим `*` на `+`

In [33]:
result = re.findall(r'\w+', sample_str)
print(result)

['Мама', 'mama', 'ya', 'ru', 'мыла', 'раму', 'с', 'мылом']


Если нужно взять слова определенного размера  
или слова от n до m символов, то используем {n, m} вметсо +

In [34]:
result = re.findall(r'\w{3,5}', sample_str)
print(result)

['Мама', 'mama', 'мыла', 'раму', 'мылом']


Первое слово в тексте

In [6]:
result = re.findall(r'^\w+', sample_str)
print(result)

['Мама']


Последнее слово в тексте

In [7]:
result = re.findall(r'\w+$', sample_str)
print(result)

['мылом']


Вернуть все пары символов

In [8]:
result = re.findall(r'\w\w', sample_str)
print(result)

['Ма', 'ма', 'ma', 'ma', 'ya', 'ru', 'мы', 'ла', 'ра', 'му', 'мы', 'ло']


In [38]:
re.findall(r'\w\w\w', sample_str)

['Мам', 'mam', 'мыл', 'рам', 'мыл']

Вернуть все пары символов только в начале слова (включая пробелы)

In [39]:
result = re.findall(r'\b\w.', sample_str)
print(result)

['Ма', 'ma', 'ya', 'ru', 'мы', 'ра', 'с ', 'мы']


в конце слова

In [44]:
re.findall(r'\w\w\b', sample_str)

['ма', 'ma', 'ya', 'ru', 'ла', 'му', 'ом']

Вернуть список доменов электронной почты

In [46]:
re.findall(r'm\w+', sample_str)

['mama']

In [10]:
result = re.findall(r'@\w+', sample_str)
print(result)

['@ya']


не забываем, что точка это любой символ  
и если нам нужно взять последовательность, где есть .  
то используем \.

In [54]:
result = re.findall(r'@\w+\.\w+', 'sadfa@gmail_com')
print(result)

[]


In [55]:
result = re.findall(r'@\w+.\w+', 'sadfa@gmail_com')
print(result)

['@gmail_com']


Добавим в результат доменную зону(домен верхнего уровня)

In [11]:
result = re.findall(r'@\w+.\w+', sample_str)
print(result)

['@ya.ru']


Второй вариант — вытащить только доменную зону, используя группировку

In [12]:
result = re.findall(r'@\w+.(\w+)', sample_str)
print(result)

['ru']


In [62]:
result = re.findall(r'(@)\w+(.\w+)', sample_str)
print(result)

[('@', '.ru')]


Наконец, извлечём email полностью

In [13]:
result = re.findall(r'\w+@\w+.\w+', sample_str)
print(result)

['mama@ya.ru']


Разбив текст на отдельные слова, мы получаем список отдельных сущностей (т.н. токенов) каждый токен можно обработать отдельно своей регуляркой - например проверить телефонный номер - номер должен быть длиной 10 знаков и начинаться с 8 или 7.

In [73]:
tokens = ['7999999999', '999999-999', '99999x9999', '7996663132']

for val in tokens:
    print(re.match(r'[7-8]{1}[0-9]{9}', val))
    if re.match(r'[7-8]{1}[0-9]{9}', val) and len(val) == 10:
        print('phone number')
    else:
        print('no')

<re.Match object; span=(0, 10), match='7999999999'>
phone number
None
no
None
no
<re.Match object; span=(0, 10), match='7996663132'>
phone number


Другой интересный кейс - вытаскивание из текста всех имён собственных. Именем собственным мы будем считать любой текст, заключённый внутри кавычек. Для этой задачи нам помогут группирующие скобки `()`.

? говорит, что мы хотим получить не точное совпадение от начал до конца,  
а хотим выбрать все возможные совпадения внутри  

In [88]:
print(text_df.description.values[4])
raw_text = text_df.description.values[4]

print("\n\nПользуясь регулярными выражения, доcтанем из текста имена собственные (всё, что внутри кавычек):\n\n")
regular_expr = r'«(.*?)»'
reg_expr_compiled = re.compile(regular_expr)
# применяем выражение к тексту
for g in reg_expr_compiled.findall(raw_text):
    print(g)

«Леди удача» – авантюрная романтическая комедия, снятая в двадцатые годы ХХ века, на заре звукового кинематографа. Главную роль исполнила обаятельная Норма Ширер, пятикратный номинант и лауреат премии «Оскар» за фильм «Развод». Сюжет и посыл картины, несмотря на ее почтенный возраст, нисколько не устарели. В мелодраме, которую вы можете посмотреть онлайн, представлена забавная история авантюристки по прозвищу Ангельское Личико. С равным успехом показанные события могли произойти и в наше время – как вы сами можете убедиться, люди за несколько десятилетий мало изменились в глобальных вещах.   Прелестная девушка Долли – опасная авантюристка со стажем. Она зарабатывает на жизнь шантажом по простой и многократно отработанной схеме. Долли знакомится с богатым мужчиной, приглашает его к себе на квартиру, а затем начинает требовать деньги за соблюдение молчания. В результате полицейских происков девушка оказывается под арестом, однако избегает строгого наказания. Выйдя на свободу, она снимает