# Python для анализа данных

## Регулярные выражения (Regular Expressions)

На основе блокнота *Аллы Тамбовцевой, НИУ ВШЭ*

Дополнения: *Татьяна Рогович, НИУ ВШЭ*

Использование: Валентин Бирюков

### Введение в регулярные выражения

Регулярные выражения ‒ выражения, последовательности символов, которые позволяют искать совпадения в тексте. Выражаясь более формально, они помогают найти подстроки определенного вида в строке. Еще о регулярных выражениях можно думать как о шаблонах, в которые мы можем подставлять текст, и этот текст либо соответствует шаблону, либо нет. В самом простом случае в качестве регулярного выражения может использоваться обычная строка. Например, чтобы найти в предложении *Кошка сидит под столом.* слово *Кошка*, ничего специального применять не нужно, достаточно воспользоваться оператором `in`:

In [2]:
import re

In [2]:
sent = 'Кошка сидит под столом.'
'Кошка' in sent

True

Если нас интересует слово *кошка* в любом регистре, то это уже более интересная задача. Правда, ее все еще можно решить без регулярных выражений, приведя все слова в `sent` к нижнему регистру. А что, если у нас будет текст подлиннее, и в нем необходимо "обнаружить" *кошку* в разных падежах? И еще производные слова вроде *кошечка*? Тут уже удобнее написать некоторый шаблон, чтобы не создавать длинный список слов с разными формами слова *кошка*. И на помощь придут регулярные выражения. Прежде, чем знакомиться с ними в Python, посмотрим на  общие правила построения регулярных выражений, которые верны всегда, не только в Python и не только в программировании вообще.

* Промежутки, заключенные в квадратные скобки, позволяют найти цифры или буквы разных алфавитов и разных регистров 


    [0-9] соответствует любой цифре
    
    [A-Z] соответствует любой заглавной букве английского алфавита
    
    [a-z] соответствует любой строчной букве английского алфавита
    
    [А-Я] и [а-я] ‒ аналогично для букв русского алфавита

* Для цифр есть специальный символ `\d` (от *digit*). Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d.

* Для пробела тоже существует свой символ ‒ `\s` (от *space*). Этот символ соответсвуют ровно одному пробелу в тексте.

* Любой знак, отличный от пробела, обозначается как `\S` (заглавная буква здесь отвечает за отрицание).

Для разбора дальнейших символов в регулярных выражениях, создадим небольшой набор слов (не очень осмысленный, но удобный):

     хах, хех, хаааа, xaxa

* Знак `.` соответствует одному любому символу в строке. Так, регулярное выражение `x.x` "поймает" слова *хах* и *хех*.
* Знак `+` соответствует одному или более вхождению символа(ов), который стоит слева от `+`. Выражение `xa+` "поймает" слова *xa* и *хаааа*.
* Знак `*` соответствует нулю или более вхождениям символа, который стоит слева от `*`.  Выражение `xaх*`  "поймает" слова *xa* и *хах*.
* Знак `?` соответствует нулю или одному вхождению символа, который стоит слева от `?`.  Выражение `xa?`  "поймает" все последовательности *xa* и буквы *x*.

In [3]:
st = "хах, хех, хаааа, хаха"
re.findall(r'х.х',st)

['хах', 'хех', 'хах']

In [4]:
re.findall(r'ха+',st) #ха из слова хах и 2 штуки из хаха, + говорит нам что мы хотим иметь слева х и бесконечное число а справа

['ха', 'хаааа', 'ха', 'ха']

In [5]:
re.findall(r'хах*',st) #ха из хаааа, т.к * говорит нам что слева должно быть ха и справа 0 или бесконечно число х

['хах', 'ха', 'хах']

In [5]:
re.findall(r'ха?',st) #? говорит нам, что слева должен быть один х, а справа 0 или 1 а. 
# Соответственно ха и х из хах; х и х из хех; и ха из хааа; ха ха из хаха

['ха', 'х', 'х', 'х', 'ха', 'ха', 'ха']

Как быть, если с помощью регулярного выражения нужно найти подстроку, содержащую знаки препинания? Те же точки, вопросительные знаки, скобки? Нужно их экранировать ‒ ставить перед ними `\`, например, `\.`, `\,`, `\?`. Это символ будет сообщать Python, что нам нужен именно конкретный символ (точка, запятая, знак вопроса и др.). 

В регулярных выражениях можно явно задавать число повторений символов. Если мы знаем точное число символов, то его можно указать в фигурных скобках. Так, выражение `а{4}` будет соответствовать четырем буквам `a` подряд. Если точное число повторений нам неизвестно, можно задать диапазон, указав начало и конец отрезка через запятую. Например, такое выражение позволит найти от двух до четырех букв `a` подряд: `a{2,4}`. Если известен только левый или правый конец отрезка, то второй конец можно опустить: `a{2,}` (не менее двух) или `a{,4}` (не более 4).

В регулярных выражениях также можно использовать условие *или*. Например, возвращаясь к нашей "смеющейся" строке, если мы напишем выражение `x[а|е]х`,  оно поймает слова *хах* и *хех*, а вот вдруг появившийся *хох* не поймает.



In [6]:
re.findall(r'х[а|е]х',st)

['хах', 'хех', 'хах']

До сих пор мы рассматривали поиск определенной последовательности символов. Но что, если у нас нет определенного шаблона, и нам надо вернуть набор символов из строки, отвечающий определенным правилам? Такая задача часто стоит при извлечении информации из строк. Это можно сделать, написав выражение с использованием специальных символов. Вот наиболее часто используемые из них:

**Оператор       Описание**
- **.**	Один любой символ, кроме новой строки \n.
- **?**	0 или 1 вхождение шаблона слева
- **\+**	1 и более вхождений шаблона слева
- **\***	0 и более вхождений шаблона слева
- **\w**	Любая цифра или буква (\W — все, кроме буквы или цифры)
- **\d**	Любая цифра [0-9] (\D — все, кроме цифры)
- **\s**	Любой пробельный символ (\S — любой непробельный символ)
- **\b**	Граница слова
- **[..]**	Один из символов в скобках ([^..] — любой символ, кроме тех, что в скобках)
- **\**	Экранирование специальных символов (\. означает точку или \+ — знак «плюс»)
- **^ и $**	Начало и конец строки соответственно
- **{n,m}**	От n до m вхождений ({,m} — от 0 до m)
- **a|b**	Соответствует a или b
- **()**	Группирует выражение и возвращает найденный текст
- **\t, \n, \r**	Символ табуляции, новой строки и возврата каретки соответственно

Создадим какой-нибудь незамысловатый текст с разными датами:

In [11]:
text = "12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем \
говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года."
text

'12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года.'

Напишем регулярное выражение, которое будет соответствовать всем цифрам в тексте (не числам), и найдем их все в `text` с помощью функции `findall()`:

In [8]:
re.findall("\d", text) # отдельно цифры

['1',
 '2',
 '2',
 '0',
 '1',
 '1',
 '1',
 '3',
 '2',
 '0',
 '1',
 '2',
 '2',
 '2',
 '0',
 '1',
 '1',
 '2',
 '5',
 '2',
 '0',
 '1',
 '2']

Если забыли, что числа можно искать с помощью `\d`, можно задействовать промежуток (только не забудьте квадратные скобки):

In [9]:
re.findall("[0-9]", text)

['1',
 '2',
 '2',
 '0',
 '1',
 '1',
 '1',
 '3',
 '2',
 '0',
 '1',
 '2',
 '2',
 '2',
 '0',
 '1',
 '1',
 '2',
 '5',
 '2',
 '0',
 '1',
 '2']

А что, если мы хотим "ловить" не цифры, а числа, то есть последовательности из одной или более цифры. Условию "один и более" соответствует символ `+`. Попробуем.

In [10]:
re.findall("\d+", text) # отдельно числа

['12', '2011', '13', '2012', '2', '2011', '25', '2012']

Получилось! А если сочетания по 1-2 цифры (иногда с пробелом после)? Тут нужен знак `.`, который отвечает ровно за один символ. 

In [12]:
re.findall("\d.", text) # отдельно числа по 1-2 цифры

['12', '20', '11', '13', '20', '12', '2 ', '20', '11', '25', '20', '12']

Что будет, если мы воспользуемся знаком `?`? Он отвечает за наличие 0 или 1 символа, стоящего слева от регулярного выражения.

In [13]:
re.findall("\d?", text) # по 1 символу

['1',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '1',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '1',
 '3',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '1',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '5',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

Получили какое-то безобразие. Но это безобразие оправдано: добавив `?` мы поставили условие, что в подстроке либо есть ровно одна цифра, либо ее нет. Поэтому мы и получили такой странный список. 

**Задание 1:** написать регулярное выражение, которое будет "ловить" все годы в тексте.

*Решение:*

In [14]:
re.findall("\d{4}", text) # 4 цифры подряд

['2011', '2012', '2011', '2012']

**Задание 2:** написать регулярное выражение, которое будет "ловить" все слова с основой *удивительн* в тексте.

*Решение:*

In [14]:
re.findall("удивительн..", text) # из текста знаем, что больше двух букв после не будет

['удивительное', 'удивительнее']

Теперь давайте вместе напишем регулярное выражение, которое будет соответствовать датам с годами. Как выглядят даты в нашем тексте? Сначала идет одна цифра или более, затем пробел, далее буквенное название месяца, пробел и снова цифры, но теперь уже ровно 4, так как они складываются в год. Как обозначаются цифры мы знаем, русские буквы тоже. пробелу соответствует символ `\s` (обратный слэш обязателен, так как без него это будет обычная буква *s*).

In [15]:
re.findall("\d+\s[а-я]+\s\d{4}", text) # осталось прочитать регулярку по слогам :)

['12 ноября 2011', '13 ноября 2012', '2 декабря 2011', '25 декабря 2012']

Теперь давайте рассмотрим еще один пример. Пусть у нас есть список твитов, только список учебный, вместо полного текста одни хэштеги. 

In [16]:
twits = ["#я не могу молчать", "#я не могу кричать", "#я не могу", "#я справлюсь", "я не могу молчать",
        "#я не могу жить", "#я все могу", "#с кем не бывает"]

Задача: создать новый список, содержащий только твиты, начинающиеся с `#я не могу`. Сначала напишем регулярное выражение и посмотрим, как оно работает.

In [17]:
for t in twits:
    print(re.findall("#я не могу", t)) 

['#я не могу']
['#я не могу']
['#я не могу']
[]
[]
['#я не могу']
[]
[]


Написать такое выражение совсем несложно, осталось теперь правильно использовать его в цикле.

In [18]:
chosen = []

for t in twits:
    res = re.findall("#я не могу", t)
    if len(res) != 0:
        chosen.append(t) # именно t, не res, так как добавляем твит полностью
chosen

['#я не могу молчать', '#я не могу кричать', '#я не могу', '#я не могу жить']

Рассмотрим какую-нибудь задачу, где необходимо применить экранирование. Пусть у нас есть некоторая строка с данными:

In [19]:
data = '20.05.1963, 55, 12.12.2000, 17, 15/15/1111'

И нам нужно выбрать из нее даты, записанные через точку. Напишем регулярное выражение, которое позволит это сделать, но перед этим вспомним, что точку нужно экранировать ‒ ставить перед ней `\`, чтобы Python понимал, что мы ищем не один любой символ (`.`), а именно точку как знак препинания. 

In [20]:
re.findall("\d+\.\d+.\d{4}", data) # готово

['20.05.1963', '12.12.2000']

До этого мы работали только с одной функцией `findall`, но в модуле `re` есть и другие полезные функции. Вот наиболее часто используемые из них:

- `re.match()`
- `re.search()`
- `re.findall()`
- `re.split()`
- `re.sub()`
- `re.compile()`

Рассмотрим их подробнее.

### re.match(pattern, string):
Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод `match()` на строке «Сидоров Иван Иванович» с шаблоном «Сидоров», то он завершится успешно. Однако если мы будем искать «Иван», то результат будет отрицательный. Давайте посмотрим на его работу:

In [21]:
result = re.match(r'Сидоров', 'Сидоров Иван Петрович')
print(result)

<_sre.SRE_Match object; span=(0, 7), match='Сидоров'>


Искомая подстрока найдена. Чтобы вывести ее содержимое, используем метод `group()`. (Мы используем «r» перед строкой шаблона, чтобы показать, что это «сырая» строка в Python).

In [22]:
result.group(0)

'Сидоров'

Теперь попробуем найти «Иван» в данной строке. Поскольку строка начинается с фамилии, метод вернет `None`:

In [23]:
result = re.match(r'Иван', 'Сидоров Иван Петрович')
print(result)

None


Также есть методы `start()` и `end()` для того, чтобы узнать начальную и конечную позицию найденной строки.

In [24]:
result = re.match(r'Сидоров', 'Сидоров Иван Петрович')
print(result.start())
print(result.end())

0
7


Эти методы иногда очень полезны для работы со строками.

### re.search(pattern, string):
Этот метод похож на `match()`, но он ищет не только в начале строки. В отличие от предыдущего, `search()` вернет объект, если мы попытаемся найти «Иван».

In [25]:
result = re.search(r'Иван', 'Сидоров Иван Петрович')
result.group(0)

'Иван'

Метод `search()` ищет по всей строке, но возвращает только первое найденное совпадение.

### re.split(pattern, string, [maxsplit=0]):
Этот метод разделяет строку по заданному шаблону.

In [26]:
result = re.split(r' ', 'Сидоров Иван Петрович')
result

['Сидоров', 'Иван', 'Петрович']

В примере мы разделили нашу строку по пробелам. Метод `split()` принимает также аргумент `maxsplit` со значением по умолчанию, равным 0. В данном случае он разделит строку столько раз, сколько возможно, но если указать этот аргумент, то разделение будет произведено не более указанного количества раз. Давайте посмотрим на примеры:

In [27]:
result = re.split(r' ', 'Сидоров Иван Петрович',maxsplit=1)
result

['Сидоров', 'Иван Петрович']

Мы установили параметр `maxsplit` равным 1, и в результате строка была разделена на две части вместо трех.

### re.sub(pattern, repl, string):
Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

In [28]:
result = re.sub(r'[;,]', ' ', 'Сидоров;Иван,Петрович')
result

'Сидоров Иван Петрович'

### Примеры задач с решением

### Задача 1. Извлечь все слова, начинающиеся на гласную

Для начала вернем все слова:

In [29]:
re.findall(r'\w+', 'Олег, съешь же ещё этих мягких французских булок да выпей чаю вместе с Юлей')

['Олег',
 'съешь',
 'же',
 'ещё',
 'этих',
 'мягких',
 'французских',
 'булок',
 'да',
 'выпей',
 'чаю',
 'вместе',
 'с',
 'Юлей']

А теперь — только те, которые начинаются на определенные буквы (используя `[]`):

In [30]:
re.findall(r'[аяоеуюыиэеАЯОЕУЮЫИЭ]\w+', 'Олег, съешь же ещё этих мягких французских булок да выпей чаю вместе с Юлей')

['Олег',
 'ешь',
 'ещё',
 'этих',
 'ягких',
 'анцузских',
 'улок',
 'ыпей',
 'аю',
 'есте',
 'Юлей']

Выше мы видим обрезанные слова «съешь», «булок», «мягких» ит.д.. Для того, чтобы убрать их, используем `\b` для обозначения границы слова:

In [31]:
re.findall(r'\b[аяоеуюыиэеАЯОЕУЮЫИЭ]\w+', 'Олег, съешь же ещё этих мягких французских булок да выпей чаю вместе с Юлей')

['Олег', 'ещё', 'этих', 'Юлей']

Получили искомый результат. Но что если нам нужно получить слова начинающиеся с согласной буквы? Мы, конечно, можем их всех перечислить как гласные, но это не оптимальный способ. Мы можем использовать `^` внутри квадратных скобок для инвертирования группы:

In [32]:
re.findall(r'\b[^аяоеуюыиэеАЯОЕУЮЫИЭ]\w+', 'Олег, съешь же ещё этих мягких французских булок да выпей чаю вместе с Юлей')

['съешь',
 ' же',
 ' ещё',
 ' этих',
 ' мягких',
 ' французских',
 ' булок',
 ' да',
 ' выпей',
 ' чаю',
 ' вместе',
 ' с',
 ' Юлей']

В результат попали слова, «начинающиеся» с пробела. Уберем их, включив пробел в диапазон в квадратных скобках:

In [33]:
re.findall(r'\b[^аяоеуюыиэеАЯОЕУЮЫИЭ ]\w+', 'Олег, съешь же ещё этих мягких французских булок да выпей чаю вместе с Юлей')

['съешь',
 'же',
 'мягких',
 'французских',
 'булок',
 'да',
 'выпей',
 'чаю',
 'вместе']

### Задача 2. Проверить телефонный номер (номер должен быть длиной 10 знаков и начинаться с 8 или 9)

У нас есть список телефонных номеров, и нам нужно проверить их, используя регулярные выражения:

In [34]:
li = ['8999999999', '899999-999', '79999x9999']

for val in li:
    if re.match(r'[7-8]{1}[0-9]{9}', val) and len(val) == 10:
        print('Да')
    else:
        print ('Нет')

Да
Нет
Нет


Для каждого элемента списка `li` мы проверям его по следующему паттерну: сначала стоит либо 8, либо 9 `[8-9]`, строго один раз `{1}`. Далее идет блок из любых цифр `[0-9]` длинной строго в 9 `{9}`. Ну и в конце мы проверяем длину "числа". Если все хорошо, помечаем номер как верный.`[0-9]` можно также заменить на `\d`, а `{1}` можно опустить. Потому что `[]` по умолчанию подразумевают наличие одного элемента из скобок.

In [46]:
li = ['9999999999', '999999-999', '99999x9999']

for val in li:
    if re.match(r'[8-9]\d{9}', val) and len(val) == 10:
        print('Да')
    else:
        print ('Нет')

Да
Нет
Нет


### Задача 3. Извлечь информацию из html-файла

Допустим, нам надо извлечь информацию из html-файла, заключенную между `<td>` и `</td>` (из таблицы), кроме первого столбца с номером. Также будем считать, что html-код содержится в строке.

Пример содержимого html-файла:

In [46]:
test_str = "1NoahEmma2LiamOlivia3MasonSophia4JacobIsabella5WilliamAva6EthanMia7MichaelEmily"

re.findall(r'\d([A-Z][a-z]+)([A-Z][a-z]+)', test_str)

[('Noah', 'Emma'),
 ('Liam', 'Olivia'),
 ('Mason', 'Sophia'),
 ('Jacob', 'Isabella'),
 ('William', 'Ava'),
 ('Ethan', 'Mia'),
 ('Michael', 'Emily')]

Для лучшего понимания строки, распишем ее в другом виде:

1. NoahEmma
2. LiamOlivia
3. MasonSophia
4. ...

Сначала мы ищем число, которое будет у нас означать начало новой строки в таблице (стартовую позицию поиска в строке) `\d`. После этого мы указываем, что имя начинается с заглавной буквы `[A-Z]`. Получим число и первую букву имени.

In [42]:
re.findall(r'\d[A-Z]', test_str)

['1N', '2L', '3M', '4J', '5W', '6E', '7M']

Далее забираем основную часть имени `[a-z]`, там уже строчные буквы. Используем модификатор `+`, чтобы взять все буквы.

In [47]:
re.findall(r'\d[A-Z][a-z]+', test_str)

['1Noah', '2Liam', '3Mason', '4Jacob', '5William', '6Ethan', '7Michael']

Но у нас в начале есть номер и имя с фамилией слеплены вместе. Сначала разберемся с номером: `()` позволяют нам указать, что мы будем выводит `([A-Z][a-z]+)`, число останется вне вывода и будет использоваться только для определения позиции следующего применения паттерна.

In [48]:
re.findall(r'\d([A-Z][a-z]+)', test_str)

['Noah', 'Liam', 'Mason', 'Jacob', 'William', 'Ethan', 'Michael']

Теперь займемся фамилией. По условию задачи мы знаем, что фамилия тоже начинается с заглавной буквы. Поэтому мы укажем второй (аналогичный имени) паттерн и занесем его в `()` для отдельного вывода

In [49]:
re.findall(r'\d([A-Z][a-z]+)([A-Z][a-z]+)', test_str)

[('Noah', 'Emma'),
 ('Liam', 'Olivia'),
 ('Mason', 'Sophia'),
 ('Jacob', 'Isabella'),
 ('William', 'Ava'),
 ('Ethan', 'Mia'),
 ('Michael', 'Emily')]

Как видно по выводу, фамилия теперь отображается как второй элемент первого вывода паттерна.

### Задача 4. Поиск однокорреных слов

Нужно в тексте найти все однокорренные слова. Будем выполнять на данной скороговорке:

Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.

In [50]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)[а-яА-Я]*', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыла', 'белорыла', 'тупорыла', 'рылом', 'изрыла', 'вырыла', 'подрыла']

Корень может быть как в начале слова, так и где-то в середине. Поэтому учтем это. Сначала у нас могут быть буквы `[а-яА-Я]` длиной от 0 до бесконечности `*`

In [59]:
re.findall(r'[а-яА-Я]*', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыла',
 '',
 'свинья',
 '',
 'белорыла',
 '',
 '',
 'тупорыла',
 '',
 '',
 'полдвора',
 '',
 'рылом',
 '',
 'изрыла',
 '',
 '',
 'вырыла',
 '',
 '',
 'подрыла',
 '',
 '']

Нам попались все слова и пробелы, так как `*`. Далее будем искать наш корень. Нам нужно точное совпадение с `рыл` или `Рыл` для случая с началом предложения `(?:рыл|Рыл)`. `|` говорит нам о выборе между `рыл` и `Рыл`, т.е. подойдет любой из них.

Что делает `(?:)` ? Этот символ помогает нам вернуть последовательность полностью. Выше мы уже видели, что, то, что последовательность в скобках соответствует формату вывода. В этом случае `(?:)` это меняет: если последовательность символов подходит ВСЕМУ шаблону, то оно и будет возвращено функцией findal.

Но если мы уберем ?:, то любая последовательность подходящая под внутренний паттерн скобок будет выведена.

In [63]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыл', 'белорыл', 'тупорыл', 'рыл', 'изрыл', 'вырыл', 'подрыл']

Есть начало слова и его корень. Осталось добавить окончание. Все аналогично началу слова:

In [62]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)[а-яА-Я]*', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыла', 'белорыла', 'тупорыла', 'рылом', 'изрыла', 'вырыла', 'подрыла']

## Упражение

Сейчас будем работать с реальными данными (мы анонимизировали их). В одном опросе вопрос про контакнтую информацию не был сформулирован удачно и пользователи туда писали, что хотели, с какими угодно разделителями. Задача: собрать из этой колонки почтовые адреса, чтобы можно было сделать рассылку.

In [1]:
import pandas as pd

In [2]:
contacts = pd.read_csv('https://raw.githubusercontent.com/rogovich/2019_HSE_DPO_Python_for_data_analysis/master/lectures-seminars/11-13-2019_Scraping_RE_EDA/data_contacts.csv', index_col = 0)

In [64]:
contacts

Unnamed: 0,01. Имя,8. Личные контакты
0,Елизавета,
1,Екатерина,mail2@edu.hse.ru
2,Рената,+7915472999 kdfbnd-1998@mail.ru
3,Полина,
4,Кирилл,wev.evwunev@gmail.com
5,Анна,8909915999\nbunevls@yandex.ru
6,Михаил,
7,Юлия,hvbiuqok@mail.ru\n8-(962)-949-99-99
8,Анна,89272169999// mail9@edu.hse.ru
9,Ольга,+79099619999\njeovsv.omwivweb@hotmail.com


Расмотрим работу выражения на следующем примере:
**iawpghnube1206@gmail.com\r\n+79151489999 (telegram @vasiiesal) test.tewst2@subsubdomain.subdomain.domain.ru.!** 

\b - это границы "слова": делает по факту разбивку на "слова", по пробелу, символам каретки, знаки переноса строки и т.д.

Например, \b разобьет на следующие подстроки:
- iawpghnube1206
- @
- gmail
- .
- com
- \
- r
- \
- n
- +
- 79151489999
- (
- telegram
- @
- vasiiesal
- test
- .
- tewst2
- @
- subsubdomain
- .
- subdomain
- .
- domain
- .
- ru
- .!

In [71]:
x = 'iawpghnube1206@gmail.com\r\n+79151489999 (telegram @vasiiesal) test.tewst2@subsubdomain.subdomain.domain.ru.!'
re.findall(r'\b', x) # строки в выводе пустые, потому что не указали какой паттерн искать

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

Далее идет блок в `[ ]`, в котором как раз определяем паттерн, который ищем, в нашем случае это `S`, где `\S` любой непробельный символ. НО это только один символ, попадающий в эту маску. Для того чтобы получить неограниченную длинной последовательность, мы добави + к квадратным скобкам.

Получим такие вот подстроки:
- iawpghnube1206@gmail.com
- 79151489999
- telegram
- vasiiesal)
- test.tewst2!@subsubdomain.subdomain.domain.ru.!

In [72]:
re.findall(r'\b[\S]+', x)

['iawpghnube1206@gmail.com',
 '79151489999',
 'telegram',
 'vasiiesal)',
 'test.tewst2@subsubdomain.subdomain.domain.ru.!']

`@` показывает нам, что далее нужно найти 1 символ `@`. Что даст следующие подстроки:

- iawpghnube1206@
- test.tewst2!@

In [73]:
re.findall(r'\b[\S]+@', x)

['iawpghnube1206@', 'test.tewst2@']

После `@` всегда идет домен. Как говорилось выше он может иметь несколько уровней. Поэтому мы снова ищем последовательность из букв, цифр и спец знаков, причем данная последовательность встречается от 1 и более раз `{1,}`

Получим такие строки:
- iawpghnube1206@gmail.com'
- test.tewst2!@subsubdomain.subdomain.domain.ru.!

In [75]:
re.findall(r'\b[\S]+@[\S]{1,}', x)

['iawpghnube1206@gmail.com', 'test.tewst2@subsubdomain.subdomain.domain.ru.!']

Все выглядит хорошо, кроме того что мы захватили с собой лишние знаки. Однако мы знаем, что почта всегда заканчивается точкой и доменной зоной. Попробуем, это учесть. Укажем, что мы хотим ровно одну точку `\.` и неограниченное количество букв `\w+`.В данном случае мы прямо указываем на то что должны быть только буквы, цифры и спецсимволы не могу быть в доменной зоне. Получим:
- iawpghnube1206@gmail.com
- test.tewst2!@subsubdomain.subdomain.domain.ru

In [76]:
re.findall(r'\b[\w\d\S]+@[\w\d\S]{1,}\.\w+', x)

['iawpghnube1206@gmail.com', 'test.tewst2@subsubdomain.subdomain.domain.ru']

Применем наше выражение ко всем контактным данным.

In [78]:
for i in contacts['8. Личные контакты']:
    mails = re.findall(r'\b[\w\d\S]+@[\w\d\S]{1,}\.\w+', str(i))
    print(mails)

[]
['mail2@edu.hse.ru']
['kdfbnd-1998@mail.ru']
[]
['wev.evwunev@gmail.com']
['bunevls@yandex.ru']
[]
['hvbiuqok@mail.ru']
['mail9@edu.hse.ru']
['jeovsv.omwivweb@hotmail.com']
['ogjgei.owenvejkr@yandex.ru']
['pdfko_588@mail.ru']
['lwegmbek.hse@gmail.com']
['Korbjtein424@gmail.com']
['Lounwbhr@gmail.com']
['ktom.quwioergkbj@gmail.com']
['gog.otmn@mail.ru']
['iawpghnube1206@gmail.com']
['kptkg.oewmibri@inbox.ru', 'Poenb89252778480@yandex.ru']
['mail20@edu.hse.ru']
['ieminbbr98@gmail.com']
['owjvnbmjregs.98@mail.ru']
['zxcvbhjyt@yandex.ru']
['Zotovasofya1999@yandex.ru']
['kgquiduhr@gmail.com']
['mail27@edu.hse.ru', 'tmbtjneiwmecvt@gmail.com']
['invjrnvox@mail.ru']
['mntubnjr@gmail.com', 'mail28@edu.hse.ru']


In [79]:
contacts['email'] = None
contacts['email2'] = None

In [81]:
for i in range(len(contacts)):
    mails = re.findall(r'\b[\w\d\S]+@[\w\d\S]{1,}\.\w+', str(contacts['8. Личные контакты'][i]))
    try:
        contacts['email'][i] = mails[0]
        contacts['email2'][i] = mails[1]
    
    except:
        continue
        

In [82]:
contacts

Unnamed: 0,01. Имя,8. Личные контакты,email,email2
0,Елизавета,,,
1,Екатерина,mail2@edu.hse.ru,mail2@edu.hse.ru,
2,Рената,+7915472999 kdfbnd-1998@mail.ru,kdfbnd-1998@mail.ru,
3,Полина,,,
4,Кирилл,wev.evwunev@gmail.com,wev.evwunev@gmail.com,
5,Анна,8909915999\nbunevls@yandex.ru,bunevls@yandex.ru,
6,Михаил,,,
7,Юлия,hvbiuqok@mail.ru\n8-(962)-949-99-99,hvbiuqok@mail.ru,
8,Анна,89272169999// mail9@edu.hse.ru,mail9@edu.hse.ru,
9,Ольга,+79099619999\njeovsv.omwivweb@hotmail.com,jeovsv.omwivweb@hotmail.com,


### Заключение
Сегодня мы познакомились с функциями из модуля `re`. Дополнительно про них можно почитать в официальной [документации](https://docs.python.org/3/library/re.html). Кроме того, есть очень хороший ресурс [regex101.com](https://regex101.com), который позволяет скопировать нужный текст и в интерактивном режиме следить, какие совпадения находятся при изменении регулярного выражения, введенного в отдельном окне (не забудьте поставить галочку Python в разделе FLAVOR слева).