# Регулярные выражения (Regular Expressions)

In [1]:
import re

### Задача. Извлечь информацию из html-файла

Допустим, нам надо извлечь информацию из html-файла, заключенную между `<td>` и `</td>` (из таблицы), кроме первого столбца с номером. Также будем считать, что html-код содержится в строке.

Пример содержимого html-файла:

In [23]:
test_str = "1NoahEmma2LiamOlivia3MasonSophia4JacobIsabella5WilliamAva6EthanMia7MichaelEmily"
test_str

'1NoahEmma2LiamOlivia3MasonSophia4JacobIsabella5WilliamAva6EthanMia7MichaelEmily'

Для лучшего понимания строки, распишем ее в другом виде:

1. NoahEmma
2. LiamOlivia
3. MasonSophia
4. ...

Сначала мы ищем число, которое будет у нас означать начало новой строки в таблице (стартовую позицию поиска в строке) `\d`. После этого мы указываем, что имя начинается с заглавной буквы `[A-Z]`. Получим число и первую букву имени.

In [42]:
re.findall(r'\d[A-Z]', test_str)

['1N', '2L', '3M', '4J', '5W', '6E', '7M']

Далее забираем основную часть имени `[a-z]`, там уже строчные буквы. Используем модификатор `+`, чтобы взять все буквы.

In [47]:
re.findall(r'\d[A-Z][a-z]+', test_str)

['1Noah', '2Liam', '3Mason', '4Jacob', '5William', '6Ethan', '7Michael']

Но у нас в начале есть номер и имя с фамилией слеплены вместе. Сначала разберемся с номером: `()` позволяют нам указать, что мы будем выводить `([A-Z][a-z]+)`, число останется вне вывода и будет использоваться только для определения позиции следующего применения паттерна.

In [48]:
re.findall(r'\d([A-Z][a-z]+)', test_str)

['Noah', 'Liam', 'Mason', 'Jacob', 'William', 'Ethan', 'Michael']

Теперь займемся фамилией. По условию задачи мы знаем, что фамилия тоже начинается с заглавной буквы. Поэтому мы укажем второй (аналогичный имени) паттерн и занесем его в `()` для отдельного вывода

In [161]:
re.findall(r'\d([A-Z][a-z]+)([A-Z][a-z]+)', test_str)

[('Noah', 'Emma'),
 ('Liam', 'Olivia'),
 ('Mason', 'Sophia'),
 ('Jacob', 'Isabella'),
 ('William', 'Ava'),
 ('Ethan', 'Mia'),
 ('Michael', 'Emily')]

Как видно по выводу, фамилия теперь отображается как второй элемент первого вывода паттерна.

### Задача 5. Поиск однокоренных слов

Нужно в тексте найти все однокоренные слова. Будем выполнять на данной скороговорке:

Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.

In [109]:
pig = "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла."
pig

'Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.'

Корень может быть как в начале слова, так и где-то в середине. Поэтому учтем это. Сначала у нас могут быть буквы `[а-яА-Я]` длиной от 0 до бесконечности `*`

In [59]:
re.findall(r'[а-яА-Я]*', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыла',
 '',
 'свинья',
 '',
 'белорыла',
 '',
 '',
 'тупорыла',
 '',
 '',
 'полдвора',
 '',
 'рылом',
 '',
 'изрыла',
 '',
 '',
 'вырыла',
 '',
 '',
 'подрыла',
 '',
 '']

Нам попались все слова и пробелы, так как `*`. Далее будем искать наш корень. Нам нужно точное совпадение с `рыл` или `Рыл` для случая с началом предложения `(?:рыл|Рыл)`. `|` говорит нам о выборе между `рыл` и `Рыл`, т.е. подойдет любой из них.

Что делает `(?:)` ? Этот символ помогает нам вернуть последовательность полностью. Выше мы уже видели, что, то, что последовательность в скобках соответствует формату вывода. В этом случае `(?:)` это меняет: если последовательность символов подходит ВСЕМУ шаблону, то оно и будет возвращено функцией findall.

Но если мы уберем ?:, то любая последовательность подходящая под внутренний паттерн скобок будет выведена.

In [25]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыл', 'белорыл', 'тупорыл', 'рыл', 'изрыл', 'вырыл', 'подрыл']

In [29]:
re.findall(r'[а-яА-Я]*(рыл|Рыл)', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыл', 'рыл', 'рыл', 'рыл', 'рыл', 'рыл', 'рыл']

Есть начало слова и его корень. Осталось добавить окончание. Все аналогично началу слова:

In [18]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)[а-яА-Я]*', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыла', 'белорыла', 'тупорыла', 'рылом', 'изрыла', 'вырыла', 'подрыла']

## Группирующие скобки (...)

Если в шаблоне регулярного выражения встречаются скобки (...) без ?:, то они становятся группирующими. В match-объекте по каждой такой группе можно получить ту же информацию, что и по всему шаблону. А именно часть подстроки, которая соответствует (...), а также индексы начала и окончания в исходной строке.

In [50]:
import re 
pattern = r'\s*([А-Яа-яЁё]+)(\d+)\s*' 

string = r'---   Опять45   ---' 

match = re.search(pattern, string) 

print(f'Найдена подстрока >{match[0]}< с позиции {match.start(0)} до {match.end(0)}') 

print(f'Группа букв >{match[1]}< с позиции {match.start(1)} до {match.end(1)}') 
print(f'Группа цифр >{match[2]}< с позиции {match.start(2)} до {match.end(2)}') 
### 
# -> Найдена подстрока >   Опять45   < с позиции 3 до 16 
# -> Группа букв >Опять< с позиции 6 до 11 
# -> Группа цифр >45< с позиции 11 до 13 

Найдена подстрока >   Опять45   < с позиции 3 до 16
Группа букв >Опять< с позиции 6 до 11
Группа цифр >45< с позиции 11 до 13


In [52]:
match.group(2)

'45'

## Заглядывание вперед и назад или позиционные шаблоны

Следующие шаблоны применяются в основном в тех случаях, когда нужно уточнить, что должно идти непосредственно перед или после шаблона, но при этом 
не включать найденное в match-объект.

* `(?=...)` lookahead assertion, соответствует каждой позиции, сразу после которой начинается соответствие шаблону 

* `(?!...)` negative lookahead assertion, соответствует каждой позиции, сразу после которой НЕ может начинаться шаблон
* `(?<=...)` positive lookbehind assertion, соответствует каждой позиции, которой может заканчиваться шаблон. Длина шаблона должна быть фиксированной, то есть abc и a|b — это ОК, а a* и a{2,3} — нет.

* `(?<!...)` negative lookbehind assertion, соответствует каждой позиции, которой НЕ может заканчиваться шаблон

In [58]:
string = 'КарлIV, КарлIX, КарлV, КарлVI, КарлVII, КарлVIII,ЛюдовикIX, \
ЛюдовикVI, ЛюдовикVII, ЛюдовикVIII, ЛюдовикX, ..., ЛюдовикXVIII, ФилиппI, \
ФилиппII, ФилиппIII, ФилиппIV, ФилиппV, ФилиппVI'

# Людовик, после которого первые два символа == VI
re.findall(r'Людовик(?=VI)\w{2,4}',string)

['ЛюдовикVI', 'ЛюдовикVII', 'ЛюдовикVIII']

In [59]:
string = 'КарлIV, КарлIX, КарлV, КарлVI, КарлVII, КарлVIII,ЛюдовикIX, \
ЛюдовикVI, ЛюдовикVII, ЛюдовикVIII, ЛюдовикX, ..., ЛюдовикXVIII, ФилиппI, \
ФилиппII, ФилиппIII, ФилиппIV, ФилиппV, ФилиппVI'
# Людовик, после которого первые два символа != VI

re.findall(r'Людовик(?!VI)\w{1,4}',string)

['ЛюдовикIX', 'ЛюдовикX', 'ЛюдовикXVII']

In [105]:
string = 'КарлIV, КарлIX, КарлV, КарлVI, КарлVII, КарлVIII,ЛюдовикIX, \
ЛюдовикVI, ЛюдовикVII, ЛюдовикVIII, ЛюдовикX, ..., ЛюдовикXVIII, ФилиппI, \
ФилиппII, ФилиппIII, ФилиппIV, ФилиппV, ФилиппVI'
# цифра, начинающаяся на VI, только если перед ней стоит Людовик

re.findall(r'\w*(?<=Людови.)VI\w{,2}',string)

['ЛюдовигVI', 'ЛюдовикVII', 'ЛюдовикVIII']

In [104]:
import re
string = 'КарлIV, КарлIX, КарлV, КарлVI, КарлVII, КарлVIII,ЛюдовигIX, \
ЛюдовикVI, ЛюдовикVII, ЛюдовикVIII, ЛюдовикX, ..., ЛюдовикXVIII, ФилиппI, \
ФилиппII, ФилиппIII, ФилиппIV, ФилиппV, ФилиппVI'

# цифра, начинающаяся на VI, только если перед ней НЕ стоит Людовик
re.findall(r'[а-яА-Я]+(?<!Людови.)VI\w{,2}',string)

['КарлVI', 'КарлVII', 'КарлVIII', 'ФилиппVI']

## Упражения

### 1. Достать из строки имена-фамилии на русском языке

In [104]:
users = 'Василий Зайцев, Erwin König, Людмила Павличенко, Josef Allerberger, Matthäus Hetzenauer, Александр Башлачёв'

In [21]:
# ваш код

### 2. Сопоставление даты

Предположим, у нас есть строка, содержащая дату в формате `dd/mm/yyyy`. Мы хотим извлечь дату из строки и проверить, является ли она действительной (вдруг там 95/32/2930).

Напишите функцию `extract_date(text)`, которая принимает на вход строку `text` и возвращает строку, содержащую извлеченную дату в формате `yyyy-mm-dd`, если дата действительна, или пустую строку, если дата не найдена или не действительна.


Используйте функцию `re.search()` для поиска шаблона, который соответствует дате в строке.<br>
Используйте функцию `datetime.datetime.strptime()` для преобразования извлеченной строки даты в объект datetime.<br>
Используйте функцию `datetime.datetime.strftime()`, чтобы преобразовать объект даты обратно в строку в нужном формате.

In [71]:
# ваш код

In [70]:
text = "Сегодняшняя дата: 05/06/2023"
extract_date(text)

'2023-06-05'

### 3. Извлечение URL-адресов

Предположим, у нас есть строка, содержащая один или несколько URL-адресов. Мы хотим извлечь URL-адреса из строки и сохранить их в списке.

Напишите функцию `extract_urls(text)`, которая принимает на вход строку `text` и возвращает список строк, содержащих извлеченные URL.

Используйте функцию `re.findall()` для поиска всех вхождений шаблона, который соответствует URL в строке.<br>
Используйте regex-шаблон, который соответствует URL в различных форматах, например http://example.com, https://www.example.com и www.example.com.

In [78]:
# ваш код

In [77]:
text = "Посетите мой веб-сайт: http://www.example.com, а также https://google.com и www.learnonline.hse.ru"
extract_urls(text)

['http://www.example.com,', 'http://google.com', 'www.learnonline.hse.ru']

30 упражнений на regex на [kaggle](https://www.kaggle.com/code/albeffe/regex-exercises-solutions)