# Python для анализа данных

## Регулярные выражения (Regular Expressions)

На основе блокнота *Аллы Тамбовцевой, НИУ ВШЭ*

Дополнения 1: *Татьяна Рогович, НИУ ВШЭ*

Дополнения 2: *Ян Пиле, Яндекс.Маркет*

In [4]:
import re

### Задача 3. Проверить номера автомобилей 

В России применяются регистрационные знаки нескольких видов. 
Общего в них то, что они состоят из цифр и букв. Причём используются только 12 букв кириллицы,
имеющие графические аналоги в латинском алфавите — А, В, Е, К, М, Н, О, Р, С, Т, У и Х.

У частных легковых автомобилей номера — это буква, три цифры, две буквы, затем две или три цифры с кодом региона. У такси — две буквы, три цифры, затем две или три цифры с кодом региона. Есть также и другие виды, но в этой задаче они не понадобятся.

Создайте программу, которая будет проверять номер автомобиля и выдавать тип автомобиля: 'Private' для частных автомобилей, 'Taxi' для такси, 'Fail' для всех остальных.

In [1]:
numbers = ['С227НА777','КУ22777','Т22В7477','М227К19У9','С227НА8777']
# правильные ответы
Answers = ['Private','Taxi','Fail','Fail','Fail']

In [3]:
# ваш код

### Задача 4. Извлечь информацию из html-файла

Допустим, нам надо извлечь информацию из html-файла, заключенную между `<td>` и `</td>` (из таблицы), кроме первого столбца с номером. Также будем считать, что html-код содержится в строке.

Пример содержимого html-файла:

In [23]:
test_str = "1NoahEmma2LiamOlivia3MasonSophia4JacobIsabella5WilliamAva6EthanMia7MichaelEmily"
test_str

'1NoahEmma2LiamOlivia3MasonSophia4JacobIsabella5WilliamAva6EthanMia7MichaelEmily'

Для лучшего понимания строки, распишем ее в другом виде:

1. NoahEmma
2. LiamOlivia
3. MasonSophia
4. ...

Сначала мы ищем число, которое будет у нас означать начало новой строки в таблице (стартовую позицию поиска в строке) `\d`. После этого мы указываем, что имя начинается с заглавной буквы `[A-Z]`. Получим число и первую букву имени.

In [42]:
re.findall(r'\d[A-Z]', test_str)

['1N', '2L', '3M', '4J', '5W', '6E', '7M']

Далее забираем основную часть имени `[a-z]`, там уже строчные буквы. Используем модификатор `+`, чтобы взять все буквы.

In [47]:
re.findall(r'\d[A-Z][a-z]+', test_str)

['1Noah', '2Liam', '3Mason', '4Jacob', '5William', '6Ethan', '7Michael']

Но у нас в начале есть номер и имя с фамилией слеплены вместе. Сначала разберемся с номером: `()` позволяют нам указать, что мы будем выводить `([A-Z][a-z]+)`, число останется вне вывода и будет использоваться только для определения позиции следующего применения паттерна.

In [48]:
re.findall(r'\d([A-Z][a-z]+)', test_str)

['Noah', 'Liam', 'Mason', 'Jacob', 'William', 'Ethan', 'Michael']

Теперь займемся фамилией. По условию задачи мы знаем, что фамилия тоже начинается с заглавной буквы. Поэтому мы укажем второй (аналогичный имени) паттерн и занесем его в `()` для отдельного вывода

In [161]:
re.findall(r'\d([A-Z][a-z]+)([A-Z][a-z]+)', test_str)

[('Noah', 'Emma'),
 ('Liam', 'Olivia'),
 ('Mason', 'Sophia'),
 ('Jacob', 'Isabella'),
 ('William', 'Ava'),
 ('Ethan', 'Mia'),
 ('Michael', 'Emily')]

Как видно по выводу, фамилия теперь отображается как второй элемент первого вывода паттерна.

### Задача 5. Поиск однокоренных слов

Нужно в тексте найти все однокоренные слова. Будем выполнять на данной скороговорке:

Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.

In [109]:
pig = "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла."
pig

'Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.'

Корень может быть как в начале слова, так и где-то в середине. Поэтому учтем это. Сначала у нас могут быть буквы `[а-яА-Я]` длиной от 0 до бесконечности `*`

In [59]:
re.findall(r'[а-яА-Я]*', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыла',
 '',
 'свинья',
 '',
 'белорыла',
 '',
 '',
 'тупорыла',
 '',
 '',
 'полдвора',
 '',
 'рылом',
 '',
 'изрыла',
 '',
 '',
 'вырыла',
 '',
 '',
 'подрыла',
 '',
 '']

Нам попались все слова и пробелы, так как `*`. Далее будем искать наш корень. Нам нужно точное совпадение с `рыл` или `Рыл` для случая с началом предложения `(?:рыл|Рыл)`. `|` говорит нам о выборе между `рыл` и `Рыл`, т.е. подойдет любой из них.

Что делает `(?:)` ? Этот символ помогает нам вернуть последовательность полностью. Выше мы уже видели, что, то, что последовательность в скобках соответствует формату вывода. В этом случае `(?:)` это меняет: если последовательность символов подходит ВСЕМУ шаблону, то оно и будет возвращено функцией findall.

Но если мы уберем ?:, то любая последовательность подходящая под внутренний паттерн скобок будет выведена.

In [25]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыл', 'белорыл', 'тупорыл', 'рыл', 'изрыл', 'вырыл', 'подрыл']

In [29]:
re.findall(r'[а-яА-Я]*(рыл|Рыл)', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыл', 'рыл', 'рыл', 'рыл', 'рыл', 'рыл', 'рыл']

Есть начало слова и его корень. Осталось добавить окончание. Все аналогично началу слова:

In [18]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)[а-яА-Я]*', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыла', 'белорыла', 'тупорыла', 'рылом', 'изрыла', 'вырыла', 'подрыла']

### Задача 6. Проверка пароля

На сайте нужно вывести сообщение, если пароль не валиден. \
Обычно пароль должен содержать не менее 8 символов, не менее одной заглавной буквы, не менее одной строчной буквы и, опционально, символ

In [5]:
passwordText = 'fbbE4gfhdsjk'

charRegex = re.compile(r'(\w{8,})')  # Не менее 8 символов (тут не считаются знаки препинания)
lowerRegex = re.compile(r'[a-z]+') # Не менее 1 маленькой буквы
upperRegex = re.compile(r'[A-Z]+')# Не менее 1 большой буквы
digitRegex = re.compile(r'[0-9]+') # Не менее 1 цифры

''' Сейчас мы их проверим...'''
if charRegex.findall(passwordText) == []:  
    print('Пароль должен содержать 8 символов')
elif lowerRegex.findall(passwordText)== []: 
    print('Пароль должен содержать хотя бы одну маленькую букву')
elif upperRegex.findall(passwordText)==[]: 
    print('Пароль должен содержать хотя бы одну большую букву')
elif digitRegex.findall(passwordText)==[]: 
    print('Пароль должен содержать хотя бы одну цифру')
else:  
    print('Ваш пароль надежен. Хорошая работа!')

Ваш пароль надежен. Хорошая работа!


## Группирующие скобки (...)

Если в шаблоне регулярного выражения встречаются скобки (...) без ?:, то они становятся группирующими. В match-объекте по каждой такой группе можно получить ту же информацию, что и по всему шаблону. А именно часть подстроки, которая соответствует (...), а также индексы начала и окончания в исходной строке.

In [50]:
import re 
pattern = r'\s*([А-Яа-яЁё]+)(\d+)\s*' 

string = r'---   Опять45   ---' 

match = re.search(pattern, string) 

print(f'Найдена подстрока >{match[0]}< с позиции {match.start(0)} до {match.end(0)}') 

print(f'Группа букв >{match[1]}< с позиции {match.start(1)} до {match.end(1)}') 
print(f'Группа цифр >{match[2]}< с позиции {match.start(2)} до {match.end(2)}') 
### 
# -> Найдена подстрока >   Опять45   < с позиции 3 до 16 
# -> Группа букв >Опять< с позиции 6 до 11 
# -> Группа цифр >45< с позиции 11 до 13 

Найдена подстрока >   Опять45   < с позиции 3 до 16
Группа букв >Опять< с позиции 6 до 11
Группа цифр >45< с позиции 11 до 13


In [52]:
match.group(2)

'45'

## Заглядывание вперед и назад или позиционные шаблоны

Следующие шаблоны применяются в основном в тех случаях, когда нужно уточнить, что должно идти непосредственно перед или после шаблона, но при этом 
не включать найденное в match-объект.

* `(?=...)` lookahead assertion, соответствует каждой позиции, сразу после которой начинается соответствие шаблону 

* `(?!...)` negative lookahead assertion, соответствует каждой позиции, сразу после которой НЕ может начинаться шаблон
* `(?<=...)` positive lookbehind assertion, соответствует каждой позиции, которой может заканчиваться шаблон. Длина шаблона должна быть фиксированной, то есть abc и a|b — это ОК, а a* и a{2,3} — нет.

* `(?<!...)` negative lookbehind assertion, соответствует каждой позиции, которой НЕ может заканчиваться шаблон

In [58]:
string = 'КарлIV, КарлIX, КарлV, КарлVI, КарлVII, КарлVIII,ЛюдовикIX, \
ЛюдовикVI, ЛюдовикVII, ЛюдовикVIII, ЛюдовикX, ..., ЛюдовикXVIII, ФилиппI, \
ФилиппII, ФилиппIII, ФилиппIV, ФилиппV, ФилиппVI'

# Людовик, после которого первые два символа == VI
re.findall(r'Людовик(?=VI)\w{2,4}',string)

['ЛюдовикVI', 'ЛюдовикVII', 'ЛюдовикVIII']

In [59]:
string = 'КарлIV, КарлIX, КарлV, КарлVI, КарлVII, КарлVIII,ЛюдовикIX, \
ЛюдовикVI, ЛюдовикVII, ЛюдовикVIII, ЛюдовикX, ..., ЛюдовикXVIII, ФилиппI, \
ФилиппII, ФилиппIII, ФилиппIV, ФилиппV, ФилиппVI'
# Людовик, после которого первые два символа != VI

re.findall(r'Людовик(?!VI)\w{1,4}',string)

['ЛюдовикIX', 'ЛюдовикX', 'ЛюдовикXVII']

In [105]:
string = 'КарлIV, КарлIX, КарлV, КарлVI, КарлVII, КарлVIII,ЛюдовикIX, \
ЛюдовикVI, ЛюдовикVII, ЛюдовикVIII, ЛюдовикX, ..., ЛюдовикXVIII, ФилиппI, \
ФилиппII, ФилиппIII, ФилиппIV, ФилиппV, ФилиппVI'
# цифра, начинающаяся на VI, только если перед ней стоит Людовик

re.findall(r'\w*(?<=Людови.)VI\w{,2}',string)

['ЛюдовигVI', 'ЛюдовикVII', 'ЛюдовикVIII']

In [104]:
import re
string = 'КарлIV, КарлIX, КарлV, КарлVI, КарлVII, КарлVIII,ЛюдовигIX, \
ЛюдовикVI, ЛюдовикVII, ЛюдовикVIII, ЛюдовикX, ..., ЛюдовикXVIII, ФилиппI, \
ФилиппII, ФилиппIII, ФилиппIV, ФилиппV, ФилиппVI'

# цифра, начинающаяся на VI, только если перед ней НЕ стоит Людовик
re.findall(r'[а-яА-Я]+(?<!Людови.)VI\w{,2}',string)

['КарлVI', 'КарлVII', 'КарлVIII', 'ФилиппVI']

## Упражения

### 1. Достать из строки имена-фамилии на русском языке

In [104]:
users = 'Василий Зайцев, Erwin König, Людмила Павличенко, Josef Allerberger, Matthäus Hetzenauer, Александр Башлачёв'

In [21]:
# ваш код

### 2. Выделить из строки email'ы 

'iawpghnube1206@gmail.com\r\n+79151489999 (telegram @vasiiesal) test.tewst2@subsubdomain.subdomain.domain.ru.!'

In [90]:
x = 'iawpgh-----nube1206@gmail.com\r\n+79151489999 (telegram @vasiiesal) test.tewst2@subsubdomain.subdomain.domain.ru.!'
re.findall(r'\b', x) # строки в выводе пустые, потому что не указали какой паттерн искать

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

Далее идет блок в `[ ]`, в котором как раз определяем паттерн, который ищем, в нашем случае это `S`, где `\S` любой непробельный символ. НО это только один символ, попадающий в эту маску. Для того чтобы получить неограниченную длинной последовательность, мы добавим + к квадратным скобкам.

Получим такие вот подстроки:
- iawpghnube1206@gmail.com
- 79151489999
- telegram
- vasiiesal)
- test.tewst2!@subsubdomain.subdomain.domain.ru.!

In [91]:
re.findall(r'\b[\S]+', x)

['iawpgh-----nube1206@gmail.com',
 '79151489999',
 'telegram',
 'vasiiesal)',
 'test.tewst2@subsubdomain.subdomain.domain.ru.!']

`@` показывает нам, что далее нужно найти 1 символ `@`. Что даст следующие подстроки:

- iawpghnube1206@
- test.tewst2!@

In [92]:
re.findall(r'\b[\S]+@', x)

['iawpgh-----nube1206@', 'test.tewst2@']

После `@` всегда идет домен. Как говорилось выше он может иметь несколько уровней. Поэтому мы снова ищем последовательность из букв, цифр и спец знаков, причем данная последовательность встречается от 1 и более раз `{1,}`

Получим такие строки:
- iawpghnube1206@gmail.com'
- test.tewst2!@subsubdomain.subdomain.domain.ru.!

In [93]:
re.findall(r'\b[\S]+@[\S]{1,}', x)

['iawpgh-----nube1206@gmail.com',
 'test.tewst2@subsubdomain.subdomain.domain.ru.!']

Все выглядит хорошо, кроме того что мы захватили с собой лишние знаки. Однако мы знаем, что почта всегда заканчивается точкой и доменной зоной. Попробуем, это учесть. Укажем, что мы хотим ровно одну точку `\.` и неограниченное количество букв `\w+`.В данном случае мы прямо указываем на то что должны быть только буквы, цифры и спецсимволы не могу быть в доменной зоне. Получим:
- iawpghnube1206@gmail.com
- test.tewst2!@subsubdomain.subdomain.domain.ru

In [94]:
re.findall(r'\b[\w\d\S]+@[\w\d\S]{1,}\.\w+', x)

['iawpgh-----nube1206@gmail.com',
 'test.tewst2@subsubdomain.subdomain.domain.ru']

### Заключение
Сегодня мы познакомились с функциями из модуля `re`. Дополнительно про них можно почитать в официальной [документации](https://docs.python.org/3/library/re.html). Кроме того, есть очень хороший ресурс [regex101.com](https://regex101.com), который позволяет скопировать нужный текст и в интерактивном режиме следить, какие совпадения находятся при изменении регулярного выражения, введенного в отдельном окне (не забудьте поставить галочку Python в разделе FLAVOR слева).

## Самостоятельная работа

### Сопоставление даты

Предположим, у нас есть строка, содержащая дату в формате `dd/mm/yyyy`. Мы хотим извлечь дату из строки и проверить, является ли она действительной (вдруг там 95/32/2930).

Напишите функцию `extract_date(text)`, которая принимает на вход строку `text` и возвращает строку, содержащую извлеченную дату в формате `yyyy-mm-dd`, если дата действительна, или пустую строку, если дата не найдена или не действительна.


Используйте функцию `re.search()` для поиска шаблона, который соответствует дате в строке.<br>
Используйте функцию `datetime.datetime.strptime()` для преобразования извлеченной строки даты в объект datetime.<br>
Используйте функцию `datetime.datetime.strftime()`, чтобы преобразовать объект даты обратно в строку в нужном формате.

In [71]:
# ваш код

In [70]:
text = "Сегодняшняя дата: 05/06/2023"
extract_date(text)

'2023-06-05'

### Извлечение URL-адресов

Предположим, у нас есть строка, содержащая один или несколько URL-адресов. Мы хотим извлечь URL-адреса из строки и сохранить их в списке.

Напишите функцию `extract_urls(text)`, которая принимает на вход строку `text` и возвращает список строк, содержащих извлеченные URL.

Используйте функцию `re.findall()` для поиска всех вхождений шаблона, который соответствует URL в строке.<br>
Используйте regex-шаблон, который соответствует URL в различных форматах, например http://example.com, https://www.example.com и www.example.com.

In [78]:
# ваш код

In [77]:
text = "Посетите мой веб-сайт: http://www.example.com, а также https://google.com и www.learnonline.hse.ru"
extract_urls(text)

['http://www.example.com,', 'http://google.com', 'www.learnonline.hse.ru']

30 упражнений на regex на [kaggle](https://www.kaggle.com/code/albeffe/regex-exercises-solutions)