# Домашнее задание (регулярные выражения)

Здравстуйте, дорогие друзья!
Вашему вниманию предлагается небольшое домашнее задание чтобы закрепить теорeтические основы работы с регулярками и лекционные материал.
Мы отработаем и получим готовые выражения для парсинга самых частых значений.
Для желающих углубленно узнать подоплеку и базу на которой основываются регулярные выражения предлагается к изучению этот небольшой [pdf](https://www.hse.ru/data/2013/02/24/1306622858/cc-1-automata.pdf).
Также рекомендуем очень подробную статью на [хабре](https://habr.com/ru/articles/349860/#Primery_regulyarnyh_vyrazheniy).

# Что требуется для работы с регулярками на python.
Первым делом мы подготовим окружение чтобы закрепить работу с ними на практике.
В python для работы с регулярками есть модуль re. Его нужно просто импортировать:

In [None]:
import re

**Регулярное выражение** – это средство работы с текстом, которое позволяет по заданному «паттерну» искать и редактировать искомое слово/строку в тексте.



##Шаблоны

В регулярных выражениях можно использовать **специальные шаблоны**, которые могут соответствовать каким-либо символам или не соответствовать ни одному символу вообще, но служить проверкой для тестовых данных.

`\n`  Новая строка

`.`	  Любой символ, кроме символа новой строки. Если flags=re.DOTALL - любой символ.

`\s` Любой символ пробела, табуляции или новой строки.

`\S` Любой символ, кроме пробела, табуляции или новой строки.
`\d` 	Любая цифра. Ищет все цифры: арабские, персидские, индийские, и так далее. Не эквивалентен [0-9]

`\D`	Любой символ, кроме цифр.

`\w`	Любая буква, цифра, или _. Шаблон не соответствует выражению [a-zA-Z0-9_]! Буквы используются не только латинские, туда входит множество языков.

`\W`	Любой символ, кроме букв, цифр, и _.

`\b` Промежуток между символом, совпадающим с \w,
и символом, не совпадающим с \w в любом порядке.
`\B` Промежуток между двумя символами,
совпадающими с \w или \W.
`\A`	Начало всего текста

`\Z`	Конец всего текста

`^`	Начало всего текста или начало строчки текста, если flags=re.MULTILINE

`$`	Конец всего текста или конец строчки текста, если flags=re.MULTILINE

## Квантификатор

**Квантификатор**- конструкция, которая позволяет указывать количество повторений.

`{n}`	Ровно n повторений

`{m,n}`	От m до n повторений.

`{m,}`	Не менее m повторений

`{,n}`	Не более n повторений

`?` Ноль или одно повторение.То же, что и {0,1}

`*` Ноль или более повторений. То же, что и {0,}

`+` Одно или более повторений. То же, что и {1,}

## Методы

А вот наиболее популярные **методы**, которые предоставляет модуль:
* `re.match()` - ищет по заданному шаблону в начале строки
* `re.search()` - похож на match(), но ищет не только в начале строки
* `re.findall()` - возвращает список всех найденных совпадений
* `re.split()` - разделяет строку по заданному шаблону
* `re.sub()` - ищет шаблон в строке и заменяет его на указанную подстроку
* `re.compile()` - позволяет преобразовать регулярное выражение в отдельный объект и обращаться теми же методами к нему.

###re.match() - ищет совпадение в начале строки

`re.match(pattern, string)` -  ищет совпадение в начале строки

**Параметры:**

`pattern` - регулярное выражение

`string` - строка, к которой нужно применить регулярное выражение


**Возвращаемое значение:**

Объект Match, если совпадение было найдено

None, если нету совпадений

### re.search() - ищет первое совпадение в строке

`re.search(pattern, string)` -  ищет первое совпадение в строке

**Параметры:**

`pattern` - регулярное выражение

`string` - строка, к которой нужно применить регулярное выражение


**Возвращаемое значение:**

Объект Match, если совпадение было найдено

None, если нету совпадений

### re.split() – разбивает строки по заданному паттерну.

`re.split(pattern, string, maxsplit=0)` – разбивает строки по заданному паттерну.


**Параметры:**
pattern - регулярное выражение

string - строка, к которой нужно применить регулярное выражение

maxsplit - максимальное количество делений строки

**Возвращаемое значение:**
Если совпадения есть - список частей разделённой строки.

[string], если совпадений нет

### re.sub()  – заменяет найденные вхождения на заданные символы

`re.sub(pattern, replace, string, count=0)` – заменяет найденные вхождения на заданные символы и возвращает исправленную строку.

**Параметры:**
pattern - регулярное выражение

replace - то, на что нужно заменить найденное вхождение

string - строка, к которой нужно применить регулярное выражение

count - необязательный аргумент, максимальное число вхождений, подлежащих замене. Если этот параметр опущен или равен нулю, то произойдет замена всех вхождений.


**Возвращаемое значение:**
Если совпадения есть - изменённая строка

string, если совпадений нет

### re.complie() - преобразовывает регулярное выражение в отдельный объект

`re.compile(pattern)` - метод, который позволяет вручную компилировать регулярные выражения, преобразовывает регулярное выражение в отдельный объект и допускает обращаться теми же методами к нему.

**Параметры:**
pattern - регулярное выражение

**Возвращаемое значение:**
Объект Pattern - скомпилированное регулярное выражение

## Объект Match

Объект Match нужен чтобы получать более детальную информацию о найденных совпадениях.


Метод `group()` возвращает найденное совпадение по номеру группы.

Если в метод не передать аргумент, то он по умолчанию выведет нулевую группу.

Можно передать номер нужной группы в метод



##(0.5 балла)

In [None]:
# проверим что у нас все работает.
# в переменную result нужно записать должность человека из его статуса в тг
# пока только подставьте строчку (замените звездочки), без магии регулярок.
result = re.match(r'***', 'MLE based in Los Angeles').group()
assert 'MLE' == result
# мы использовали group чтобы извлечь и содержимое строки
# из метода match который по умолчанию возвращает объект поиска.

Отлично все работает, перейдем к проверке знаний после лекции и изучению механик работы с регулярками на python.

Только что мы воспользовались методом match. Он ищет шаблон в **начале** строки, то есть используя его вы не смогли бы найти город указанный в статусе (без магии регулярок).

В этом дз, вы пишете регулярки, а мы показываем как их можно применять с помощью python.

## Задание 1
(1 балл) Напишите регулярное выражение для извлечения стоимости дома из строки.

In [None]:
cost = re.search(r"***", 'this house costs $33.500').group()
assert '33.500' == cost

## Задание 2
(1 балл) Напишите регулярное выражение для извлечения ip-адреса из строки.

In [None]:
# просто находим адрес, как и в предыдущей ячейке.
ip_pattern = re.compile(r'**') # компилируем паттерн и к нему можно обращаться
# с теми же методами
ip = ip_pattern.findall('hosting ip: 10.20.30.140')[0]
assert '10.20.30.140' == ip

Бонус (1 балл) Напишите регулярное выражение для извлечения только корректного ip-адреса из строки.
Вообще говоря, есть специальная библиотека ipaddress для python чтобы работать с ip адресами, позволяет проверять на корректность, а также является ли адрес локальным или глобальным и пр. Но создавать класс во время скрапинга и парсинга не очень эффективно поэтому также используем регулярки.

In [None]:
ip_correct_pattern = "***"
ip = re.findall(ip_correct_pattern, 'hosting ip: 10.280.30.140 or 192.168.0.1')[0]
assert '192.168.0.1' == ip

## Задание 3
(1 балл) Напишите регулярное выражение для извлечения даты и времени из строки.

In [None]:
# дата и время будет записано в формате YYYY-mm-dd hh:mm:ss
date_time_pattern = '***'
# представим что мы выгрузили строку из бд в csv
date_time = re.findall(date_time_pattern, 'count_users.txt,1220,5,2024-03-31 10:59:59')[0]
assert '2024-03-31 10:59:59' == date_time

## Задание 4
(1.5 балла) Представим что вы пишете сайт. В форме регистрации нужно проверять что пользователь вводит корректный e-mail адрес.

In [None]:
# в качестве проверки нужно выдернуть все корректные e-mail адреса из строки:
mail_boxes = 't@killa.com bestever.mail fly@tothemo.on michael@jordan 2k@rbk.com'
email_pattern = r'***'
valid_emails = re.findall(email_pattern, mail_boxes)
assert set(['t@killa.com', 'fly@tothemo.on', '2k@rbk.com']) == set(valid_emails)

## Задание 5
(2 балла) Продолжим писать сайт. Мы переживаем за учетные записи пользователей и хотим чтобы они были защищены надежным паролем, для этого напишем регулярку которая будет пропускать только сложные пароли содержащие не менее 8 латинских символов, хотя бы 1 в нижнем и 1 в верхнем регистре, не менее 1 цифры и 1 специального символа.

In [None]:
pass_words = ['password123', 'SecurePassword123!', 'abcdefg;', 'MyPa$$w0rd!',
 'qwerty', 'Str0ngP@sswrd', '123456789', 'P@ssw0rd2021!']
password_pattern = r'***'
valid_passwords = [re.findall(password_pattern, pw)[0] for pw in pass_words if re.findall(password_pattern, pw)!=[]]
#print(valid_passwords)
assert set(['SecurePassword123!', 'MyPa$$w0rd!', 'Str0ngP@sswrd', 'P@ssw0rd2021!']) == set(valid_passwords)