# Теоретический минимум по теме "Регулярные выражения"

## Что такое регулярные выражения (RegEx)?
Регулярные выражения — это мощный инструмент для поиска и обработки текстовых данных, позволяющий описывать шаблоны строк с помощью специальных символов.

## Основные символы и конструкции
| Символ  | Значение | Пример |
|---------|---------|--------|
| `.`     | Любой одиночный символ (кроме `\n`) | `"c.t"` → `cat`, `cut`, `c8t` |
| `^`     | Начало строки | `"^Hello"` → `Hello world`, но не `A Hello world` |
| `$`     | Конец строки | `"end$"` → `This is the end` |
| `\d`    | Любая цифра `[0-9]` | `"\d{3}"` → `123`, `456` |
| `\w`    | Любая буква/цифра/подчёркивание `[a-zA-Z0-9_]` | `"a\w"` → `a1`, `a_` |
| `\s`    | Пробельный символ (пробел, табуляция, новая строка) | `"hello\sworld"` → `hello world` |
| `\b`    | Граница слова | `"\bcat\b"` → `cat`, но не `cats` |
| `*`     | Повторение от 0 до ∞ раз | `"bo*"` → `b`, `bo`, `boo`, `booo` |
| `+`     | Повторение от 1 до ∞ раз | `"bo+"` → `bo`, `boo`, но не `b` |
| `?`     | Повторение 0 или 1 раз | `"colou?r"` → `color`, `colour` |
| `{n,m}` | От n до m повторений | `"a{2,4}"` → `aa`, `aaa`, `aaaa` |
| `|`     | Альтернатива (ИЛИ) | `"cat|dog"` → `cat`, `dog` |
| `()`    | Группировка | `"(ab)+"` → `ab`, `abab` |
| `[]`    | Символьный класс | `"[aeiou]"` → `a`, `e`, `i`, `o`, `u` |

## Функции модуля re в Python
Чтобы работать с регулярными выражениями в Python, используется модуль `re`:


`import re`

| Функция | Описание | Пример |
|---------|---------|--------|
| `re.match(pattern, string)` | Проверяет, начинается ли строка с шаблона | `re.match(r"\d+", "123abc")` → `123` |
| `re.search(pattern, string)` | Ищет первое совпадение в строке | `re.search(r"\d+", "abc 123 def")` → `123` |
| `re.findall(pattern, string)` | Находит все совпадения | `re.findall(r"\d+", "abc 123 def 456")` → `['123', '456']` |
| `re.sub(pattern, repl, string)` | Заменяет совпадения на другой текст | `re.sub(r"\d+", "X", "abc 123 def 456")` → `"abc X def X"` |


---
# Материалы
https://vk.com/video-225894706_456239057

https://vk.com/video-174125332_456239102

https://docs.python.org/3/library/re.html

---

# Задачи по теме "Регулярные выражения"

## 1. Найдите все email-адреса
Напишите регулярное выражение, которое найдёт все email-адреса в тексте. Email-адрес должен соответствовать шаблону: буквы, цифры, символы `.` и `_` перед `@`, затем доменное имя.

**Пример входных данных:**
```
text = "Контакты: support@mail.com, user_123@gmail.com, invalid-email@com"
```

**Ожидаемый результат:**
```
['support@mail.com', 'user_123@gmail.com']
```

---

In [140]:
import re

def emails(text):
    email_r = r'\b[0-9a-zA-Z._-]+@[0-9a-zA-Z]+\.[A-Za-z]+\b'
    return re.findall(email_r, text)

text = "Контакты: support@mail.com, user_123@gmail.com, invalid-email@com"
es = emails(text)
print(es)

['support@mail.com', 'user_123@gmail.com']


## 2. Выделите номера телефонов
Напишите регулярное выражение, которое извлечёт номера телефонов в формате `+7 (999) 123-45-67` или `+79991234567`.

**Пример входных данных:**
```
text = "Мои номера: +7 (999) 123-45-67, +79161234567, 123456."
```

**Ожидаемый результат:**
```
['+7 (999) 123-45-67', '+79161234567']
```

---

In [29]:
text = "Мои номера: +7 (999) 123-45-67, +79161234567, 123456."

print(re.findall(r'\+7\s?\(?\d{3}\)?\s?-?\d{3}-?\d{2}-?\d{2}', text))

['+7 (999) 123-45-67', '+79161234567']


In [139]:
def phone_numbers(text):
    phone_num_r = r'\+7\s?\(?\d{3}\)?\s?-?\d{3}-?\d{2}-?\d{2}'
    return re.findall(phone_num_r, text)

text = "Мои номера: +7 (999) 123-45-67, +79161234567, 123456."
ps = phone_numbers(text)
print(ps)

['+7 (999) 123-45-67', '+79161234567']


## 3. Найдите все даты
Напишите регулярное выражение для поиска дат в формате `DD.MM.YYYY`.

**Пример входных данных:**
```
text = "События: 12.05.2023, 01.01.2020, 31-12-2019, 40.13.2022."
```

**Ожидаемый результат:**
```
['12.05.2023', '01.01.2020']
```

---

In [144]:
def dates(text):
    # date = r'\b(0[1-3]|1[0-9]|2[0-1]|3[0-9])\.(0[1-9]|1[0-2])\.(\d{4})\b'
    date = r'[0-3][0-9]\.[0-1][0-9]\.[0-2][0-9]{3}'
    return re.findall(date, text)

text = "События: 12.05.2023, 01.01.2020, 31-12-2019, 40.13.2022."
ds = dates(text)
print(ds)

['12.05.2023', '01.01.2020']


## 4. Проверка пароля
Напишите регулярное выражение, которое проверяет, что пароль соответствует следующим требованиям:
- Длина от 8 до 16 символов
- Содержит хотя бы одну цифру
- Содержит хотя бы одну заглавную букву
- Содержит хотя бы одну строчную букву

**Пример входных данных:**
```
passwords = ["Password1", "weak", "STRONGPASS123", "P@ssword"]
```

**Ожидаемый результат:**
```
['Password1']
```

---

In [138]:
def check_password(password):
    password_r = r'(?=.*[0-9])(?=.*[a-z])(?=.*[A-Z])[A-Za-z0-9]{8,16}'
    return re.match(password_r, password) is not None

passwords = ["Password1", "weak", "STRONGPASS123", "P@ssword"]
valid_passwords = [password for password in passwords if check_password(password)]
print(valid_passwords)

['Password1']


## 5. Удалите все HTML-теги
Напишите регулярное выражение, которое удалит все HTML-теги из строки.

**Пример входных данных:**
```
html = "<p>Привет, <b>мир</b>!</p>"
```

**Ожидаемый результат:**
```
'Привет, мир!'
```

In [137]:
def delete_html(html):
    tag_r = r'<[^>]*>'
    return re.sub(tag_r, '', html)

html = "<p>Привет, <b>мир</b>!</p>"
clean_text = delete_html(html)
print(clean_text)

Привет, мир!
