# Лабораторная работа №5 - Регулярные выражения

| Категория           | Синтаксис       | Пояснение                                                  |                               |
| ------------------- | --------------- | ---------------------------------------------------------- | ----------------------------- |
| **Ядро**            | `.`             | Один любой символ, кроме `\n`                              |                               |
|                     | `^`             | Начало строки                                              |                               |
|                     | `$`             | Конец строки                                               |                               |
|                     | `(...)`         | Группа символов, доступ к содержимому по индексу или имени |                               |
| **Повторы**         | `*`             | 0 или более повторов (жадно)                               |                               |
|                     | `+`             | 1 или более повторов (жадно)                               |                               |
|                     | `?`             | 0 или 1 повтор                                             |                               |
|                     | `{n}`           | Ровно `n` повторов                                         |                               |
|                     | `{n,}`          | От `n` до бесконечности                                    |                               |
|                     | `{n,m}`         | От `n` до `m` повторов                                     |                               |
| **Классы символов** | `\d`            | Цифра (`[0-9]`)                                            |                               |
|                     | `\D`            | Не цифра (`[^0-9]`)                                        |                               |
|                     | `\w`            | Буква, цифра или `_` (`[a-zA-Z0-9_]`)                      |                               |
|                     | `\W`            | Всё, кроме `\w`                                            |                               |
|                     | `\s`            | Пробельный символ (`[ \t\n\r\f\v]`)                        |                               |
|                     | `\S`            | Непробельный символ                                        |                               |
| **Наборы**          | `[abc]`         | Один из `a`, `b`, `c`                                      |                               |
|                     | `[^abc]`        | Любой символ, кроме `a`, `b`, `c`                          |                               |
|                     | `[a-z]`         | Любая строчная латинская буква                             |                               |
| **Управляющие**     | `(?P<name>...)` | Именованная группа                                         |                               |
|                     | `(?=...)`       | Положительная проверка (lookahead)                         |                               |
|                     | `(?!...)`       | Отрицательная проверка (lookahead)                         |                               |
|                     | `(?<=...)`      | Положительная проверка назад (lookbehind)                  |                               |
|                     | `(?<!...)`      | Отрицательная проверка назад (lookbehind)                  |                               |
|                     | `(?:...)`       | Группа без сохранения (non-capturing group)                |                               |


| Функция          | Назначение                                                           |
| ---------------- | -------------------------------------------------------------------- |
| `re.search()`    | Ищет первое вхождение шаблона в строке                               |
| `re.match()`     | Проверяет соответствие **в начальной позиции** строки                |
| `re.fullmatch()` | Проверяет, соответствует ли **вся строка** шаблону                   |
| `re.findall()`   | Возвращает **все** совпадения в виде списка                          |
| `re.finditer()`  | Итератор по объектам совпадений                                      |
| `re.sub()`       | Замена всех совпадений                                               |
| `re.split()`     | Разбивает строку по шаблону                                          |
| `re.compile()`   | Компилирует шаблон в объект (удобно при множественном использовании) |


## Задание 1: Проверка телефонного номера

Надо проверить, что строка — это корректный российский номер телефона, соответствующий одному из следующих форматов:

+7(XXX)XXX-XX-XX  
+7 XXX XXX XX XX  
+7-XXX-XXX-XX-XX  
8(XXX)XXX-XX-XX  
8 XXX XXX XX XX  
8-XXX-XXX-XX-XX

Требования к формату:

Номер должен начинаться с +7 или 8  
XXX — код оператора/города, три цифры, первая из которых не ноль  
Разделители между группами цифр должны быть единообразны: только пробелы, только тире, или скобки для кода  
Смешивание разных разделителей не допускается  
В номере не должно быть букв, точек, слэшей и других символов  


Напишите регулярное выражение, которое строго проверяет строку на соответствие вышеуказанным требованиям, продемонстрируй работу преподавателю.


In [None]:
import re

# Регулярное выражение для проверки номера
pattern = re.compile(r'^(?:\+7|8)(?:\([1-9]\d{2}\)\d{3}-\d{2}-\d{2}|\s[1-9]\d{2}\s\d{3}\s\d{2}\s\d{2}|-[1-9]\d{2}-\d{3}-\d{2}-\d{2})$')

# Список номеров для проверки
test_numbers = [
    "+7(912)345-67-89",  # корректный
    "8 912 345 67 89",   # корректный
    "+7-912-345-67-89",  # корректный
    "+7 (912) 345-67-89",# некорректный: пробелы и скобки
    "8-912 345-67-89",   # некорректный: тире и пробелы
    "+7(012)345-67-89",  # некорректный: код начинается с 0
    "+7(912)345.67.89",  # некорректный: точки
    "8(999)000-00-00",   # корректный
]

# Проверка
for number in test_numbers:
    if pattern.fullmatch(number):
        print(f"Корректный номер: {number}")
    else:
        print(f"Некорректный номер: {number}")


Корректный номер: +7(912)345-67-89
Корректный номер: 8 912 345 67 89
Корректный номер: +7-912-345-67-89
Некорректный номер: +7 (912) 345-67-89
Некорректный номер: 8-912 345-67-89
Некорректный номер: +7(012)345-67-89
Некорректный номер: +7(912)345.67.89
Корректный номер: 8(999)000-00-00


## Задание 2: Проверка email-адреса

Надо проверить, что строка является корректным email-адресом. Допустимы только адреса, соответствующие следующим правилам:

1. Имя пользователя (до @):
   - состоит из латинских букв, цифр, точек, дефисов и нижних подчёркиваний
   - не начинается и не заканчивается на точку, дефис или подчёркивание
   - не содержит подряд идущих точек (..), дефисов (--), подчёркиваний (__)

2. Символ @ обязателен и ровно один

3. Домен (после @):
   - состоит из латинских букв, цифр и дефисов
   - минимум одна точка внутри домена (например: example.com, sub.domain.co.uk)
   - каждая часть домена (между точками) начинается и заканчивается буквой или цифрой
   - доменная зона (после последней точки) — от 2 до 6 букв

Примеры (валидные):

test.email@example.com  
user_name-123@sub.domain.org  
u@a.co  
email@my-site.ru

Примеры (невалидные):

.test@example.com         — начинается с точки  
user..name@example.com    — двойная точка  
user@.com                 — пустой поддомен  
user@example              — нет доменной зоны  
user@example.c            — зона слишком короткая  
user@example.abcdefgh     — зона слишком длинная  
user@@example.com         — двойной @

Цель:

Напишите регулярное выражение, которое проверяет строку на соответствие этим требованиям.


In [2]:
import re

pattern = re.compile(r'^(?![._-])(?:[a-zA-Z0-9]+(?:[._-](?![._-])[a-zA-Z0-9]+)*)@(?:[a-zA-Z0-9](?:[a-zA-Z0-9-]*[a-zA-Z0-9])?\.)+[a-zA-Z]{2,6}$')

emails = [
    "test.email@example.com",
    "user_name-123@sub.domain.org",
    "u@a.co",
    "email@my-site.ru",
    ".test@example.com",
    "user..name@example.com",
    "user@.com",
    "user@example",
    "user@example.c",
    "user@example.abcdefgh",
    "user@@example.com",
]

for email in emails:
    if pattern.fullmatch(email):
        print(f"Валидный email: {email}")
    else:
        print(f"Невалидный email: {email}")


Валидный email: test.email@example.com
Валидный email: user_name-123@sub.domain.org
Валидный email: u@a.co
Валидный email: email@my-site.ru
Невалидный email: .test@example.com
Невалидный email: user..name@example.com
Невалидный email: user@.com
Невалидный email: user@example
Невалидный email: user@example.c
Невалидный email: user@example.abcdefgh
Невалидный email: user@@example.com


## Задание 3: Очистка логов от IP-адресов

IPv4-адрес — это 4 группы чисел от 0 до 255, разделённые точками. Примеры:

192.168.0.1  
10.0.0.255  
255.255.255.0

IP-адрес может встречаться в любом месте строки: в логах, в сообщениях, в текстах.


Требования:

- Использовать регулярные выражения для поиска IP-адресов
- Заменять только корректные IPv4-адреса
- Если в строке несколько адресов — заменить все
- Остальной текст не должен быть затронут

Пример:

Вход:
User connected from 192.168.1.5 at 14:23, backup from 10.0.0.1 also logged.

Выход:
User connected from ***.***.***.*** at 14:23, backup from ***.***.***.*** also logged.

Подсказка:

Поищи информацию о диапазоне допустимых чисел в IP-адресе и попробуй сначала найти адреса без точной проверки диапазона от 0 до 255 (это можно улучшить потом).

Замените все ip адреса в файле log.txt, и выведите количество этих замен


In [None]:
import re

ip_pattern = re.compile(
    r'\b(?:(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)\.){3}'
    r'(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)\b'
)

with open("log.txt", "r", encoding="utf-8") as f:
    text = f.read()

new_text, count = ip_pattern.subn("***.***.***.***", text)

with open("log.txt", "w", encoding="utf-8") as f:
    f.write(new_text)

print(f"Количество замен IP-адресов: {count}")


## Задание 4: Параметры URL (Это как бы доп, сделали круто, нет - можете идти защищаться с первыми тремя пунктами)
Краткая теория:

В URL-адресах после символа вопроса ? начинаются GET-параметры. Они имеют формат:

ключ1=значение1&ключ2=значение2&...

Пример:
https://example.com/search?q=python&lang=ru&page=2

Здесь:
q → 'python'  
lang → 'ru'  
page → '2'

Параметры могут содержать:
- латинские буквы, цифры, подчёркивания
- символы %-кодировки (например, %20 вместо пробела)
- встречаться не всегда (пустая строка, дубликаты и т.д.)

Ваша задача:

Напиши функцию на Python, которая получает строку URL и возвращает словарь параметров (только GET).

Функция должна:
- использовать регулярные выражения
- корректно обрабатывать параметры, даже если они повторяются
- игнорировать всё до знака вопроса и всё после хэша #

Пример:

Вход:
https://my.site/page?id=42&id=43&user=test#anchor

Выход:
{'id': ['42', '43'], 'user': ['test']}

Вход:
https://search.ru?q=python

Выход:
{'q': ['python']}

Подсказка:

Поищите информацию о формате query string и спецификациях URL.  
Важно понять, какие символы допустимы в ключах и значениях, и как отделяются пары.



In [4]:
import re
from urllib.parse import unquote

def extract_get_params(url: str) -> dict:
    # Удаляем всё до знака вопроса и всё после решётки
    match = re.search(r'\?(.*?)#|\\?(.*)$', url)
    if not match:
        return {}
    
    # Получаем только строку параметров
    query = match.group(1) or match.group(2)

    # Ищем пары ключ=значение, ключ и значение могут содержать: буквы, цифры, подчёркивания, %, -
    pairs = re.findall(r'([a-zA-Z0-9_]+)=([^&]*)', query)

    result = {}
    for key, value in pairs:
        key = unquote(key)
        value = unquote(value)
        result.setdefault(key, []).append(value)

    return result
print(extract_get_params('https://search.ru?q=python'))

{'q': ['python']}
