<a href="https://colab.research.google.com/github/vberezina/IT-and-programming/blob/main/PR7/PR7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Практическая работа №7. Регулярные выражения: Поиск и обработка текста**

##**Теоретическая часть**

**Регулярные выражения** — это мощный инструмент для описания шаблонов поиска в тексте. В Python для работы с ними используется модуль `re`


|Метод `re` | Назначение|
|-----|------|
|`re.search(pattern, string)`| Ищет совпадение в любом месте строки и возвращает объект совпадения (Match Object) или None.|
|`re.match(pattern, string)`	|Ищет совпадение только в начале строки и возвращает объект совпадения или None.|
|`re.findall(pattern, string)`	|Находит все непересекающиеся совпадения и возвращает их в виде списка строк.|
|`re.sub(pattern, repl, string)`|	Заменяет все совпадения паттерна pattern на строку repl в строке string.|

**Основные метасимволы и классы символов:**
|Паттерн | Описание|
|-----|------|
|`.`|Любой символ, кроме новой строки.|
|`\d`|Любая цифра (эквивалентно [0-9]).|
|`\w`|Любой буквенно-цифровой символ, включая нижнее подчеркивание (эквивалентно [a-zA-Z0-9_]).|
|`\s`|Любой пробельный символ (пробел, табуляция, новая строка).|
|`*`|0 или более повторений предыдущего элемента.|
|`+`|1 или более повторений предыдущего элемента.|
|`?`|0 или 1 повторение предыдущего элемента (опционально).|
|`{n,m}`|От $n$ до $m$ повторений предыдущего элемента.|
|`^`|Начало строки.|
|`$`|Конец строки.|
|`()`|Группировка и захват (извлечение) части совпадения.|

**Важно:** Рекомендуется использовать **"сырые" строки** (*raw strings*) с префиксом `r` (например, `r'\d+'`), чтобы Python не интерпретировал обратный слеш `\` как специальный символ.

##**Учебная задача: Извлечение телефонных номеров**

**Задача:** Извлечь из текста все телефонные номера в формате `XXX-XXX-XXXX,` где `X` — цифра.


**1. Подключение модуля и исходный текст**

In [1]:
import re

text = "Свяжитесь с нами: Иван (123-456-7890), Мария 987-654-3210, офис: 555-111-2222. Неверный: 12-34-567."

**2. Разработка регулярного выражения**

1. **Три цифры:** `\d{3}`

2. **Дефис:** `-`

3. **Три цифры:** `\d{3}`

4. **Дефис:** `-`

5. **Четыре цифры:** `\d{4}`

**Собираем паттерн:** `r'\d{3}-\d{3}-\d{4}'`

In [2]:
# Паттерн для телефонного номера XXX-XXX-XXXX
pattern = r'\d{3}-\d{3}-\d{4}'

# Поиск всех совпадений
phone_numbers = re.findall(pattern, text)

# Вывод результата
print("Исходный текст:", text)
print("Найденные номера:", phone_numbers)

Исходный текст: Свяжитесь с нами: Иван (123-456-7890), Мария 987-654-3210, офис: 555-111-2222. Неверный: 12-34-567.
Найденные номера: ['123-456-7890', '987-654-3210', '555-111-2222']


## **Задания для индивидуальной работы**

Используйте текст, предложенные преподавателем или следующий текст для разбора:

In [None]:
data_text = """
Посетите наши страницы:
Email: info@example.com (главный), support-team@corp.net (поддержка)
Дата: 25-05-2023, 01/01/2024, 12.02.2025.
Коды товаров: ID_PROD-1001, ITEM-20-A, ID-300-B.
Суммы: $150.50, 20 EUR, 500 RUB, £75.
"""

**Задание 1: Поиск и извлечение email-адресов**

Напишите регулярное выражение для поиска всех корректных email-адресов в тексте.

Требования к email-паттерну (должен состоять из):
* $\mathbf{1}$ или более буквенно-цифровых символов или знаков `-`, `.` или `_`
* Символа `@`
* $\mathbf{1}$ или более буквенно-цифровых символов или знака `-`
* Точки `.`
* $\mathbf{2}$ или $\mathbf{3}$ буквенных символов


**Задание 2: Извлечение кодов товаров**

Используя группировку, извлеките только цифровые части кодов товаров, которые начинаются на `ID_PROD-` или `ID-` (например, из `ID_PROD-1001` нужно получить только `1001`).

**Задание 3: Замена формата даты**

Найдите в тексте даты в формате **DD.MM.YYYY** (например, `12.02.2025`) и замените их на американский формат** YYYY-MM-DD** (например, `2025-02-12`).

**Задание 4: Фильтрация сумм в валюте**

Найдите все суммы, которые указаны в **EUR** или **RUB**.

## **Контрольные вопросы**

1. Что такое регулярные выражения (RegEx) и в каких задачах обработки текста они наиболее эффективны?

2. Какой модуль в Python необходимо импортировать для работы с регулярными выражениями?

3. В чём разница между методами re.search() и re.findall()? Какой из них возвращает список всех совпадений?

4. Если вам нужно проверить, что строка начинается с определённого паттерна, какой метод модуля re вы будете использовать?

5. Что означает метасимвол . (точка) в регулярных выражениях?

6. Что такое группировка в регулярных выражениях и какой синтаксис используется для её обозначения?