<a href="https://colab.research.google.com/github/cpython-projects/da_2603/blob/main/lesson_29_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Регулярные выражения** — это формальный язык для описания шаблонов в тексте.

Используются для:
* **поиска**
* **извлечения**
* **замены**
* **валидации** фрагментов текста.

**Примеры аналитических задач:**
* Проверить, что значение — email
* Извлечь домен из email
* Очистить номер телефона от лишних символов
* Найти только те строки, где упоминается событие
* Извлечь дату из строки

## БАЗОВЫЕ ЭЛЕМЕНТЫ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ

Регулярные выражения состоят из:

* **Символов-классов** (что искать)
* **Квантификаторов** (сколько раз)
* **Позиционных символов** (где именно)
* **Группировки и логики** (или, множества, группы)
* **Экранирования спецсимволов**

### I. Символы-классы (что искать)

| Выражение | Название  | Значение                   | Пример                 |
| --------- | --------- | -------------------------- | ---------------------- |
| `\d`      | digit     | цифра (0–9)                | `\d+` — одна или более |
| `\D`      | not digit | всё, кроме цифр            | `\D+` — только текст   |
| `\w`      | word      | буква, цифра или `_`       | `\w+` — слово          |
| `\W`      | not word  | всё, кроме `\w`            | `\W+` — пробелы, знаки |
| `\s`      | space     | пробел, табуляция, перенос | `\s+` — разделители    |
| `\S`      | not space | не пробел                  | `\S+` — плотный текст  |

📌 **Замечание:**

* `\w` не включает кириллицу. Для русского текста лучше использовать: `[а-яА-ЯёЁa-zA-Z0-9_]`.

### II. Позиционные символы (где искать)

| Символ | Значение      | Пример                            |
| ------ | ------------- | --------------------------------- |
| `^`    | начало строки | `^ID` — начинается с "ID"         |
| `$`    | конец строки  | `.com$` — заканчивается на ".com" |
| `\b`   | граница слова | `\bcat\b` — только слово "cat"    |
| `\B`   | не граница    | `\Bcat\B` — внутри слова          |


### III. Квантификаторы (сколько раз встречается)

| Выражение | Значение          | Пример                            |
| --------- | ----------------- | --------------------------------- |
| `*`       | 0 или больше раз  | `\d*` — 0 и более цифр            |
| `+`       | 1 или больше раз  | `\d+` — минимум 1 цифра           |
| `?`       | 0 или 1 раз       | `s?` — буква s необязательна      |
| `{n}`     | ровно n раз       | `\d{4}` — 4 цифры (например, год) |
| `{n,}`    | от n раз и больше | `\d{2,}` — от двух цифр           |
| `{n,m}`   | от n до m раз     | `\d{2,4}` — 2–4 цифры             |


### IV. Группировка, альтернатива и множества

**1. Скобки `()` — группировка**

Используются для создания **групп**, удобно с `str.extract()`:

* `(\d{4})-(\d{2})-(\d{2})` — извлекает дату (год, месяц, день)
* В pandas создаются отдельные столбцы по группам

**2. Альтернатива `|` — или**

* `cat|dog|bird` — одно из слов
* `(http|https)://` — любой протокол

**3. Квадратные скобки `[]` — множества символов**

| Выражение | Значение                    | Пример              |
| --------- | --------------------------- | ------------------- |
| `[abc]`   | один из символов a, b или c | `[aeiou]` — гласные |
| `[a-z]`   | диапазон                    | `[0-9]` — цифры     |
| `[^a-z]`  | всё, кроме указанных        | `[^0-9]` — не цифры |

### V. Экранирование спецсимволов (Escape)

Регулярные выражения используют **спецсимволы**, которые нужно экранировать `\`, если ты хочешь искать их буквально:

| Символ                        | Назначение        |
| ----------------------------- | ----------------- |
| `\.`                          | точка             |
| `\*`                          | звёздочка         |
| `\\`                          | обратный слэш     |
| `\+`, `\?`, `\(`, `\)` и т.д. | тоже экранируются |

**Пример:**
`r"\.\w+"` — ищет точку и слово после неё, например: `.txt`, `.csv`.


## Примеры

### 1. **Символьные классы (предопределённые шаблоны)**

| Регулярка | Что означает              | Пример строки     | Найдёт                     |
| --------- | ------------------------- | ----------------- | -------------------------- |
| `\d`      | Цифра (0–9)               | `'Цена: 120 грн'` | `'1'`, `'2'`, `'0'`        |
| `\D`      | Не цифра                  | `'Цена: 120 грн'` | `'Ц'`, `'е'`, `':'`, `' '` |
| `\w`      | Буква/цифра/подчёркивание | `'id_user1'`      | `'i'`, `'d'`, `'_'`, `'u'` |
| `\W`      | Всё, кроме `\w`           | `'id#user!'`      | `'#'`, `'!'`               |
| `\s`      | Пробельный символ         | `'1\t2  3\n4'`    | `'\t'`, `' '`, `'\n'`      |
| `\S`      | Не пробел                 | `'1\t2  3\n4'`    | `'1'`, `'2'`, `'3'`, `'4'` |

---

### 2. **Явные символы**

| Регулярка | Что означает             | Пример         | Результат                  |
| --------- | ------------------------ | -------------- | -------------------------- |
| `.`       | Любой символ, кроме `\n` | `'a1#b'`       | `'a'`, `'1'`, `'#'`, `'b'` |
| `\.`      | Буквально точка          | `'v1.2'`       | `'.'`                      |
| `\\`      | Буквально обратный слеш  | `'C:\\User\\'` | `'\\'`                     |

---

### 3. **Квантификаторы (повторы)**

| Регулярка | Описание        | Пример     | Найдёт           |
| --------- | --------------- | ---------- | ---------------- |
| `a*`      | 0 или более `a` | `'caaaat'` | `'aaaa'`         |
| `a+`      | 1 или более `a` | `'caaaat'` | `'aaaa'`         |
| `a?`      | 0 или 1 `a`     | `'caaaat'` | `'a'` (один раз) |
| `a{3}`    | Ровно 3 `a`     | `'aaaab'`  | `'aaa'`          |
| `a{2,4}`  | От 2 до 4 `a`   | `'aaaaaa'` | `'aaaa'`         |
| `a{2,}`   | 2 и более `a`   | `'aaab'`   | `'aaa'`          |

---

### 4. **Группы и диапазоны**

| Регулярка | Что означает                   | Пример строки | Результат                  |
| --------- | ------------------------------ | ------------- | -------------------------- |
| `[abc]`   | Один символ: a, b или c        | `'ball'`      | `'b'`                      |
| `[^abc]`  | Всё, кроме a, b, c             | `'dog'`       | `'d'`, `'o'`, `'g'`        |
| `[a-z]`   | Любая строчная латинская буква | `'data'`      | `'d'`, `'a'`, `'t'`, `'a'` |
| `[0-9]`   | Цифры от 0 до 9                | `'v2025'`     | `'2'`, `'0'`, `'2'`, `'5'` |

---

### 5. **Группировка и альтернативы**

| Регулярка | Что означает    | Пример             | Результат        |                |
| --------- | --------------- | ------------------ | ---------------- | -------------- |
| `(abc)`   | Группа символов | `'abcabc'`         | `'abc'`, `'abc'` |                |

---

### 6. **Якоря (границы)**

| Регулярка  | Что означает  | Пример      | Результат                                         |
| ---------- | ------------- | ----------- | ------------------------------------------------- |
| `^abc`     | Начало строки | `'abcdef'`  | `'abc'`                                           |
| `abc$`     | Конец строки  | `'zzzabc'`  | `'abc'`                                           |

## Примеры

In [9]:
import pandas as pd

df = pd.DataFrame({
    "comments": [
        "Купив 5 товарів за $120",
        "Отримав знижку -15%",
        "Оплата: готівка",
        "Знижка 30% на товари до 100 грн"
    ]
})
df

Unnamed: 0,comments
0,Купив 5 товарів за $120
1,Отримав знижку -15%
2,Оплата: готівка
3,Знижка 30% на товари до 100 грн


In [10]:
df["num"] = df["comments"].str.extract(r"(\d+)")
df

Unnamed: 0,comments,num
0,Купив 5 товарів за $120,5.0
1,Отримав знижку -15%,15.0
2,Оплата: готівка,
3,Знижка 30% на товари до 100 грн,30.0


In [11]:
df["cleaned"] = df["comments"].str.replace(r"[^а-яА-Я0-9\s%]", "", regex=True)
df

Unnamed: 0,comments,num,cleaned
0,Купив 5 товарів за $120,5.0,Купив 5 товарв за 120
1,Отримав знижку -15%,15.0,Отримав знижку 15%
2,Оплата: готівка,,Оплата готвка
3,Знижка 30% на товари до 100 грн,30.0,Знижка 30% на товари до 100 грн


In [12]:
df["has_discount"] = df["comments"].str.contains(r"\bзнижк\w*\b", case=False)
df

Unnamed: 0,comments,num,cleaned,has_discount
0,Купив 5 товарів за $120,5.0,Купив 5 товарв за 120,False
1,Отримав знижку -15%,15.0,Отримав знижку 15%,True
2,Оплата: готівка,,Оплата готвка,False
3,Знижка 30% на товари до 100 грн,30.0,Знижка 30% на товари до 100 грн,True


In [13]:
df["all_numbers"] = df["comments"].str.findall(r"\d+")
df

Unnamed: 0,comments,num,cleaned,has_discount,all_numbers
0,Купив 5 товарів за $120,5.0,Купив 5 товарв за 120,False,"[5, 120]"
1,Отримав знижку -15%,15.0,Отримав знижку 15%,True,[15]
2,Оплата: готівка,,Оплата готвка,False,[]
3,Знижка 30% на товари до 100 грн,30.0,Знижка 30% на товари до 100 грн,True,"[30, 100]"


In [14]:
import re