<a href="https://colab.research.google.com/github/Alexandre77777/python_programming/blob/main/RE_Python_BASE.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Регулярные выражения в Python**


## **Введение**

**Регулярные выражения** (regular expressions) — это эффективный инструмент для поиска и манипуляции текстовыми данными. Они позволяют описывать и находить сложные шаблоны в строках, что делает их незаменимыми при обработке текстовых данных.

Далее мы рассмотрим основной синаксис регулярных выражений в Python, научимся применять их на практике для решения реальных задач.

**Применение регулярных выражений:**

- **Поиск по шаблону**: нахождение текста, соответствующего определенному шаблону (например, все email-адреса в документе).
- **Валидация ввода**: проверка соответствия пользовательского ввода заданному формату (например, проверка номера телефона).
- **Извлечение данных**: получение определенных частей текста из больших строк или файлов.
- **Трансформация текста**: замена или удаление определенных шаблонов в тексте.

## **Основные конструкции регулярных выражений**

Перед тем как приступить к практике, рассмотрим основные элементы синтаксиса регулярных выражений:

- **Символьные классы:**
  - `.` — любой одиночный символ.
  - `[]` — любой символ из указанных, например, `[abc]` соответствует `'a'`, `'b'` или `'c'`.
  - `[^]` — любой символ, **кроме** указанных, например, `[^abc]`.
  - `\d` — любая цифра `[0-9]`.
  - `\D` — любой символ, кроме цифры.
  - `\s` — любой пробельный символ (пробел, табуляция, перевод строки).
  - `\S` — любой непробельный символ.
  - `\w` — любая буква или цифра (символ слова).
  - `\W` — любой символ, кроме буквы или цифры.

- **Якоря:**
  - `^` — начало строки.
  - `$` — конец строки.
  - `\b` — граница слова.
  - `\B` — не граница слова.

- **Квантификаторы:**
  - `n{4}` — повторение предыдущего элемента ровно 4 раза.
  - `n{4,6}` — повторение от 4 до 6 раз.
  - `*` — повторение от нуля и более раз (эквивалентно `{0,}`).
  - `+` — повторение от одного и более раз (эквивалентно `{1,}`).
  - `?` — ноль или один раз (эквивалентно `{0,1}`).

- **Группировки и ссылки:**
  - `()` — группировка выражений.
  - `(?:)` — незахватывающая группа.
  - `(?P<name>)` — именованная группа.

### **Подробно с примерами:**

#### **Метасимволы**

| Метасимвол | Описание                                     | Пример         |
|------------|----------------------------------------------|----------------|
| `.`        | Любой одиночный символ (кроме `\n`).        | `a.b` найдет `aab`, `acb` |
| `^`        | Начало строки.                              | `^Hello` найдет `Hello` в начале строки |
| `$`        | Конец строки.                               | `world$` найдет `world` в конце строки |
| `*`        | Предыдущий символ 0 или более раз.          | `ab*c` найдет `ac`, `abc`, `abbc` |
| `+`        | Предыдущий символ 1 или более раз.          | `ab+c` найдет `abc`, `abbc` |
| `?`        | Предыдущий символ 0 или 1 раз.              | `ab?c` найдет `ac`, `abc` |
| `{n}`      | Ровно `n` повторений предыдущего символа.   | `a{3}` найдет `aaa` |
| `{n,}`     | `n` или более повторений.                   | `a{2,}` найдет `aa`, `aaa`, `aaaa` |
| `{n,m}`    | От `n` до `m` повторений.                   | `a{2,4}` найдет `aa`, `aaa`, `aaaa` |
| `[]`       | Набор символов (класс символов).            | `[abc]` найдет `a`, `b` или `c` |
| `\`        | Экранирование специальных символов.         | `\.` найдет `.`, а не любой символ |
| `|`        | Логическое ИЛИ.                             | `cat\|dog` найдет `cat` или `dog` |
| `()`       | Группировка и захват подвыражений.          | `(abc)+` найдет повторяющиеся `abc` |

#### **Специальные последовательности**

| Последовательность | Описание                                    |
|--------------------|---------------------------------------------|
| `\d`               | Любая цифра `[0-9]`.                        |
| `\D`               | Любой символ, кроме цифры `[^0-9]`.         |
| `\w`               | Буква, цифра или `_` `[A-Za-z0-9_]`.        |
| `\W`               | Любой символ, кроме `\w` `[^A-Za-z0-9_]`.   |
| `\s`               | Любой пробельный символ (пробел, таб).      |
| `\S`               | Любой непробельный символ.                  |
| `\b`               | Граница слова.                              |
| `\B`               | Не граница слова.                           |

#### **Классы символов**

- `[abc]` — любой символ `a`, `b` или `c`.
- `[a-z]` — любой строчный символ от `a` до `z`.
- `[^abc]` — любой символ, кроме `a`, `b` или `c`.
- `[0-9]` — любая цифра от `0` до `9`.

## **Реализация в Python**


Регулярные выражения в Python позволяют выполнять сложные поисковые и заменяющие операции в строках. Рассмотрим основные функции модуля `re` с примерами их использования.

**Флаги (модификаторы)**:

- `re.IGNORECASE` (`re.I`): Регистронезависимый поиск.
- `re.MULTILINE` (`re.M`): Многострочный режим.
- `re.DOTALL` (`re.S`): Символ `.` также соответствует символу новой строки `\n`.

#### `re.match(pattern, string, flags=0)`

Эта функция проверяет, соответствует ли начало строки `string` шаблону `pattern`.

In [19]:
import re

pattern = r'\d+'  # Шаблон для поиска одной или более цифр
string = '123abc'

match = re.match(pattern, string)
if match:
    print("Match found:", match.group())  # Вывод: Match found: 123
else:
    print("No match")

Match found: 123


**Пояснение**: `re.match` ищет совпадение только в начале строки. В данном примере он находит цифры в начале строки.

#### `re.search(pattern, string, flags=0)`

Эта функция ищет первое вхождение шаблона `pattern` в строке `string`.

In [20]:
import re

pattern = r'\d+'  # Шаблон для поиска одной или более цифр
string = 'abc123def'

search = re.search(pattern, string)
if search:
    print("Search found:", search.group())  # Вывод: Search found: 123
else:
    print("No match")

Search found: 123


**Пояснение**: `re.search` ищет первое вхождение шаблона в строке, независимо от его позиции.

#### `re.findall(pattern, string, flags=0)`

Эта функция находит все вхождения шаблона `pattern` в строке `string` и возвращает их в виде списка.

In [21]:
import re

pattern = r'\d+'  # Шаблон для поиска одной или более цифр
string = 'abc123def456ghi789'

all_matches = re.findall(pattern, string)
print("All matches:", all_matches)  # Вывод: All matches: ['123', '456', '789']

All matches: ['123', '456', '789']


**Пояснение**: `re.findall` возвращает список всех совпадений в строке.


#### `re.finditer(pattern, string, flags=0)`

Эта функция находит все вхождения шаблона `pattern` в строке `string` и возвращает итератор.

In [22]:
import re

pattern = r'\d+'  # Шаблон для поиска одной или более цифр
string = 'abc123def456ghi789'

matches = re.finditer(pattern, string)
for match in matches:
    print("Match found:", match.group())  # Вывод: Match found: 123, Match found: 456, Match found: 789

Match found: 123
Match found: 456
Match found: 789




**Пояснение**: `re.finditer` возвращает итератор, который можно использовать для перебора всех совпадений.


#### `re.sub(pattern, repl, string, count=0, flags=0)`
Эта функция заменяет все вхождения шаблона `pattern` на `repl` в строке `string`.

In [23]:
import re

pattern = r'\d+'  # Шаблон для поиска одной или более цифр
string = 'abc123def456ghi789'
replacement = '#'

new_string = re.sub(pattern, replacement, string)
print("New string:", new_string)  # Вывод: New string: abc#def#ghi#

New string: abc#def#ghi#


**Пояснение**: `re.sub` заменяет все совпадения шаблона на заданную строку.


#### `re.split(pattern, string, maxsplit=0, flags=0)`

Эта функция разбивает строку `string` по шаблону `pattern`.

In [24]:
import re

pattern = r'\d+'  # Шаблон для поиска одной или более цифр
string = 'abc123def456ghi789'

split_string = re.split(pattern, string)
print("Split string:", split_string)  # Вывод: Split string: ['abc', 'def', 'ghi', '']

Split string: ['abc', 'def', 'ghi', '']




**Пояснение**: `re.split` разбивает строку на части, используя шаблон в качестве разделителя.

### **Именованные группы в регулярных выражениях**



Именованные группы в регулярных выражениях позволяют захватывать части строки и присваивать им имена, что делает код более читаемым и управляемым. Это особенно полезно, когда вы работаете с большими и сложными шаблонами, где легко потеряться в номерах групп.

#### **Основы Именованных Групп**



Именованные группы создаются с помощью синтаксиса `(?P<name>pattern)` в Python. Здесь `name` — это имя группы, а `pattern` — это шаблон, который вы хотите захватить.





#### **Пример использования**



Предположим, у нас есть строка с датой, и мы хотим извлечь день, месяц и год:

In [25]:
import re

text = "Дата: 14-11-2024"
pattern = r"(?P<day>\d{2})-(?P<month>\d{2})-(?P<year>\d{4})"

match = re.search(pattern, text)
if match:
    print("День:", match.group('day'))    # Вывод: День: 14
    print("Месяц:", match.group('month')) # Вывод: Месяц: 11
    print("Год:", match.group('year'))    # Вывод: Год: 2024

День: 14
Месяц: 11
Год: 2024


**Пояснение**: В этом примере мы используем именованные группы `day`, `month` и `year` для захвата соответствующих частей даты. Это позволяет легко обращаться к каждой части по имени, а не по индексу.

#### Преимущества именованных групп

1. **Читаемость**: Код становится более понятным, так как имена групп описывают, что именно они захватывают.
2. **Удобство**: Легче обращаться к захваченным данным, особенно если шаблон сложный и содержит много групп.
3. **Поддержка**: Именованные группы поддерживаются в большинстве современных языков программирования, таких как Python, JavaScript, и другие.

#### Дополнительные возможности

Именованные группы также можно использовать в функции `re.sub` для замены:

In [26]:
import re

text = "Дата: 14-11-2024"
pattern = r"(?P<day>\d{2})-(?P<month>\d{2})-(?P<year>\d{4})"
replacement = r"\g<year>/\g<month>/\g<day>"

new_text = re.sub(pattern, replacement, text)
print("Новая дата:", new_text)  # Вывод: Новая дата: 2024/11/14

Новая дата: Дата: 2024/11/14




**Пояснение**: Здесь мы используем именованные группы для перестановки частей даты в формате `год/месяц/день`.

## **Применение регулярных выражений для обработки потоковых данных**

Прежде чем начать, импортируем необходимые модули:

In [27]:
import re     # Модуль для работы с регулярными выражениями.
import csv    # Модуль для работы с CSV-файлами.
import ssl    # Модуль для настройки SSL-сертификатов.
import urllib.request  # Модуль для работы с URL и HTTP-запросами.


### Отключение проверки SSL-сертификатов

Для некоторых веб-запросов может потребоваться отключить проверку SSL-сертификатов (например, при использовании самоподписанных сертификатов):

In [28]:
ssl._create_default_https_context = ssl._create_unverified_context


**Важно:** Отключение проверки SSL-сертификатов может представлять угрозу безопасности. Используйте этот подход только в учебных или доверенных средах.

## 1. Парсинг email-адресов


### Задача

Извлечь все email-адреса из текстового файла `adr.txt`.

### Шаги решения

1. **Считать содержимое файла.**
2. **Определить регулярное выражение для email-адресов.**
3. **Найти все совпадения в тексте.**
4. **Вывести найденные email-адреса.**

### Реализация

In [29]:
# Используем команду !wget для скачивания файла
!wget https://raw.githubusercontent.com/Alexandre77777/python_programming/refs/heads/main/4.%20%D0%9A%D0%BE%D0%B4%20%D1%81%20%D0%B7%D0%B0%D0%BD%D1%8F%D1%82%D0%B8%D0%B9/9.%20%D0%9A%D0%BE%D0%B4_%D1%81_%D0%BF%D0%B0%D1%80%D1%8B_10_11_2023_RE/adr.txt

--2024-11-14 10:56:43--  https://raw.githubusercontent.com/Alexandre77777/python_programming/refs/heads/main/4.%20%D0%9A%D0%BE%D0%B4%20%D1%81%20%D0%B7%D0%B0%D0%BD%D1%8F%D1%82%D0%B8%D0%B9/9.%20%D0%9A%D0%BE%D0%B4_%D1%81_%D0%BF%D0%B0%D1%80%D1%8B_10_11_2023_RE/adr.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.109.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 80935 (79K) [text/plain]
Saving to: ‘adr.txt.1’


2024-11-14 10:56:44 (909 KB/s) - ‘adr.txt.1’ saved [80935/80935]



In [30]:
# Считываем содержимое файла 'adr.txt'
with open("adr.txt", encoding="UTF8") as file:
    text = file.read()

# Регулярное выражение для email-адресов
email_pattern = r"[\w\-.]+@[\w\-.]+\.\w+"

# Находим все email-адреса в тексте
emails = re.findall(email_pattern, text)

print('Список email-адресов:', emails)

Список email-адресов: ['dima@oleron.ru', 'karen-000@mtu-net.ru', 'AysinSE@mail.ru', 'holl@sochi.ru', 'juri@krm.donetsk.ua', 'akselrod@lnpi.spb.su', 'dima@cpuv1.net.kiae.su', 'DLAnikin@mail.ru', 'mimi2@chat.ru', 'eugene1970@hotmail.com', 'arba@mail.ru', 'arkhipov@yts.yartelecom.ru', 'traveller@glas.apc.org', 'mike@afanas.ru', 'svs44@usa.net', 'Alex_hunter@mail.ru', 'gib@dpicci.kiev.ua', 'wowa@ashtech.msk.ru', 'wowa@ashtech.msk.ru', 'mtm@elnet.msk.ru', 'alkor@online.ru', 'artem@oscb.phys.msu.su', 'triz@knapi.khabarovsk.su', 'andreyb@cco.caltech.edu', 'wwb@perm.raid.ru', 'abs@galaxy.ipmce.su', 'depenerg@adm.kaluga.ru', 'yurcino@aha.ru', 'ab@ref.stinol.lipetsk.su', 'bond@isd.anet.donetsk.ua', 'tangram@mediaone.net', 'Brajnikov.junior@rotek.ru', 'salieri@info.sgu.ru', 'petrovch@bitex.ru', 'danil@astranet.ru', 'vaganova@cca.kiev.ua', 'Ivan@mail.dma.be', 'verhotur@vmk.ugatu.ac.ru', 'vilinskiy@usa.net', 'alex@compulink.ru', 'kostikv@mail.ru', 'vsv@phreak.demos.su', 'mgv@xtech.ru', 'volkov@stud

### Пояснение

- `[\w\-.]+` — соответствует одному или более символам: букве, цифре, подчеркиванию, точке или дефису.
- `@` — символ собаки, разделяющий локальную и доменную часть email.
- `[\w\-.]+` — доменная часть email (как и локальная).
- `\.\w+` — точка и домен верхнего уровня (например, `.com`, `.ru`).

## 2. Парсинг данных с HTML-страницы


### Задача






Извлечь имена, адреса и номера телефонов с HTML-страницы: [Addresses](https://www.summet.com/dmsi/html/codesamples/addresses.html)

### Шаги решения



1. **Сделать HTTP-запрос к странице и получить её содержимое.**
2. **Определить регулярное выражение для извлечения необходимых данных.**
3. **Найти все совпадения и сохранить данные.**
4. **Сохранить результат в CSV-файл.**
5. **Вывести данные по именованным группам.**

### Реализация



#### Получение содержимого страницы

In [40]:
# Запрос к странице и получение HTML-кода
url = "https://www.summet.com/dmsi/html/codesamples/addresses.html"
response = urllib.request.urlopen(url)
html_content = response.read().decode()

In [32]:
html_content

'<html>\n<head>\n\t<title>Sample Addresses!</title>\n<script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-2760663110461940"\n     crossorigin="anonymous"></script>\n\n</head>\n<body>\n<h1> A page full of sample addresses for your parsing enjoyment!</h1>\n<h2> (All data is random....)</h2>\n<ul>\n\n<script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-2760663110461940"\n     crossorigin="anonymous"></script>\n<!-- summet.com-dmsi-addresses -->\n<ins class="adsbygoogle"\n     style="display:block"\n     data-ad-client="ca-pub-2760663110461940"\n     data-ad-slot="5472586510"\n     data-ad-format="auto"\n     data-full-width-responsive="true"></ins>\n<script>\n     (adsbygoogle = window.adsbygoogle || []).push({});\n</script>\n\n<li>Cecilia Chapman<br/>711-2880 Nulla St.<br/>Mankato Mississippi 96522<br/>(257) 563-7401</li>\n<li>Iris Watson<br/>P.O. Box 283 8562 Fusce Rd.<br/>Frederick Nebraska 20620<br/>

#### Регулярное выражение для парсинга

In [41]:
# Регулярное выражение с именованными группами
pattern = r"(?:<li>)(?P<names>[^<]+)(?:<[^>]+>)(?P<street>[^<]+)(?:<[^>]+>)(?P<state>[^<]+)(?:<[^>]+>)(?P<numbers>[^<]+)(?:<[^>]+>)"

# Компилируем регулярное выражение с флагом re.VERBOSE для удобства чтения
regex = re.compile(pattern, re.VERBOSE)


#### Извлечение данных

In [44]:
# Находим все совпадения
match = re.findall(pattern, html_content)

print(match)

[('Cecilia Chapman', '711-2880 Nulla St.', 'Mankato Mississippi 96522', '(257) 563-7401'), ('Iris Watson', 'P.O. Box 283 8562 Fusce Rd.', 'Frederick Nebraska 20620', '(372) 587-2335'), ('Celeste Slater', '606-3727 Ullamcorper. Street', 'Roseville NH 11523', '(786) 713-8616'), ('Theodore Lowe', 'Ap #867-859 Sit Rd.', 'Azusa New York 39531', '(793) 151-6230'), ('Calista Wise', '7292 Dictum Av.', 'San Antonio MI 47096', '(492) 709-6392'), ('Kyla Olsen', 'Ap #651-8679 Sodales Av.', 'Tamuning PA 10855', '(654) 393-5734'), ('Forrest Ray', '191-103 Integer Rd.', 'Corona New Mexico 08219', '(404) 960-3807'), ('Hiroko Potter', 'P.O. Box 887 2508 Dolor. Av.', 'Muskegon KY 12482', '(314) 244-6306'), ('Nyssa Vazquez', '511-5762 At Rd.', 'Chelsea MI 67708', '(947) 278-5929'), ('Lawrence Moreno', '935-9940 Tortor. Street', 'Santa Rosa MN 98804', '(684) 579-1879'), ('Ina Moran', 'P.O. Box 929 4189 Nunc Road', 'Lebanon KY 69409', '(389) 737-2852'), ('Aaron Hawkins', '5587 Nunc. Avenue', 'Erie Rhode Is


#### Сохранение данных в CSV-файл


In [35]:
with open('data.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['Name', 'City', 'State', 'Phone'])

    for i in match:
        writer.writerow(i)

#### Вывод данных по именованным группам:


In [45]:
matches = re.finditer(pattern, html_content)

for match in matches:
    print("Name:", match.group('names'))
    print("Street:", match.group('street'))
    print("State:", match.group('state'))
    print("Numbers:", match.group('numbers'))
    print("\n")

if not re.search(pattern, html_content):
    print("No match found.")


Name: Cecilia Chapman
Street: 711-2880 Nulla St.
State: Mankato Mississippi 96522
Numbers: (257) 563-7401


Name: Iris Watson
Street: P.O. Box 283 8562 Fusce Rd.
State: Frederick Nebraska 20620
Numbers: (372) 587-2335


Name: Celeste Slater
Street: 606-3727 Ullamcorper. Street
State: Roseville NH 11523
Numbers: (786) 713-8616


Name: Theodore Lowe
Street: Ap #867-859 Sit Rd.
State: Azusa New York 39531
Numbers: (793) 151-6230


Name: Calista Wise
Street: 7292 Dictum Av.
State: San Antonio MI 47096
Numbers: (492) 709-6392


Name: Kyla Olsen
Street: Ap #651-8679 Sodales Av.
State: Tamuning PA 10855
Numbers: (654) 393-5734


Name: Forrest Ray
Street: 191-103 Integer Rd.
State: Corona New Mexico 08219
Numbers: (404) 960-3807


Name: Hiroko Potter
Street: P.O. Box 887 2508 Dolor. Av.
State: Muskegon KY 12482
Numbers: (314) 244-6306


Name: Nyssa Vazquez
Street: 511-5762 At Rd.
State: Chelsea MI 67708
Numbers: (947) 278-5929


Name: Lawrence Moreno
Street: 935-9940 Tortor. Street
State: Sant

## 3. Код скрипта целиком:


In [46]:
import re
import csv
import ssl
import urllib.request

# Отключаем проверку SSL-сертификатов (для учебных целей)
ssl._create_default_https_context = ssl._create_unverified_context

# 1. Парсинг email-адресов
with open("adr.txt", encoding="UTF8") as file:
    text = file.read()

email_pattern = r"[\w\-.]+@[\w\-.]+\.\w+"
emails = re.findall(email_pattern, text)
print('Список email-адресов:', emails)

# 2. Парсинг данных с HTML-страницы
url = "https://www.summet.com/dmsi/html/codesamples/addresses.html"
response = urllib.request.urlopen(url)
html_content = response.read().decode()

# Регулярное выражение с именованными группами
pattern = r"(?:<li>)(?P<names>[^<]+)(?:<[^>]+>)(?P<street>[^<]+)(?:<[^>]+>)(?P<state>[^<]+)(?:<[^>]+>)(?P<numbers>[^<]+)(?:<[^>]+>)"

# Компилируем регулярное выражение с флагом re.VERBOSE для удобства чтения
regex = re.compile(pattern, re.VERBOSE)

match = re.findall(pattern, html_content)

print(match)

# Сохранение в CSV
with open('data.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['Name', 'City', 'State', 'Phone'])

    for i in match:
        writer.writerow(i)

# Вывод данных

matches = re.finditer(pattern, html_content)

for match in matches:
    print("Name:", match.group('names'))
    print("Street:", match.group('street'))
    print("State:", match.group('state'))
    print("Numbers:", match.group('numbers'))
    print("\n")

if not re.search(pattern, html_content):
    print("No match found.")


Список email-адресов: ['dima@oleron.ru', 'karen-000@mtu-net.ru', 'AysinSE@mail.ru', 'holl@sochi.ru', 'juri@krm.donetsk.ua', 'akselrod@lnpi.spb.su', 'dima@cpuv1.net.kiae.su', 'DLAnikin@mail.ru', 'mimi2@chat.ru', 'eugene1970@hotmail.com', 'arba@mail.ru', 'arkhipov@yts.yartelecom.ru', 'traveller@glas.apc.org', 'mike@afanas.ru', 'svs44@usa.net', 'Alex_hunter@mail.ru', 'gib@dpicci.kiev.ua', 'wowa@ashtech.msk.ru', 'wowa@ashtech.msk.ru', 'mtm@elnet.msk.ru', 'alkor@online.ru', 'artem@oscb.phys.msu.su', 'triz@knapi.khabarovsk.su', 'andreyb@cco.caltech.edu', 'wwb@perm.raid.ru', 'abs@galaxy.ipmce.su', 'depenerg@adm.kaluga.ru', 'yurcino@aha.ru', 'ab@ref.stinol.lipetsk.su', 'bond@isd.anet.donetsk.ua', 'tangram@mediaone.net', 'Brajnikov.junior@rotek.ru', 'salieri@info.sgu.ru', 'petrovch@bitex.ru', 'danil@astranet.ru', 'vaganova@cca.kiev.ua', 'Ivan@mail.dma.be', 'verhotur@vmk.ugatu.ac.ru', 'vilinskiy@usa.net', 'alex@compulink.ru', 'kostikv@mail.ru', 'vsv@phreak.demos.su', 'mgv@xtech.ru', 'volkov@stud

Флаг re.VERBOSE позволяет использовать многострочные и комментированные регулярные выражения для улучшения читаемости.

## 4. Полезные ресурсы

- **Подробно о регулярных выражениях:** [clck.ru/H3xmB](https://clck.ru/H3xmB)
- **Онлайн отладка регулярных выражений:** [regex101.com](https://regex101.com/)




## Заключение



Регулярные выражения являются полезным инструментом для обработки текстовых данных. В этом ноутбуке мы научились:

- Использовать основные конструкции регулярных выражений.
- Применять модули `re`, `urllib.request`, `csv` для практических задач.
- Извлекать данные из текстовых файлов и HTML-страниц.
- Сохранять извлеченные данные в формате CSV.

Рекомендуется продолжить изучение регулярных выражений и практиковаться на различных задачах для укрепления полученных знаний.

# Дополнительные задания

1. Попробуйте модифицировать регулярное выражение для парсинга email-адресов, чтобы оно соответствовало адресам в доменах `.com.ua`, `.org`, `.net` и т.д.
2. Извлеките ZIP-код из строки `State & ZIP` и сохраните его в отдельный столбец в CSV-файле.
3. Используйте модуль `pandas` для загрузки CSV-файла и последующего анализа данных.
