## Регулярные выражения в Python

Введение

Регулярные выражения (regex) - это мощный инструмент для поиска, извлечения и манипулирования текстом. Они представляют собой шаблоны, которые описывают определённые комбинации символов. В Python для работы с regex используется модуль re.

Базовые элементы regex

* Точка (.): Соответствует любому символу.
* Звездочка (*): Соответствует 0 или более повторений предшествующего символа или группы.
* Плюс (+): Соответствует 1 или более повторений предшествующего символа или группы.
* Вопрос (?): Соответствует 0 или 1 повторению предшествующего символа или группы.
* Квадратные скобки ([...]): Определяют набор символов, из которых выбирается один.
* Скобки ( ): Группируют символы или группы.
* Вертикальная черта (|): Указывает на выбор между двумя или более вариантами.
* Символ перевода строки (\n): Соответствует символу перевода строки.
* Специальные символы: \\d (цифры), \\w (буквы и цифры), \\s (пробельные символы).


Пример 1: Проверка телефонного номера

In [28]:
import re

phone_number = "+7-800-555-35-35"
pattern = r"\+\d{1}-\d{3}-\d{3}-\d{2}-\d{2}"

match = re.search(pattern, phone_number)

if match:
    print("Телефонный номер верен")
else:
    print("Неверный формат телефонного номера")


Телефонный номер верен


re.Match


В данном примере мы используем шаблон \d{3}-\d{3}-\d{3}-\d{2}-\d{2}, который соответствует номеру телефона с кодом города, номером и номером абонента, разделенным тире. Функция re.search() ищет вхождение шаблона в строке. Если соответствие найдено, match не будет None и мы выведем сообщение "Телефонный номер верен".

Пример 2: Извлечение электронных адресов

In [42]:
import re

text = "Свяжитесь со мной по адресу: my.email@example.com, или по номеру телефона: 8-800-555-35-35"

emails = re.findall(r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}", text)

print(f"Найденные электронные адреса: {emails}")


Найденные электронные адреса: ['my.email@example.com']



В этом примере мы используем шаблон [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,} для поиска электронных адресов. re.findall() возвращает список всех найденных соответствий шаблону в тексте.


In [23]:
stroka = """
<!DOCTYPE html>

<html lang="ru">

<head>
    
<meta charset="UTF-8">
    
<meta name="viewport" content="width=device-width, initial-scale=1.0">
    
<title>Резюме Непочатый Антон</title>
    
<style>
        
body {
font-family: Arial, sans-serif; background-color: #f2f2f2; margin: 0; padding: 0;}.container {
max-width: 800px;
            margin: 20px auto;
            background-color: #fff;
            padding: 20px;
            border-radius: 8px;
            box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
        }
        .header {
            text-align: center;
            border-bottom: 2px solid #eee;
            padding-bottom: 20px;
        }
        .header h1 {
            margin: 0;
            font-size: 26px;
            color: #333;
        }
        .header p {
            margin: 5px 0;
            color: #666;
        }
        .section {
            margin-top: 20px;
        }
        .section h2 {
            font-size: 20px;
            margin-bottom: 10px;
            color: #333;
        }
        .section p, .section ul {
            margin: 0 0 10px;
        }
        .section ul {
            list-style: none;
            padding: 0;
        }
        .section ul li {
            padding: 5px 0;}.section ul li strong {display: block;color: #333;}.section ul li em {color: #666;}</style>

</head>

<body>
    
<div class="container">
        
<div class="header">
            
<h1>Непочатый Антон</h1>
            
<p>Телефон: +995 551-100-500</p>
<p>Email: kuvaldabikes@gmail.com</p>
            
<p>Город: Москва</p>
        
</div>
        
<div class="section">
            
<h2>Цель</h2>
            
<p>Дратути, Я хотел бы войти в ИТ</p>
        
</div>
        <div class="section">
            
<h2>Опыт работы</h2>
            
<ul>
                
<li>
                    
<strong>ФГУП НАМИ, Москва</strong>
                    
<em>Ведущий инженер-конструктор, Январь 2020 - Сентябрь 2022</em>
                    
<p>Разработка электромотика</p>
                
</li>
                
<li>
                    
<strong>Миландр СМ, Москва</strong>
                    
<em>Ведущий инженер-конструктор, Июнь 2018 - Январь 2020</em>
                    
<p>Разработка электромотика</p>
                
</li>
            
</ul>
        
</div>
        <div class="section">
            
<h2>Образование</h2>
            
<ul>
                <li>
                    
<strong>Московский Авиационный Институт</strong>
                    
<em>Специалист, Авиационные двигатели и энергетические установки, Сентябрь 2010 - Июнь 2015</em>
                
</li>
            </ul>
        </div>
        <div class="section">
            
<h2>Навыки</h2>
            <ul>
                
<li>NX, ANSYS, SolidWorks, Fusion 360, OnShape</li>
                
<li>Teamcenter</li>
 
<li>---------------</li>
               
<li>Однако, надеюсь тут скоро будут:</li>
                
<li>Python, SQL</li>
                
<li>Git, Docker</li>
            
</ul>
        
</div>
        <div class="section">
            
<h2>Дополнительная информация</h2>
            
<p>Английский B1, Немецкий учу в DuoLingvo, ВУ категории B, играю на басухе и просто гитаре, катаюсь на велосипеде.</p>
        
</div>
    
</div>

</body>

</html>
"""
emails = re.findall(r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}", stroka)

print(f"Найденные электронные адреса: {emails}")

Найденные электронные адреса: ['kuvaldabikes@gmail.com']


Пример 3: Замена текста


In [25]:
import re

text = "Hello, world! How are you today?"
new_text = re.sub(r"world", "Python", text)
#new_text = re.sub(r".*\!", "Python", text)
print(f"Измененный текст: {new_text}")


Измененный текст: Python How are you today?



re.sub() позволяет заменять все вхождения шаблона в тексте на новую строку.



Группировка и захват

Используя скобки (), можно группировать части шаблона и извлекать их значения.

In [31]:
import re

text = "The quick brown fox jumps over the lazy dog."
match = re.search(r"(\w+) (\w+)", text)

if match:
    print(f"Первое слово: {match.group(1)}")
    print(f"Второе слово: {match.group(2)}")


Первое слово: The
Второе слово: quick


В этом примере мы группируем слова "quick" и "brown", и можем получить доступ к их значениям через match.group(1) и match.group(2).


Использование метасимволов

Существует множество метасимволов, которые упрощают построение шаблонов:

* \d:  Соответствует любому десятичному числу (0-9).
* \w: Соответствует любому буквенно-цифровому символу или подчеркиванию (_).
* \s: Соответствует любому пробельному символу (пробел, табуляция, перевод строки).
* \b: Соответствует границе слова.

In [34]:
import re

text = "tel 123-456-7890"
match = re.search(r"\b\d{3}-\d{3}-\d{4}\b", text)

if match:
    print("Найден телефонный номер: ", match.group(0))


Найден телефонный номер:  123-456-7890



Этот пример демонстрирует использование \b для поиска телефонного номера, окруженного границами слов.

  Квантификаторы

Квантификаторы позволяют указывать количество повторений символа или группы:

* *: 0 или более повторений.
* +: 1 или более повторений.
* ?: 0 или 1 повторение.
* {n}: Точно n повторений.
* {n,}: n или более повторений.
* {n, m}: от n до m повторений.

In [11]:
import re

text = "Helloooo world!"
match = re.search(r"o{2,}", text)

if match:
    print("Найдено:", match.group(0))


Найдено: oooo


Этот пример демонстрирует поиск последовательности из 2 или более "o".


  Атрибуты регексов

Модуль re предоставляет множество атрибутов для работы с регексами:

* re.IGNORECASE: Игнорирует регистр символов.
* re.MULTILINE:  Рассматривает строку как многострочную.
* re.DOTALL: Точка (.) соответствует любому символу, включая перевод строки.


In [13]:
import re

text = "Hello\nworld!"
match = re.search(r"Hello.*world", text, re.DOTALL)

if match:
    print("Найдено:", match.group(0))


Найдено: Hello
world


  Дополнительные возможности

* re.findall(): Возвращает список всех найденных соответствий шаблону в тексте.
* re.sub(): Заменяет все вхождения шаблона в тексте на новую строку.
* re.split(): Разбивает строку на список подстрок по найденным вхождениям шаблона.
* re.compile(): Компилирует регулярное выражение для многократного использования.




Регулярные выражения – это мощный инструмент для работы с текстом. Понимание их синтаксиса и возможностей позволит вам эффективно выполнять различные задачи, такие как валидация данных, поиск и замена текста, извлечение информации и многое другое.