Эта тетрадка содержит примеры использования регулярных выражений для обработки текстов на русском и английском языках. Мы начнем с простых примеров и постепенно перейдем к более сложным задачам.

**Библиотеки:**

In [2]:
import re
import time
from collections import Counter

**1. Основы регулярных выражений**

1.1 Простой поиск

In [3]:
# Пример текста на русском языке
text_ru = "Регулярные выражения - мощный инструмент для обработки текста."

# Поиск слова "выражения"
match = re.search("выражения", text_ru)
if match:
    print(f"Найдено совпадение: {match.group()}")
    print(f"Позиция: с {match.start()} по {match.end()}")

Найдено совпадение: выражения
Позиция: с 11 по 20


Пояснение: Функция re.search() ищет первое вхождение шаблона в строке. Если совпадение найдено, она возвращает объект Match, который содержит информацию о найденном совпадении. Метод group() возвращает найденную подстроку, а методы start() и end() возвращают начальную и конечную позиции совпадения.

1.2 Поиск всех совпадений.
Для поиска всех совпадений используется функция re.findall():

In [None]:
# Пример текста на английском языке
text_en = "Regular expressions are powerful tools for text processing. Regular patterns can be defined using these expressions."

# Поиск всех вхождений слова "regular" (без учета регистра)
matches = re.findall("regular", text_en, re.IGNORECASE)
print(f"Найдено совпадений: {len(matches)}")
print(f"Совпадения: {matches}")

Найдено совпадений: 2
Совпадения: ['Regular', 'Regular']


Пояснение: Функция re.findall() возвращает список всех найденных совпадений. Флаг re.IGNORECASE указывает, что поиск должен производиться без учета регистра.

1.3 Замена текста.
Функция re.sub() используется для замены текста, соответствующего шаблону:

In [4]:
# Заменим слово "мощный" на "эффективный"
new_text = re.sub("мощный", "эффективный", text_ru)
print(f"Исходный текст: {text_ru}")
print(f"Новый текст: {new_text}")

Исходный текст: Регулярные выражения - мощный инструмент для обработки текста.
Новый текст: Регулярные выражения - эффективный инструмент для обработки текста.


**2. Метасимволы и классы символов**

2.1 Точка (любой символ).
Точка . соответствует любому символу, кроме новой строки:

In [None]:
text = "cat, bat, rat, mat, sad"
pattern = ".at"
matches = re.findall(pattern, text)
print(f"Шаблон '{pattern}' находит: {matches}")

Шаблон '.at' находит: ['cat', 'bat', 'rat', 'mat']


2.2 Квантификаторы (*, +, ?, {}) определяют, сколько раз должен повторяться предыдущий элемент:




In [5]:
text = "регулярное выражение, регулярные выражения, нерегулярный"

# * - 0 или более повторений
pattern1 = "регуляр.*выражени"
matches1 = re.findall(pattern1, text)
print(f"'регуляр.*выражени' находит: {matches1}")

# + - 1 или более повторений
pattern2 = "регуляр.+е"
matches2 = re.findall(pattern2, text)
print(f"'регуляр.+е' находит: {matches2}")

# ? - 0 или 1 повторение
pattern3 = "регулярн?ый"
matches3 = re.findall(pattern3, text)
print(f"'регулярн?ый' находит: {matches3}")

# {n} - ровно n повторений
pattern4 = "регуляр.{3}е"
matches4 = re.findall(pattern4, text)
print(f"'регуляр.{3}е' находит: {matches4}")

'регуляр.*выражени' находит: ['регулярное выражение, регулярные выражени']
'регуляр.+е' находит: ['регулярное выражение, регулярные выражения, нере']
'регулярн?ый' находит: ['регулярный']
'регуляр.3е' находит: []


Пояснение:

* \* означает "0 или более повторений предыдущего элемента"
* \+ означает "1 или более повторений предыдущего элемента"
* \? означает "0 или 1 повторение предыдущего элемента"
* \{n} означает "ровно n повторений предыдущего элемента"
* \{n,} означает "n или более повторений предыдущего элемента"
* \{n,m} означает "от n до m повторений предыдущего элемента"

2.3 Классы символов позволяют указать набор символов, из которых один должен присутствовать в данной позиции:

In [None]:
text = "Телефоны (tel.): +7(123)456-78-90, 8-987-654-32-10, 89991112233"

# [0-9] - любая цифра (то же, что и \d)
digits = re.findall("[0-9]+", text)
print(f"Цифры: {digits}")

# [а-яА-Я] - любая русская буква
russian_letters = re.findall("[а-яА-Я]+", text)
print(f"Русские слова: {russian_letters}")

# [a-zA-Z] - любая латинская буква
english_letters = re.findall("[a-zA-Z]+", text)
print(f"Латинские слова: {english_letters}")

# [^0-9] - любой символ, кроме цифры
non_digits = re.findall("[^0-9]+", text)
print(f"Не цифры: {non_digits}")

**3. Группировка и захват**

3.1 Основы группировки. Скобки () используются для группировки элементов регулярного выражения:

In [None]:
text = "apple, orange, banana, apple123, orange456"

# Группировка и захват
pattern = r"(apple|orange)(\d*)"
matches = re.findall(pattern, text)
print(f"Найденные группы: {matches}")

# Использование групп в re.search
match = re.search(pattern, text)
if match:
    print(f"Первая группа: {match.group(1)}")
    print(f"Вторая группа: {match.group(2)}")

3.2 Именованные группы позволяют обращаться к группам по имени, а не по индексу:

In [None]:
text = "Дата: 12.05.2023, время: 15:30"

# Именованные группы
pattern = r"Дата: (?P<day>\d{2})\.(?P<month>\d{2})\.(?P<year>\d{4}), время: (?P<hour>\d{2}):(?P<minute>\d{2})"
match = re.search(pattern, text)

if match:
    print(f"День: {match.group('day')}")
    print(f"Месяц: {match.group('month')}")
    print(f"Год: {match.group('year')}")
    print(f"Час: {match.group('hour')}")
    print(f"Минута: {match.group('minute')}")

    # Получение словаря всех именованных групп
    date_dict = match.groupdict()
    print(f"Словарь групп: {date_dict}")

Пояснение: Именованные группы создаются с помощью синтаксиса (?P<name>pattern). После нахождения совпадения, можно обратиться к группе по имени с помощью метода group('name'). Метод groupdict() возвращает словарь, где ключи — имена групп, а значения — соответствующие совпадения.

3.3 Незахватывающие группы. Иногда нужно использовать группировку без захвата совпадений:

In [None]:
text = "apple123, orange456, banana789"

# Обычные захватывающие группы
pattern1 = r"(apple|orange|banana)(\d+)"
matches1 = re.findall(pattern1, text)
print(f"Захватывающие группы: {matches1}")

# Незахватывающие группы
pattern2 = r"(?:apple|orange|banana)(\d+)"
matches2 = re.findall(pattern2, text)
print(f"Незахватывающие группы: {matches2}")

Захватывающие группы: [('apple', '123'), ('orange', '456'), ('banana', '789')]
Незахватывающие группы: ['123', '456', '789']


**4. Специальные конструкции**

4.1 Границы слов. Метасимволы \b и \B используются для обозначения границ слов:

In [None]:
text = "This is a test. Testing is important."

# \b - граница слова
pattern1 = r"\btest\b"
matches1 = re.findall(pattern1, text)
print(f"\\btest\\b находит: {matches1}")

# \B - не граница слова
pattern2 = r"im\B"
matches2 = re.findall(pattern2, text)
print(f"im\\B находит: {matches2}")
pattern2 = r"im\b"
matches2 = re.findall(pattern2, text)
print(f"im\\B находит: {matches2}")

pattern3 = r"\btest"
matches3 = re.findall(pattern3, text)
print(f"\\btest находит: {matches3}")

\btest\b находит: ['test']
im\B находит: ['im']
im\B находит: []
\btest находит: ['test']


Пояснение:

* \b соответствует границе слова (позиции между символом, удовлетворяющим \w, и символом, не удовлетворяющим \w)
* \B соответствует позиции, не являющейся границей слова
* \bword соответствует слову, начинающемуся с "word"
* word\b соответствует слову, заканчивающемуся на "word"
* \bword\b соответствует слову "word" целиком

4.2 Начало и конец строки. Метасимволы ^ и $ обозначают начало и конец строки:

In [None]:
text = """Первая строка
Вторая строка
Третья строка
Первая строка
Вторая строка"""

# ^ - начало строки
pattern1 = r"^Первая"
matches1 = re.findall(pattern1, text)
print(f"^Первая находит: {matches1}")

# $ - конец строки
pattern2 = r"строка$"
matches2 = re.findall(pattern2, text)
print(f"строка$ находит: {matches2}")

# Использование флага MULTILINE
pattern3 = r"^Вторая"
matches3 = re.findall(pattern3, text, re.MULTILINE)
print(f"^Вторая с флагом MULTILINE находит: {matches3}")

Пояснение:

* ^ соответствует началу строки
* $ соответствует концу строки

* По умолчанию, ^ и $ соответствуют началу и концу всего текста


* С флагом re.MULTILINE, ^ и $ соответствуют началу и концу каждой строки в тексте

4.3 Жадные и ленивые квантификаторы. По умолчанию квантификаторы "жадные" — они захватывают максимально возможное количество символов. Добавление ? к квантификатору делает его "ленивым":

In [None]:
text = "<div>Первый блок</div><div>Второй блок</div>"

# Жадный квантификатор
pattern1 = r"<div>.+</div>"
matches1 = re.findall(pattern1, text)
print(f"Жадный квантификатор .+ находит: {matches1}")

# Ленивый квантификатор
pattern2 = r"<div>.+?</div>"
matches2 = re.findall(pattern2, text)
print(f"Ленивый квантификатор .+? находит: {matches2}")

4.4 Опережающие и ретроспективные проверки. Эти конструкции позволяют проверять контекст вокруг совпадения, не включая его в результат:




In [None]:
text = "apple price: $10, orange price: $5, banana price: $7"

# Позитивная опережающая проверка: (?=...)
# Найти все товары, за которыми следует цена $5 или $7
pattern1 = r"\w+(?= price: \$[57])"
matches1 = re.findall(pattern1, text)
print(f"Товары с ценой $5 или $7: {matches1}")

# Негативная опережающая проверка: (?!...)
# Найти все товары, за которыми не следует цена $10
pattern2 = r"\b(\w+)(?= price: \$(?!10\b))"
matches2 = re.findall(pattern2, text)
print(f"Товары с ценой не $10: {matches2}")

# Позитивная ретроспективная проверка: (?<=...)
# Найти все цены, перед которыми стоит "apple price: " или "orange price: "
pattern3 = r"(?<=apple price: )\$\d+|(?<=orange price: )\$\d+"
matches3 = re.findall(pattern3, text)
print(f"Цены яблок или апельсинов: {matches3}")

# Негативная ретроспективная проверка: (?<!...)
# Найти все цены, перед которыми не стоит "banana price: "
pattern4 = r"(?<!banana price: )\$\d+"
matches4 = re.findall(pattern4, text)
print(f"Цены не бананов: {matches4}")

Товары с ценой $5 или $7: ['orange', 'banana']
Товары с ценой не $10: ['orange', 'banana']
Цены яблок или апельсинов: ['$10', '$5']
Цены не бананов: ['$10', '$5']


**5. Препроцессинг текста с помощью регулярных выражений**

5.1 Токенизация текста. Разделение текста на слова с учетом пунктуации:

In [None]:
def tokenize_text(text):
    # Удаляем все символы, кроме букв, цифр и пробелов
    # Заменяем их на пробелы
    text = re.sub(r'[^\w\s]', ' ', text)

    # Разделяем текст по пробелам
    tokens = re.split(r'\s+', text)

    # Удаляем пустые токены
    tokens = [token for token in tokens if token]

    return tokens

text_ru = "Привет, мир! Это пример текста на русском языке для обработки регулярными выражениями."
text_en = "Hello, world! This is an example of English text for processing with regular expressions."

tokens_ru = tokenize_text(text_ru)
tokens_en = tokenize_text(text_en)

print(f"Токены русского текста: {tokens_ru}")
print(f"Токены английского текста: {tokens_en}")

5.2 Очистка текста. Удаление специальных символов, лишних пробелов и HTML-тегов:

In [None]:
def clean_text(text):
    # Удаление HTML-тегов
    text = re.sub(r'<[^>]+>', '', text)

    # Удаление URL
    text = re.sub(r'https?://\S+|www\.\S+', '', text)

    # Удаление символов пунктуации
    text = re.sub(r'[^\w\s]', ' ', text)

    # Удаление цифр
    text = re.sub(r'\d+', '', text)

    # Удаление лишних пробелов
    text = re.sub(r'\s+', ' ', text)

    # Приведение к нижнему регистру
    text = text.lower().strip()

    return text

text = """
<div>Пример <b>HTML</b> текста</div>
Ссылка: https://example.com
Цифры: 12345
Лишние   пробелы    и пунктуация: !@#$%^&*()
"""

cleaned_text = clean_text(text)
print(f"Исходный текст:\n{text}")
print(f"Очищенный текст:\n{cleaned_text}")

5.3 Извлечение информации

In [None]:
def extract_emails(text):
    pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
    return re.findall(pattern, text)

def extract_phone_numbers(text):
    # Шаблон для российских номеров телефонов с захватом всего номера
    pattern = r'((?:\+7|8)[\s\-(]?\d{3}[\s\-)]?\d{3}[\s\-]?\d{2}[\s\-]?\d{2})'
    return re.findall(pattern, text)

def extract_dates(text):
    # Шаблон для дат в формате ДД.ММ.ГГГГ или ДД/ММ/ГГГГ
    pattern = r'\b\d{1,2}[./]\d{1,2}[./]\d{2,4}\b'
    return re.findall(pattern, text)

def extract_entities(text):
    results = {
        'emails': extract_emails(text),
        'phones': extract_phone_numbers(text),
        'dates': extract_dates(text)
    }
    return results

sample_text = """
Контактная информация:
Email: john.doe@example.com, support@company.org
Телефоны: +7(123)456-78-90, 8 999 123 45 67
Дата встречи: 15.10.2023 или 10/15/2023
"""

entities = extract_entities(sample_text)
for entity_type, entity_list in entities.items():
    print(f"{entity_type.capitalize()}: {entity_list}")

Emails: ['john.doe@example.com', 'support@company.org']
Phones: ['+7(123)456-78-90', '8 999 123 45 67']
Dates: ['15.10.2023', '10/15/2023']


5.4 Нормализация текста

In [None]:
def normalize_text(text):
    # Приведение к нижнему регистру
    text = text.lower()

    # Замена множественных пробелов на один
    text = re.sub(r'\s+', ' ', text)

    # Замена цифр на слово "число"
    text = re.sub(r'\d+', 'число', text)

    # Удаление всех символов, кроме букв и пробелов
    text = re.sub(r'[^a-zа-яё\s]', '', text)

    # Удаление начальных и конечных пробелов
    text = text.strip()

    return text

texts = [
    "Пример   текста с РАЗНЫМ регистром!!!",
    "Текст с цифрами: 123, 456, 789",
    "Текст с @специальными% символами!"
]

for i, text in enumerate(texts, 1):
    print(f"Текст {i}:")
    print(f"Исходный: {text}")
    print(f"Нормализованный: {normalize_text(text)}")
    print()

5.5 Стемминг и лемматизация с помощью регулярных выражений. Хотя для стемминга и лемматизации обычно используются специализированные инструменты, можно реализовать простые версии с помощью регулярных выражений:




In [None]:
def simple_russian_stemmer(word):
    # Удаление окончаний существительных
    word = re.sub(r'(ов|ев|ей|ам|ям|ом|ем|ами|ями|ах|ях|у|ю|е|и|ы|а|я)$', '', word)

    # Удаление окончаний прилагательных
    word = re.sub(r'(ого|его|ому|ему|ыми|ими|ых|их|ый|ий|ой|ая|ое|ее|ые|ие)$', '', word)

    # Удаление окончаний глаголов
    word = re.sub(r'(ить|ыть|ать|еть|уть|ют|ят|ат|ут|ите|ете|йте|ешь|ёшь|ет|ём|ем|им|ым|у|ю|ил|ыл|ла|ло|ли)$', '', word)

    return word

def simple_english_stemmer(word):
    # Удаление окончаний множественного числа
    word = re.sub(r'(s|es)$', '', word)

    # Удаление окончаний 'ing', 'ed'
    word = re.sub(r'(ing|ed)$', '', word)

    return word

russian_words = ["программирование", "компьютеры", "языки", "библиотеки", "функциональный", "работает"]
english_words = ["programming", "computers", "languages", "libraries", "functional", "working"]

print("Стемминг русских слов:")
for word in russian_words:
    print(f"{word} -> {simple_russian_stemmer(word)}")

print("\nСтемминг английских слов:")
for word in english_words:
    print(f"{word} -> {simple_english_stemmer(word)}")

**6. Практические примеры и задачи**

6.1 Анализ частотности слов в тексте

In [None]:
def count_word_frequency(text, top_n=10):
    # Очистка текста
    text = re.sub(r'[^\w\s]', ' ', text.lower())

    # Разделение на слова
    words = re.split(r'\s+', text)

    # Удаление пустых строк
    words = [word for word in words if word]

    # Подсчет частоты
    word_freq = Counter(words)

    # Возвращаем top_n наиболее частых слов
    return word_freq.most_common(top_n)

sample_text = """
Регулярные выражения - мощный инструмент для обработки текста.
Регулярные выражения позволяют искать и извлекать информацию из текста по определенным шаблонам.
С помощью регулярных выражений можно выполнять сложные операции по обработке текста всего несколькими строками кода.
Изучение регулярных выражений требует времени, но это время окупается сторицей при работе с текстовыми данными.
"""

word_freq = count_word_frequency(sample_text)
print("Топ-10 наиболее частых слов:")
for word, freq in word_freq:
    print(f"{word}: {freq}")

Топ-10 наиболее частых слов:
текста: 3
регулярные: 2
выражения: 2
по: 2
с: 2
регулярных: 2
выражений: 2
мощный: 1
инструмент: 1
для: 1


6.2 Фильтрация спама по ключевым словам

In [21]:
def is_spam(text, spam_words=None):
    if spam_words is None:
        spam_words = ['выигрыш', 'бесплатно', 'акция', 'скидка', 'распродажа', 'приз', 'срочно', 'только сегодня']

    # Приведение к нижнему регистру
    text = text.lower()

    # Поиск спам-слов
    matches = 0
    for word in spam_words:
        # Ищем слово с границами слова
        if re.search(r'\b' + re.escape(word) + r'\b', text):
            matches += 1

    # Если найдено больше 2 спам-слов, считаем сообщение спамом
    return matches >= 2

messages = [
    "Привет! Как дела?",
    "СРОЧНО! Только сегодня БЕСПЛАТНО получите свой ПРИЗ!",
    "Приглашаем на конференцию по машинному обучению",
    "СКИДКА 90%! РАСПРОДАЖА только сегодня! Не упустите выгодное предложение!"
]

for i, message in enumerate(messages, 1):
    print(f"Сообщение {i}: {'СПАМ' if is_spam(message) else 'НЕ СПАМ'}")
    print(f"Текст: {message}")
    print()

Сообщение 1: НЕ СПАМ
Текст: Привет! Как дела?

Сообщение 2: СПАМ
Текст: СРОЧНО! Только сегодня БЕСПЛАТНО получите свой ПРИЗ!

Сообщение 3: НЕ СПАМ
Текст: Приглашаем на конференцию по машинному обучению

Сообщение 4: СПАМ
Текст: СКИДКА 90%! РАСПРОДАЖА только сегодня! Не упустите выгодное предложение!



6.3 Извлечение цитат из текста

In [None]:
def extract_quotes(text):
    # Шаблон для поиска текста в кавычках
    patterns = [
        r'"([^"]*)"',  # Обычные двойные кавычки
        r"'([^']*)'",  # Обычные одинарные кавычки
    ]

    quotes = []
    for pattern in patterns:
        quotes.extend(re.findall(pattern, text))

    return quotes

text = """
Как сказал Альберт Эйнштейн: "Воображение важнее знания".
'Делай что можешь, с тем что у тебя есть, там где ты находишься', - советовал Теодор Рузвельт.
Марк Твен однажды заметил: "Классика — это то, что каждый хочет прочесть, но никто не хочет читать".
"""

quotes = extract_quotes(text)
print("Извлеченные цитаты:")
for i, quote in enumerate(quotes, 1):
    print(f"{i}. {quote}")

**7. Упражнения и задачи для отработки**

Упражнение 1: Проверка корректности пароля.

Напишите функцию, которая проверяет, удовлетворяет ли пароль следующим требованиям:

* Длина не менее 8 символов
* Содержит хотя бы одну цифру
* Содержит хотя бы одну строчную букву
* Содержит хотя бы одну заглавную букву
* Содержит хотя бы один специальный символ (!, @, #, $, %, ^, &, *)

In [None]:
# ваш код

def check_password(password):
    if len(password) < 8:
        return False, "Пароль не удовлетворяет требованиям"

    if not re.search(r'\d', password):
        return False, "Пароль не удовлетворяет требованиям"

    if not re.search(r'[a-zа-я]', password):
        return False, "Пароль не удовлетворяет требованиям"

    if not re.search(r'[A-ZА-Я]', password):
        return False, "Пароль не удовлетворяет требованиям"

    if not re.search(r'[!@#$%^&*]', password):
        return False, "Пароль не удовлетворяет требованиям"

    return True, "Пароль корректен"

# Проверка
passwords = [
    "Password123",
    "pass",
    "PASSWORD123",
    "password123!",
    "Pass@word123"
]
print("Проверка паролей")
for password in passwords:
    is_valid, message = check_password(password)
    print(f"'{password}': {message}")
print()

Проверка паролей
'Password123': Пароль не удовлетворяет требованиям
'pass': Пароль не удовлетворяет требованиям
'PASSWORD123': Пароль не удовлетворяет требованиям
'password123!': Пароль не удовлетворяет требованиям
'Pass@word123': Пароль корректен



Упражнение 2: Извлечение хештегов и упоминаний из текста социальных сетей

Напишите функцию, которая извлекает все хештеги (#hashtag) и упоминания (@mention) из текста. Функция должна возвращать словарь с двумя ключами: 'hashtags' и 'mentions', содержащими списки найденных сущностей.

In [None]:
# ваш код
def extract_h_n_m(text):
    hashtags = re.findall(r'#\w+', text)

    mentions = re.findall(r'@\w+', text)

    return {
        'hashtags': hashtags,
        'mentions': mentions
    }

# Проверка
sample_text = """
#Python - отличный язык программирования! @guido создал его в 1991 году.
Многие любят #DataScience и #MachineLearning.
Спасибо @python_tips за полезные советы!
"""

print("Упражнение 2: Хештеги и упоминания")
entities = extract_h_n_m(sample_text)
print(f"Хештеги: {entities['hashtags']}")
print(f"Упоминания: {entities['mentions']}")
print()

Упражнение 2: Хештеги и упоминания
Хештеги: ['#Python', '#DataScience', '#MachineLearning']
Упоминания: ['@guido', '@python_tips']



Упражнение 3: Нормализация русских текстов

Напишите функцию, которая выполняет следующие преобразования:

* Удаляет все не-кириллические символы, кроме пробелов
* Заменяет буквы 'ё' на 'е'
* Удаляет лишние пробелы
* Приводит текст к нижнему регистру

In [None]:
# ваш код
def normalize_russian_text(text):
    text = re.sub(r'[ёЁ]', 'е', text)
    text = re.sub(r'[^а-яА-Я\s]', '', text)

    text = re.sub(r'\s+', ' ', text)

    text = text.lower().strip()

    return text

# Проверка
texts = [
    "Привет, мир! Это текст с буквой ё и цифрами 123.",
    "МНОГО   ПРОБЕЛОВ   и English words тут.",
    "Разные символы: !@#$%^&*()_+[]{}|;':\",./<>?"
]

print("Упражнение 3: Нормализация русских текстов")
for i, text in enumerate(texts, 1):
    print(f"Текст {i}:")
    print(f"Исходный: {text}")
    normalized = normalize_russian_text(text)
    print(f"Нормализованный: {normalized}")
    print()

Упражнение 3: Нормализация русских текстов
Текст 1:
Исходный: Привет, мир! Это текст с буквой ё и цифрами 123.
Нормализованный: привет мир это текст с буквой е и цифрами

Текст 2:
Исходный: МНОГО   ПРОБЕЛОВ   и English words тут.
Нормализованный: много пробелов и тут

Текст 3:
Исходный: Разные символы: !@#$%^&*()_+[]{}|;':",./<>?
Нормализованный: разные символы



Упражнение 4: Извлечение структурированных данных из текста

Напишите функцию, которая извлекает из текста резюме следующую информацию:

* Имя и фамилию (формат: "Имя Фамилия")
* Возраст (число лет)
* Контактный email
* Контактный телефон
* Опыт работы (число лет)

In [19]:
def extract_resume_info(resume_text):

    name_pattern = r'(?:ФИО:\s*|Имя:\s*)([А-ЯЁ][а-яё]+)\s+([А-ЯЁ][а-яё]+)'
    name_match = re.search(name_pattern, resume_text)
    name = name_match.groups() if name_match else []
    age_pattern = r'Возраст:\s*(\d+)'
    age_match = re.search(age_pattern, resume_text)
    age = [age_match.group(1)] if age_match else []
    email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
    email = re.findall(email_pattern, resume_text)
    phone_pattern = r'(?:\+7|8)[\s\-(]?\d{3}[\s\-)]?\d{3}[\s\-]?\d{2}[\s\-]?\d{2}'
    phone = re.findall(phone_pattern, resume_text)
    experience_pattern = r'Опыт работы:\s*(\d+)\s*лет'
    experience_match = re.search(experience_pattern, resume_text)
    experience = [experience_match.group(1)] if experience_match else []

    result = {
        'Имя и Фамилия': ' '.join(name) if name else None,
        'Возраст': age[0] if age else None,
        'Email': email,
        'Телефон': phone,
        'Опыт работы': experience[0] if experience else None
    }

    return result

resume_text = """
ФИО: Иванов Иван

Возраст: 35 лет

Образование: Высшее техническое, МГУ, 2010 г.

Опыт работы: 12 лет в сфере IT

Контактная информация:
Email: ivan.ivanov@example.com
Телефон: +7 (123) 456-78-90, 89886678664
"""
info = extract_resume_info(resume_text)
print(info)

{'Имя и Фамилия': 'Иванов Иван', 'Возраст': '35', 'Email': ['ivan.ivanov@example.com'], 'Телефон': ['89886678664'], 'Опыт работы': '12'}


Упражнение 5: Анализ и очистка научного текста

Напишите функцию, которая выполняет следующие действия:

* Удаляет библиографические ссылки формата [1], [2-5] и т.п.
* Заменяет формулы вида (1), (2.3), (A.4) на слово "ФОРМУЛА"
* Удаляет сноски (символы * и † с соответствующим текстом)
* Извлекает все сокращения (последовательности заглавных букв, например, "DNA", "USA")
* Возвращает очищенный текст и список найденных сокращений

In [20]:
# ваш код
def analyze_text(text):

    text_cleaned = re.sub(r'\[\d+[-\d]*\]', '', text)

    text_cleaned = re.sub(r'\([\w\d\.]+\)', 'ФОРМУЛА', text_cleaned)

    text_cleaned = re.sub(r'[*†].*?(?=\n|$)', '', text_cleaned)
    text_cleaned = re.sub(r'[*†]', '', text_cleaned)

    abbreviations = re.findall(r'\b[A-Z]{2,}\b', text)

    return text_cleaned, abbreviations
# Проверка
scientific_text = """
The influence of various factors on DNA [1] structure showed interesting results.
According to equation (2.1), the interaction between nucleotides can be expressed as:
E = mc² (1)

In works [2-4] it was shown that RNA is also affected by these factors*.
* Note: only under certain conditions.

Researchers from the USA† and UK confirmed these results.
† Funding provided by NSF.
"""
cleaned_text, abbreviations = analyze_text(scientific_text)
print("Очищенный текст:")
print(cleaned_text)
print(f"Найденные сокращения: {abbreviations}")

Очищенный текст:

The influence of various factors on DNA  structure showed interesting results.
According to equation ФОРМУЛА, the interaction between nucleotides can be expressed as:
E = mc² ФОРМУЛА

In works  it was shown that RNA is also affected by these factors


Researchers from the USA


Найденные сокращения: ['DNA', 'RNA', 'USA', 'UK', 'NSF']
