# Работа с регулярными выражениями и обработка текстов

#Замена римских цифр на арабские

In [2]:
import re

def roman_to_arabic(roman):
    # Словарь для конвертации римских цифр в арабские
    roman_values = {
        'I': 1,
        'V': 5,
        'X': 10,
        'L': 50,
        'C': 100,
        'D': 500,
        'M': 1000
    }

    result = 0
    prev_value = 0

    # Проходим по строке справа налево
    for char in reversed(roman):
        current_value = roman_values[char]
        # Если текущее значение меньше предыдущего, вычитаем его
        if current_value < prev_value:
            result -= current_value
        # Иначе прибавляем
        else:
            result += current_value
        prev_value = current_value

    return result

def convert_roman_numbers(text):
    # Регулярное выражение для поиска римских чисел
    pattern = r'\b(?:M{0,3})(?:D?C{0,3}|C[DM])(?:L?X{0,3}|X[LC])(?:I[VX]|V?I{0,3})\b'

    # Функция для замены найденных совпадений
    def replace_match(match):
        roman_num = match.group(0)
        arabic_num = roman_to_arabic(roman_num)
        # Проверяем, что число находится в допустимом диапазоне
        if 1 <= arabic_num <= 3999:
            return str(arabic_num)
        return roman_num

    # Выполняем замену
    result = re.sub(pattern, replace_match, text)
    return result

# Тестирование
test_cases = [
    "В XIV веке произошло MCCCXLV важных событий",
    "MMXXI год был особенным",
    "III + II = V",
    "",  # пустая строка
    "Текст без римских чисел",
    "MMMM",  # некорректное римское число (больше 3999)
]

for test in test_cases:
    print(f"Исходный текст: '{test}'")
    result = convert_roman_numbers(test)
    print(f"Результат: '{result}'")
    print()

Исходный текст: 'В XIV веке произошло MCCCXLV важных событий'
Результат: 'В 14 веке произошло 1345 важных событий'

Исходный текст: 'MMXXI год был особенным'
Результат: '2021 год был особенным'

Исходный текст: 'III + II = V'
Результат: '3 + 2 = 5'

Исходный текст: ''
Результат: ''

Исходный текст: 'Текст без римских чисел'
Результат: 'Текст без римских чисел'

Исходный текст: 'MMMM'
Результат: 'MMMM'



#Работа с датами
Нахождение дат и прибавление 15

In [3]:
import re
from datetime import datetime, timedelta

def add_15_days(match):
    # Получаем дату из совпадения
    date_str = match.group(0)
    # Преобразуем строку в объект datetime
    date_obj = datetime.strptime(date_str, "%d.%m.%Y")
    # Добавляем 15 дней
    new_date = date_obj + timedelta(days=15)
    # Преобразуем обратно в строку в нужном формате
    return new_date.strftime("%d.%m.%Y")

def process_dates(text):
    # Регулярное выражение для поиска дат
    pattern = r'/\b(?:0?[1-9]|[12]\d|3[0-1])\.(?:0?[13578]|1[02])\.(?:\d\d\d[1-9]|\d\d[1-9]\d|\d[1-9]\d\d|[1-9]\d\d\d)\b|\b(?:0?[1-9]|[12]\d|30)\.(?:0?[469]|11)\.(?:\d\d\d[1-9]|\d\d[1-9]\d|\d[1-9]\d\d|[1-9]\d\d\d)\b|\b(?:(?:0?[1-9]|1\d|2[0-8]).(?:0?[1-9]|1[0-2]).(?:\d\d\d[1-9]|\d\d[1-9]\d|\d[1-9]\d\d|[1-9]\d\d\d)\b)|\b(?:29.0?2.(?:(?:(?:1[6-9]|[2-9]\d)?(?:0[48]|[2468][048]|[13579][26])|(?:(?:16|[2468][048]|[3579][26])00))))\b'

    # Заменяем все найденные даты
    result = re.sub(pattern, add_15_days, text)
    return result

# Пример использования
text = """
Примеры дат:
01.01.2023,
28.02.2024,
Встреча назначена на 15.03.2023, а дедлайн 30.03.2023.,
День рождения 29.02.2020 (високосный год).,
29.02.2019,
31.02.2020,
28.02.2020,
Некорректная дата: 31.04.2023.,
Конец года: 31.12.2023,
Начало года: 01.01.2024,
Разные даты: 28.02.2023 , 28.02.2024 , 29.02.2024.,
Дата на стыке месяцев: 30.04.2023.,
Дата на стыке годов: 25.12.2023.,
01.01.0001 - первое января первого года
00.00.0000 → нули везде
12.03.0000 → нули только в году
12.00.1989 → нули только в месяце
00.03.1989 → нули только в дате
01.01.1900 — магическая дата, на которой все падает.

99.99.9999 → везде треш
12.03.9999 → только в году
12.99.1989 → только в месяце
31.02.2010 — плохая дата
12.15.2010 — плохой месяц
35.15.2010 — оба плохие
99.03.1989 → только в дате
"""

processed_text = process_dates(text)
print("Исходный текст:")
print(text)
print("\nТекст после обработки:")
print(processed_text)

Исходный текст:

Примеры дат:
01.01.2023,
28.02.2024,
Встреча назначена на 15.03.2023, а дедлайн 30.03.2023.,
День рождения 29.02.2020 (високосный год).,
29.02.2019,
31.02.2020,
28.02.2020,
Некорректная дата: 31.04.2023.,
Конец года: 31.12.2023,
Начало года: 01.01.2024,
Разные даты: 28.02.2023 , 28.02.2024 , 29.02.2024.,
Дата на стыке месяцев: 30.04.2023.,
Дата на стыке годов: 25.12.2023.,
01.01.0001 - первое января первого года
00.00.0000 → нули везде
12.03.0000 → нули только в году
12.00.1989 → нули только в месяце
00.03.1989 → нули только в дате
01.01.1900 — магическая дата, на которой все падает.

99.99.9999 → везде треш
12.03.9999 → только в году
12.99.1989 → только в месяце
31.02.2010 — плохая дата
12.15.2010 — плохой месяц
35.15.2010 — оба плохие
99.03.1989 → только в дате


Текст после обработки:

Примеры дат:
16.01.2023,
14.03.2024,
Встреча назначена на 30.03.2023, а дедлайн 30.03.2023.,
День рождения 15.03.2020 (високосный год).,
29.02.2019,
31.02.2020,
14.03.2020,
Некорректн

#1 задание
создание частотного словаря после предобработки текста (токенизация, удаление стоп-слов, нормализации)


Установка необходимых библиотек

In [None]:
!pip install nltk pymorphy2

In [None]:
!pip install corus pandas tqdm

Скачивание датасета Lenta.ru

In [4]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2024-11-01 19:44:36--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20241101%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20241101T194436Z&X-Amz-Expires=300&X-Amz-Signature=3f7ecb97033b837c277829aeefeee234a03d3e87b28c822dd134863883a2cc12&X-Amz-SignedHeaders=host&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2024-11-01 19:44:36--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-

Реализованы:
* Токенизация
* Удаление пунктуации и цифр
* Удаление стоп-слов
* Нормализация слов



In [5]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import pymorphy2
from collections import Counter
import re
from corus import load_lenta
import pandas as pd
from tqdm import tqdm

# Загрузка стоп-слов для русского языка
nltk.download('stopwords')
nltk.download('punkt')
stop_words = set(stopwords.words('russian'))

morph = pymorphy2.MorphAnalyzer()

def preprocess_text(text):
    # Токенизация текста
    tokens = word_tokenize(text.lower())

    # Удаление пунктуации и цифр
    tokens = [re.sub(r'[^\w\s]', '', token) for token in tokens]
    tokens = [token for token in tokens if token]

    # Удаление стоп-слов
    tokens = [token for token in tokens if token not in stop_words]

    # Нормализация слов
    normalized_tokens = [morph.parse(token)[0].normal_form for token in tokens]

    return normalized_tokens

def process_lenta_dataset(path, max_articles=None):
    # Загрузка датасета
    records = load_lenta(path)

    # Преобразование в список для подсчета длины
    records_list = list(records)
    if max_articles:
        records_list = records_list[:max_articles]

    all_tokens = []

    # Обработка каждой статьи с прогресс-баром
    for record in tqdm(records_list, desc="Обработка статей"):
        # Объединяем заголовок и текст статьи
        full_text = f"{record.title} {record.text}"
        # Обрабатываем текст
        tokens = preprocess_text(full_text)
        all_tokens.extend(tokens)

    return all_tokens

def save_frequency_dict(word_counts, output_file):
    df = pd.DataFrame(word_counts.items(), columns=['word', 'count'])
    df = df.sort_values('count', ascending=False)

    # Сохранение в файл
    df.to_csv(output_file, index=False, encoding='utf-8')

def main():
    dataset_path = 'lenta-ru-news.csv.gz'

    # Количество статей для обработки (None для обработки всего датасета)
    max_articles = 1000

    try:
        # Обработка датасета
        print("Начало обработки датасета...")
        all_tokens = process_lenta_dataset(dataset_path, max_articles)

        # Подсчет частоты слов
        print("Подсчет частоты слов...")
        word_counts = Counter(all_tokens)

        # Сохранение результатов
        output_file = 'frequency_dict.csv'
        save_frequency_dict(word_counts, output_file)

        print(f"Частотный словарь успешно сохранен в файл {output_file}")
        print(f"Всего уникальных слов: {len(word_counts)}")

        # Вывод топ-10 самых частых слов
        print("\nТоп-10 самых частых слов:")
        for word, count in sorted(word_counts.items(), key=lambda x: x[1], reverse=True)[:10]:
            print(f"{word}: {count}")

    except Exception as e:
        print(f"Произошла ошибка: {str(e)}")

if __name__ == "__main__":
    main()

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Начало обработки датасета...


Обработка статей: 100%|██████████| 1000/1000 [00:31<00:00, 31.60it/s]


Подсчет частоты слов...
Частотный словарь успешно сохранен в файл frequency_dict.csv
Всего уникальных слов: 18436

Топ-10 самых частых слов:
год: 1472
который: 970
россия: 886
российский: 671
декабрь: 668
также: 555
это: 554
свой: 465
слово: 443
время: 435


Обработка текстового файла и построение словаря, который также сохраняется в текстовый файл в формате (словоформа, количество_вхождений_словоформы) с сортировкой по количеству вхождений

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import pymorphy2
from collections import Counter
import re

# Загрузка стоп-слов для русского языка
nltk.download('stopwords')
nltk.download('punkt')
stop_words = set(stopwords.words('russian'))

# Инициализация морфологического анализатора
morph = pymorphy2.MorphAnalyzer()

def preprocess_text(text):
    # Токенизация текста
    tokens = word_tokenize(text.lower())

    # Удаление пунктуации и цифр
    tokens = [re.sub(r'[^\w\s]', '', token) for token in tokens]
    tokens = [token for token in tokens if token]

    # Удаление стоп-слов
    tokens = [token for token in tokens if token not in stop_words]

    # Нормализация слов
    normalized_tokens = [morph.parse(token)[0].normal_form for token in tokens]

    return normalized_tokens

# Чтение входного файла
input_file = 'input.txt'
with open(input_file, 'r', encoding='utf-8') as file:
    text = file.read()

# Предобработка текста
processed_tokens = preprocess_text(text)

# Подсчет частоты слов
word_counts = Counter(processed_tokens)

# Сортировка по частоте (по убыванию)
sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)

# Запись результатов в выходной файл
output_file = 'output.txt'
with open(output_file, 'w', encoding='utf-8') as file:
    for word, count in sorted_word_counts:
        file.write(f"{word}, {count}\n")

print(f"Частотный словарь сохранен в файл {output_file}")

#2 задание
вместо нормализации использована стемматизация

In [6]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from collections import Counter
import re
from corus import load_lenta
import pandas as pd
from tqdm import tqdm

# Загрузка стоп-слов для русского языка
nltk.download('stopwords')
nltk.download('punkt')
stop_words = set(stopwords.words('russian'))

# Инициализация стеммера
stemmer = SnowballStemmer("russian")

def preprocess_text(text):
    # Токенизация текста
    tokens = word_tokenize(text.lower())

    # Удаление пунктуации и цифр
    tokens = [re.sub(r'[^\w\s]', '', token) for token in tokens]
    tokens = [token for token in tokens if token]

    # Удаление стоп-слов
    tokens = [token for token in tokens if token not in stop_words]

    # Стемминг слов
    stemmed_tokens = [stemmer.stem(token) for token in tokens]

    return stemmed_tokens

def process_lenta_dataset(path, max_articles=None):
    # Загрузка датасета
    records = load_lenta(path)

    # Преобразование в список для подсчета длины
    records_list = list(records)
    if max_articles:
        records_list = records_list[:max_articles]

    all_tokens = []

    # Обработка каждой статьи с прогресс-баром
    for record in tqdm(records_list, desc="Обработка статей"):
        # Объединяем заголовок и текст статьи
        full_text = f"{record.title} {record.text}"
        # Обрабатываем текст
        tokens = preprocess_text(full_text)
        all_tokens.extend(tokens)

    return all_tokens

def save_frequency_dict(word_counts, output_file):
    # Создание DataFrame для удобного сохранения
    df = pd.DataFrame(word_counts.items(), columns=['word', 'count'])
    df = df.sort_values('count', ascending=False)

    # Сохранение в файл
    df.to_csv(output_file, index=False, encoding='utf-8')

def main():
    # Путь к датасету Lenta.ru
    dataset_path = 'lenta-ru-news.csv.gz'

    # Количество статей для обработки (None для обработки всего датасета)
    max_articles = 1000  # Можно изменить или установить None

    try:
        # Обработка датасета
        print("Начало обработки датасета...")
        all_tokens = process_lenta_dataset(dataset_path, max_articles)

        # Подсчет частоты слов
        print("Подсчет частоты слов...")
        word_counts = Counter(all_tokens)

        # Сохранение результатов
        output_file = 'frequency_dict_stemmed.csv'
        save_frequency_dict(word_counts, output_file)

        print(f"Частотный словарь успешно сохранен в файл {output_file}")
        print(f"Всего уникальных слов: {len(word_counts)}")

        # Вывод топ-10 самых частых слов
        print("\nТоп-10 самых частых слов:")
        for word, count in sorted(word_counts.items(), key=lambda x: x[1], reverse=True)[:10]:
            print(f"{word}: {count}")

    except Exception as e:
        print(f"Произошла ошибка: {str(e)}")

if __name__ == "__main__":
    main()

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Начало обработки датасета...


Обработка статей: 100%|██████████| 1000/1000 [00:11<00:00, 85.57it/s] 


Подсчет частоты слов...
Частотный словарь успешно сохранен в файл frequency_dict_stemmed.csv
Всего уникальных слов: 18250

Топ-10 самых частых слов:
год: 1234
котор: 970
росс: 886
российск: 671
декабр: 668
сообща: 626
эт: 623
такж: 555
сво: 465
слов: 444


#3 задание
собрать корпус документов и подсчитать tf-idf после нормализации и после стемминга

In [None]:
!pip install requests beautifulsoup4 nltk pymorphy2 scikit-learn pandas

In [8]:
import requests
from bs4 import BeautifulSoup
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import pymorphy2
from nltk.stem.snowball import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# Загрузка стоп-слов и инициализация необходимых инструментов
nltk.download('stopwords')
nltk.download('punkt')
stop_words = set(stopwords.words('russian'))
morph = pymorphy2.MorphAnalyzer()
stemmer = SnowballStemmer("russian")

def get_wikipedia_content(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    content = soup.find(id="mw-content-text")
    paragraphs = content.find_all('p')
    text = ' '.join([p.get_text() for p in paragraphs])
    return text

# Список URL статей
urls = [
    "https://ru.wikipedia.org/wiki/Python",
    "https://ru.wikipedia.org/wiki/Java",
    "https://ru.wikipedia.org/wiki/C%2B%2B",
    "https://ru.wikipedia.org/wiki/JavaScript",
    "https://ru.wikipedia.org/wiki/Ruby"
]

# Собираем корпус документов
documents = []
for url in urls:
    print(f"Загрузка содержимого с {url}")
    content = get_wikipedia_content(url)
    documents.append(content)

# Вариант 1: Нормализация с Pymorphy2
def normalize_pymorphy(text):
    tokens = word_tokenize(text.lower())
    normalized = [morph.parse(word)[0].normal_form for word in tokens if word.isalpha() and word not in stop_words]
    return ' '.join(normalized)

# Вариант 2: Нормализация со стеммером
def normalize_stemmer(text):
    tokens = word_tokenize(text.lower())
    stemmed = [stemmer.stem(word) for word in tokens if word.isalpha() and word not in stop_words]
    return ' '.join(stemmed)

# Нормализация документов
documents_pymorphy = [normalize_pymorphy(doc) for doc in documents]
documents_stemmer = [normalize_stemmer(doc) for doc in documents]

# Функция для вычисления TF-IDF
def calculate_tfidf(documents):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(documents)
    feature_names = vectorizer.get_feature_names_out()
    df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)
    return df_tfidf

# Вычисление TF-IDF для обоих вариантов
tfidf_pymorphy = calculate_tfidf(documents_pymorphy)
tfidf_stemmer = calculate_tfidf(documents_stemmer)

# Вывод результатов
print("\nTF-IDF матрица (Pymorphy2):")
print(tfidf_pymorphy)

print("\nTF-IDF матрица (Stemmer):")
print(tfidf_stemmer)

# Вывод топ-10 ключевых слов для каждого документа
def print_top_keywords(tfidf_matrix, urls):
    for i, url in enumerate(urls):
        print(f"\nТоп-10 ключевых слов для документа {url}:")
        top_indices = tfidf_matrix.iloc[i].nlargest(10).index
        print(", ".join(top_indices))

print("\nКлючевые слова (Pymorphy2):")
print_top_keywords(tfidf_pymorphy, urls)

print("\nКлючевые слова (Stemmer):")
print_top_keywords(tfidf_stemmer, urls)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Загрузка содержимого с https://ru.wikipedia.org/wiki/Python
Загрузка содержимого с https://ru.wikipedia.org/wiki/Java
Загрузка содержимого с https://ru.wikipedia.org/wiki/C%2B%2B
Загрузка содержимого с https://ru.wikipedia.org/wiki/JavaScript
Загрузка содержимого с https://ru.wikipedia.org/wiki/Ruby

TF-IDF матрица (Pymorphy2):
     abap       abc       abi       abs  abstract    access   acorn  \
0  0.0000  0.017867  0.005956  0.000000  0.000000  0.000000  0.0000   
1  0.0000  0.000000  0.000000  0.009607  0.019213  0.000000  0.0000   
2  0.0000  0.000000  0.000000  0.000000  0.000000  0.007942  0.0000   
3  0.0000  0.000000  0.000000  0.000000  0.000000  0.000000  0.0000   
4  0.0117  0.000000  0.000000  0.000000  0.000000  0.000000  0.0117   

   activerecord   activex        ad  ...     явный      ядро      язык  \
0        0.0000  0.000000  0.000000  ...  0.007977  0.020132  0.317846   
1        0.0000  0.000000  0.000000  ...  0.025735  0.000000  0.169374   
2        0.0000  0.00

#4 задание
алгоритм автоматического реферирования

In [9]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import pymorphy2
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

class TextSummarizer:
    def __init__(self):
        # Инициализация необходимых компонентов
        nltk.download('stopwords')
        nltk.download('punkt')
        self.stop_words = set(stopwords.words('russian'))
        self.morph = pymorphy2.MorphAnalyzer()

    def normalize_word(self, word):
        """Нормализация слова с помощью PyMorphy2"""
        return self.morph.parse(word)[0].normal_form

    def preprocess_text(self, text):
        """Разбиение текста на предложения и их предварительная обработка"""
        # Разбиение на предложения
        sentences = sent_tokenize(text)

        # Обработка каждого предложения
        processed_sentences = []
        words_in_sentences = []

        for sentence in sentences:
            # Токенизация и нормализация слов
            words = word_tokenize(sentence.lower())
            normalized_words = []

            for word in words:
                if (word.isalpha() and  # только буквенные символы
                    word not in self.stop_words and  # не стоп-слова
                    len(word) > 2):  # длина больше 2 символов
                    normalized_word = self.normalize_word(word)
                    normalized_words.append(normalized_word)

            if normalized_words:  # если остались слова после фильтрации
                processed_sentences.append(sentence)
                words_in_sentences.append(normalized_words)

        return processed_sentences, words_in_sentences

    def calculate_word_weights(self, words_in_sentences):
        """Подсчет весов слов с помощью TF-IDF"""
        # Подготовка документов для TF-IDF
        documents = [' '.join(words) for words in words_in_sentences]

        # Вычисление TF-IDF
        vectorizer = TfidfVectorizer()
        tfidf_matrix = vectorizer.fit_transform(documents)

        # Получение словаря весов слов
        feature_names = vectorizer.get_feature_names_out()
        word_weights = {}

        # Средний вес слова по всем предложениям
        tfidf_mean = np.mean(tfidf_matrix.toarray(), axis=0)

        for word, weight in zip(feature_names, tfidf_mean):
            word_weights[word] = weight

        return word_weights

    def calculate_sentence_weights(self, words_in_sentences, word_weights):
        """Подсчет весов предложений"""
        sentence_weights = []

        for words in words_in_sentences:
            weight = sum(word_weights.get(word, 0) for word in words)
            sentence_weights.append(weight)

        return sentence_weights

    def summarize(self, text, compression_ratio):
        """Основная функция реферирования"""
        # Предварительная обработка текста
        original_sentences, words_in_sentences = self.preprocess_text(text)

        # Подсчет весов слов
        word_weights = self.calculate_word_weights(words_in_sentences)

        # Подсчет весов предложений
        sentence_weights = self.calculate_sentence_weights(words_in_sentences, word_weights)

        # Создание пар (индекс, вес) для сортировки
        sentence_scores = list(enumerate(sentence_weights))

        # Сортировка предложений по весу
        sorted_sentences = sorted(sentence_scores, key=lambda x: x[1], reverse=True)

        # Определение количества предложений в реферате
        n_sentences = len(original_sentences)
        n_summary_sentences = max(1, int(n_sentences * compression_ratio))

        # Отбор предложений для реферата
        selected_indices = sorted([idx for idx, _ in sorted_sentences[:n_summary_sentences]])
        summary_sentences = [original_sentences[idx] for idx in selected_indices]

        # Формирование результатов
        summary_text = ' '.join(summary_sentences)

        # Подготовка списка ключевых слов с весами
        keywords = sorted(word_weights.items(), key=lambda x: x[1], reverse=True)

        # Подготовка списка предложений с весами
        sentences_with_weights = list(zip(original_sentences, sentence_weights))

        return {
            'summary': summary_text,
            'keywords': keywords[:10],  # топ-10 ключевых слов
            'sentences': sentences_with_weights
        }

# Пример использования
def main():
    # Пример текста
    text = """
    Python — высокоуровневый язык программирования общего назначения.
    Язык ориентирован на повышение производительности разработчика и читаемости кода.
    Синтаксис ядра Python минималистичен.
    В то же время стандартная библиотека включает большой объём полезных функций.
    Python поддерживает несколько парадигм программирования.
    Основные архитектурные черты — динамическая типизация, автоматическое управление памятью.
    Язык Python используется в качестве основного языка программирования в Google.
    Python активно используется для создания искусственного интеллекта и машинного обучения.
    """

    # Создание экземпляра класса
    summarizer = TextSummarizer()

    # Получение реферата с коэффициентом сжатия 0.3 (30%)
    result = summarizer.summarize(text, 0.3)

    # Вывод результатов
    print("Реферат:")
    print(result['summary'])
    print("\nКлючевые слова с весами:")
    for word, weight in result['keywords']:
        print(f"{word}: {weight:.4f}")
    print("\nПредложения с весами:")
    for sentence, weight in result['sentences']:
        print(f"Вес: {weight:.4f} | {sentence}")

if __name__ == "__main__":
    main()

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Реферат:

    Python — высокоуровневый язык программирования общего назначения. Язык Python используется в качестве основного языка программирования в Google.

Ключевые слова с весами:
python: 0.1617
язык: 0.1489
программирование: 0.1245
использоваться: 0.0802
минималистичный: 0.0687
синтаксис: 0.0687
ядро: 0.0687
несколько: 0.0638
парадигма: 0.0638
поддерживать: 0.0638

Предложения с весами:
Вес: 0.6147 | 
    Python — высокоуровневый язык программирования общего назначения.
Вес: 0.4425 | Язык ориентирован на повышение производительности разработчика и читаемости кода.
Вес: 0.3676 | Синтаксис ядра Python минималистичен.
Вес: 0.3536 | В то же время стандартная библиотека включает большой объём полезных функций.
Вес: 0.4776 | Python поддерживает несколько парадигм программирования.
Вес: 0.3536 | Основные архитектурные черты — динамическая типизация, автоматическое управление памятью.
Вес: 0.8098 | Язык Python используется в качестве основного языка программирования в Google.
Вес: 0.5250

Автоматическое реферирование для датасета, использованного ранее

In [11]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import pymorphy2
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
from corus import load_lenta
import random

class TextSummarizer:
    def __init__(self):
        # Инициализация необходимых компонентов
        nltk.download('stopwords')
        nltk.download('punkt')
        self.stop_words = set(stopwords.words('russian'))
        self.morph = pymorphy2.MorphAnalyzer()

    def normalize_word(self, word):
        """Нормализация слова с помощью PyMorphy2"""
        return self.morph.parse(word)[0].normal_form

    def preprocess_text(self, text):
        """Разбиение текста на предложения и их предварительная обработка"""
        # Разбиение на предложения
        sentences = sent_tokenize(text)

        # Обработка каждого предложения
        processed_sentences = []
        words_in_sentences = []

        for sentence in sentences:
            # Токенизация и нормализация слов
            words = word_tokenize(sentence.lower())
            normalized_words = []

            for word in words:
                if (word.isalpha() and  # только буквенные символы
                    word not in self.stop_words and  # не стоп-слова
                    len(word) > 2):  # длина больше 2 символов
                    normalized_word = self.normalize_word(word)
                    normalized_words.append(normalized_word)

            if normalized_words:  # если остались слова после фильтрации
                processed_sentences.append(sentence)
                words_in_sentences.append(normalized_words)

        return processed_sentences, words_in_sentences

    def calculate_word_weights(self, words_in_sentences):
        """Подсчет весов слов с помощью TF-IDF"""
        # Подготовка документов для TF-IDF
        documents = [' '.join(words) for words in words_in_sentences]

        # Вычисление TF-IDF
        vectorizer = TfidfVectorizer()
        tfidf_matrix = vectorizer.fit_transform(documents)

        # Получение словаря весов слов
        feature_names = vectorizer.get_feature_names_out()
        word_weights = {}

        # Средний вес слова по всем предложениям
        tfidf_mean = np.mean(tfidf_matrix.toarray(), axis=0)

        for word, weight in zip(feature_names, tfidf_mean):
            word_weights[word] = weight

        return word_weights

    def calculate_sentence_weights(self, words_in_sentences, word_weights):
        """Подсчет весов предложений"""
        sentence_weights = []

        for words in words_in_sentences:
            weight = sum(word_weights.get(word, 0) for word in words)
            sentence_weights.append(weight)

        return sentence_weights

    def summarize(self, text, compression_ratio):
        """Основная функция реферирования"""
        # Предварительная обработка текста (шаги 1-3)
        original_sentences, words_in_sentences = self.preprocess_text(text)

        if not original_sentences:  # Проверка на пустой текст
            return {
                'summary': '',
                'keywords': [],
                'sentences': []
            }

        # Подсчет весов слов (шаг 4)
        word_weights = self.calculate_word_weights(words_in_sentences)

        # Подсчет весов предложений (шаг 5)
        sentence_weights = self.calculate_sentence_weights(words_in_sentences, word_weights)
        #(шаги 6-7)
        # Создание пар (индекс, вес) для сортировки
        sentence_scores = list(enumerate(sentence_weights))

        # Сортировка предложений по весу
        sorted_sentences = sorted(sentence_scores, key=lambda x: x[1], reverse=True)

        # Определение количества предложений в реферате (шаг 8)
        n_sentences = len(original_sentences)
        n_summary_sentences = max(1, int(n_sentences * compression_ratio))

        # Отбор предложений для реферата
        selected_indices = sorted([idx for idx, _ in sorted_sentences[:n_summary_sentences]])
        summary_sentences = [original_sentences[idx] for idx in selected_indices]

        # Формирование результатов
        summary_text = ' '.join(summary_sentences)

        # Подготовка списка ключевых слов с весами
        keywords = sorted(word_weights.items(), key=lambda x: x[1], reverse=True)

        # Подготовка списка предложений с весами
        sentences_with_weights = list(zip(original_sentences, sentence_weights))

        return {
            'summary': summary_text,
            'keywords': keywords[:10],  # топ-10 ключевых слов
            'sentences': sentences_with_weights
        }

def process_lenta_dataset(path, num_samples=5):
    """Обработка датасета Lenta и получение случайных статей"""
    # Загрузка датасета
    records = load_lenta(path)

    # Преобразование итератора в список для возможности многократного использования
    articles = list(records)

    # Выбор случайных статей
    selected_articles = random.sample(articles, num_samples)

    return selected_articles

def main():
    # Путь к датасету Lenta
    dataset_path = '/content/lenta-ru-news.csv.gz'

    # Создание экземпляра класса
    summarizer = TextSummarizer()

    try:
        # Получение случайных статей из датасета
        articles = process_lenta_dataset(dataset_path, num_samples=5)

        # Обработка каждой статьи
        for i, article in enumerate(articles, 1):
            print(f"\nСтатья {i}")
            print("Заголовок:", article.title)
            print("Дата:", article.date)
            print("Тема:", article.topic)
            print("\nОригинальный текст:")
            print(article.text[:500] + "..." if len(article.text) > 500 else article.text)

            # Получение реферата с коэффициентом сжатия 0.3 (30%)
            result = summarizer.summarize(article.text, 0.3)

            print("\nРеферат:")
            print(result['summary'])

            print("\nТоп-10 ключевых слов с весами:")
            for word, weight in result['keywords']:
                print(f"{word}: {weight:.4f}")

            print("\nПервые 3 предложения с весами:")
            for sentence, weight in list(result['sentences'])[:3]:
                print(f"Вес: {weight:.4f} | {sentence}")

            print("\n" + "="*80)

    except Exception as e:
        print(f"Ошибка при обработке датасета: {e}")

if __name__ == "__main__":
    main()

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!



Статья 1
Заголовок: В США начали поиск распространителя вируса Petya
Дата: None
Тема: Интернет и СМИ

Оригинальный текст:
Совет национальной безопасности (СНБ), ФБР и министерство внутренней безопасности США начали расследование в связи с распространением вируса-вымогателя Petya, сообщает Reuters со ссылкой на пресс-секретаря СНБ. Источник агентства сообщает, что хакерская атака не угрожает национальной безопасности США, но среди жертв вируса оказались некоторые американцы. В Министерстве внутренней безопасности США заявили, что сотрудничают с другими странами по поводу распространения вируса-шифровальщика. Министе...

Реферат:
Совет национальной безопасности (СНБ), ФБР и министерство внутренней безопасности США начали расследование в связи с распространением вируса-вымогателя Petya, сообщает Reuters со ссылкой на пресс-секретаря СНБ. Источник агентства сообщает, что хакерская атака не угрожает национальной безопасности США, но среди жертв вируса оказались некоторые американцы. Petya 