In [46]:
import re
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import nltk
import pymorphy2
from nltk.corpus import stopwords

nltk.download('stopwords') #Насколько я поняла, устанавливается 1 раз 
russian_stopwords = stopwords.words("russian")


def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)  # Удаление пунктуации
    words = text.split()
    words = [word for word in words if word not in russian_stopwords]
    return ' '.join(words)


def extract_keywords_tfidf(text, top_n=5):
    vectorizer = TfidfVectorizer(max_features=top_n)
    tfidf_matrix = vectorizer.fit_transform([text])
    feature_names = vectorizer.get_feature_names_out()
    scores = tfidf_matrix.toarray().flatten()
    keywords = sorted(zip(feature_names, scores), key=lambda x: x[1], reverse=True)
    return [keyword for keyword, score in keywords]


def generate_tags(text, top_n=round(len(text.split())*0.15)):
    processed_text = preprocess_text(text)
    
    tfidf_keywords = extract_keywords_tfidf(processed_text, top_n)
    morph = pymorphy2.MorphAnalyzer()

    tags = []
    for i in list(set(tfidf_keywords))[:top_n]:
        tags.append(morph.parse(i)[0].normal_form)
    tags = set(tags)
    
    return list(tags)


# Пример использования
text = "Полагаю, что неявно с проблемой многие сталкиваются ежедневно, после написания или анализа статьи, поста, комментария, заметки, отчета и т.д. Вот и мне по роду деятельности приходилось сталкиваться с данной проблемой по многу раз в день. Поэтому, можно сказать, к идее автоматизации меня привела «лень», в хорошем смысле этого слова."

tags = generate_tags(text)
print(f"Generated tags: {tags}")

Generated tags: ['смысл', 'проблема', 'автоматизация', 'слово', 'статья', 'сталкиваться']


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/polinanazarova/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [41]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

tags = []
for i in bad_tags:
    tags.append(morph.parse(i)[0].normal_form)
tags = set(tags)
tags

{'автоматизация', 'проблема', 'слово', 'смысл', 'сталкиваться', 'статья'}

In [8]:
!pip install rake-nltk

Collecting rake-nltk
  Downloading rake_nltk-1.0.6-py3-none-any.whl.metadata (6.4 kB)
Downloading rake_nltk-1.0.6-py3-none-any.whl (9.1 kB)
Installing collected packages: rake-nltk
Successfully installed rake-nltk-1.0.6


In [137]:
import re
import nltk
import numpy as np
import networkx as nx
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from collections import Counter
import pymorphy2

nltk.download('punkt')
nltk.download('stopwords')

stop_words = set(stopwords.words('russian'))


def preprocess_text_for_text_data(text):
    text = text.lower()
    text = re.sub(r'\s+', ' ', text).strip()
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub('\n', ' ', text)
    text = re.sub('\t', ' ', text)
    text = re.sub(r'[^A-Za-zА-яа-я0-9\s]', ' ', text)

    words = [word for word in word_tokenize(text) if word not in stop_words]
    return ' '.join(words)

def preprocess_sentences(text):
    sentences = sent_tokenize(text.lower())
    return sentences

def extract_keywords(text, num_keywords=5):
    tfidf_vectorizer = TfidfVectorizer(max_features=num_keywords)
    tfidf_matrix = tfidf_vectorizer.fit_transform([text])
    keywords = tfidf_vectorizer.get_feature_names_out()
    return keywords

def extract_key_sentences(text, num_sentences=1):
    sentences = preprocess_sentences(text)
    
    # Построение графа для TextRank
    def sentence_similarity(sent1, sent2):
        words1 = set(word_tokenize(sent1))
        words2 = set(word_tokenize(sent2))
        common_words = words1.intersection(words2)
        return len(common_words) / (np.log(len(words1)) + np.log(len(words2)))
    
    similarity_matrix = np.zeros((len(sentences), len(sentences)))
    
    for idx1 in range(len(sentences)):
        for idx2 in range(len(sentences)):
            if idx1 != idx2:
                similarity_matrix[idx1][idx2] = sentence_similarity(sentences[idx1], sentences[idx2])
    
    nx_graph = nx.from_numpy_array(similarity_matrix)
    scores = nx.pagerank(nx_graph)
    
    ranked_sentences = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
    
    key_sentences = [ranked_sentences[i][1] for i in range(min(num_sentences, len(ranked_sentences)))]
    return key_sentences

def generate_text_data(text, num_keywords=5, num_sentences=1):
    # Извлечение ключевых слов с использованием TF-IDF
    dirty_keywords = extract_keywords(preprocess_text_for_text_data(text), num_keywords)

    morph = pymorphy2.MorphAnalyzer()

    keywords = []
    for i in list(set(dirty_keywords)):
        nf_word = morph.parse(i)[0].normal_form
        if nf_word not in keywords: keywords.append(nf_word)
    
    # Извлечение ключевых предложений с использованием TextRank
    key_sentences = extract_key_sentences(text, num_sentences=num_sentences)
    
    # Комбинирование ключевых слов и предложений для формирования заголовка
    combined_keywords = ' '.join(keywords).capitalize()
    for i in range(len(key_sentences)):
        key_sentences[i] = key_sentences[i].capitalize()

    combined_sentences = ' '.join(key_sentences)
    
    return combined_keywords,combined_sentences

# Пример текста
text = "Это единственный в стране музей о жизни и трагической судьбе простой русской женщины  — Епистинии Федоровны Степановой, которая положила на алтарь Родины самое дорогое, что у нее было,  — жизнь своих сыновей. Многодетная мать вырастила девять сыновей, и все они погибли на фронтах разных войн. Старшего Александра забрала у матери гражданская война, Федора убили японцы в 1939-м, остальные сыны погибли в Великую Отечественную."

# Генерация заголовка
title, about = generate_text_data(text, num_keywords=1, num_sentences=3)
print(f"Название: {title}")
print(f"Описание: \n{about}")

Название: Сын
Описание: 
Это единственный в стране музей о жизни и трагической судьбе простой русской женщины  — епистинии федоровны степановой, которая положила на алтарь родины самое дорогое, что у нее было,  — жизнь своих сыновей. Многодетная мать вырастила девять сыновей, и все они погибли на фронтах разных войн. Старшего александра забрала у матери гражданская война, федора убили японцы в 1939-м, остальные сыны погибли в великую отечественную.


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/polinanazarova/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/polinanazarova/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [106]:
!pip install string

[31mERROR: Could not find a version that satisfies the requirement string (from versions: none)[0m[31m
[0m[31mERROR: No matching distribution found for string[0m[31m
[0m

In [105]:
print(string.punctuation)

NameError: name 'string' is not defined

In [116]:
text.isalnum()

False