Загружаем документы

In [1]:
import texts_loader
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

pd.set_option('display.max_columns', None)  # Отображение всех столбцов
pd.set_option('display.expand_frame_repr', False)  # Отображение всей таблицы без переноса строк

documents = texts_loader.get_texts_from_file()
print(documents)

['Машинное обучение - это интересная область и очень полезное дело', 'Область NLP также связана с машинным обучением.', 'Обучение с учителем - ключевой аспект машинного обучения.']


Удаляем стоп-слова (предлоги, знаки препинания)

In [2]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string

# Загрузка стоп-слов и пунктуации
nltk.download('stopwords')
nltk.download('punkt')
stop_words = set(stopwords.words('russian'))
punctuation = set(string.punctuation)

def preprocess_text(text):
    words = word_tokenize(text.lower())  # Привести к нижнему регистру и токенизировать
    filtered_words = [word for word in words if word not in stop_words and word not in punctuation]
    return " ".join(filtered_words)

preprocessed_documents = [ preprocess_text(doc) for doc in documents ]
print(preprocessed_documents)

['машинное обучение это интересная область очень полезное дело', 'область nlp также связана машинным обучением', 'обучение учителем ключевой аспект машинного обучения']


[nltk_data] Downloading package stopwords to
[nltk_data]     /home/danissimo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/danissimo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Выполняем лемматизацию текста

In [3]:
import spacy

# Загрузка языковой модели spaCy
nlp = spacy.load("ru_core_news_sm")

def preprocess_and_lemmatize(text):
    doc = nlp(text.lower())  # Привести к нижнему регистру и лемматизировать
    lemmatized_words = [token.lemma_ for token in doc if token.text not in punctuation and token.text not in stop_words]
    return " ".join(lemmatized_words)

preprocessed_documents = [ preprocess_and_lemmatize(doc) for doc in preprocessed_documents ]
print(preprocessed_documents)

['машинный обучение это интересный область очень полезный дело', 'область nlp также связать машинный обучение', 'обучение учитель ключевой аспект машинный обучение']


Создаем TF-IDF матрицу

In [4]:
from sklearn.preprocessing import normalize

# Создание объекта TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# Применение TF-IDF к текстовым данным
tfidf_matrix = tfidf_vectorizer.fit_transform(preprocessed_documents)
# Нормализация матрицы TF-IDF по длине документа
tfidf_matrix = normalize(tfidf_matrix, norm='l2', axis=1)

# Получение списка слов и названий документов
words = tfidf_vectorizer.get_feature_names_out()
doc_names = ['Документ {}'.format(i+1) for i in range(len(preprocessed_documents))]

# Создание DataFrame для вывода на экран
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=words, index=doc_names)

# Вывод матрицы TF-IDF на экран
print(tfidf_df)

                 nlp    аспект      дело  интересный  ключевой  машинный   область  обучение     очень  полезный   связать     также   учитель       это
Документ 1  0.000000  0.000000  0.399169    0.399169  0.000000  0.235756  0.303578  0.235756  0.399169  0.399169  0.000000  0.000000  0.000000  0.399169
Документ 2  0.483591  0.000000  0.000000    0.000000  0.000000  0.285617  0.367784  0.285617  0.000000  0.000000  0.483591  0.483591  0.000000  0.000000
Документ 3  0.000000  0.459115  0.000000    0.000000  0.459115  0.271161  0.000000  0.542321  0.000000  0.000000  0.000000  0.000000  0.459115  0.000000


In [5]:
tfidf_scores = tfidf_matrix.toarray()[0]

# Сортировка слов по значениям TF-IDF
threshold = 0.3
sorted_keywords = [word for score, word in sorted(zip(tfidf_scores, words), reverse=True) if score > threshold]

print("Исходный текст : " + documents[0])
print("Ключевые слова:", sorted_keywords)

Исходный текст : Машинное обучение - это интересная область и очень полезное дело
Ключевые слова: ['это', 'полезный', 'очень', 'интересный', 'дело', 'область']
