In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Загрузка стоп-слов и стеммера
# nltk.download('stopwords')
# nltk.download('punkt')


# Получение текстовых данных из определенной колонки DataFrame
documents = (df['analysis_name'] + " " + df["best_match_synonym"]).tolist()
# documents = f"{df['analysis_name']} {df["best_match_synonym"]}"

# Загрузка стоп-слов и стеммера
stop_words = set(stopwords.words('russian'))
stemmer = SnowballStemmer('russian')

# Функция для предобработки текста
def preprocess_text(text):
    tokenizer = nltk.RegexpTokenizer(r'\w+')
    tokens = tokenizer.tokenize(text.lower())
    tokens = [token for token in tokens if token not in stop_words]
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    return stemmed_tokens

# Предобработка текстовых данных
processed_documents = [' '.join(preprocess_text(doc)) for doc in documents]

# Создание экземпляра TfidfVectorizer
vectorizer = TfidfVectorizer()

# Вычисление весов TF-IDF для текстовых данных 
tfidf_matrix = vectorizer.fit_transform(processed_documents)

# Ввод запроса от пользователя 
query = input("Введите запрос: ")

# Предобработка запроса 
processed_query = ' '.join(preprocess_text(query))

# Вычисление весов TF-IDF для запроса 
query_tfidf = vectorizer.transform([processed_query])

# Вычисление сходства между запросом и текстовыми данными
similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()

# Сортировка документов по убыванию значений сходства
sorted_indexes = similarities.argsort()[::-1]

# Вывод результатов
print("Результаты поиска:")
for index in sorted_indexes:
    print(f"Документ: {documents[index]}, Сходство: {similarities[index]}")

In [None]:
class Model_Tfidf():


    def __init__(self, 
                stemmer: SnowballStemmer = SnowballStemmer(language="russian"), 
                tokenizer: RegexpTokenizer = RegexpTokenizer(r"\w+"),
                vectorizer: TfidfVectorizer = TfidfVectorizer()
                ):
        self.stemmer = stemmer
        self.tokenizer = tokenizer
        self.vectorizer = vectorizer
        self.tfidf_matrix = np.ndarray([])
    
    @classmethod
    def stop_words(cls) -> set:
        stop_words = set(stopwords.words('russian'))
        custom_stop_words = ("анализ", "уровень", "определение", "анализы", "консультация", "выявление")
        return set(stop_words.union(custom_stop_words))
    
    def concatenate_values(self, row):
        return ' '.join(row)

    def get_documents(self, df: pd.DataFrame) -> list:
        # Получение текстовых данных из определенных колонок DataFrame
        df['concatenated'] = df.apply(self.concatenate_values, axis=1)
        return df["concatenated"].tolist()

        # Функция для предобработки текста
    def preprocess_text(self, text):
        tokens = self.tokenizer.tokenize(text.lower())
        tokens = [token for token in tokens if token not in Model_Tfidf.stop_words]
        stemmed_tokens = [self.stemmer.stem(token) for token in tokens]
        return stemmed_tokens

    # Предобработка текстовых данных
    def processed_documents(self, df: pd.DataFrame):
        documents = self.get_documents(df)
        return [' '.join(self.preprocess_text(doc)) for doc in documents]

    # Предобработка запроса 
    def processed_query(self, query:str):
        return ' '.join(self.preprocess_text(query))

    def get_similar_synonyms(self, df: pd.DataFrame, df_synonyms: pd.DataFrame):
        tfidf_synonyms = self.vectorizer.fit_transform(self.processed_documents(df_synonyms)) 
        tfidf_df = self.vectorizer.transform([self.processed_documents(df)])
        syn_indexes = []
        syn_similarity = []
        # Вычисление сходства между запросом и текстовыми данными
        for vec in tfidf_df:
            similarities = cosine_similarity(vec, tfidf_synonyms).flatten()
            # Сортировка документов по убыванию значений сходства
            sorted_indexes = similarities.argsort()[::-1]
            syn_indexes.append(sorted_indexes[0])
            syn_similarity.append(similarities[sorted_indexes[0]])

        df_similarity = pd.DataFrame({
                                        "best_match_synonym": df_synonyms["synonyms"].iloc[syn_indexes].values,
                                        "best_match_analysis": df_synonyms["analysis"].iloc[syn_indexes].values,
                                        "similarity": syn_similarity
                                    }, index=df.index).sort_index(ascending=False)

        return pd.concat((df.sort_index(ascending=False), df_similarity), axis=1)

    def get_similar_analysis(self, df: pd.DataFrame, query: str ):

        self.tfidf_matrix = self.vectorizer.fit_transform(self.processed_documents(df=df))
        tfidf_query = self.vectorizer.transform(self.processed_query(query))

        similarities = cosine_similarity(tfidf_query, self.tfidf_matrix).flatten()
        # Сортировка документов по убыванию значений сходства
        sorted_indexes = similarities.argsort()[::-1]
        
        df["as"] = similarities            
                
        return df[["source", "analysis_name", "analysis_cost"]].iloc[sorted_indexes].loc[df["as"] >= 0.15]