# Импорт необходимых библиотек

In [1]:
import pandas as pd
import numpy as np
import joblib

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Чтение и обзор файла

In [2]:
df = pd.read_csv('all_pack_df.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   filename    840 non-null    object
 1   paragraphs  840 non-null    object
 2   department  840 non-null    object
dtypes: object(3)
memory usage: 19.8+ KB


In [4]:
df.head()

Unnamed: 0,filename,paragraphs,department
0,Топливная надбавка_топливный сбор в ПЭ_ЭР,С 25.03.2024 г. во всех печатных формах ПЭ/ЭР ...,DRK
1,Неоформленные грузы,"Проверьте наличие заявки на забор груза, незав...",DRK
2,Выдача грузов по СМС при доставке,Выдача груза по СМС при доставке возможна в сл...,DRK
3,Клиент просит отключить уведомления (E-mail; В...,"\nДля отключения уведомлений, необходимо уточн...",DRK
4,Интернет-Эквайринг (оплата банковской картои...,\nНа главной странице сайта www.pecom.ru клиен...,DRK


# Векторизация текстов

In [5]:
vectorizer = TfidfVectorizer()

In [6]:
X = vectorizer.fit_transform(df['paragraphs'])

In [7]:
dimensions = len(vectorizer.vocabulary_)
print("Размерность вектора:", dimensions)

Размерность вектора: 33444


In [8]:
query = "отчет по агентским вознаграждениям FTL"
query_vec = vectorizer.transform([query])

# Сходство и его оценка

In [9]:
results = cosine_similarity(X, query_vec).flatten()

In [10]:
top_indices = results.argsort()[-5:][::-1]

for i in top_indices:
    similarity_score = results[i]
    print(f"Similarity: {similarity_score:.4f}")
    print(f"Paragraph: {df.iloc[i]['paragraphs'][:100]}...") 
    if 'title' in df.columns:
        print(f"Title: {df.iloc[i]['title']}")
    print("---")

Similarity: 0.2554
Paragraph: Группа доступа
Разрешенные действия (роли)
Комментарий
Для всех групп доступа
Базовые права
Стандарт...
---
Similarity: 0.2055
Paragraph: 

 FTL-4
                            -
            Получение подробных данных проблемы…
СТАТУС


Цел...
---
Similarity: 0.1998
Paragraph: 

 FTL-32
                            -
            Получение подробных данных проблемы…
СТАТУС



С...
---
Similarity: 0.1699
Paragraph: Основной эпик - 

 EPIC-9968
                            -
            Получение подробных данных пр...
---
Similarity: 0.1077
Paragraph: 

 FTL-62
                            -
            Получение подробных данных проблемы…
СТАТУС


АР...
---


# Сохранение результатов 

In [11]:
joblib.dump(X, 'vectors.joblib')

['vectors.joblib']

In [12]:
joblib.dump(vectorizer, 'tfidf_vectorizer.joblib')

['tfidf_vectorizer.joblib']

In [13]:
df.reset_index(inplace=True)
df['index'].to_frame().to_csv('indices.csv', index=False)