In [1]:
import os
import sys
from dotenv import load_dotenv
load_dotenv()

import pandas as pd

module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

In [2]:
from src.search_embeddings.engine import EmbeddingSearchEngine

In [3]:
emb_search_engine = EmbeddingSearchEngine()

Loading sentence transformer model: ai-forever/FRIDA...
Model ai-forever/FRIDA loaded successfully on device 'mps'.


In [4]:
from src.utils import load_dataset
from src.search_tf_idf.search import TfidfSearch
from src.classic_keywords.preprocessing import preprocess_text
from src.classic_keywords.preprocessing import lemmatize_word 
from src.metrics.metrics_emb import evaluate_search_engine

df = load_dataset("df_with_llmkeyphrases")

Данные успешно загружены из ../data/df_with_llmkeyphrases.parquet. Количество записей: 200


In [5]:
emb_search_engine.build_index(df['abstract'])

Loading pre-built FAISS index from ../data/faiss_index.bin...
FAISS index loaded. Contains 200 vectors.


In [6]:
tfidf_search_engine = TfidfSearch()

tfidf_search_engine.build_index(
    lemmatized_texts=df['lemmatized_abstract'],
    original_texts=df['abstract']
)

Building TF-IDF index...
TF-IDF index built successfully.


In [23]:
queries = [
    "Как эксперты оценивают надежность техники: использование логики и схем для уменьшения ошибок",
    "Обряды рождения и свадьбы у народа коми в Сибири и их значение для семейной жизни",
    "Каким образом западные переселенцы повлияли на экономику южной России в XIX веке",
    "Развитие методов вероятностного анализа и их применение для расчета надежности систем",
    "Применение вейвлет-технологий для распознавания степени повреждения нервов по сигналам",
    "Как индекс тяжести Т-клеточной лимфомы помогает врачу оценивать активность болезни",
    "Создание системы для контроля качества и автоматизации документов в университете",
    "История кафедры вычислительной механики ТГУ и вклад академика Яненко",
    "Математические модели операций по борьбе с пиратством и терроризмом на море",
    "Как в немецком языке грамматические формы выражают нереальные и будущие действия",
    "Почему Пушкина связывают с декабристами и какие мифы вокруг этого живут сегодня",
    "Что показали находки энеолитической керамики лыбаевского типа в Зауралье",
    "Обзор книги Аллы Николаевской о Сэмюэле Беккете: критический разбор",
    "Какие изменения происходят в слизистой рта при почечной недостаточности у животных",
    "Как автоматизировать создание персональных учебных материалов под разные стили обучения"
]


In [24]:
ground_truth = {
    queries[0]: [0],
    queries[1]: [1],
    queries[2]: [2],
    queries[3]: [3],
    queries[4]: [4],
    queries[5]: [5],
    queries[6]: [6],
    queries[7]: [7],
    queries[8]: [8],
    queries[9]: [9],
    queries[10]: [10],
    queries[11]: [11],
    queries[12]: [12],
    queries[13]: [13],
    queries[14]: [14],
}

In [25]:
from src.classic_keywords.preprocessing import preprocess_text

print("Оценка семантического поиска (Embeddings):")
embedding_metrics = evaluate_search_engine(emb_search_engine, queries, ground_truth)
print(embedding_metrics)

print("\nОценка лексического поиска (TF-IDF):")
tfidf_metrics = evaluate_search_engine(
    tfidf_search_engine, 
    queries, 
    ground_truth,
    preprocessor_func=preprocess_text
)
print(tfidf_metrics)

Оценка семантического поиска (Embeddings):
FAISS search completed in 0.1290 seconds.
FAISS search completed in 0.0649 seconds.
FAISS search completed in 0.0693 seconds.
FAISS search completed in 0.0939 seconds.
FAISS search completed in 0.0608 seconds.
FAISS search completed in 0.0588 seconds.
FAISS search completed in 0.1643 seconds.
FAISS search completed in 0.0585 seconds.
FAISS search completed in 0.0657 seconds.
FAISS search completed in 0.0586 seconds.
FAISS search completed in 0.0585 seconds.
FAISS search completed in 0.0569 seconds.
FAISS search completed in 0.0565 seconds.
FAISS search completed in 0.0585 seconds.
FAISS search completed in 0.0663 seconds.
{'MRR': 0.9333333333333333, 'Precision@5': 0.18666666666666668}

Оценка лексического поиска (TF-IDF):
{'MRR': 0.8522222222222222, 'Precision@5': 0.20000000000000004}
