In [7]:
import psycopg2
import numpy as np
from sentence_transformers import SentenceTransformer
import pandas as pd
# from .autonotebook import tqdm as notebook_tqdm


In [2]:
SentenceTransformer("intfloat/multilingual-e5-large")


SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

In [3]:
model = SentenceTransformer("intfloat/multilingual-e5-large")

In [37]:
csv_file = "output.csv"

def get_embedding(text: str) -> list:
    """Получить векторное представление текста"""
    formatted_text = f"query: {text}"
    embedding = model.encode(formatted_text, normalize_embeddings=True)
    return embedding.tolist()

# Функция для добавления текста и вектора в базу данных
def add_text_to_db(conn, text: str, link: str):
    """Добавить текст, ссылку и векторное представление в базу данных"""
    embedding = get_embedding(text)
    with conn.cursor() as cur:
        cur.execute(
            """
            INSERT INTO texts (text, embedding, tsv, link)
            VALUES (%s, %s, to_tsvector('russian', %s), %s)
            """,
            (text, embedding, text, link)
        )
    conn.commit()

def populate_db():
    conn = psycopg2.connect(
        dbname="vector_db",
        user="postgres",
        password="postgres",
        host="localhost",
        port=5436
    )

    try:
        # Чтение CSV файла
        df = pd.read_csv(csv_file).dropna()
        print(df.info())
        # Добавление данных в базу
        for _, row in df.iterrows():
            # try:
            print(row['text'], row['link'])
            if row['text'] != 'nan':
                add_text_to_db(conn, row['text'], row['link'])
            # except:
            #     pass
    finally:
        conn.close()

In [38]:
populate_db()

<class 'pandas.core.frame.DataFrame'>
Index: 1753 entries, 0 to 1759
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    1753 non-null   object
 1   link    1753 non-null   object
dtypes: object(2)
memory usage: 41.1+ KB
None

Библиотека Санкт-Петербургского государственного университета аэрокосмического приборостроения предоставляет доступ к различным ресурсам, включая печатные и электронные периодические издания, а также электронные ресурсы. На сайте библиотеки можно найти электронный каталог и информацию о новых поступлениях книг. https://lib.guap.ru/
Работа библиотеки в летний период 2024 года будет ограничена. С 8 июля по 31 августа будет работать только абонемент по адресу: Б. Морская, 67. Режим работы: понедельник - пятница с 10:00 до 16:00, аудитория 12-01. Эта информация актуальна для студентов и преподавателей университета. https://lib.guap.ru/
Библиотека ГУАП предлагает ознакомиться с новыми поступлениями книг 

In [15]:
def get_embedding(text: str) -> list:
    """Получить векторное представление текста"""
    # Префикс для E5-модели
    formatted_text = text  # Используем `query:` для текстов запроса
    embedding = model.encode(formatted_text, normalize_embeddings=True)
    return embedding.tolist()

def add_text_to_db(conn, text: str):
    """Добавить текст и его векторное представление в базу данных"""
    embedding = get_embedding(text)
    with conn.cursor() as cur:
        cur.execute(
            "INSERT INTO texts (text, embedding) VALUES (%s, %s)",
            (text, embedding)
        )
    conn.commit()

def search_similar_texts(conn, query: str, top_k: int = 5):
    """Искать похожие тексты"""
    query_embedding = get_embedding(query)
    query_embedding_str = ",".join(map(str, query_embedding))

    with conn.cursor() as cur:
        cur.execute(
            f"""
            SELECT text, 1 - (embedding <=> '[{query_embedding_str}]'::vector) AS similarity
            FROM texts
            ORDER BY similarity DESC
            LIMIT %s
            """,
            (top_k,)
        )
        results = cur.fetchall()

    return results

def search_with_bm25(conn, query: str, top_k: int = 5):
    """Поиск по BM25"""
    ts_query = " & ".join(query.split())  # Преобразовать текст запроса в формат to_tsquery
    with conn.cursor() as cur:
        cur.execute(
            """
            SELECT text, ts_rank(tsv, to_tsquery('english', %s)) AS rank
            FROM texts
            WHERE tsv @@ to_tsquery('english', %s)
            ORDER BY rank DESC
            LIMIT %s;
            """,
            (ts_query, ts_query, top_k)
        )
        results = cur.fetchall()

    return results

def add_text_to_db_with_bm25(conn, text: str):
    """Добавить текст и его полнотекстовое представление для BM25"""
    embedding = get_embedding(text)
    with conn.cursor() as cur:
        cur.execute(
            """
            INSERT INTO texts (text, embedding, tsv)
            VALUES (%s, %s, to_tsvector('english', %s));
            """,
            (text, embedding, text)
        )
    conn.commit()


In [53]:
def search_bm25(conn, query: str, top: int = 5):
    """
    Выполняет поиск в базе данных с использованием BM25.
    
    Args:
        conn: Подключение к базе данных.
        query: Поисковый запрос.
        top: Количество лучших результатов (по умолчанию 5).
    
    Returns:
        Список словарей с результатами (текст, ссылка, рейтинг).
    """
    with conn.cursor() as cur:
        cur.execute(
            """
            SELECT text, link, ts_rank_cd(tsv, plainto_tsquery('russian', %s)) AS rank
            FROM texts
            WHERE tsv @@ plainto_tsquery('russian', %s)
            ORDER BY rank DESC
            LIMIT %s;
            """,
            (query, query, top)
        )
        results = cur.fetchall()
        return [{"text": row[0], "link": row[1], "rank": row[2]} for row in results]

In [54]:
DB_PARAMS = {
    "dbname": "vector_db",
    "user": "postgres",
    "password": "postgres",
    "host": "localhost",
    "port": "5436"
}

In [56]:
conn = psycopg2.connect(**DB_PARAMS)

# # Добавление текста
# text = "This is a multilingual test example."
# print(f"Adding text: {text}")
# add_text_to_db_with_bm25(conn, text)

# Поиск по BM25
query = "Ректор?"
print(f"Searching for texts using BM25 for: {query}")
results = search_bm25(conn, query)
print(results)
for rank, (text, score) in enumerate(results, start=1):
    print(f"{rank}. {text} (score: {score:.4f})")

conn.close()


Searching for texts using BM25 for: Ректор?
[{'text': 'Приветствие ректора ГУАП содержит информацию о векторе развития университета и задачах, которые приведут вуз к ярким результатам. Ректором университета является Юлия Антохина.', 'link': 'https://guap.rumailto:priem@guap.ru', 'rank': 0.2}, {'text': '### Блок 1: История университета\n**Источник:** ГУАП  \n**Информация:** 25 января 1941 года было принято постановление о создании Ленинградского авиационного института. Эта дата является официальным днем рождения нашего вуза.\n\n---\n\n### Блок 2: Приветствие ректора\n**Источник:** ГУАП  \n**Информация:** Приветствие ректора университета, в котором подчеркиваются основные цели и задачи вуза, а также его миссия.\n\n---\n\n### Блок 3: Программы развития\n**Источник:** ГУАП  \n**Информация:** Программа развития ГУАП на 2021–2030 годы и концепция программы развития на 2020–2024 годы, направленные на улучшение образовательного процесса и научной деятельности.\n\n---\n\n### Блок 4: Структура у

ValueError: too many values to unpack (expected 2)