In [3]:
import os
import pickle
import faiss
import numpy as np

INDEX_DIR = "../data/indexes"

# Проверяем, что файлы на месте
print(os.listdir(INDEX_DIR))

['index.faiss', 'store.pkl', '.gitkeep']


In [4]:
with open(os.path.join(INDEX_DIR, "store.pkl"), "rb") as f:
    store = pickle.load(f)

print(type(store))
print("Ключи:", store.keys())
print("Количество чанков:", len(store["chunks"]))
print("Пример чанка:\n", store["chunks"][0][:500])

<class 'dict'>
Ключи: dict_keys(['chunks'])
Количество чанков: 1806
Пример чанка:
 1


In [5]:
for i, ch in enumerate(store["chunks"][:5]):
    print(f"--- Чанк {i} ---")
    print(ch[:300])
    print()

--- Чанк 0 ---
1

--- Чанк 1 ---
2 
 
Часть первая: Братство Кольца 
 
Несколько слов вначале… 
 
 
«Придумать зеленое солнце легко; трудно создать мир, в 
котором оно было бы естественным…» 
 
Дж. Р. Р. Толкиен. Из письма. 
 
 
«Фродо жив!» - объявили всему миру надписи на стенах нью -йоркской 
«подземки», и миллионы почитателей т

--- Чанк 2 ---
раскупается быстрее, чем некогда „Повелитель мух" Голдинга. В Гарварде она 
опережает „Над пропастью во ржи" Сэлинджера». На самодельных значках 
запестрели надписи: «Да здравствует Фродо!», «Гэндальфа - в президенты!», «Идем 
в Среднеземье!» На западном побережье и в штате Нью-Йорк как грибы множил

--- Чанк 3 ---
семейств обсуждают трилогию в лондонских пивных. Германия, Испания, 
Португалия, Польша, Япония, Израиль, Швеция, Голландия, Дания читают его на 
родных языках». 
Говорить о Толкиене легко, - особенно с теми, кто уже читал его книги и, значит, 
причастен этой радостной тайне… 
Рассказать о Джоне Рон

--- Чанк 4 ---
1896 пришла теле

In [7]:
index = faiss.read_index(os.path.join(INDEX_DIR, "index.faiss"))
print(index.ntotal)  # количество векторов

1806


In [8]:
from sentence_transformers import SentenceTransformer

# загружаем ту же модель, что использовалась при индексации
model = SentenceTransformer("intfloat/multilingual-e5-base")

query = "Кто такой фродо?"
q_vec = model.encode([query], normalize_embeddings=True).astype("float32")

# поиск по индексу
scores, ids = index.search(q_vec, k=3)
for i, (idx, score) in enumerate(zip(ids[0], scores[0])):
    print(f"\n--- Результат {i+1} (score={score:.3f}) ---")
    print(store["chunks"][idx][:400])


--- Результат 1 (score=0.801) ---
проявлял признаки беспокойства: от Заветери они ушли дней десять назад, 
провизия подходила к концу. Зато дождь не кончался. 
Очередной ночлег устро или на неширокой каменной площадке. В скале здесь 
обнаружилась не то чтобы пещерка, а просто небольшая выемка. Фродо чувствовал 
себя плохо. От холода и сырости рана разболелась, его колотил озноб, не дававший 
заснуть. Он ворочался, стараясь поудобн

--- Результат 2 (score=0.801) ---
комочек у подножия, накрыв голову капюшоном плаща. 
Кажется, он кричал: «Никогда!», а может, это было: «Я приду  к тебе»… А потом 
словно пронзительный луч прорвался сквозь давящую вражью волю, ворвался в 
сознание отчаянной мыслью: «Сними! Немедленно сними его! Сними Кольцо, 
дуралей!» 
Две могучие силы, две воли скрестились в нем, словно два клинка. Мгновение 
Фродо казалось, что он не выдержит 

--- Результат 3 (score=0.799) ---
– Третий? 
– Да, третий. Мы видели его у озера, вон там. Вид у нег о подозрительный. Это, 
до