In [None]:
import json
from tqdm import tqdm
from sentence_transformers import SentenceTransformer
from datasets import load_dataset

def similarity(a: str, b: str) -> float:
    emb_1 = encoder.encode(a)
    emb_2 = encoder.encode(b)

    return round(float(encoder.similarity(emb_1, emb_2).item()), 3)

dataset = load_dataset('IlyaGusev/librusec_full', split='train', streaming=True)

with open('All_annotations.json', 'r', encoding='utf-8') as f:
    all_a = json.load(f)

with open('titles.json', 'r', encoding='utf-8') as f:
    needed_titles = json.load(f)
    
annotations_dict = {}
for a in all_a:
    annotations_dict[a['title']] = a
     
SIM_TH = 0.65
texts_dict = {}
needed_titles = set(needed_titles)
encoder = SentenceTransformer('deepvk/USER-bge-m3')

with tqdm(total=496858, desc="Processing records") as pbar:
    for record in dataset:
        title = record.get("title", "")
        authors = record.get("authors", [""])
        lang = record.get("lang", "")

        if title in needed_titles:
            if title not in texts_dict:
                if lang in ['ru', 'rus']:
                    if annotations_dict[title]['author'] in authors:
                        texts_dict[title] = (record.get("sections", ""), authors)
                    else:
                        for author in authors:
                            if similarity(author, annotations_dict[title]['author']) > SIM_TH:
                                texts_dict[title] = (record.get("sections", " "), authors)
                                break

        pbar.set_postfix({
            'found': len(texts_dict),
        })
        pbar.update(1)

        if len(texts_dict) == len(needed_titles):
            break
            
combined = []
for title, value in texts_dict.items():
  combined.append({'title': title, 'author': annotations_dict[title]['author'], 'authors': value[1], 'annotation': annotations_dict[title]['annotation'],'text': value[0], 'categories': annotations_dict[title]['categories']})

Processing records: 100%|██████████| 496858/496858 [4:05:20<00:00, 33.75it/s, found=634]


In [4]:
pip install -r requirements.txt

Collecting faiss-cpu (from -r requirements.txt (line 14))
  Downloading faiss_cpu-1.11.0-cp312-cp312-win_amd64.whl.metadata (5.0 kB)
Downloading faiss_cpu-1.11.0-cp312-cp312-win_amd64.whl (15.0 MB)
   ---------------------------------------- 0.0/15.0 MB ? eta -:--:--
   - -------------------------------------- 0.5/15.0 MB 2.8 MB/s eta 0:00:06
   -- ------------------------------------- 1.0/15.0 MB 3.0 MB/s eta 0:00:05
   ---- ----------------------------------- 1.6/15.0 MB 3.0 MB/s eta 0:00:05
   ------ --------------------------------- 2.4/15.0 MB 3.0 MB/s eta 0:00:05
   ------- -------------------------------- 2.9/15.0 MB 3.0 MB/s eta 0:00:05
   --------- ------------------------------ 3.4/15.0 MB 3.0 MB/s eta 0:00:04
   ----------- ---------------------------- 4.2/15.0 MB 3.0 MB/s eta 0:00:04
   ------------ --------------------------- 4.7/15.0 MB 3.0 MB/s eta 0:00:04
   ------------- -------------------------- 5.2/15.0 MB 3.0 MB/s eta 0:00:04
   ---------------- -------------------

In [1]:
import sys
sys.path.append('methods')

from methods import Summarisation

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\dagri\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\dagri\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [2]:
with open('Access_key.txt', 'r', encoding='utf-8') as file:
    url, key = file.read().split()

In [3]:
bench = Summarisation(URL=url, KEY=key, model_name='RefalMachine/RuadaptQwen2.5-7B-Lite-Beta') 

In [4]:
from utils import chunk_text
text = bench.collection[0]['text'][0]
chunks = chunk_text(text)

In [5]:
s = await bench.iterative.run(chunks)

In [15]:
lst = list(await bench.client.client.models.list())[0][1]
for l in lst:
    print(l)

Model(id='RefalMachine/RuadaptQwen2.5-7B-Lite-Beta', created=None, object=None, owned_by=None, max_model_len=30000, status='spawned')
Model(id='deepseek-r1-32b', created=None, object=None, owned_by=None, max_model_len=30000, status='spawned')
Model(id='RefalMachine/RuadaptQwen2.5-32B-Pro-Beta', created=None, object=None, owned_by=None, max_model_len=28000, status='spawned')
Model(id='RefalMachine/RuadaptQwen3-32B-Instruct-v2', created=None, object=None, owned_by=None, max_model_len=24000, status='spawned')
Model(id='llama3-70b', created=None, object=None, owned_by=None, max_model_len=14000, status='spawned')
Model(id='qwen2.5-72b', created=None, object=None, owned_by=None, max_model_len=14000, status='spawned')
Model(id='DeepSeek V3', created=None, object=None, owned_by=None, max_model_len=-1, status='spawned')
Model(id='Qwen3-235B-A22B', created=None, object=None, owned_by=None, max_model_len=-1, status='spawned')
Model(id='RefalMachine/RuadaptQwen2.5-7B-Garant-v2', created=None, obje

In [6]:
print(s)

В средневековой Англии, в замке Волверден, где древние тайны соприкасаются с современными страхами, Мейзи Льюэллин, случайно попав под опеку таинственной миссис Уэст, начинает свой путь к посвящению в Братство Мертвых Зодчих. Проклятие, наложенное на башню замка древними колдунами, предвещает Мейзи испытания, которые соединят её с эпохами магии.

**Сердце Волвердена**

Замок Волверден, с его мрачными коридорами, хранит зловещее проклятие. Мейзи, под руководством Вульфа, Верховного Жреца, постигает Наречение Мертвых, становясь Хранительницей. Встреча с призраками Иоланты и Гедды обостряет её восприятие, напоминая о хрупкости мира между мирами.

**Катастрофа и Возрождение**

Ночью, наполненной галлюцинациями, Мейзи падает с башни, но чудесным образом выживает, пережив символическое возрождение в грозовой ночи. Это событие знаменует не только физическое, но и духовное обновление, открывая ей новые способности.

**Возвращение и Обновление**

Вернувшись в замок, Мейзи сталкивается с миссис 

In [11]:
print(bench.collection[0]['annotation'])

Мистическая история о старинной башне, где чуть не погибла впечатлительная девушка.

Двадцатилетняя дочь антиквара Мэйзи Льюэллин перед Рождеством приглашена погостить в замок елизаветинской эпохи Волверден-холл в окрестностях Лондона. Его хозяйка миссис Уэст встречает девушку с великосветской церемонией, показывает ей замок и её спальную. Девушка поражена роскошью и величием замка, у которого славная история. Сама девушка — представительница древнего рода, «была высокой и хрупкой, с густыми чёрными волосами и одухотворёнными чертами лица, как оно и подобает потомку Льюэллина ап Йорверта».

В замок съехалось много гостей посмотреть на представление — живые картины. Мэйзи никого не знает. Из её окна открывается прекрасный вид на деревенские просторы, старую церковь и новую, перестроенную, белую башню. Мэйзи подмечает контраст старых строений и новодела, что расстраивает хозяйку. Та рассказывает, что старинная башня была в плачевном состоянии, и её пришлось реконструировать прежде, чем т