In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document
from langchain_community.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from tqdm import tqdm
import json

In [None]:
with open('../data/wiki_dump_cleaned.json', 'r', encoding='utf-8') as f:
    data = json.load(f)


inputs = [item["content"] for item in data if "content" in item]

In [None]:
documents = [Document(page_content=text) for text in inputs]

text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n", " "], chunk_size=5000, chunk_overlap=1000)
chunks = text_splitter.split_documents(documents)

In [4]:
chunks = [chunk for chunk in chunks if len(chunk.page_content) > 200]  # Фильтрация коротких чанков

In [5]:
len(chunks)

4199

In [6]:
# не запускать если все плохо с гпу, либо нет cuda
# если нет cuda качать так: 
# pip uninstall torch torchvision torchaudio -y
# pip install torch --index-url https://download.pytorch.org/whl/cu118 --no-cache-dir --no-deps
#
# проверить
# import torch
# print(torch.__version__)
# print(torch.cuda.is_available())


embeddings = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-large",
    model_kwargs={"device": "cuda"}
)

In [None]:
# если уже есть база, то загрузить ее так:
# vectorstore = Chroma(persist_directory="./terraria_db", embedding_function=embeddings)

In [7]:
vectorstore = Chroma.from_documents(chunks, embeddings, persist_directory="./terraria_db/general")
retriever = vectorstore.as_retriever(search_kwargs={"k": 7})

In [None]:
with open('../data/recipes.json', 'r', encoding='utf-8') as f:
    data = json.load(f)


inputs = [item for item in data]
print(inputs)
documents = [Document(page_content=text) for text in inputs]

text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=5000, chunk_overlap=1000)
chunks = text_splitter.split_documents(documents)

['Iron Pickaxe', 'Dirt Block', 'Stone Block', 'Iron Broadsword', 'Mushroom', 'Iron Shortsword', 'Iron Hammer', 'Torch', 'Wood', 'Iron Axe', 'Iron Ore', 'Copper Ore', 'Gold Ore', 'Silver Ore', 'Copper Watch', 'Silver Watch', 'Gold Watch', 'Depth Meter', 'Gold Bar', 'Copper Bar', 'Silver Bar', 'Iron Bar', 'Gel', 'Wooden Sword', 'Wooden Door', 'Stone Wall', 'Acorn', 'Lesser Healing Potion', 'Life Crystal', 'Dirt Wall', 'Bottle', 'Wooden Table', 'Furnace', 'Wooden Chair', 'Iron Anvil', 'Work Bench', 'Goggles', 'Lens', 'Wooden Bow', 'Wooden Arrow', 'Flaming Arrow', 'Shuriken', 'Suspicious Looking Eye', 'Demon Bow', 'War Axe of the Night', "Light's Bane", 'Unholy Arrow', 'Chest', 'Band of Regeneration', 'Magic Mirror', "Jester's Arrow", 'Angel Statue', 'Cloud in a Bottle', 'Hermes Boots', 'Enchanted Boomerang', 'Demonite Ore', 'Demonite Bar', 'Heart', 'Corrupt Seeds', 'Vile Mushroom', 'Ebonstone Block', 'Grass Seeds', 'Sunflower', 'Vilethorn', 'Starfury', 'Purification Powder', 'Vile Powder'

In [9]:
len(chunks)

3907

In [10]:
vectorstore = Chroma.from_documents(chunks, embeddings, persist_directory="./terraria_db/recipes")


In [20]:
query = "Террамеч"

results = vectorstore.similarity_search(query, k=5)

for i, doc in enumerate(results):
    #print(f"Document {i+1}: similarity = {score:.4f}")
    print(doc.page_content)
    print("---------------------------------------------------------------------------------------------------------")

disambig

'''Терра''' может означать:
* (Предмет: Terra Blade) — оружие ближнего боя сложного режиме, создаваемое из множества мечей;
* (Предмет: Terraspark Boots) — аксессуар, создаваемый из множества аксессуаров;
* (Предмет: Terragrim) — редкое оружие ближнего боя, которое можно отыскать в святилище зачарованного меча;
* (Предмет: Terrarian) — йо-йо сложного режима;
* (Предмет: Terra Fart Kart) — тематическая вагонетка;
* (Предмет: Terra Toilet) — тематический унитаз.

== См. также ==
Некоторые названия предметов также начинаются с «терра», в том числе:
* (Предмет: Terrarium)
* (Предмет: Terraprisma)
* (Предмет: Terraformer)
---------------------------------------------------------------------------------------------------------
__NOTITLE__
Добро пожаловать на официальную '''Terraria Wiki''',энциклопедию, написанную и поддерживаемую игроками.На данный момент х участников}} поддерживат }}).Ссылки:&nbsp;&nbsp; Сайт Форумы Facebook Instagram class=blackwhite-icon Reddit Discord YouTube 

In [10]:
chunks

[Document(metadata={}, page_content='\'\'\'1.0\'\'\' — официальная релизная версия игры.\n\n== Добавления ("история") ==\n: \'\'Полный список: Объекты, добавленные в версии 1.0\'\''),
 Document(metadata={}, page_content="Номер версии - Дата обновления - Краткий список добавлений: 0.9.3 | Column 2: 15 мая 2011\nНомер версии - Дата обновления - Краткий список добавлений: 0.9.2 | Column 2: 11 мая 2011\nНомер версии - Дата обновления - Краткий список добавлений: 0.9.1 | Column 2: 10 мая 2011\nНомер версии - Дата обновления - Краткий список добавлений: 0.7.9 | Column 2: 10 мая 2011\nНомер версии - Дата обновления - Краткий список добавлений: 0.7.8 | Column 2: 8 мая 2011\nНомер версии - Дата обновления - Краткий список добавлений: 0.7.7 | Column 2: 7 мая 2011\nНомер версии - Дата обновления - Краткий список добавлений: 0.7.6 | Column 2: 6 мая 2011\nНомер версии - Дата обновления - Краткий список добавлений: 0.7.5 | Column 2: 4 мая 2011\nНомер версии - Дата обновления - Краткий список добавле