### Initialize Embedding model

In [1]:
from langchain_community.embeddings import OpenVINOEmbeddings

model_name = "BAAI/bge-small-en"
model_kwargs = {"device": "CPU"}
encode_kwargs = {"mean_pooling": True, "normalize_embeddings": True}

ov_embeddings = OpenVINOEmbeddings(
    model_name_or_path=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs,
    show_progress=True,
)

`loss_type=None` was set in the config but it is unrecognized. Using the default loss: `ForCausalLMLoss`.
  inverted_mask = torch.tensor(1.0, dtype=dtype) - expanded_mask


### Creating a vector store with ChromaDB (in memory, local)

In [2]:
from langchain_chroma import Chroma

vector_store = Chroma(
    collection_name="arch_wiki_collection",
    embedding_function=ov_embeddings,
    persist_directory="chroma_langchain_db"
)

### Document loading and splitting

In [3]:
import os
from langchain_community.document_loaders import DirectoryLoader, TextLoader

directory_path = "./arch-wiki/html/en/"

if not os.path.exists(directory_path):
    print(f"Directory not found: {directory_path}")
else:
    loader = DirectoryLoader(
        path=directory_path,
        glob="**/*.html", # all html files and subdirectories
        loader_cls=TextLoader, # keeps html tags for document splitting
        show_progress=True
    )

docs = loader.load() # loads all documents at once

100%|█████████████████████████████████████████████████████████████████████▉| 2491/2493 [00:00<00:00, 11724.54it/s]


In [4]:
from langchain_text_splitters import RecursiveCharacterTextSplitter, HTMLHeaderTextSplitter

headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

# initilaize header splitter
html_header_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# initilaize text splitter to ensure chunks fit in local llm
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=100,
    separators=["\n\n", "\n", " ", ""]
)

document_chunks=[]

for doc in docs:
    # if html file, split by header, then split again into smaller chunks
    if doc.metadata.get("source", "").endswith(".html"):
        header_splits = html_header_splitter.split_text(doc.page_content)

        # apply original source metadata to each split
        for split in header_splits:
            split.metadata["source"] = doc.metadata.get("source")

        # DEBUG
        # print(f"Found {len(header_splits)} header sections.")
        # if len(header_splits) > 0:
        #     print(f"Metadata of first section: {header_splits[0].metadata}")

        
        document_chunks.extend(text_splitter.split_documents(header_splits))
    else:
        # non-html, use recursive splitter directly
        document_chunks.extend(text_splitter.split_documents([doc]))

Found 63 header sections.
Metadata of first section: {'source': 'arch-wiki/html/en/WireGuard.html'}
Found 15 header sections.
Metadata of first section: {'source': 'arch-wiki/html/en/Sugar.html'}
Found 26 header sections.
Metadata of first section: {'source': 'arch-wiki/html/en/Character_encoding.html'}
Found 13 header sections.
Metadata of first section: {'source': 'arch-wiki/html/en/Category:Hardware_detection_and_troubleshooting.html'}
Found 27 header sections.
Metadata of first section: {'source': 'arch-wiki/html/en/Intel_Quartus_Prime.html'}
Found 46 header sections.
Metadata of first section: {'source': 'arch-wiki/html/en/Dhcpcd.html'}
Found 27 header sections.
Metadata of first section: {'source': 'arch-wiki/html/en/Guitarix.html'}
Found 25 header sections.
Metadata of first section: {'source': 'arch-wiki/html/en/Bluetooth_mouse.html'}
Found 25 header sections.
Metadata of first section: {'source': 'arch-wiki/html/en/Command-line_shell.html'}
Found 17 header sections.
Metadata o

In [5]:
document_chunks[0].metadata

{'source': 'arch-wiki/html/en/WireGuard.html'}

In [6]:
len(document_chunks)

75185

### Adding Documents into Vectorstore

In [10]:
from uuid import uuid4

BATCH_SIZE = 500 # max batch size is 5461

for i in range(0, len(document_chunks), BATCH_SIZE):
    # slice chunk list into batches
    batch = document_chunks[i : i + BATCH_SIZE]
    
    # generate random universally unique identifier (UUID)
    batch_uuids = [str(uuid4()) for _ in range(len(batch))] 

    vector_store.add_documents(
        documents=batch,
        ids=batch_uuids
    )

    # DEBUG
    print(f"Added batch {i//BATCH_SIZE + 1} (Documents {i} to {i+len(batch)})")

Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.04it/s]


Added batch 1 (Documents 0 to 500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.03it/s]


Added batch 2 (Documents 500 to 1000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.96it/s]


Added batch 3 (Documents 1000 to 1500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.11it/s]


Added batch 4 (Documents 1500 to 2000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.36it/s]


Added batch 5 (Documents 2000 to 2500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.17it/s]


Added batch 6 (Documents 2500 to 3000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.71it/s]


Added batch 7 (Documents 3000 to 3500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.56it/s]


Added batch 8 (Documents 3500 to 4000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.05it/s]


Added batch 9 (Documents 4000 to 4500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.47it/s]


Added batch 10 (Documents 4500 to 5000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.59it/s]


Added batch 11 (Documents 5000 to 5500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.71it/s]


Added batch 12 (Documents 5500 to 6000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.65it/s]


Added batch 13 (Documents 6000 to 6500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.38it/s]


Added batch 14 (Documents 6500 to 7000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.37it/s]


Added batch 15 (Documents 7000 to 7500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.00it/s]


Added batch 16 (Documents 7500 to 8000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.33it/s]


Added batch 17 (Documents 8000 to 8500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.45it/s]


Added batch 18 (Documents 8500 to 9000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:12<00:00, 10.16it/s]


Added batch 19 (Documents 9000 to 9500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:13<00:00,  9.21it/s]


Added batch 20 (Documents 9500 to 10000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.52it/s]


Added batch 21 (Documents 10000 to 10500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.91it/s]


Added batch 22 (Documents 10500 to 11000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.96it/s]


Added batch 23 (Documents 11000 to 11500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.91it/s]


Added batch 24 (Documents 11500 to 12000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.71it/s]


Added batch 25 (Documents 12000 to 12500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.04it/s]


Added batch 26 (Documents 12500 to 13000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.98it/s]


Added batch 27 (Documents 13000 to 13500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.56it/s]


Added batch 28 (Documents 13500 to 14000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.95it/s]


Added batch 29 (Documents 14000 to 14500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 11.21it/s]


Added batch 30 (Documents 14500 to 15000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:07<00:00, 16.51it/s]


Added batch 31 (Documents 15000 to 15500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.90it/s]


Added batch 32 (Documents 15500 to 16000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.07it/s]


Added batch 33 (Documents 16000 to 16500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.31it/s]


Added batch 34 (Documents 16500 to 17000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.64it/s]


Added batch 35 (Documents 17000 to 17500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.98it/s]


Added batch 36 (Documents 17500 to 18000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.23it/s]


Added batch 37 (Documents 18000 to 18500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:07<00:00, 16.87it/s]


Added batch 38 (Documents 18500 to 19000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 15.25it/s]


Added batch 39 (Documents 19000 to 19500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.19it/s]


Added batch 40 (Documents 19500 to 20000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.52it/s]


Added batch 41 (Documents 20000 to 20500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.80it/s]


Added batch 42 (Documents 20500 to 21000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.48it/s]


Added batch 43 (Documents 21000 to 21500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.10it/s]


Added batch 44 (Documents 21500 to 22000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.67it/s]


Added batch 45 (Documents 22000 to 22500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.39it/s]


Added batch 46 (Documents 22500 to 23000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.10it/s]


Added batch 47 (Documents 23000 to 23500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.72it/s]


Added batch 48 (Documents 23500 to 24000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.68it/s]


Added batch 49 (Documents 24000 to 24500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.85it/s]


Added batch 50 (Documents 24500 to 25000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 15.24it/s]


Added batch 51 (Documents 25000 to 25500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:12<00:00,  9.92it/s]


Added batch 52 (Documents 25500 to 26000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.19it/s]


Added batch 53 (Documents 26000 to 26500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.67it/s]


Added batch 54 (Documents 26500 to 27000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:07<00:00, 16.59it/s]


Added batch 55 (Documents 27000 to 27500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.24it/s]


Added batch 56 (Documents 27500 to 28000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 11.30it/s]


Added batch 57 (Documents 28000 to 28500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.75it/s]


Added batch 58 (Documents 28500 to 29000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.41it/s]


Added batch 59 (Documents 29000 to 29500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:07<00:00, 17.26it/s]


Added batch 60 (Documents 29500 to 30000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.74it/s]


Added batch 61 (Documents 30000 to 30500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.75it/s]


Added batch 62 (Documents 30500 to 31000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.88it/s]


Added batch 63 (Documents 31000 to 31500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:12<00:00,  9.95it/s]


Added batch 64 (Documents 31500 to 32000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.46it/s]


Added batch 65 (Documents 32000 to 32500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 15.19it/s]


Added batch 66 (Documents 32500 to 33000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 11.32it/s]


Added batch 67 (Documents 33000 to 33500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 11.25it/s]


Added batch 68 (Documents 33500 to 34000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.71it/s]


Added batch 69 (Documents 34000 to 34500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.89it/s]


Added batch 70 (Documents 34500 to 35000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.96it/s]


Added batch 71 (Documents 35000 to 35500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:14<00:00,  8.75it/s]


Added batch 72 (Documents 35500 to 36000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.48it/s]


Added batch 73 (Documents 36000 to 36500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 15.08it/s]


Added batch 74 (Documents 36500 to 37000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.55it/s]


Added batch 75 (Documents 37000 to 37500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 11.34it/s]


Added batch 76 (Documents 37500 to 38000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.68it/s]


Added batch 77 (Documents 38000 to 38500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.62it/s]


Added batch 78 (Documents 38500 to 39000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.85it/s]


Added batch 79 (Documents 39000 to 39500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.97it/s]


Added batch 80 (Documents 39500 to 40000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 11.18it/s]


Added batch 81 (Documents 40000 to 40500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.54it/s]


Added batch 82 (Documents 40500 to 41000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.79it/s]


Added batch 83 (Documents 41000 to 41500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.28it/s]


Added batch 84 (Documents 41500 to 42000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.89it/s]


Added batch 85 (Documents 42000 to 42500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.72it/s]


Added batch 86 (Documents 42500 to 43000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.67it/s]


Added batch 87 (Documents 43000 to 43500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:13<00:00,  9.31it/s]


Added batch 88 (Documents 43500 to 44000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.99it/s]


Added batch 89 (Documents 44000 to 44500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.13it/s]


Added batch 90 (Documents 44500 to 45000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.47it/s]


Added batch 91 (Documents 45000 to 45500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.15it/s]


Added batch 92 (Documents 45500 to 46000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.44it/s]


Added batch 93 (Documents 46000 to 46500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.51it/s]


Added batch 94 (Documents 46500 to 47000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.14it/s]


Added batch 95 (Documents 47000 to 47500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.83it/s]


Added batch 96 (Documents 47500 to 48000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.17it/s]


Added batch 97 (Documents 48000 to 48500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.00it/s]


Added batch 98 (Documents 48500 to 49000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.12it/s]


Added batch 99 (Documents 49000 to 49500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.41it/s]


Added batch 100 (Documents 49500 to 50000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.33it/s]


Added batch 101 (Documents 50000 to 50500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.85it/s]


Added batch 102 (Documents 50500 to 51000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.37it/s]


Added batch 103 (Documents 51000 to 51500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.82it/s]


Added batch 104 (Documents 51500 to 52000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.96it/s]


Added batch 105 (Documents 52000 to 52500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.54it/s]


Added batch 106 (Documents 52500 to 53000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.79it/s]


Added batch 107 (Documents 53000 to 53500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.11it/s]


Added batch 108 (Documents 53500 to 54000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 15.18it/s]


Added batch 109 (Documents 54000 to 54500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.95it/s]


Added batch 110 (Documents 54500 to 55000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:06<00:00, 18.57it/s]


Added batch 111 (Documents 55000 to 55500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.90it/s]


Added batch 112 (Documents 55500 to 56000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 15.15it/s]


Added batch 113 (Documents 56000 to 56500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.19it/s]


Added batch 114 (Documents 56500 to 57000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.07it/s]


Added batch 115 (Documents 57000 to 57500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.61it/s]


Added batch 116 (Documents 57500 to 58000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.82it/s]


Added batch 117 (Documents 58000 to 58500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.35it/s]


Added batch 118 (Documents 58500 to 59000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.44it/s]


Added batch 119 (Documents 59000 to 59500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.83it/s]


Added batch 120 (Documents 59500 to 60000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:14<00:00,  8.79it/s]


Added batch 121 (Documents 60000 to 60500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.54it/s]


Added batch 122 (Documents 60500 to 61000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 15.11it/s]


Added batch 123 (Documents 61000 to 61500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.63it/s]


Added batch 124 (Documents 61500 to 62000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.47it/s]


Added batch 125 (Documents 62000 to 62500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.89it/s]


Added batch 126 (Documents 62500 to 63000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 12.38it/s]


Added batch 127 (Documents 63000 to 63500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.87it/s]


Added batch 128 (Documents 63500 to 64000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:12<00:00, 10.22it/s]


Added batch 129 (Documents 64000 to 64500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 11.13it/s]


Added batch 130 (Documents 64500 to 65000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:08<00:00, 14.28it/s]


Added batch 131 (Documents 65000 to 65500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.81it/s]


Added batch 132 (Documents 65500 to 66000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 12.82it/s]


Added batch 133 (Documents 66000 to 66500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.81it/s]


Added batch 134 (Documents 66500 to 67000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.88it/s]


Added batch 135 (Documents 67000 to 67500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:12<00:00,  9.96it/s]


Added batch 136 (Documents 67500 to 68000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.58it/s]


Added batch 137 (Documents 68000 to 68500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:09<00:00, 13.07it/s]


Added batch 138 (Documents 68500 to 69000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:11<00:00, 10.70it/s]


Added batch 139 (Documents 69000 to 69500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:14<00:00,  8.34it/s]


Added batch 140 (Documents 69500 to 70000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:16<00:00,  7.59it/s]


Added batch 141 (Documents 70000 to 70500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:12<00:00,  9.86it/s]


Added batch 142 (Documents 70500 to 71000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:14<00:00,  8.62it/s]


Added batch 143 (Documents 71000 to 71500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:13<00:00,  9.32it/s]


Added batch 144 (Documents 71500 to 72000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:15<00:00,  8.18it/s]


Added batch 145 (Documents 72000 to 72500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:18<00:00,  6.86it/s]


Added batch 146 (Documents 72500 to 73000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:13<00:00,  9.56it/s]


Added batch 147 (Documents 73000 to 73500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:17<00:00,  7.12it/s]


Added batch 148 (Documents 73500 to 74000)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:15<00:00,  8.31it/s]


Added batch 149 (Documents 74000 to 74500)


Batches: 100%|██████████████████████████████████████████████████████████████████| 125/125 [00:17<00:00,  7.31it/s]


Added batch 150 (Documents 74500 to 75000)


Batches: 100%|████████████████████████████████████████████████████████████████████| 47/47 [00:03<00:00, 13.44it/s]


Added batch 151 (Documents 75000 to 75185)


In [16]:
collection_count = vector_store._collection.count()
print(f"Total items in Chroma: {collection_count}")

Total items in Chroma: 7973


### Querying a document

In [12]:
results = vector_store.similarity_search_with_score( 
    # langchain embeds text query automatically
    "How to install minecraft?",
    k=2,
)

Batches: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 92.26it/s]


In [13]:
for res, score in results:
    print(f"* [SIM={score:3f}] {res.page_content} [{res.metadata}]")

* [SIM=0.338752] Install [{'Header 3': 'Wake-on-LAN', 'Header 2': 'Install', 'source': 'arch-wiki/html/en/OpenVPN/Checklist_guide.html', 'Header 1': 'dm-crypt/Encrypting an entire system'}]
* [SIM=0.360615] 


Minecraft - ArchWiki













Jump to content












Contents
move to sidebar
hide




Beginning





1
Client




Toggle Client subsection





1.1
Java Edition






1.1.1
Installation








1.1.2
Firewall configuration for Client/LAN worlds










1.2
Bedrock Edition








1.3
Minecraft Education










2
Server




Toggle Server subsection





2.1
Java Edition








2.2
Bedrock Edition






2.2.1
Installation








2.2.2
Configuration












3
Minecraft mod launchers








4
Other programs and editors








5
Troubleshooting




Toggle Troubleshooting subsection





5.1
Logs








5.2
Client or server does not start








5.3
Broken fonts with MinecraftForge








5.4
MultiMC forks unable to build








5.5
Cannot change pulseaudio s