### Dataset

In [1]:
from datasets import load_dataset

DATASET_NAME = "DiscoResearch/germanrag"
dataset = load_dataset(DATASET_NAME, split="train")

Using the latest cached version of the dataset since DiscoResearch/germanrag couldn't be found on the Hugging Face Hub
Found the latest cached dataset configuration 'default' at /home/shawon/.cache/huggingface/datasets/DiscoResearch___germanrag/default/0.0.0/dcaafc4bf5b44c96a1ced56c0a7d42da5a3a2c45 (last modified on Mon Feb 26 23:09:34 2024).


### Find all unique contexts

In [2]:
from tqdm.autonotebook import tqdm

unique_contexts = set()
for _, d in tqdm(enumerate(dataset), total=len(dataset)):
    for ctx in d["contexts"]:
        unique_contexts.add(ctx)

  0%|          | 0/3362 [00:00<?, ?it/s]

### Easy Negative Finder

In [3]:
from src.docs import EasyNegativeFinder
from loguru import logger
import torch

model_name = "sentence-transformers/distiluse-base-multilingual-cased-v2"
device = "cuda" if torch.cuda.is_available() else "cpu"
# path to persist the vector store
dpath = "./persisted_data"

logger.info("Creating Finder Object")
finder = EasyNegativeFinder(model_name, device, dpath)

[32m2024-02-28 22:32:40.810[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m10[0m - [1mCreating Finder Object[0m
[32m2024-02-28 22:32:40.811[0m | [1mINFO    [0m | [36msrc.docs[0m:[36m__load_embedding_model[0m:[36m18[0m - [1mInitialising Embeddings with model ::sentence-transformers/distiluse-base-multilingual-cased-v2[0m
[32m2024-02-28 22:34:53.659[0m | [32m[1mSUCCESS [0m | [36msrc.docs[0m:[36m__load_embedding_model[0m:[36m23[0m - [32m[1mDone[0m


In [4]:
# init vector store
finder.init_vector_store(list(unique_contexts))

[32m2024-02-28 22:34:53.708[0m | [1mINFO    [0m | [36msrc.docs[0m:[36minit_vector_store[0m:[36m32[0m - [1mPopulating Vector Store[0m
[32m2024-02-28 22:34:53.709[0m | [1mINFO    [0m | [36msrc.docs[0m:[36minit_vector_store[0m:[36m33[0m - [1mPersisted @ :: ./persisted_data[0m
[32m2024-02-28 22:35:10.774[0m | [32m[1mSUCCESS [0m | [36msrc.docs[0m:[36minit_vector_store[0m:[36m37[0m - [32m[1mDone[0m


### Prepare dataset in the desired format

In [6]:
from src.dataset import prepare_entire_dataset

prepared_dataset = prepare_entire_dataset(dataset, finder)
logger.info(f"Size of the prepared dataset : {len(prepared_dataset)}")

[32m2024-02-28 22:35:41.087[0m | [1mINFO    [0m | [36msrc.dataset[0m:[36mprepare_entire_dataset[0m:[36m57[0m - [1mConverting Dataset into JSONL format[0m


  0%|          | 0/3362 [00:00<?, ?it/s]

[32m2024-02-28 22:36:14.164[0m | [32m[1mSUCCESS [0m | [36msrc.dataset[0m:[36mprepare_entire_dataset[0m:[36m65[0m - [32m[1mDone[0m
[32m2024-02-28 22:36:14.165[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m4[0m - [1mSize of the prepared dataset : 11197[0m


In [7]:
prepared_dataset[:10]

[{'context': 'Gott\n\n=== Demografie ===\nEine Zusammenfassung von Umfrageergebnissen aus verschiedenen Staaten ergab im Jahr 2007, dass es weltweit zwischen 505 und 749 Millionen Atheisten und Agnostiker gibt. Laut der Encyclopædia Britannica gab es 2009 weltweit 640 Mio. Nichtreligiöse und Agnostiker (9,4 %), und weitere 139 Mio. Atheisten (2,0 %), hauptsächlich in der Volksrepublik China.\nBei einer Eurobarometer-Umfrage im Jahr 2005 wurde festgestellt, dass 52 % der damaligen EU-Bevölkerung glaubt, dass es einen Gott gibt. Eine vagere Frage nach dem Glauben an „eine andere spirituelle Kraft oder Lebenskraft“ wurde von weiteren 27 % positiv beantwortet. Bezüglich der Gottgläubigkeit bestanden große Unterschiede zwischen den einzelnen europäischen Staaten. Die Umfrage ergab, dass der Glaube an Gott in Staaten mit starkem kirchlichen Einfluss am stärksten verbreitet ist, dass mehr Frauen (58 %) als Männer (45 %) an einen Gott glauben und dass der Gottglaube mit höherem Alter, geringer

### Next Steps

Write the prepared dataset to disk so that it can be used later. Another approach
can be to find easy negatives on demand in a data loading pipeline so that instead of finding all easy negatives in one pass, we only find easy negatives for data instances
from the dataset we currently need. 