## Understanding the EmbeddingQAFinetune object
Loading the prev generated qa object and exploring the structure

**Load previously generated Q and chunks**

In [1]:
from llama_index.finetuning import EmbeddingQAFinetuneDataset

# Load the datasets from saved json files
qa_dataset = EmbeddingQAFinetuneDataset.from_json(
    "data/qa_dataset_25-11-23_100_samples.json"
)



### The QA object:

- **.corpus** # contains a dict where key is a unique ID for each text chunk, and the value is the text chunk (used for generating the Q)
- **.queries** # contains a dict where key is a unique ID for each question, and the value is the question (generated previously)
- **.relevant_docs** # A dict that contains the question ID as the key (prev generated), and as value contains a list of relevant text chunk IDs  (initially list contains only 1 item)
- **.query_docid_pairs** # A list of tuples, where each tuple contains a question str (for some reason not the ID) and a text chunk ID

100 text chunks was used to generate 200 questions

In [2]:
len(qa_dataset.corpus), len(qa_dataset.queries), len(qa_dataset.relevant_docs)

(100, 200, 200)

Inspecting **.corpus**

In [3]:
# return first item from the qa_datset.corpus which is a list of dictionaries
first_corpus_key = next(iter(qa_dataset.corpus))
first_corpus_value = qa_dataset.corpus[first_corpus_key]


print(
    f"First element has: \nUnique ID: {first_corpus_key} \n\nText:\n{first_corpus_value}"
)

First element has: 
Unique ID: 9281784d-734c-4665-b5dd-f6da8fd81859 

Text:
Vejledning om beskæftigelseskravet for ret til barselsdagpenge

1.Indledning
I denne vejledning beskrives hvilke beskæftigelseskrav, der gælder for at opnå ret til barselsdagpenge. Reglerne findes i §§ 27-29 i barselsloven (loven).

I bekendtgørelse nr. 1090 af 1. juni 2021 om opgørelse af beskæftigelseskrav og beregning af barselsdagpenge m.v. (bekendtgørelsen) er fastsat nærmere regler om opgørelsen af beskæftigelseskravet.

Denne vejledning erstatter vejledning nr. 10066 af 29. december 2020 om beskæftigelseskravet for ret til barselsdagpenge.

En lønmodtager har ret til barselsdagpenge, hvis pågældende opfylder ét af de fem krav om tilknytning til arbejdsmarkedet, der er nævnt i lovens § 27, stk. 1.

Kravet om aktuel beskæftigelse dagen før fraværet eller på første fraværsdag samt beskæftigelse i mindst 160 timer indberettet i indkomstregistret inden for de seneste 4 afsluttede kalendermåneder forud for fra

Inspecting **.queries**

In [4]:
# Load the .queries in a similar manner
first_query_key = next(iter(qa_dataset.queries))
first_query_value = qa_dataset.queries[first_query_key]

print(f"First query has: \nUnique ID: {first_query_key} \n\nText:\n{first_query_value}")

First query has: 
Unique ID: 7b4dbc95-9077-45ff-90b0-8dfb1920ce88 

Text:
Hvad er de fem krav om tilknytning til arbejdsmarkedet, som en lønmodtager skal opfylde for at have ret til barselsdagpenge?


Inspecting **.relevant_docs**

In [5]:
# Load the qa_dataset.relevant_docs in a similar manner
first_relevant_docs_key = next(iter(qa_dataset.relevant_docs))
first_relevant_docs_value = qa_dataset.relevant_docs[first_relevant_docs_key]

print(
    f"First question - text pair has : \nQuestion ID: {first_relevant_docs_key} \n\nText ID:\n{first_relevant_docs_value}"
)

First question - text pair has : 
Question ID: 7b4dbc95-9077-45ff-90b0-8dfb1920ce88 

Text ID:
['9281784d-734c-4665-b5dd-f6da8fd81859']


**Since I generated 2 questions per chunk in the previous notebook, there will be 2 questions that refer to the same text ID**

Inspecting **.query_docid_pairs**

In [6]:
qa_dataset.query_docid_pairs[:2]

[('Hvad er de fem krav om tilknytning til arbejdsmarkedet, som en lønmodtager skal opfylde for at have ret til barselsdagpenge?',
  ['9281784d-734c-4665-b5dd-f6da8fd81859']),
 ('Hvad er betingelserne for at opfylde kravet om aktuel beskæftigelse og beskæftigelse i mindst 160 timer for at få ret til barselsdagpenge?',
  ['9281784d-734c-4665-b5dd-f6da8fd81859'])]