In [1]:
#node sampler - sample more relevant (informative) nodes 
# qagenerator - generate questions to the sampled nodes
from evaluate_rag_utils import NodeSampler, QAGenerator

from llama_index.llms import OpenAI

In [2]:
# get more relevant nodes
# having higher counts of relevant and lower count of irrelevant words
# limit sample to 5% of all nodes
node_sampler = NodeSampler('relevant_words.txt', 'irrelevant_words.txt')
informative_nodes = node_sampler.informative_nodes(video_info_path='../../data/video_info copy.json', fraction=0.05)

nodes = informative_nodes[:10]

In [3]:
# initialize the model
llm = OpenAI(temperature=0, model="gpt-3.5-turbo-1106")

# create QA generator
qa_generator = QAGenerator(llm=llm)

In [4]:
# generate:
# i) question-node pairs, save as json at qa_json_path
# ii) question-document pairs at doc_question_path
qa_dataset = qa_generator.generate_document_question_pairs(
    nodes=nodes,
    doc_json_path='../../data/video_info copy.json',
    doc_question_path='doc_question_dataset.json',
    qa_json_path='question_node_dataset.json'
)

100%|██████████| 10/10 [00:08<00:00,  1.20it/s]


In [5]:
for q in qa_dataset:
    print(q)

('queries', {'431ae521-f3cc-4508-8d1e-d4cca770c01d': '"Какие навыки и качества важны для работы в анализе данных?"', '983cc25f-494b-4e4a-9743-ffe977a71aaf': '"Какие основные различия между ML-инженером и Data Scientist?"', '3a18b2a8-a432-4104-9254-a7ccce061fde': '"Какие основные компетенции и технический стек у Data Analytics?"', 'caa9b9f5-615b-49e0-ac22-e633280e97d0': '"Какие hard skills необходимы для работы аналитиком данных?"', '020cd976-1670-43c5-99cc-2a3f10295841': 'Какой алгоритм используется в градиентном бустинге для прогнозирования?', '3faea57e-9f5c-453b-8e86-a2c1b0913ffd': '"Какие навыки ценятся на рынке труда в области анализа данных?"', 'd54de249-9956-4f9a-9d50-d478fb9792f0': '"Что такое Redash и как он помогает аналитикам работать с данными?"', '78a445b7-d793-41f6-b884-1a6467be8080': '"Какие hard и soft skills нужны начинающему аналитику данных?"', 'a945cb2e-feb0-44c3-8b5f-3457f74b450b': '"Какие задачи можно решать при помощи оконных функций?"', '81f5cbd3-f999-450b-9300-7