In [None]:
import os
os.environ["CUDA_VISIBLE_DEVICES"]= "0"
os.environ["CUDA_LAUNCH_BLOCKING"]= "1"
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
os.environ["TORCH_USE_CUDA_DSA"] = "1"

import random
import warnings
import nest_asyncio

warnings.filterwarnings("ignore")
nest_asyncio.apply()

In [None]:
import os
import getpass
import nest_asyncio

nest_asyncio.apply()
os.environ["OPENAI_API_KEY"] = "" # Insert key for training data generation

In [None]:
from llama_index.core.node_parser import SimpleNodeParser
from llama_index.core.schema import MetadataMode
import re
import uuid
from llama_index.llms.openai import OpenAI
from tqdm.notebook import tqdm
import json


TRAIN_FILES = "Raw_data/vibilaw/train/"

In [None]:
from llama_index.core import SimpleDirectoryReader
from llama_index.core.node_parser import SimpleNodeParser
from llama_index.core.schema import MetadataMode

def load_corpus(directory, verbose=False):
    if verbose:
        print(f"Loading files in {directory}")

    reader = SimpleDirectoryReader(directory)
    docs = reader.load_data()
    
    if verbose:
        print(f"Loaded {len(docs)} docs")

    parser = SimpleNodeParser.from_defaults()
    nodes = parser.get_nodes_from_documents(docs, show_progress=verbose)

    if verbose:
        print(f"Parsed {len(nodes)} nodes")
    corpus = {node.node_id: node.get_content(metadata_mode=MetadataMode.NONE) for node in nodes}
    return nodes, corpus

In [None]:
train_nodes, train_corpus = load_corpus(TRAIN_FILES, verbose=True)

In [None]:
for relationship, related_node_info in train_nodes[0].relationships.items():
    if str(relationship) == "NodeRelationship.SOURCE":
        node_id = related_node_info.node_id
        text_content = val_nodes[0].text
        print(f"node_id: {node_id}")
        print(f"text: {text_content}")

In [None]:
def generate_queries(
    nodes,
    num_questions_per_chunk=5,
    prompt_template=None,
    verbose=False,
):
    """
    Automatically generate hypothetical questions that could be answered with
    doc in the corpus.
    """
    llm = OpenAI(model='gpt-3.5-turbo-16k')

    prompt_template = prompt_template or """\
    Cho thông tin về một điều luật bên dưới.\n
    ----------------------
    {context_str}
    ------------- ---------\
    Với thông tin đã cho chứ không phải kiến thức có sẵn.
    Bạn là Giáo viên/Giáo sư về luật pháp Việt Nam. 
    Nhiệm vụ của bạn là thiết lập {num_questions_per_chunk} bộ câu hỏi và đáp án cho bài kiểm tra/bài kiểm tra sắp tới.
    Các câu hỏi nên đa dạng về bản chất trong toàn bộ tài liệu và bắt đầu bằng "Câu hỏi:".
    Giới hạn các câu hỏi trong phạm vi thông tin ngữ cảnh được cung cấp.
    Đáp án phải bao gồm căn cứ trả lời câu hỏi là Khoản mấy, Điều mấy và văn bản luật nào.
    Đáp án bắt đầu bằng "Đáp án:".
    """

    queries = {}
    answers = {}
    corpus = {}
    relevant_docs = {}
        
    for relationship, related_node_info in nodes.relationships.items():
        if str(relationship) == "NodeRelationship.SOURCE":
            node_id = related_node_info.node_id
            context_text = nodes.text
            query = prompt_template.format(context_str=context_text, num_questions_per_chunk=num_questions_per_chunk)
            response = llm.complete(query)

            result = str(response).strip().split("\n")
            result = [
                re.sub(r"^\d+[\).\s]", "", question).strip() for question in result
            ]
            result = [result for result in result if len(result) > 0]
            question = []
            answer = []
            print("Generating data at node", node_id)
            for text in result:
                if text.startswith('Câu hỏi'):
                    question.append(text.split(':', 1)[1].strip())
                else:
                    split_item = text.split(':', 1)
                    answer_ = ':'.join(split_item[1:]).strip()
                    answer.append(answer_)
                    #answer = text.split(':', 1)[1:].strip()
            for q, a in zip(question, answer):
                question_id = str(uuid.uuid4())  
                queries[question_id] = q
                answers[question_id] = a
                corpus[node_id] = context_text
                relevant_docs[question_id] = [node_id]
              
    return queries, relevant_docs, answers, corpus

In [None]:
train_queries, train_relevant_docs, train_answers, train_corpus = {}, {}, {}, {}
for index, item in enumerate(train_nodes):
    if index % 50 == 0:
        print("Index:", index)
    try:
        train_query, train_relevant_doc, train_answer, train_cp = generate_queries(item)
        train_queries.update(train_query)
        train_answers.update(train_answer)
        train_corpus.update(train_cp)
        train_relevant_docs.update(train_relevant_doc)
    except Exception as e:
        print(f"Error processing item {index}: {e}")

In [None]:
TRAIN_DATASET_FPATH = 'QAC_fine_tuning/data_rag/vibilaw/train_dataset.json'
train_dataset = {
    'queries': train_queries,
    'answers': train_answers,
    'corpus': train_corpus,
    'relevant_docs': train_relevant_docs
}
with open(TRAIN_DATASET_FPATH, 'w+') as f:
    json.dump(train_dataset, f)

In [None]:
import json

def remove_invalid_answers(dataset):
    # Danh sách các id không có giá trị
    invalid_ids = []
    for id_, answer in dataset['answers'].items():
        # Kiểm tra xem câu trả lời có giá trị không
        if not answer.strip():
            invalid_ids.append(id_)
        if "Không có thông tin cụ thể về việc này trong đoạn văn trên" in answer:
            invalid_ids.append(id_)
            print(id_)
    
    # Loại bỏ các id không có giá trị
    for id_ in invalid_ids:
        # Loại bỏ câu hỏi tương ứng
        if id_ in dataset['queries']:
            del dataset['queries'][id_]
        # Loại bỏ câu trả lời không có giá trị
        del dataset['answers'][id_]
        # Loại bỏ văn bản liên quan tương ứng
        if id_ in dataset['relevant_docs']:
            del dataset['relevant_docs'][id_]
    
    return dataset
# Sử dụng hàm để loại bỏ các câu trả lời không có giá trị
with open(TRAIN_DATASET_FPATH, 'r', encoding='utf-8') as json_file:
    train_dataset = json.load(json_file)

clean_train_dataset = remove_invalid_answers(train_dataset)
with open(TRAIN_DATASET_FPATH, 'w+') as f:
    json.dump(clean_train_dataset, f)