In [3]:
from llm_providers import GoogleAIModel
import os
from dotenv import load_dotenv
from multi_agent import SyntheticDataGenerator
from langchain.retrievers import BM25Retriever
from utils import pdf_parser
from tasks import Task

load_dotenv()
key = os.environ.get('GOOGLE_API_KEY')
llm = GoogleAIModel(api_key=key)
pdf_files = pdf_parser('./test_pdf/book.pdf')

bm25retriever = BM25Retriever.from_documents(pdf_files, k=10)

agent = SyntheticDataGenerator(llm=llm, 
                               retriever=bm25retriever,
                               output_path='./output',
                               buffer_size=10)

example_task = Task(
    task_name="dpo",
    localization='Lora Finetuning and Adapters',
    task_description="I want to use your outputs to train a AI Researcher Model",
    rows_per_batch=12,
    batch_size=15,
    language="Vietnamese"
)

In [4]:
import uuid

thread_config = {'configurable': {'thread_id': 123}}

async for output in agent.agent_flow.astream(
    {
        "task": example_task,
        "human_feedback": None,
        "conversations": []
    }
    ,
    config=thread_config, 
    stream_mode="updates"):
    for key, value in output.items():
        print(value)
    print("\n---\n")

{'retrieved_documents': ['\n- 13\nModel Category Source Description\n1.Parameter-EfficientFine-Tuning&ModelCompression\nLoRA[60] Low-Rank Adaptation Link Injects trainable low-rank adapters for efficient fine-tuning.\nQLoRA[188] Quantized Adaptation Link Combines 4-bit quantization with LoRA to enable fine-tuning on consumer GPUs\nGPTQ[189] Post-Training Quantization Link Optimal 4-bit quantization method for GPT-style models with minimal loss\nSparseGPT[190] Pruning Link One-shot pruning that preserves model quality with compensation.\nPEFT(HF) [191] Unified Fine-Tuning Link Library integrating LoRA, prefix tuning, and other parameter-efficient methods\nBitsAndBytes[192] Low-Precision Training Link Enables 8-bit optimizers and 4-bit quantization for memory-efficient training\nAdaLoRA[193] Adaptive Adaptation Link Dynamically allocates parameter budget between layers during fine-tuning\nP-Tuningv2 [194] Prompt Optimization Link Learns continuous prompt embeddings through deep prompt tu

{'response': '```json\n[\n  {\n    "prompt": "Hãy giải thích ngắn gọn về LoRA và QLoRA trong lĩnh vực tinh chỉnh mô hình ngôn ngữ lớn (LLM).",\n    "chosen": "LoRA (Low-Rank Adaptation) là một phương pháp tinh chỉnh hiệu quả tham số, bằng cách chèn các adapter có thứ hạng thấp có thể huấn luyện được vào mô hình. QLoRA (Quantized Adaptation) kết hợp lượng tử hóa 4-bit với LoRA, cho phép tinh chỉnh trên các GPU tiêu dùng với chi phí bộ nhớ thấp hơn đáng kể. Cả hai đều giúp giảm đáng kể lượng tài nguyên tính toán cần thiết để điều chỉnh LLM cho các tác vụ cụ thể.",\n    "rejected": "LoRA và QLoRA là các kỹ thuật tinh chỉnh mô hình."\n  },\n  {\n    "prompt": "Mô tả vai trò của DeepSpeed và Colossal-AI trong việc huấn luyện phân tán các mô hình ngôn ngữ lớn.",\n    "chosen": "DeepSpeed và Colossal-AI là các framework được thiết kế để hỗ trợ huấn luyện phân tán các mô hình ngôn ngữ lớn. DeepSpeed cung cấp các tối ưu hóa như ZeRO parallelism, 3D parallelism và tối ưu hóa bộ nhớ để cho phép h

In [5]:
from langgraph.types import Command

await agent.agent_flow.ainvoke(
    Command(resume='yes'),
    config=thread_config
)

TypeError: object str can't be used in 'await' expression