In [1]:
from llm_providers import GoogleAIModel
import os
from dotenv import load_dotenv
from multi_agent import SyntheticDataGenerator
from langchain_community.retrievers import BM25Retriever
from utils import pdf_parser
from tasks import Task

load_dotenv()
key = os.environ.get('GOOGLE_API_KEY')
llm = GoogleAIModel(api_key=key)
pdf_files = pdf_parser('cv.pdf')

bm25retriever = BM25Retriever.from_documents(pdf_files, k=5)

agent = SyntheticDataGenerator(llm=llm, 
                               retriever=bm25retriever,
                               output_path='./output',
                               buffer_size=5)

example_task = Task(
    task_name="dpo",
    localization='Optimization, Data Science and AI',
    task_description="Generate a conversation between a HR manager and a candidate applying for a data science position using this information.",
    rows_per_batch=11,
    batch_size=3,
    language="Vietnamese"
)

In [2]:
thread_config = {'configurable': {'thread_id': 123}}

async for output in agent.agent_flow.astream(
    {
        "task": example_task,
        "human_feedback": None,
        "conversations": []
    }
    ,
    config=thread_config, 
    stream_mode="updates"):
    for key, value in output.items():
        print(value)
    print("\n---\n")

{'retrieved_documents': ['\n- SPECIALIZATION\n• LLM: Retrieval Augmented Generation, Multi-Agentic Collaboration, MCP, Reasoning LLMs,Instruction\nFinetuning (Lora, QLora, RLHF, DPO, DDP, FSDP), Knowledge Graphs, Multimodal, Distributed Training\n(Model Parallelism, Data Parallelism).\n• Data Engineering: ETL Pipelines, CI/CD Pipelines, DevOps, Data Warehouse, Distributed Data Processing,\nWorkflow Orchestration.\n• Cloud and Infrastructure: AWS, Google Cloud, Docker, Kubernetes, CUDA.\n• Programming Language and other tools: Python, C++, Javascript, Pytorch, Git, Linux, Terraform, Neo4j,\nPostgre, MySQL, Kestra, Apache Spark, Apache Kafka, Redis, Prometheus, Grafana.\n• Notable Frameworks: TRL, langchain, llama-index, autogen, crewAI, smolAgents, fastapi, TensorRTX, vllm.\n• Domain Knowledge: MLOPs, LLM system, Data Engineering.\nCERTIFICATIONS AND COMPLETED COURSES\nIntroduction to Machine Learning by University of Munich Completed Course- 2023\nThis course provides foundational know

{'response': '```json\n[\n  {\n    "prompt": "Hãy đóng vai một nhà quản lý nhân sự phỏng vấn một ứng viên cho vị trí khoa học dữ liệu. Hỏi về kinh nghiệm của ứng viên trong các lĩnh vực như LLM, Data Engineering, Cloud và Infrastructure, cũng như các công cụ và framework mà họ quen thuộc. Đề cập đến các chứng chỉ và khóa học mà ứng viên đã hoàn thành, đặc biệt là các khóa học liên quan đến Machine Learning, Deep Learning, Generative AI và MLOps. Cuối cùng, hỏi về các giải thưởng và thành tích mà ứng viên đã đạt được.",\n    "chosen": "Chào mừng bạn đến với buổi phỏng vấn cho vị trí khoa học dữ liệu tại công ty chúng tôi. Rất vui được gặp bạn. Để bắt đầu, bạn có thể chia sẻ về kinh nghiệm của mình trong các lĩnh vực như LLM, Data Engineering, Cloud và Infrastructure không? Chúng tôi đặc biệt quan tâm đến kinh nghiệm của bạn với Retrieval Augmented Generation, Multi-Agentic Collaboration, MCP, Reasoning LLMs, Instruction Finetuning, Knowledge Graphs, Multimodal và Distributed Training. B

In [3]:
from langgraph.types import Command

await agent.agent_flow.ainvoke(
    Command(resume='yes'),
    config=thread_config
)

TypeError: Subscripted generics cannot be used with class and instance checks