In [1]:
from llm_providers import GoogleAIModel
import os
from dotenv import load_dotenv
from multi_agent import SyntheticDataGenerator
from langchain_community.retrievers import BM25Retriever
from utils import pdf_parser
from tasks import Task

load_dotenv()
key = os.environ.get('GOOGLE_API_KEY')
llm = GoogleAIModel(api_key=key)
pdf_files = pdf_parser('cv.pdf')
batch_size = 3

bm25retriever = BM25Retriever.from_documents(pdf_files, k=batch_size)
thread_config = {'configurable': {'thread_id': 123}}

agent = SyntheticDataGenerator(llm=llm, 
                               retriever=bm25retriever,
                               output_path='.\output',
                               buffer_size=5,
                               thread_id=thread_config)

example_task = Task(
    task_name="dpo",
    localization='Optimization, Data Science and AI',
    task_description="I want to train a model to help users prepare for software interviews by DPO alignment technique.",
    rows_per_batch=6,
    language="Vietnamese"
)

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
async for output in agent.agent_flow.astream(
    {
        "task": example_task,
        "human_feedback": None,
        "conversations": []
    }
    ,
    config=thread_config, 
    stream_mode="updates"):
    for key, value in output.items():
        print(f"{key}: {value}")
        if key == '__interrupt__':
            print("Ayo LIL homie")
    print("\n------------------------------\n")

retrieve: {'retrieved_documents': ['\n- INTRODUCTION\nA data science and AI enthusiast with experience in Data Engineering, MLOPs and LLM . Seeking an internship or full-time position in the field of Artificial Intelligence and Data Engineering , both in applied science and research.', '\n- EDUCATION\nHanoi Highschool for Gifted Students\nGraduate in May 2020\nTokyo International University D.B.I Graduate in August 2024 Relevant Coursework: Big Data, Python in Data Science, Statistics, AI Products and Business Development.', '\n- SPECIALIZATION\n· LLM: Retrieval Augmented Generation, Multi-Agentic Collaboration, MCP, Reasoning LLMs,Instruction Finetuning (Lora, QLora, RLHF, DPO, DDP, FSDP), Knowledge Graphs, Multimodal, Distributed Training (Model Parallelism, Data Parallelism).\n· Data Engineering: ETL Pipelines, CI/CD Pipelines, DevOps, Data Warehouse, Distributed Data Processing, Workflow Orchestration.\n· Cloud and Infrastructure: AWS, Google Cloud, Docker, Kubernetes, CUDA.\n· Pro

fish_for_feedback: {'response': '```json\n[\n  {\n    "prompt": "Hãy viết một đoạn giới thiệu ngắn gọn về một người đam mê Khoa học Dữ liệu và Trí tuệ Nhân tạo, có kinh nghiệm về Kỹ thuật Dữ liệu, MLOps và LLM, đang tìm kiếm cơ hội thực tập hoặc làm việc toàn thời gian trong lĩnh vực Trí tuệ Nhân tạo và Kỹ thuật Dữ liệu.",\n    "chosen": "Tôi là một người đam mê Khoa học Dữ liệu và Trí tuệ Nhân tạo, với kinh nghiệm làm việc trong các lĩnh vực Kỹ thuật Dữ liệu, MLOps và LLM. Tôi đang tìm kiếm cơ hội thực tập hoặc làm việc toàn thời gian trong lĩnh vực Trí tuệ Nhân tạo và Kỹ thuật Dữ liệu, cả trong khoa học ứng dụng và nghiên cứu. Tôi mong muốn được đóng góp vào các dự án đầy thử thách và phát triển bản thân trong lĩnh vực này.",\n    "rejected": "Tôi thích AI."\n  },\n  {\n    "prompt": "Một ứng viên có kinh nghiệm trong Kỹ thuật Dữ liệu, MLOps và LLM muốn tìm kiếm một vị trí trong lĩnh vực Trí tuệ Nhân tạo. Hãy viết một tóm tắt về kinh nghiệm và mục tiêu nghề nghiệp của ứng viên này.",

In [3]:
from langgraph.types import Command

await agent.agent_flow.ainvoke(
    Command(resume='yes'),
    config=thread_config
)

{'task': Task(task_name='dpo', localization='Optimization, Data Science and AI', grounded_knowledge='\n- SPECIALIZATION\n· LLM: Retrieval Augmented Generation, Multi-Agentic Collaboration, MCP, Reasoning LLMs,Instruction Finetuning (Lora, QLora, RLHF, DPO, DDP, FSDP), Knowledge Graphs, Multimodal, Distributed Training (Model Parallelism, Data Parallelism).\n· Data Engineering: ETL Pipelines, CI/CD Pipelines, DevOps, Data Warehouse, Distributed Data Processing, Workflow Orchestration.\n· Cloud and Infrastructure: AWS, Google Cloud, Docker, Kubernetes, CUDA.\n· Programming Language and other tools: Python, C++, Javascript, Pytorch, Git, Linux, Terraform, Neo4j, Postgre, MySQL, Kestra, Apache Spark, Apache Kafka, Redis, Prometheus, Grafana.\n· Notable Frameworks: TRL, langchain, llama-index, autogen, crewAI, smolAgents, fastapi, TensorRTX, vllm.\n· Domain Knowledge: MLOPs, LLM system, Data Engineering.', task_description='I want to train a model to help users prepare for software intervie

In [None]:
import json

# Load JSON file
with open('output/output.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

for i in data:
    print(i["prompt"]["content"])


KeyError: 'system'