In [None]:
import random
import uuid
import json
from typing import List, Dict, Any

districts = [
    "Ba Đình", "Bắc Từ Liêm", "Cầu Giấy", "Đống Đa", "Hà Đông", "Hai Bà Trưng",
    "Hoàn Kiếm", "Hoàng Mai", "Long Biên", "Nam Từ Liêm", "Tây Hồ", "Thanh Xuân",
    "Ba Vì", "Chương Mỹ", "Đan Phượng", "Đông Anh", "Gia Lâm", "Hoài Đức",
    "Mê Linh", "Mỹ Đức", "Phú Xuyên", "Phúc Thọ", "Quốc Oai", "Sóc Sơn",
    "Thạch Thất", "Thanh Oai", "Thanh Trì", "Thường Tín", "Ứng Hòa", "Sơn Tây"
]
estate_types = ["nhà phố", "nhà riêng", "chung cư", "biệt thự"]
price_units = [("triệu", 1000000), ("tỷ", 1000000000)]

db_templates = [
    "Tìm {estate_type} {square}m² ở {district}.",
    "Lấy bài đăng {estate_type} mới nhất ở {district}.",
    "Tìm {estate_type} {bedrooms} phòng ngủ ở {district} giá khoảng {price}.",
    "Cho tôi {estate_type} ở {district} hoặc {district2} có {bathrooms} phòng tắm.",
    "Gia đình tôi có {no_of_mem} người muốn tìm {estate_type} ở quận {district}",
    "Vợ chồng tôi có {no_of_mem} con nhỏ, muốn tìm căn hộ giá vừa phải tại {district}"
]
web_templates = [
    "Xu hướng giá {estate_type} ở {district} năm 2025?",
    "Tình hình dự án {project} thế nào?",
    "Dự báo giá {estate_type} tại {district} trong {timeframe}.",
    "Tiện ích quanh khu vực {district} có gì?"
]
combined_templates = [
    "Tìm {estate_type} {square}m² ở {district} và xu hướng giá {estate_type} ở đó.",
    "Lấy {estate_type} {bedrooms} phòng ngủ ở {district} và dự báo giá khu vực này.",
    "Cho tôi bài đăng {estate_type} ở {district} và thông tin dự án {project}."
]

projects = ["Vinhomes Smart City", "Vinhomes Ocean Park", "Ecopark", "Gamuda Gardens"]
timeframes = ["6 tháng tới", "năm tới", "2025"]

def generate_price() -> tuple:
    unit, multiplier = random.choice(price_units)
    value = random.randint(1, 20) if unit == "tỷ" else random.randint(10, 100)
    return f"{value} {unit}", value * multiplier

def generate_db_question() -> Dict[str, Any]:
    template = random.choice(db_templates)
    district = random.choice(districts)
    district2 = random.choice([d for d in districts if d != district])
    estate_type = random.choice(estate_types)
    square = random.randint(50, 200)
    bedrooms = random.randint(2, 5)
    no_of_mem = random.randint(2, 5)
    bathrooms = random.randint(1, 3)
    price_str, _ = generate_price()
    
    question = template.format(
        estate_type=estate_type,
        district=district,
        district2=district2,
        square=square,
        bedrooms=bedrooms,
        no_of_mem=no_of_mem,
        bathrooms=bathrooms,
        price=price_str
    )
    return {
        "id": str(uuid.uuid4()),
        "question": question,
        "expected_output": ["search_db"],
        "evaluation_criteria": {
            "accuracy": "Phải chọn search_db vì câu hỏi yêu cầu tìm bài đăng bất động sản.",
            "completeness": "Chỉ chọn search_db."
        }
    }

def generate_web_question() -> Dict[str, Any]:
    template = random.choice(web_templates)
    district = random.choice(districts)
    estate_type = random.choice(estate_types)
    project = random.choice(projects)
    timeframe = random.choice(timeframes)
    
    question = template.format(
        estate_type=estate_type,
        district=district,
        project=project,
        timeframe=timeframe
    )
    return {
        "id": str(uuid.uuid4()),
        "question": question,
        "expected_output": ["search_web"],
        "evaluation_criteria": {
            "accuracy": "Phải chọn search_web vì câu hỏi yêu cầu thông tin thị trường hoặc dự án.",
            "completeness": "Chỉ chọn search_web."
        }
    }

def generate_combined_question() -> Dict[str, Any]:
    template = random.choice(combined_templates)
    district = random.choice(districts)
    estate_type = random.choice(estate_types)
    square = random.randint(50, 200)
    bedrooms = random.randint(2, 5)
    project = random.choice(projects)
    
    question = template.format(
        estate_type=estate_type,
        district=district,
        square=square,
        bedrooms=bedrooms,
        project=project
    )
    return {
        "id": str(uuid.uuid4()),
        "question": question,
        "expected_output": ["search_db", "search_web"],
        "evaluation_criteria": {
            "accuracy": "Phải chọn cả search_db và search_web vì câu hỏi yêu cầu cả bài đăng và thông tin thị trường.",
            "completeness": "Cả hai công cụ phải được chọn."
        }
    }

def generate_test_cases(num_db: int, num_web: int, num_combined: int) -> List[Dict[str, Any]]:
    test_cases = []
    test_cases.extend([generate_db_question() for _ in range(num_db)])
    test_cases.extend([generate_web_question() for _ in range(num_web)])
    test_cases.extend([generate_combined_question() for _ in range(num_combined)])
    return test_cases

test_cases = generate_test_cases(10, 10, 10)

with open("./data/agent_manager_test_cases.json", "w", encoding="utf-8") as f:
    json.dump(test_cases, f, ensure_ascii=False, indent=2)

print("Đã sinh 30 test cases và lưu vào agent_manager_test_cases.json")

Đã sinh 30 test cases và lưu vào agent_manager_test_cases.json


In [1]:
!pip install google-generativeai



In [None]:
import random
import uuid
import json
from typing import List, Dict, Any
import google.generativeai as genai

GOOGLE_API_KEY = "AIzaSyDzOH8djgRTMFygsQvY4ka3LCF5l_bgKGY"
genai.configure(api_key=GOOGLE_API_KEY)

model = genai.GenerativeModel("gemini-2.0-flash")

PARAPHRASE_PROMPT = """
Bạn là trợ lý bất động sản. Hãy diễn đạt lại câu hỏi sau bằng tiếng Việt, giữ nguyên ý nghĩa, loại bất động sản, khu vực, và các chi tiết quan trọng (như diện tích, giá, số phòng, dự án). Sử dụng từ ngữ tự nhiên, giống cách người Việt hỏi về bất động sản. Chỉ trả về câu hỏi đã diễn đạt lại, không giải thích.

Câu hỏi gốc: {question}
"""

def paraphrase_question(question: str) -> str:
    """Gửi câu hỏi đến Gemini để paraphrase."""
    try:
        prompt = PARAPHRASE_PROMPT.format(question=question)
        response = model.generate_content(prompt)
        paraphrased = response.text.strip()
        return paraphrased
    except Exception as e:
        print(f"Lỗi khi paraphrase câu hỏi '{question}': {e}")
        return question

def load_test_cases(file_path: str) -> List[Dict[str, Any]]:
    """Đọc test cases từ file JSON."""
    try:
        with open(file_path, "r", encoding="utf-8") as f:
            return json.load(f)
    except Exception as e:
        print(f"Lỗi khi đọc file {file_path}: {e}")
        return []

def create_paraphrased_test_case(original: Dict[str, Any]) -> Dict[str, Any]:
    """Tạo test case mới từ câu hỏi paraphrased."""
    paraphrased_question = paraphrase_question(original["question"])
    return {
        "id": str(uuid.uuid4()),
        "question": paraphrased_question,
        "expected_output": original["expected_output"],
        "evaluation_criteria": original["evaluation_criteria"]
    }

def extend_test_cases(input_file: str, output_file: str) -> None:
    """Mở rộng bộ dữ liệu bằng cách paraphrase."""
    test_cases = load_test_cases(input_file)
    if not test_cases:
        print("Không có test cases để xử lý.")
        return
    
    paraphrased_test_cases = [create_paraphrased_test_case(tc) for tc in test_cases]
    
    all_test_cases = test_cases + paraphrased_test_cases
    
    try:
        with open(output_file, "w", encoding="utf-8") as f:
            json.dump(all_test_cases, f, ensure_ascii=False, indent=2)
        print(f"Đã sinh {len(all_test_cases)} test cases và lưu vào {output_file}")
    except Exception as e:
        print(f"Lỗi khi lưu file {output_file}: {e}")

input_file = "./data/agent_manager_test_cases.json"
output_file = "./data/agent_manager_test_cases_extended.json"
extend_test_cases(input_file, output_file)

Đã sinh 60 test cases và lưu vào ./data/agent_manager_test_cases_extended.json


In [None]:
import random
import uuid
import json
from typing import List, Dict, Any

districts = [
    "Ba Đình", "Bắc Từ Liêm", "Cầu Giấy", "Đống Đa", "Hà Đông", "Hai Bà Trưng",
    "Hoàn Kiếm", "Hoàng Mai", "Long Biên", "Nam Từ Liêm", "Tây Hồ", "Thanh Xuân",
    "Ba Vì", "Chương Mỹ", "Đan Phượng", "Đông Anh", "Gia Lâm", "Hoài Đức",
    "Mê Linh", "Mỹ Đức", "Phú Xuyên", "Phúc Thọ", "Quốc Oai", "Sóc Sơn",
    "Thạch Thất", "Thanh Oai", "Thanh Trì", "Thường Tín", "Ứng Hòa", "Sơn Tây"
]
estate_types = ["nhà phố", "nhà riêng", "chung cư", "biệt thự"]
price_units = [
    ("triệu", 1000000, ["triệu", "tr", "m"]),
    ("tỷ", 1000000000, ["tỷ", "tỉ", "b", "T"])
]

flexible_templates = [
    "Tìm {estate_type} {square}m² ở {district} hoặc {district2}.",
    "Cho tôi {estate_type} ở {district} hay {district2} có {bedrooms} phòng ngủ.",
    "Lấy bài đăng {estate_type} mới nhất ở {district} hoặc {district2}.",
    "Tìm {estate_type} giá khoảng {price_str} ở {district} hay {district2}."
]
strict_templates = [
    "Tìm {estate_type} {square}m² ở {district} giá {price_str}.",
    "Cho tôi {estate_type} {bedrooms} phòng ngủ, {bathrooms} phòng tắm ở {district}.",
    "Tìm {estate_type} {square}m², giá {price_per_square_str}/m² ở {district}.",
    "Lấy {estate_type} {bedrooms} phòng ngủ, giá {price_str} ở {district}."
]

def generate_price(force_unit: str) -> tuple:
    """Tạo giá với đơn vị cụ thể (tỷ hoặc triệu)."""
    unit_info = next(u for u in price_units if u[0] == force_unit)
    unit, multiplier, synonyms = unit_info
    value = random.randint(1, 20) if unit == "tỷ" else random.randint(10, 100)
    display_unit = random.choice(synonyms)
    return f"{value} {display_unit}", value * multiplier

def generate_test_case(template: str, is_flexible: bool) -> Dict[str, Any]:
    district = random.choice(districts)
    district2 = random.choice([d for d in districts if d != district])
    estate_type = random.choice(estate_types)
    square = random.randint(50, 200)
    bedrooms = random.randint(2, 5)
    bathrooms = random.randint(1, 3)
    price_str, price_value = generate_price("tỷ")  # Luôn dùng tỷ cho price
    price_per_square_str, price_per_square_value = generate_price("triệu")  # Luôn dùng triệu cho price_per_square

    question = template.format(
        estate_type=estate_type,
        district=district,
        district2=district2,
        square=square,
        bedrooms=bedrooms,
        bathrooms=bathrooms,
        price_str=price_str,
        price_per_square_str=price_per_square_str
    )
    
    params = {
        "estate_type": [estate_type],
        "district": [district, district2] if is_flexible else [district],
        "square": float(square),
        "bedrooms": bedrooms if "bedrooms" in template else None,
        "bathrooms": bathrooms if "bathrooms" in template else None,
        "price": float(price_value) if "price_str" in template else None,
        "price_per_square": float(price_per_square_value) if "price_per_square_str" in template else None,
        "is_latest_posted": "mới nhất" in template,
        "is_latest_created": None,
        "ward": [],
        "front_face": None,
        "front_road": None,
        "no_floors": None,
        "ultilization_square": None,
        "description": None
    }

    return {
        "id": str(uuid.uuid4()),
        "question": question,
        "expected_tool": "get_real_estate_posts" if is_flexible else "get_real_estate_posts_strict",
        "expected_params": params,
        "evaluation_criteria": {
            "tool_accuracy": f"Phải chọn {'get_real_estate_posts' if is_flexible else 'get_real_estate_posts_strict'} vì câu hỏi {'có từ hoặc/hay' if is_flexible else 'yêu cầu tất cả tiêu chí'}.",
            "params_accuracy": "Tham số phải khớp với estate_type, district, square, bedrooms, bathrooms, price, price_per_square như trong expected_params.",
            "output_format": "Đầu ra phải là List[Post] với các trường address, contact_info, description, estate_type, extra_infos, id, link, post_date, created_at, post_id, price, price_per_square, square, title."
        }
    }

def generate_test_cases(num_flexible: int, num_strict: int) -> List[Dict[str, Any]]:
    test_cases = []
    for _ in range(num_flexible):
        template = random.choice(flexible_templates)
        test_cases.append(generate_test_case(template, is_flexible=True))
    for _ in range(num_strict):
        template = random.choice(strict_templates)
        test_cases.append(generate_test_case(template, is_flexible=False))
    return test_cases

test_cases = generate_test_cases(20, 20)

with open("database_search_agent_test_cases.json", "w", encoding="utf-8") as f:
    json.dump(test_cases, f, ensure_ascii=False, indent=2)

print("Đã sinh 20 test cases và lưu vào .data/database_search_agent_test_cases.json")

Đã sinh 20 test cases và lưu vào .data/database_search_agent_test_cases.json


In [None]:
import random
import uuid
import json
from typing import List, Dict, Any
import google.generativeai as genai

GOOGLE_API_KEY = "AIzaSyDzOH8djgRTMFygsQvY4ka3LCF5l_bgKGY"
genai.configure(api_key=GOOGLE_API_KEY)

model = genai.GenerativeModel("gemini-2.0-flash")

PARAPHRASE_PROMPT = """
Bạn là trợ lý bất động sản. Hãy diễn đạt lại câu hỏi sau bằng tiếng Việt, giữ nguyên ý nghĩa, loại bất động sản, khu vực, diện tích, số phòng, giá, và các chi tiết quan trọng khác. Đảm bảo:
- Giá tổng (price) phải có đơn vị là tỷ (ví dụ: "5 tỷ", "10b").
- Giá trên mét vuông (price_per_square) phải có đơn vị là triệu (ví dụ: "70 triệu", "50tr").
- Sử dụng từ ngữ tự nhiên, giống cách người Việt hỏi về bất động sản (ví dụ: "căn hộ" thay "chung cư", "quận" thay "khu vực").
- Nếu câu hỏi có từ "hoặc" hoặc "hay", giữ các từ này để đảm bảo tính linh hoạt.
- Chỉ trả về câu hỏi đã diễn đạt lại, không giải thích.

Câu hỏi gốc: {question}
"""

def paraphrase_question(question: str) -> str:
    try:
        prompt = PARAPHRASE_PROMPT.format(question=question)
        response = model.generate_content(prompt)
        paraphrased = response.text.strip()
        return paraphrased
    except Exception as e:
        print(f"Lỗi khi paraphrase câu hỏi '{question}': {e}")
        return question

def load_test_cases(file_path: str) -> List[Dict[str, Any]]:
    try:
        with open(file_path, "r", encoding="utf-8") as f:
            return json.load(f)
    except Exception as e:
        print(f"Lỗi khi đọc file {file_path}: {e}")
        return []

def create_paraphrased_test_case(original: Dict[str, Any]) -> Dict[str, Any]:
    paraphrased_question = paraphrase_question(original["question"])
    return {
        "id": str(uuid.uuid4()),
        "question": paraphrased_question,
        "expected_tool": original["expected_tool"],
        "expected_params": original["expected_params"],
        "evaluation_criteria": original["evaluation_criteria"]
    }

def extend_test_cases(input_file: str, output_file: str, num_per_type: int = 20) -> None:
    test_cases = load_test_cases(input_file)
    if not test_cases:
        print("Không có test cases để xử lý.")
        return
    
    flexible_cases = [tc for tc in test_cases if tc["expected_tool"] == "get_real_estate_posts"]
    strict_cases = [tc for tc in test_cases if tc["expected_tool"] == "get_real_estate_posts_strict"]

    if len(flexible_cases) < num_per_type or len(strict_cases) < num_per_type:
        print("Không đủ test case gốc để paraphrase.")
        return
    
    new_flexible_cases = [create_paraphrased_test_case(tc) for tc in flexible_cases[:num_per_type]]
    new_strict_cases = [create_paraphrased_test_case(tc) for tc in strict_cases[:num_per_type]]
    
    all_test_cases = test_cases + new_flexible_cases + new_strict_cases
    
    try:
        with open(output_file, "w", encoding="utf-8") as f:
            json.dump(all_test_cases, f, ensure_ascii=False, indent=2)
        print(f"Đã sinh {len(all_test_cases)} test cases và lưu vào {output_file}")
    except Exception as e:
        print(f"Lỗi khi lưu file {output_file}: {e}")

input_file = "database_search_agent_test_cases.json"
output_file = "/database_search_agent_test_cases_extended.json"
extend_test_cases(input_file, output_file, num_per_type=20)

Đã sinh 80 test cases và lưu vào /database_search_agent_test_cases_extended.json
