In [None]:
import json
import google.generativeai as genai

# Prepare the prompt
prompt_template = """
Taking on the persona of a data scientist. 
I am doing research to carry out an information extraction model trained by data built from scratch. Now I need data for my model training. 

I want to generate some real-world examples of information extraction related to taking on the persona of a data scientist. 
I need some data samples for my model training. Input is a paragraph, more like a chat message between 2 persons (customer and customer service). 
I only need the customer's part in Vietnamese. 
Specifically, an example should contain the following two items:
1. input: [a paragraph, more like a chat message between 2 persons (customer and customer service). I only need the customer's parts] 
2. output: {
    "Customer Name": "Tên của Khách hàng",
    "Address": "Địa chỉ của khách hàng",
    "Phone Number": "số điện thoại của khách hàng",
    "Order Number": "mã order",
    "Request Item": "Yêu cầu của khách hàng",
    "Actions": "việc cần phải làm"
}
"""
NOTE = "\nFollowing the format of the examples above, I would like you to help me generate 20 examples that meet the following requirements:\n \
1. These examples should be described in different styles.  \n \
2. The generated text do not overlap structure of paragraph, expression, methods of description, paraphrase words,etc. \n \
3. The generated text should be coherent and meaningful. \n\n \
Remember data must be returned by json format\n"

seeds = [
    {
        "input": "Xin chào, tôi cần hỗ trợ thanh toán đơn hàng chưa hoàn tất. \n\nBạn có thể cho mình mã đơn hàng không? \nMã là TT123789. \n\nTên của bạn để tiện kiểm tra là gì? \nTôi tên Nguyễn Hoàng Anh. \n\nĐịa chỉ giao hàng trên đơn hàng là ở đâu? \nSố 75, đường Cách Mạng Tháng Tám, quận 10, TP.HCM. \n\nBạn có muốn thay đổi phương thức thanh toán không? \nCó, nhờ đổi giúp tôi qua thanh toán qua ví điện tử.",
        "output": {
            "name": "Nguyễn Hoàng Anh",
            "address": "Số 75, đường Cách Mạng Tháng Tám, quận 10, TP.HCM",
            "phone_number": "0963272598",
            "order_number": "TT123789",
            "requested_items": ["Hỗ trợ thanh toán"],
            "actions": ["Thay đổi phương thức thanh toán"]
        }
    }
]


In [None]:
def generate_data(seeds: list, model="gemini-1.5-flash-002"):
    str_seed = ""
    for seed in seeds:
        str_seed += f'\ninput: "{seed["input"]}"\noutput: {json.dumps(seed["output"], ensure_ascii=False)}\n'
        
    genai.configure(api_key="AIzaSyCngUkoyH10eKCwktDT4jCR6FQoz6FPzdo")
    model = genai.GenerativeModel("gemini-1.5-flash-002")
    response = model.generate_content(prompt_template + str_seed + NOTE)
    return json.loads(response.text.replace("```json\n", "").replace("\n```", ""))

In [None]:
# Main execution
all_generated_data = []

try:
    for _ in range(200):
        generated_data = generate_data(seeds)
        all_generated_data.append(generated_data)

    # Print the generated data
    print(json.dumps(all_generated_data, ensure_ascii=False, indent=4))

    # Save the output to a JSON file
    with open("output.json", "w", encoding="utf-8") as file:
        json.dump(all_generated_data, file, ensure_ascii=False, indent=4)

    print("Output saved to output.json")

except Exception as e:
    print(f"Error generating data: {e}")