## Chuẩn đoán

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDkIcBxpkno0XHjOgZ-pwpJn9kgnoGC83E")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_diagnosis.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","icd_10", "icd_10/title", "question", "symptom", "diagnosis",
    "document/title",  "document/description",
    "cme/title", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.
Dựa vào đoạn văn sau:
"{dental_text}"
Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.
**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn lâm sàng cho người dùng cuối**.
**Yêu cầu đặc biệt**:
- Nếu đoạn văn có đề cập đến các **chỉ số lâm sàng** như độ sâu túi lợi, chỉ số mảng bám, số răng tổn thương, mức độ đau... thì **phải đưa các con số và dữ liệu đó vào `symptom` và `diagnosis`** để tăng độ chính xác cho chatbot.
- `symptom` và `diagnosis` phải viết theo ngôn ngữ chuyên môn, **khoa học, cụ thể, không chung chung**, đủ để một bác sĩ hoặc chatbot sử dụng để diễn giải cho người bệnh.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "icd_10": Mã bệnh ICD-10 của Bộ Y tế Việt Nam phù hợp nhất với đoạn văn (ví dụ: "A01.1", "P27.0") nhưng nếu không xác định được thì gán mã bệnh gần đúng nhất(Không được để trống).
- "icd_10/title": Tên mã bệnh ICD-10 tương ứng với mã ở trên đúng chuẩn Bộ y tế (ví dụ: "Bệnh lao phổi", "Viêm phổi do virus").
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào chẩn đoán hoặc điều trị y khoa (giống như người dùng hay bác sỹ trẻ hỏi chatbot).
- "symptom": Các triệu chứng hoặc dấu hiệu lâm sàng được nêu trong bài, hoặc suy luận có cơ sở khoa học. **Bao gồm cả các chỉ số định lượng nếu có** như: túi nha chu 6mm, PI=2.2, v.v.
- "diagnosis": Chẩn đoán nha khoa chi tiết, có thể phân loại theo mức độ bệnh hoặc giai đoạn nếu phù hợp. **Phải có cơ sở y khoa vững chắc** và dùng thông số hỗ trợ chẩn đoán nếu có.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/description": Mô tả ngắn gọn tài liệu tham khảo, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/description": Mô tả ngắn về khóa học CME, giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành.
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "icd_10": data.get("icd_10", ""),
                "icd_10/title": data.get("icd_10/title", ""),
                "question": data.get("question", ""),
                "symptom": data.get("symptom", ""),
                "diagnosis": data.get("diagnosis", ""),
                "document/title": data.get("document/title", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 1/310294 [00:37<3194:02:55, 37.06s/it]

## Small talk

In [1]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDACh169FpAdWuCzw6r181Wx7tlEdXlcdU")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_smalltalk.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Dữ liệu cho các tác vụ chung như chào hỏi, giải thích, tư vấn,...
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Dữ liệu cho các tác vụ chung của chatbot như chào hỏi, giải thích, tư vấn... để chatbot có thể phản hồi người dùng một cách tự nhiên và thân thiện.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy tư vấn và chào hỏi thân thiện."
- "question": Câu hỏi y khoa mà các bác sỹ sẽ hỏi đơn giản hay người dùng hỏi chatbot.
- "answer": Câu trả lời thân thiện cho người dùng (ví dụ: Người dùng xin chào thì chat bot sẽ chào lại và hỏi bạn cần giúp gì).
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 3/310294 [00:58<1678:11:17, 19.47s/it]


KeyboardInterrupt: 

## Medicaltalk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyBHJ3cOKxhsO-OyN8nzrmWAuw9QODnvTJw")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_medicaltalk.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Dữ liệu cho các tác vụ về y tế, bệnh học, nghiên cứu, dược học, ....
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình y khoa).
**Yêu cầu đặc biệt**:
- Dữ liệu cho các tác vụ về y tế, bệnh học, nghiên cứu, dược học, y học, y khoa....
- Trong 5 đối tượng JSON, có 3 đối tường trình bày trả lời như bình thường bằng text, 2 đối tượng còn lại sẽ trả ra câu trả lời dưới dạng bảng (table) chuẩn dạng markdown với các cột và hàng rõ ràng, có tiêu đề bảng, tiêu đề cột, tiêu đề hàng, và các ô dữ liệu bên trong.
- Trong 2 đối tượng trả lời dưới dạng bảng thì một dạng bảng trả ra nội dung và một trả ra nội dung cùng số liệu, thông số, thông tin. Câu trả lời phải trình bày chi tiết rồi mời đưa ra bảng dạng markdown cho dẫn chứng.
- Với 3 câu trình bày dạng text như thường thì trình bày đa dạng nhiều kiểu như list có bullet points, số thứ tự, một đoạn trả lời chi tiết, một bản trình bày tóm tắt, v.v.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot về y khoa, bệnh học, nghiên cứu, dược học, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "question": Câu hỏi của bác sỹ hoặc sinh viên y khoa hỏi chatbot về bệnh học, y học, nghiên cứu, dược học, ....
- "answer": Câu trả lời chuyên sâu, chi tiết, có cơ sở y khoa vững chắc, không chung chung, dựa trên các thông số thực tế trong đoạn văn và kiến thức y khoa chính thống.
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
      - "answer" khi trình bày bảng thì các cột, hàng phải đặt tên phù hợp với y khoa, bệnh học, nghiên cứu, dược học, y học,... Đồng thời trong câu trả lời có bảng không được nói là bảng markdown mà nói bảng, tổng hợp, ...
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 2/309769 [01:40<4454:08:50, 51.76s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 20 column 1782 (char 6746)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu, hỗ trợ cung cấp thông tin và kiến thức về bệnh học, phương pháp điều trị, nghiên cứu y khoa, và dược học theo chuẩn ICD-10 của Bộ Y tế Việt ...
Retry dòng 527 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 475 (char 4598)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và phẫu thuật, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Dựa trên nghiên cứu được trình bày, phương p...
Retry dòng 527 - Lần 2


  0%|          | 4/309769 [04:11<5542:40:29, 64.42s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 55960 (char 114171)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Xin vui lòng trình bày chi tiết v...
Retry dòng 529 - Lần 1


  0%|          | 6/309769 [10:41<10895:59:10, 126.63s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 1114 (char 5923)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học sản phụ khoa, cung cấp thông tin lâm sàng và hướng dẫn dựa trên tiêu chuẩn y tế của Bộ Y tế Việt Nam.",
    "question": "Vui lòng mô ...
Retry dòng 531 - Lần 1


  0%|          | 8/309769 [12:52<7812:03:38, 90.79s/it]  


Lỗi xử lý response: Invalid control character at: line 20 column 100669 (char 103877)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên nghiên cứu và chuẩn y khoa, đặc biệt cho các bệnh lý thai kỳ như tiền sản giật (I...
Retry dòng 533 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 608 (char 6478)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui lòng mô tả tổng quan về tiền sản giật có dấu h...
Retry dòng 533 - Lần 2

Lỗi xử lý response: Invalid \escape: line 25 column 1645 (char 11828)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin chào chatbot, tôi muốn tìm hiểu sâu hơn về tiền sả...
Retry dòng 533 - Lần 3


  0%|          | 9/309769 [15:34<9713:46:13, 112.89s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 88026 (char 93717)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học sản khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Tiền sản giật là gì và những biến chứng nguy hiểm...
Retry dòng 534 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 592 (char 6078)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên phân loại bệnh quốc tế và các hướng dẫn chuyên môn hiện hành.",
    "question": "...
Retry dòng 534 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 39277 (char 45215)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học sản khoa, cung cấp thông tin và tư vấn lâm sàng theo chuẩn y tế, bao gồm phân loại bệnh lý theo ICD-10.",
    "question": "Xin chào, ...
Retry dòng 534 - Lần 3


  0%|          | 11/309769 [19:12<9145:55:57, 106.29s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 976 (char 7328)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên các nghiên cứu và hướng dẫn y tế hiện hành.",
    "question": "Xin chào chatbot, ...
Retry dòng 536 - Lần 1

Lỗi xử lý response: Invalid \escape: line 25 column 1142 (char 8820)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin chi tiết về đặc điểm và biến chứng của tiền sản giật nặng dựa trên nghiên cứu lâm sàng.",
    "question": "D...
Retry dòng 536 - Lần 2


  0%|          | 12/309769 [20:45<8808:03:45, 102.37s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 1299 (char 5901)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các khuyến nghị y tế.",
    "question": "Bác sĩ có thể giải th...
Retry dòng 537 - Lần 1


  0%|          | 13/309769 [22:07<8280:00:36, 96.23s/it] 


Lỗi xử lý response: Invalid control character at: line 25 column 765 (char 14878)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học lâm sàng và nghiên cứu, cung cấp thông tin và đánh giá nghiên cứu khoa học dựa trên chuẩn y khoa.",
    "question": "Xin vui lòng trình ...
Retry dòng 538 - Lần 1

Lỗi xử lý response: Invalid control character at: line 15 column 277 (char 3061)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh lý thai kỳ và dược học, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui lòng tóm tắt về đặt vấn đề và m...
Retry dòng 538 - Lần 2


  0%|          | 19/309769 [30:48<5600:57:53, 65.10s/it]  


Lỗi xử lý response: Invalid control character at: line 20 column 662 (char 8206)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên chuẩn ICD-10.",
    "question": "Các yếu tố nào có thể ảnh hưởng đến mức độ tuân ...
Retry dòng 544 - Lần 1

Lỗi xử lý response: Invalid control character at: line 10 column 559 (char 2951)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng về các bệnh lý thai kỳ và quản lý sức khỏe sinh sản theo chuẩn phân loại bệnh tật ICD-10 ...
Retry dòng 544 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 55776 (char 62214)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nghiên cứu sản khoa, cung cấp tổng quan về các phát hiện chính và ý nghĩa lâm sàng dựa trên dữ liệu nghiên cứu.",
    "question": "Xin hãy tó...
Retry dòng 544 - Lần 3


  0%|          | 23/309769 [35:46<5192:29:05, 60.35s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 516 (char 8796)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và nghiên cứu ung thư, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin chào chatbot, tôi đang tìm hiểu ...
Retry dòng 548 - Lần 1


  0%|          | 25/309769 [38:05<5533:58:49, 64.32s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 342 (char 5103)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về ung bướu, cung cấp thông tin về đặc điểm mô bệnh học của ung thư vú theo chuẩn ICD-10.",
    "question": "Bác sĩ có thể cho biết các đặc điểm ...
Retry dòng 550 - Lần 1


  0%|          | 26/309769 [39:17<5737:20:05, 66.68s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 538 (char 6232)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên sâu về ung thư học, cung cấp thông tin toàn diện và đáng tin cậy về bệnh ung thư vú.",
    "question": "Xin hãy mô tả tổng quan về ung thư vú ở ...
Retry dòng 551 - Lần 1


  0%|          | 27/309769 [40:28<5844:23:33, 67.93s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 559 (char 5934)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học ung thư, cung cấp thông tin lâm sàng và cận lâm sàng chính xác.",
    "question": "Dựa trên các nghiên cứu, xin vui lòng mô tả đặc đi...
Retry dòng 552 - Lần 1


  0%|          | 28/309769 [42:08<6670:34:30, 77.53s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 241 (char 4382)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về ung bướu, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các nghiên cứu khoa học.",
    "question": "Bác sĩ có thể cho tôi biết các ...
Retry dòng 553 - Lần 1


  0%|          | 31/309769 [46:19<6746:45:04, 78.42s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 478 (char 5156)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các tài liệu y tế chính thống.",
    "question": "Xin vui lòng tóm tắt các ph...
Retry dòng 556 - Lần 1


  0%|          | 33/309769 [48:00<5358:06:44, 62.28s/it]


Lỗi xử lý response: Invalid \escape: line 25 column 1915 (char 8943)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu dược học lâm sàng và đánh giá tuân thủ điều trị trong sản khoa, cung cấp thông tin chi tiết dựa trên các tiêu chuẩn y khoa.",
    "...
Retry dòng 558 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 446 (char 822)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học lâm sàng và dược lý, cung cấp thông tin về các công cụ đánh giá tuân thủ điều trị theo chuẩn y khoa.",
    "question": "Xin vui lòng giả...
Retry dòng 558 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 540 (char 7741)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về đánh giá tuân thủ điều trị và các thang đo y tế, cung cấp giải thích chi tiết về phương pháp tính điểm và phân loại theo chuẩn y khoa.",
    "...
Retry dòng 558 - Lần 3


  0%|          | 34/309769 [50:16<7281:08:21, 84.63s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 2471 (char 7732)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về sức khỏe bà mẹ và thai nhi, cung cấp thông tin y tế và hỗ trợ tư vấn dựa trên dữ liệu nghiên cứu và chuẩn y khoa, đặc biệt là các biến chứng ...
Retry dòng 559 - Lần 1

Lỗi xử lý response: Invalid \escape: line 5 column 395 (char 697)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin lâm sàng và nghiên cứu về các đặc điểm thai kỳ.",
    "question": "Mô tả tổng quan về đặc điểm sản khoa của ...
Retry dòng 559 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 554 (char 6335)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và phân tích đặc điểm thai phụ trong nghiên cứu.",
    "question": "Xin vui lòng mô tả tổng quan về các đặc ...
Retry dòng 559 - Lần 3


  0%|          | 35/309769 [52:29<8509:28:24, 98.90s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 486 (char 6005)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và dược học, cung cấp thông tin về tuân thủ điều trị thuốc hạ áp.",
    "question": "Xin chào chatbot, tôi muốn tìm hiểu về tỷ lệ tuâ...
Retry dòng 560 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 668 (char 5864)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học sản khoa, dược học và tuân thủ điều trị.",
    "question": "Vui lòng phân tích tỷ lệ tuân thủ điều trị thuốc hạ áp ở thai phụ tăng hu...
Retry dòng 560 - Lần 2

Lỗi xử lý response: Invalid control character at: line 5 column 822 (char 1136)
Response gốc: ```json
[
    {
        "instruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
        "question": "Dựa trên nghiên cứu được cung cấp, tỷ lệ tu...
Retry dòng 560 - Lần 3


  0%|          | 36/309769 [55:50<11157:19:22, 129.68s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 436 (char 6504)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn về các biến chứng thai kỳ nghiêm trọng liên quan đến tăng huyết áp theo phân loại bệnh quốc tế ICD-...
Retry dòng 561 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 414 (char 6819)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên nghiên cứu và chuẩn y tế.",
    "question": "Xin hãy tóm tắt các đặc điểm chính của nhó...
Retry dòng 561 - Lần 2
Lỗi, thử lại sau 5s... (Lần 1)

Lỗi xử lý response: Invalid control character at: line 20 column 1084 (char 7914)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa và dịch tễ học, cung cấp thông tin dựa trên bằng chứng khoa học và các yếu tố nguy cơ trong thai kỳ.",
    "question": "Xin hãy t...
Retry dòng 561 - Lần 3

  0%|          | 37/309769 [59:11<12995:14:44, 151.04s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 534 (char 9468)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học sản khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui lòng giải thích về tình trạng tăng huyết ...
Retry dòng 562 - Lần 1


  0%|          | 39/309769 [1:02:44<10926:20:10, 127.00s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 806 (char 8613)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học và điều trị, cung cấp thông tin lâm sàng và hướng dẫn chẩn đoán, điều trị theo chuẩn y khoa.",
    "question": "Hội chứng nuôi ăn lạ...
Retry dòng 564 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 870 (char 9944)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa cung cấp thông tin chi tiết về hội chứng nuôi ăn lại, bao gồm nguyên nhân và phương pháp điều trị theo các đồng thuận chuyên ngành.",
    "question": "...
Retry dòng 564 - Lần 2


  0%|          | 40/309769 [1:05:03<11244:40:48, 130.70s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 974 (char 7179)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin và tư vấn lâm sàng về các bệnh lý và phương pháp điều trị mắt.",
    "question": "Xin hãy giải thích về vai trò...
Retry dòng 565 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1269 (char 8066)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin về các kỹ thuật chẩn đoán và điều trị bệnh glôcôm kháng trị.",
    "question": "Xin vui lòng trình bày về phương...
Retry dòng 565 - Lần 2


  0%|          | 43/309769 [1:09:43<8490:34:40, 98.69s/it]  


Lỗi xử lý response: Invalid control character at: line 10 column 448 (char 2800)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và dinh dưỡng lâm sàng, cung cấp thông tin và tư vấn chuyên sâu về các hội chứng chuyển hóa.",
    "question": "Xin vui lòng giải thí...
Retry dòng 568 - Lần 1

Lỗi xử lý response: Invalid control character at: line 10 column 491 (char 2573)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nội tiết và chuyển hóa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Bác sĩ có thể giải thích chi tiết về hội chứ...
Retry dòng 568 - Lần 2


  0%|          | 44/309769 [1:11:56<9363:43:26, 108.84s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 709 (char 7784)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh lý chuyển hóa, hỗ trợ nhận diện và quản lý hội chứng nuôi ăn lại.",
    "question": "Xin vui lòng mô tả chi tiết về cơ chế sinh bệnh của ...
Retry dòng 569 - Lần 1


  0%|          | 46/309769 [1:13:36<6700:36:04, 77.88s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 502 (char 6102)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về dinh dưỡng lâm sàng, cung cấp thông tin và tiêu chuẩn chẩn đoán suy dinh dưỡng.",
    "question": "Dựa trên tài liệu, xin vui lòng mô tả chi t...
Retry dòng 571 - Lần 1

Lỗi xử lý response: Invalid \escape: line 20 column 2352 (char 7247)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và chẩn đoán, cung cấp thông tin dựa trên tiêu chuẩn quốc tế và Bộ Y tế Việt Nam.",
    "question": "Xin vui lòng mô tả chi tiết tiêu...
Retry dòng 571 - Lần 2


  0%|          | 49/309769 [1:17:14<6029:30:51, 70.08s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 596 (char 6657)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về hội chứng nuôi ăn lại, cung cấp thông tin và tư vấn lâm sàng chính xác, khoa học và đáng tin cậy theo chuẩn Bộ Y tế Việt Nam.",
    "question...
Retry dòng 574 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 1352 (char 1735)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về dinh dưỡng lâm sàng, hỗ trợ đánh giá, chẩn đoán và quản lý hội chứng nuôi ăn lại dựa trên các khuyến cáo quốc tế và chuẩn y khoa Việt Nam.",
 ...
Retry dòng 574 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 956 (char 6400)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về dinh dưỡng lâm sàng, cung cấp thông tin chi tiết về hội chứng nuôi ăn lại (Refeeding Syndrome).",
    "question": "Xin chào, tôi muốn tìm hiểu...
Retry dòng 574 - Lần 3


  0%|          | 50/309769 [1:19:07<7117:21:01, 82.73s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 1106 (char 1454)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về dinh dưỡng lâm sàng, cung cấp thông tin và tư vấn về các hội chứng liên quan đến nuôi dưỡng dựa trên các bằng chứng khoa học mới nhất.",
    ...
Retry dòng 575 - Lần 1


  0%|          | 51/309769 [1:27:23<17789:28:06, 206.78s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 2396 (char 10096)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các đồng thuận y khoa quốc tế.",
    "question": "Hội chứng nuôi ăn lại là ...
Retry dòng 576 - Lần 1


  0%|          | 58/309769 [1:32:35<4739:13:43, 55.09s/it]  


Lỗi xử lý response: Invalid control character at: line 20 column 681 (char 7012)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y học nội khoa và dinh dưỡng lâm sàng, cung cấp thông tin và tư vấn lâm sàng dựa trên bằng chứng khoa học và chuẩn mực y tế.",
    "question"...
Retry dòng 583 - Lần 1


  0%|          | 64/309769 [1:37:38<4019:56:05, 46.73s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 599 (char 10433)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Xin hãy trình bày về tầm quan trọng của...
Retry dòng 589 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1389 (char 9219)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nội tiết, sản khoa và dược lý, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin hãy tóm tắt vai trò của chăm sóc...
Retry dòng 589 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 2158 (char 9312)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa tổng quát, bệnh học, dược học, và nghiên cứu y học, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui l...
Retry dòng 589 - Lần 3


  0%|          | 65/309769 [1:43:43<12244:16:55, 142.33s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 573936 (char 582345)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nội tiết và sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Xin cho biết tổng qu...
Retry dòng 590 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 394 (char 6752)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về dược lý lâm sàng và nội tiết, hỗ trợ đưa ra thông tin về các phác đồ điều trị dựa trên bằng chứng khoa học.",
    "question": "Xin vui lòng cu...
Retry dòng 590 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 558 (char 5983)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh nội tiết và sản khoa, cung cấp thông tin về điều trị đái tháo đường thai kỳ (ICD-10: O24.4).",
    "question": "Xin hãy tóm tắt các phươ...
Retry dòng 590 - Lần 3


  0%|          | 66/309769 [1:51:35<20744:05:51, 241.13s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 427 (char 3387)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh lý nội tiết, hỗ trợ phân loại theo ICD-10 và các khuyến nghị điều trị trong thai kỳ.",
    "question": "Chào chatbot, tôi cần thông tin v...
Retry dòng 591 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 743 (char 5551)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nội tiết và sản khoa, cung cấp thông tin và tư vấn về các bệnh lý liên quan đến thai kỳ theo chuẩn Bộ Y tế Việt Nam.",
    "question": "Xin ch...
Retry dòng 591 - Lần 2


  0%|          | 68/309769 [1:54:38<13807:09:44, 160.50s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 1406 (char 9348)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nội tiết và sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 (mã R73.0 cho Tăng đường huyết không đặc hiệu, O24.4 cho Đái t...
Retry dòng 593 - Lần 1


  0%|          | 70/309769 [1:58:45<11694:34:28, 135.94s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 327 (char 668)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học nội tiết, cung cấp thông tin và tư vấn lâm sàng về đái tháo đường trong thai kỳ dựa trên hướng dẫn chuẩn y khoa.",
    "question": "N...
Retry dòng 595 - Lần 1


  0%|          | 72/309769 [2:02:35<10354:33:34, 120.36s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 596 (char 6963)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nội tiết, sản phụ khoa, dược học lâm sàng, cung cấp thông tin và tư vấn theo chuẩn ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Xin vui lò...
Retry dòng 597 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 453 (char 7302)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học sản khoa và dược lý lâm sàng, cung cấp thông tin về điều trị đái tháo đường thai kỳ theo khuyến cáo y tế.",
    "question": "Xin cho...
Retry dòng 597 - Lần 2


  0%|          | 74/309769 [2:05:49<8872:40:59, 103.14s/it] 


Lỗi xử lý response: Invalid control character at: line 25 column 565 (char 9282)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và phân tích nghiên cứu, đào tạo y tế dựa trên các chuẩn mực quốc tế và trong nước.",
    "question": "Mục tiêu chí...
Retry dòng 599 - Lần 1


  0%|          | 75/309769 [2:07:42<9125:10:01, 106.07s/it]


Lỗi xử lý response: Invalid \escape: line 25 column 453 (char 6918)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về chính sách và tiêu chuẩn giáo dục y tế, cung cấp thông tin về các đề án và quyết định của Bộ Y tế Việt Nam.",
    "question": "Xin chuyên gia ...
Retry dòng 600 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 718 (char 7441)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về đào tạo và phát triển nguồn nhân lực y tế, cung cấp thông tin dựa trên các quy định và đề án chính thức.",
    "question": "Dựa trên các đề án...
Retry dòng 600 - Lần 2

Lỗi xử lý response: Expecting ',' delimiter: line 10 column 646 (char 2689)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về các chính sách và chiến lược phát triển nguồn nhân lực y tế quốc tế.",
    "question": "Xin vui lòng tóm tắt mục tiêu và ý nghĩa của các đề án...
Retry dòng 600 - Lần 3


  0%|          | 76/309769 [2:09:41<9447:51:59, 109.83s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 517 (char 8318)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giáo dục y tế, cung cấp thông tin chi tiết về các chương trình đào tạo điều dưỡng tại Việt Nam.",
    "question": "Xin chào. Tôi đang tìm hiểu...
Retry dòng 601 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 278522 (char 288582)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giáo dục y tế và chuẩn năng lực điều dưỡng, cung cấp thông tin và tư vấn về các chương trình đào tạo, góp phần nâng cao chất lượng chăm sóc sứ...
Retry dòng 601 - Lần 2

Lỗi xử lý response: Expecting ',' delimiter: line 20 column 70160 (char 76310)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về đào tạo và phát triển năng lực chuyên môn trong lĩnh vực y tế, đặc biệt là điều dưỡng, dựa trên các chuẩn mực quốc gia và quốc tế.",
    "...
Retry dòng 601 - Lần 3


  0%|          | 77/309769 [2:18:29<20242:11:24, 235.30s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 780 (char 8739)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu, cung cấp thông tin và phân tích các nghiên cứu liên quan đến đào tạo nhân lực y tế.",
    "question": "Xin vui lòng trình bày tổng...
Retry dòng 602 - Lần 1


  0%|          | 81/309769 [2:22:56<8343:08:14, 96.99s/it]  


Lỗi xử lý response: Invalid control character at: line 20 column 805 (char 6046)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về tiêu chuẩn đào tạo nhân lực y tế, cung cấp phân tích về ảnh hưởng của trình độ ngoại ngữ đối với năng lực quốc tế của điều dưỡng.",
    "q...
Retry dòng 606 - Lần 1


  0%|          | 88/309769 [2:30:14<6482:36:50, 75.36s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 21 column 1 (char 118902)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giáo dục y tế và phát triển nguồn nhân lực điều dưỡng, cung cấp thông tin tổng quan về cấu trúc và đặc điểm chung của các chương trình đào tạo...
Retry dòng 613 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)

Lỗi xử lý response: Expecting ',' delimiter: line 20 column 7932 (char 15282)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giáo dục y tế, cung cấp thông tin và phân tích các chương trình đào tạo điều dưỡng đại học dựa trên khung năng lực nghề nghiệp và định hướng q...
Retry dòng 613 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 38234 (char 48885)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giáo dục y tế, y khoa và chuẩn mực nghề nghiệp, cung cấp thông tin chi tiết về các chương trình đào tạo điều dưỡng, hỗ trợ sinh viên định hướn...
Retry dòng 613 - Lần 3


  0%|          | 90/309769 [2:47:01<21889:22:56, 254.46s/it]


Lỗi xử lý response: Invalid \escape: line 25 column 893 (char 8675)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về phân tích và đối sánh chương trình đào tạo nhân lực y tế, đặc biệt là trong lĩnh vực điều dưỡng.",
    "question": "Tôi muốn tìm hiểu về sự kh...
Retry dòng 615 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1238 (char 8085)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nghiên cứu, phân tích chương trình đào tạo y tế và các tiêu chuẩn liên quan.",
    "question": "Phân tích sự khác biệt về căn cứ thiết lập và...
Retry dòng 615 - Lần 2


  0%|          | 91/309769 [2:48:52<18192:46:28, 211.49s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 439 (char 3018)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu giáo dục và phát triển nhân lực y tế, cung cấp phân tích chuyên sâu về các chương trình đào tạo điều dưỡng theo tiêu chuẩn quốc tế ...
Retry dòng 616 - Lần 1


  0%|          | 92/309769 [2:50:13<14829:11:34, 172.39s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 403 (char 2569)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tiêu chuẩn đào tạo và nghiên cứu y học, cung cấp thông tin dựa trên các yêu cầu chuyên môn trong lĩnh vực điều dưỡng.",
    "question": "Tôi l...
Retry dòng 617 - Lần 1


  0%|          | 95/309769 [2:54:53<11106:28:38, 129.11s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 728 (char 8090)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tiêu chuẩn đào tạo điều dưỡng quốc tế, hỗ trợ thông tin nghiên cứu và phát triển chương trình giảng dạy.",
    "question": "Xin vui lòng phân ...
Retry dòng 620 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1446 (char 10068)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu giáo dục y tế, cung cấp thông tin và đánh giá chương trình đào tạo theo chuẩn quốc tế.",
    "question": "Xin vui lòng phân tích ch...
Retry dòng 620 - Lần 2

Lỗi xử lý response: Invalid \escape: line 25 column 3628 (char 14034)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về đánh giá chất lượng đào tạo và phát triển nguồn nhân lực y tế, cung cấp thông tin và tư vấn dựa trên các tiêu chuẩn quốc tế và Bộ Y tế.",
    ...
Retry dòng 620 - Lần 3


  0%|          | 97/309769 [2:58:24<9587:13:42, 111.45s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 504 (char 6066)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu, cung cấp thông tin về các đề tài và phương pháp nghiên cứu khoa học trong lĩnh vực y tế theo chuẩn Bộ Y tế Việt Nam.",
    "questi...
Retry dòng 622 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1149 (char 7268)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về đánh giá chất lượng đào tạo và năng lực nhân lực y tế, tuân thủ các nguyên tắc y đức và tiêu chuẩn chuyên môn quốc gia theo chuẩn của Bộ Y tế ...
Retry dòng 622 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 632 (char 6487)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về giáo dục y tế và nghiên cứu khoa học, cung cấp thông tin và tư vấn dựa trên các công trình nghiên cứu khoa học y tế.",
    "question": "Xin h...
Retry dòng 622 - Lần 3


  0%|          | 98/309769 [3:00:55<10617:08:28, 123.43s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 505 (char 7701)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu giáo dục y học, cung cấp thông tin và đánh giá chất lượng đào tạo theo chuẩn ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Các yế...
Retry dòng 623 - Lần 1

Lỗi xử lý response: Invalid \escape: line 20 column 1037 (char 6467)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu và tiêu chuẩn chất lượng trong giáo dục y học.",
    "question": "Để đạt được mức độ hội nhập quốc tế 'Tiêu chuẩn' trong đào tạo bá...
Retry dòng 623 - Lần 2


  0%|          | 101/309769 [3:05:06<7734:55:27, 89.92s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 534 (char 5276)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giáo dục y học, hỗ trợ phân tích và đối sánh chương trình đào tạo theo chuẩn quốc tế nhằm nâng cao chất lượng nhân lực y tế.",
    "question":...
Retry dòng 626 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)


  0%|          | 105/309769 [3:12:29<7282:04:56, 84.66s/it]  


Lỗi xử lý response: Expecting ',' delimiter: line 15 column 192 (char 4517)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Tôi muốn tìm hiểu về...
Retry dòng 630 - Lần 1

Lỗi xử lý response: Expecting ',' delimiter: line 25 column 3898 (char 12087)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về đào tạo và đánh giá chất lượng các chương trình y học.",
    "question": "Các yếu tố nào được xem là quan trọng để đánh giá mức độ chuẩn của m...
Retry dòng 630 - Lần 2


  0%|          | 107/309769 [3:15:37<7311:58:53, 85.01s/it] 


Lỗi xử lý response: Expecting ',' delimiter: line 25 column 5213 (char 12206)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui lòng phân tích những yếu tố chính giúp chương trình ...
Retry dòng 632 - Lần 1


  0%|          | 108/309769 [3:17:16<7678:43:35, 89.27s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 575 (char 6318)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về định hướng nghề nghiệp và các vị trí việc làm sau tốt nghiệp chương trình Bác sĩ Y khoa, cung cấp thông tin chính xác và khoa học.",
    "ques...
Retry dòng 633 - Lần 1

Lỗi xử lý response: Invalid \escape: line 20 column 1812 (char 6485)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về định hướng nghề nghiệp và vai trò cơ bản của bác sĩ y khoa sau tốt nghiệp.",
    "question": "Sau khi tốt nghiệp chương trình Bác sĩ Y khoa, m...
Retry dòng 633 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 640 (char 8103)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tư vấn định hướng nghề nghiệp và các yêu cầu chuyên môn trong lĩnh vực y tế, đặc biệt cho sinh viên y khoa.",
    "question": "Sau khi tốt ngh...
Retry dòng 633 - Lần 3


  0%|          | 110/309769 [3:20:26<7696:50:04, 89.48s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 818 (char 7185)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nghiên cứu giáo dục, cung cấp thông tin và phân tích các tiêu chuẩn đào tạo y khoa quốc tế theo quy định của Bộ Y tế và các tổ chức kiểm định...
Retry dòng 635 - Lần 1


  0%|          | 112/309769 [3:22:36<6442:15:18, 74.90s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 510 (char 6538)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về đào tạo và tiêu chuẩn hóa chương trình y học, cung cấp thông tin về các tiêu chuẩn quốc tế và nội địa dựa trên các nghiên cứu khoa học uy tín...
Retry dòng 637 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 576 (char 7954)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu giáo dục y tế, cung cấp thông tin về các công trình khoa học trong lĩnh vực đào tạo y khoa.",
    "question": "Vui lòng tóm tắt mục...
Retry dòng 637 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 865 (char 5307)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu y học và giáo dục, cung cấp thông tin về các đề án đào tạo nhân lực y tế.",
    "question": "Đề án đào tạo nhân lực trình độ quốc t...
Retry dòng 637 - Lần 3


  0%|          | 115/309769 [3:26:28<5917:27:59, 68.80s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 107686 (char 114554)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giáo dục y tế và chuẩn năng lực bác sĩ, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin chào chatbot, bạn có thể...
Retry dòng 640 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 500 (char 7896)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về giáo dục y tế và phân tích chương trình đào tạo, cung cấp thông tin chính xác và khoa học về mục tiêu đào tạo bác sĩ y khoa.",
    "question"...
Retry dòng 640 - Lần 2


  0%|          | 116/309769 [3:29:01<8078:04:52, 93.92s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 538 (char 6432)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về phân tích và đối sánh chương trình đào tạo y khoa, hỗ trợ xây dựng khung đánh giá chất lượng theo chuẩn quốc tế.",
    "question": "Theo nghi...
Retry dòng 641 - Lần 1


  0%|          | 118/309769 [3:31:14<6731:59:22, 78.27s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 22 column 1 (char 9924)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tiêu chuẩn giáo dục y tế, cung cấp thông tin dựa trên các nghiên cứu đánh giá chương trình đào tạo bác sĩ y khoa và hệ thống y tế theo chuẩn I...
Retry dòng 643 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 758 (char 9199)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giáo dục y học, nghiên cứu và phát triển chương trình đào tạo y khoa theo chuẩn quốc tế, cung cấp thông tin đáng tin cậy và chính xác về y học...
Retry dòng 643 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 1107 (char 6668)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về đánh giá chất lượng chương trình đào tạo y khoa, cung cấp thông tin và phân tích dựa trên các tiêu chuẩn quốc tế và Bộ Y tế.",
    "question":...
Retry dòng 643 - Lần 3


  0%|          | 121/309769 [3:36:16<6636:50:04, 77.16s/it]  

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 56
}
]
Retry dòng 646 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)


  0%|          | 122/309769 [3:37:43<6896:25:14, 80.18s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 28
}
]
Retry dòng 647 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 123/309769 [3:38:40<6289:05:14, 73.12s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 32
}
]
Retry dòng 648 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 124/309769 [3:39:36<5863:26:35, 68.17s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 35
}
]
Retry dòng 649 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 125/309769 [3:40:33<5561:49:08, 64.66s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 39
}
]
Retry dòng 650 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 126/309769 [3:41:30<5356:49:18, 62.28s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 42
}
]
Retry dòng 651 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 127/309769 [3:42:26<5208:06:32, 60.55s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 45
}
]
Retry dòng 652 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 128/309769 [3:43:23<5105:16:38, 59.36s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 49
}
]
Retry dòng 653 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

## expection talk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Các cuộc hội thoại sai, hoặc kém hay không có nghĩa như: "asdasd","ê","sđs",... thì chỉ rõ ra là câu hỏi người dùng chưa rõ ràng.
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Chỉ rõ chỗ hỏi chưa rõ ràng và hướng dẫn cách hỏi rõ ràng hơn.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy kiểm tra xem câu hỏi có nghĩa không và hãy chỉ tôi cách hỏi."
- "question": Câu hỏi sai, khó hiểu, lung tung, không có nghĩa hay sai.
- "answer": Chỉ ra lỗi hoặc hướng dẫn người dùng cách hỏi rõ ràng hơn, ví dụ: "Câu hỏi của bạn chưa rõ ràng, vui lòng cung cấp thêm thông tin để tôi có thể giúp bạn tốt hơn."
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


## Tư vấn khóa học, tài liệu

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer",
    "document/title", "document/tool", "document/description",
    "cme/title", "cme/tool", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn lâm sàng cho người dùng cuối**.
**Yêu cầu đặc biệt**:
- `answer` phải viết theo ngôn ngữ chuyên môn, **khoa học, cụ thể, không chung chung**, đủ để một bác sĩ hoặc chatbot sử dụng để diễn giải cho người bệnh.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào tư vấn, chỉ dạy cho các bác sỹ trẻ.
- "answer": Câu trả lời chi tiết, có thể bao gồm hướng dẫn, giải thích hoặc thông tin bổ sung liên quan đến câu hỏi cho các bác sỹ trẻ về cách thực hành y khoa, đến diễn giải lý thuyết, hoặc các khuyến nghị lâm sàng.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/tool": Luôn là "call_references"
- "document/description": Mô tả ngắn gọn tài liệu tham khảo cho người dùng học tập, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/tool": Luôn là "call_cme"
- "cme/description": Mô tả ngắn về khóa học CME , giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành cho người dùng hoc tập.

Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", ""),
                "document/title": data.get("document/title", ""),
                "document/tool": data.get("document/tool", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/tool": data.get("cme/tool", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")
