## Chuẩn đoán

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDkIcBxpkno0XHjOgZ-pwpJn9kgnoGC83E")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_diagnosis.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","icd_10", "icd_10/title", "question", "symptom", "diagnosis",
    "document/title",  "document/description",
    "cme/title", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.
Dựa vào đoạn văn sau:
"{dental_text}"
Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.
**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn lâm sàng cho người dùng cuối**.
**Yêu cầu đặc biệt**:
- Nếu đoạn văn có đề cập đến các **chỉ số lâm sàng** như độ sâu túi lợi, chỉ số mảng bám, số răng tổn thương, mức độ đau... thì **phải đưa các con số và dữ liệu đó vào `symptom` và `diagnosis`** để tăng độ chính xác cho chatbot.
- `symptom` và `diagnosis` phải viết theo ngôn ngữ chuyên môn, **khoa học, cụ thể, không chung chung**, đủ để một bác sĩ hoặc chatbot sử dụng để diễn giải cho người bệnh.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "icd_10": Mã bệnh ICD-10 của Bộ Y tế Việt Nam phù hợp nhất với đoạn văn (ví dụ: "A01.1", "P27.0") nhưng nếu không xác định được thì gán mã bệnh gần đúng nhất(Không được để trống).
- "icd_10/title": Tên mã bệnh ICD-10 tương ứng với mã ở trên đúng chuẩn Bộ y tế (ví dụ: "Bệnh lao phổi", "Viêm phổi do virus").
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào chẩn đoán hoặc điều trị y khoa (giống như người dùng hay bác sỹ trẻ hỏi chatbot).
- "symptom": Các triệu chứng hoặc dấu hiệu lâm sàng được nêu trong bài, hoặc suy luận có cơ sở khoa học. **Bao gồm cả các chỉ số định lượng nếu có** như: túi nha chu 6mm, PI=2.2, v.v.
- "diagnosis": Chẩn đoán nha khoa chi tiết, có thể phân loại theo mức độ bệnh hoặc giai đoạn nếu phù hợp. **Phải có cơ sở y khoa vững chắc** và dùng thông số hỗ trợ chẩn đoán nếu có.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/description": Mô tả ngắn gọn tài liệu tham khảo, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/description": Mô tả ngắn về khóa học CME, giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành.
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "icd_10": data.get("icd_10", ""),
                "icd_10/title": data.get("icd_10/title", ""),
                "question": data.get("question", ""),
                "symptom": data.get("symptom", ""),
                "diagnosis": data.get("diagnosis", ""),
                "document/title": data.get("document/title", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 1/310294 [00:37<3194:02:55, 37.06s/it]

## Small talk

In [1]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDACh169FpAdWuCzw6r181Wx7tlEdXlcdU")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_smalltalk.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Dữ liệu cho các tác vụ chung như chào hỏi, giải thích, tư vấn,...
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Dữ liệu cho các tác vụ chung của chatbot như chào hỏi, giải thích, tư vấn... để chatbot có thể phản hồi người dùng một cách tự nhiên và thân thiện.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy tư vấn và chào hỏi thân thiện."
- "question": Câu hỏi y khoa mà các bác sỹ sẽ hỏi đơn giản hay người dùng hỏi chatbot.
- "answer": Câu trả lời thân thiện cho người dùng (ví dụ: Người dùng xin chào thì chat bot sẽ chào lại và hỏi bạn cần giúp gì).
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 3/310294 [00:58<1678:11:17, 19.47s/it]


KeyboardInterrupt: 

## Medicaltalk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDACh169FpAdWuCzw6r181Wx7tlEdXlcdU")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_medicaltalk.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Dữ liệu cho các tác vụ về y tế, bệnh học, nghiên cứu, dược học, ....
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình y khoa).
**Yêu cầu đặc biệt**:
- Dữ liệu cho các tác vụ về y tế, bệnh học, nghiên cứu, dược học, y học, y khoa....
- Trong 5 đối tượng JSON, có 3 đối tường trình bày trả lời như bình thường bằng text, 2 đối tượng còn lại sẽ trả ra câu trả lời dưới dạng bảng (table) chuẩn dạng markdown với các cột và hàng rõ ràng, có tiêu đề bảng, tiêu đề cột, tiêu đề hàng, và các ô dữ liệu bên trong.
- Trong 2 đối tượng trả lời dưới dạng bảng thì một dạng bảng trả ra nội dung và một trả ra nội dung cùng số liệu, thông số, thông tin. Câu trả lời phải trình bày chi tiết rồi mời đưa ra bảng dạng markdown cho dẫn chứng.
- Với 3 câu trình bày dạng text như thường thì trình bày đa dạng nhiều kiểu như list có bullet points, số thứ tự, một đoạn trả lời chi tiết, một bản trình bày tóm tắt, v.v.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot về y khoa, bệnh học, nghiên cứu, dược học, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "question": Câu hỏi của bác sỹ hoặc sinh viên y khoa hỏi chatbot về bệnh học, y học, nghiên cứu, dược học, ....
- "answer": Câu trả lời chuyên sâu, chi tiết, có cơ sở y khoa vững chắc, không chung chung, dựa trên các thông số thực tế trong đoạn văn và kiến thức y khoa chính thống.
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
      - "answer" khi trình bày bảng thì các cột, hàng phải đặt tên phù hợp với y khoa, bệnh học, nghiên cứu, dược học, y học,... Đồng thời trong câu trả lời có bảng không được nói là bảng markdown mà nói bảng, tổng hợp, ...
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 1/310294 [00:54<4737:36:13, 54.97s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 512 (char 5750)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa và tiết niệu, cung cấp thông tin và tư vấn lâm sàng về các bệnh lý như són tiểu gắng sức theo chuẩn ICD-10.",
    "question": "Dự...
Retry dòng 1 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1569 (char 7696)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tiết niệu - phụ khoa, cung cấp thông tin y học chính xác theo chuẩn y khoa của Bộ Y tế Việt Nam.",
    "question": "Xin cho biết về mục tiêu v...
Retry dòng 1 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 5106 (char 11883)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và phẫu thuật tiết niệu sinh dục, cung cấp thông tin lâm sàng và chỉ định phẫu thuật.",
    "question": "Tôi muốn tìm hiểu về phẫu th...
Retry dòng 1 - Lần 3


  0%|          | 2/310294 [02:50<7820:33:30, 90.73s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 519 (char 5774)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học, bệnh học, nghiên cứu và dược học, cung cấp thông tin và tư vấn lâm sàng đáng tin cậy dựa trên chuẩn ICD-10 của Bộ Y tế Việt Nam.",
    ...
Retry dòng 2 - Lần 1


  0%|          | 3/310294 [04:05<7203:18:07, 83.57s/it]


Lỗi xử lý response: Invalid \escape: line 25 column 1423 (char 9055)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học, cung cấp thông tin y tế chính xác và đáng tin cậy dựa trên các tiêu chuẩn y khoa quốc tế và Việt Nam (ví dụ: ICD-10).",
    "question":...
Retry dòng 3 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 604 (char 9829)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về tiết niệu - sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các nghiên cứu y học.",
    "question": "Theo nghiên cứu n...
Retry dòng 3 - Lần 2


  0%|          | 4/310294 [06:49<9913:37:42, 115.02s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 596 (char 6529)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y học lâm sàng và bệnh học, cung cấp thông tin và tư vấn dựa trên nghiên cứu và tiêu chuẩn y tế quốc tế (WHO) và Bộ Y tế Việt Nam.",
    "que...
Retry dòng 4 - Lần 1

Lỗi xử lý response: Expecting ',' delimiter: line 25 column 1158 (char 11251)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên chuẩn phân loại bệnh quốc tế ICD-10 của Bộ Y tế Việt Nam.",
    "question":...
Retry dòng 4 - Lần 2


  0%|          | 7/310294 [10:36<6952:34:44, 80.66s/it]  


Lỗi xử lý response: Invalid control character at: line 20 column 260 (char 7139)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về tiết niệu, cung cấp thông tin lâm sàng và điều trị dựa trên bằng chứng khoa học và phân loại bệnh ICD-10.",
    "question": "Vui lòng mô t...
Retry dòng 7 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 517 (char 5926)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và hướng dẫn của Bộ Y tế Việt Nam.",
    "question": "Xin vui lòng mô tả các tri...
Retry dòng 7 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 645 (char 8425)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tiết niệu, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Vui lòng mô tả các dấu hiệu lâm sàng và triệu chứng của t...
Retry dòng 7 - Lần 3


  0%|          | 8/310294 [12:27<7784:48:24, 90.32s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 482 (char 6998)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học tái tạo và nghiên cứu tế bào gốc, cung cấp thông tin và tư vấn lâm sàng dựa trên các nghiên cứu khoa học. Người dùng là một bác sĩ nội t...
Retry dòng 8 - Lần 1


  0%|          | 9/310294 [14:02<7912:23:29, 91.80s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 568 (char 5353)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tim mạch, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui lòng mô tả vấn đề chính trong điều trị suy tim liê...
Retry dòng 9 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 58669 (char 63967)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tim mạch, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Mô tả tổng quan về vấn đề tim mạch mà đoạn văn đề cập và c...
Retry dòng 9 - Lần 2


  0%|          | 11/310294 [23:04<14294:16:10, 165.85s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 397 (char 2153)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nghiên cứu tế bào gốc, y học tái tạo và phương pháp điều trị điện sinh học, cung cấp thông tin khoa học đáng tin cậy.",
    "question": "Mục ...
Retry dòng 11 - Lần 1


  0%|          | 15/310294 [26:04<6155:29:49, 71.42s/it]  


Lỗi xử lý response: Invalid control character at: line 20 column 523 (char 5150)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu tế bào gốc và y học tái tạo, hỗ trợ hiểu biết về các liệu pháp tiềm năng cho bệnh lý tim mạch (ví dụ: các mã ICD-10 liên quan đến b...
Retry dòng 15 - Lần 1


  0%|          | 17/310294 [27:58<5461:51:01, 63.37s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 609 (char 7076)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học tái tạo và sinh học phân tử, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Xin vui lòng...
Retry dòng 17 - Lần 1


  0%|          | 21/310294 [31:30<4262:38:45, 49.46s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 1016 (char 3454)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về chấn thương chỉnh hình, cung cấp thông tin về bệnh học, chẩn đoán và đặc điểm lâm sàng của các tổn thương khớp theo chuẩn ICD-10 của Bộ Y tế V...
Retry dòng 21 - Lần 1


  0%|          | 28/310294 [36:30<3262:36:23, 37.86s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 678 (char 8259)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về chấn thương chỉnh hình nhi, cung cấp thông tin lâm sàng và nghiên cứu.",
    "question": "Xin hãy tóm tắt các điểm chính về bệnh lý dây chằng...
Retry dòng 28 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 27610 (char 31761)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về chấn thương chỉnh hình nhi khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin chào, tôi là sinh viên y khoa....
Retry dòng 28 - Lần 2


  0%|          | 29/310294 [40:18<8166:50:34, 94.76s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 1072 (char 9856)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học, cung cấp thông tin và tư vấn lâm sàng dựa trên các bằng chứng khoa học mới nhất.",
    "question": "Xin giải thích cơ chế hoạt động và ...
Retry dòng 29 - Lần 1


  0%|          | 30/310294 [41:51<8109:33:31, 94.10s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 55013 (char 58723)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu ung thư, cung cấp thông tin về các phương pháp điều trị tiềm năng và cơ chế sinh học.",
    "question": "Vui lòng mô tả chi tiết mụ...
Retry dòng 30 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1369 (char 6583)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu ung thư, cung cấp thông tin về các phương pháp điều trị tiềm năng và cơ chế sinh học.",
    "question": "Xin chào. Tôi là sinh viên...
Retry dòng 30 - Lần 2

Lỗi xử lý response: Invalid control character at: line 5 column 915 (char 1257)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn nghiên cứu y học, dược học, và bệnh học dựa trên các tiêu chuẩn khoa học.",
    "question": "Xin cho biế...
Retry dòng 30 - Lần 3


  0%|          | 31/310294 [45:25<11221:54:33, 130.21s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 611 (char 6189)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về vi rút học lâm sàng và bệnh học tế bào, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin hãy giải thích chi tiết ...
Retry dòng 31 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 677 (char 6475)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về vi sinh, bệnh học và nghiên cứu tế bào, cung cấp thông tin khoa học và lâm sàng dựa trên ICD-10.",
    "question": "Mô tả chi tiết quá trình ...
Retry dòng 31 - Lần 2


  0%|          | 32/310294 [47:22<10868:19:40, 126.11s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 25 column 64056 (char 71010)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về tế bào học ung thư, nghiên cứu cơ chế bệnh sinh và dược học.",
    "question": "Dựa trên kính hiển vi điện tử truyền qua, các đặc điểm siêu c...
Retry dòng 32 - Lần 1


  0%|          | 33/310294 [48:53<9978:08:38, 115.78s/it] 

Lỗi, thử lại sau 5s... (Lần 1)


  0%|          | 34/310294 [53:37<14316:38:54, 166.12s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 381 (char 4586)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tế bào học và bệnh học, cung cấp thông tin và tư vấn lâm sàng dựa trên các tiêu chuẩn y khoa.",
    "question": "Xin vui lòng mô tả chi tiết c...
Retry dòng 34 - Lần 1


  0%|          | 35/310294 [54:31<11420:00:03, 132.51s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 656 (char 7137)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học hô hấp và ung thư phổi, cung cấp thông tin và tư vấn lâm sàng dựa trên các nghiên cứu y khoa cập nhật.",
    "question": "Xin hãy trình ...
Retry dòng 35 - Lần 1


  0%|          | 36/310294 [55:58<10237:19:03, 118.79s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 296205 (char 300634)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Nghiên cứu về nội soi phế quản huỳnh quang trong chẩn đoán ...
Retry dòng 36 - Lần 1


  0%|          | 41/310294 [1:00:52<5216:15:34, 60.53s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 499 (char 5800)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về phẫu thuật tạo hình và giải phẫu, cung cấp thông tin và tư vấn lâm sàng dựa trên các tiêu chuẩn y khoa chính xác.",
    "question": "Vui lòng...
Retry dòng 41 - Lần 1


  0%|          | 42/310294 [1:02:02<5471:22:22, 63.49s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 413 (char 6451)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về phẫu thuật tạo hình và giải phẫu mạch máu, cung cấp thông tin và tư vấn lâm sàng dựa trên các nghiên cứu khoa học.",
    "question": "Xin cho ...
Retry dòng 42 - Lần 1


  0%|          | 43/310294 [1:03:18<5802:22:39, 67.33s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 1397 (char 6592)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu giải phẫu, cung cấp thông tin chi tiết và đáng tin cậy.",
    "question": "Xin hãy liệt kê các mốc giải phẫu quan trọng được đề cập...
Retry dòng 43 - Lần 1

Lỗi xử lý response: Invalid control character at: line 10 column 270 (char 2618)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y học, hỗ trợ giải đáp các câu hỏi lâm sàng và nghiên cứu dựa trên các tiêu chuẩn y tế của Bộ Y tế Việt Nam và ICD-10.",
    "question": "Xin...
Retry dòng 43 - Lần 2


  0%|          | 46/310294 [1:08:10<6473:15:50, 75.11s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 975 (char 6523)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về phẫu thuật tạo hình và vi phẫu, cung cấp thông tin và tư vấn lâm sàng dựa trên các nghiên cứu cập nhật về vạt mạch máu.",
    "question": "Xi...
Retry dòng 46 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 891 (char 6112)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về phẫu thuật tạo hình, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Vai trò của các mạch xuyên (perforators) trong...
Retry dòng 46 - Lần 2


  0%|          | 48/310294 [1:11:10<6619:30:19, 76.81s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 775 (char 7904)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu, hỗ trợ người dùng hiểu rõ các khái niệm bệnh học và dịch tễ học.",
    "question": "Dựa trên nghiên cứu được đề cập, xin vui lòng giải thích...
Retry dòng 48 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1831 (char 9554)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và nghiên cứu dịch tễ, cung cấp thông tin dựa trên ICD-10 và kết quả nghiên cứu.",
    "question": "Xin chào chatbot, tôi đang nghiên...
Retry dòng 48 - Lần 2


  0%|          | 49/310294 [1:13:29<8232:57:48, 95.53s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 672 (char 6445)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học cộng đồng, cung cấp thông tin và phân tích dữ liệu nghiên cứu sức khỏe.",
    "question": "Dựa trên dữ liệu nghiên cứu, tình hình mắc bệ...
Retry dòng 49 - Lần 1


  0%|          | 54/310294 [1:18:05<4796:58:12, 55.66s/it] 


Lỗi xử lý response: Invalid control character at: line 25 column 511 (char 9124)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin chào, tôi đang nghiên cứu về các loại sai khớp cắn. Bạ...
Retry dòng 54 - Lần 1

Lỗi xử lý response: Invalid \escape: line 25 column 1609 (char 11075)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin chào chatbot, xin vui lòng giải thích định nghĩa và tầ...
Retry dòng 54 - Lần 2


  0%|          | 57/310294 [1:21:35<5454:41:32, 63.30s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 1105 (char 6945)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Các mục tiêu chính trong điều trị khớp cắn hở (open bite)...
Retry dòng 57 - Lần 1


  0%|          | 60/310294 [1:24:34<4901:40:58, 56.88s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 691 (char 6377)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nha khoa, bệnh học và điều trị lâm sàng, cung cấp thông tin và tư vấn theo chuẩn ICD-10.",
    "question": "Xin hãy mô tả phương pháp điều tr...
Retry dòng 60 - Lần 1

Lỗi xử lý response: Invalid control character at: line 25 column 41689 (char 48417)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Theo nghiên cứu được đề cập, hiệu quả và tính ổn định dài ...
Retry dòng 60 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 372 (char 5973)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui lòng mô tả chi tiết về hiệu quả và tính ổn định củ...
Retry dòng 60 - Lần 3


  0%|          | 61/310294 [1:28:27<9454:15:08, 109.71s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 582 (char 924)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 về các trường hợp sai khớp cắn và khớp cắn hở.",
    "question": "Bác sĩ có t...
Retry dòng 61 - Lần 1

Lỗi xử lý response: Invalid control character at: line 10 column 735 (char 3788)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nha khoa và chỉnh nha, cung cấp thông tin chẩn đoán và phân loại sai khớp cắn theo chuẩn y khoa dựa trên hệ thống phân loại Angle và chuẩn ICD...
Retry dòng 61 - Lần 2


  0%|          | 62/310294 [1:30:39<10036:25:10, 116.46s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 1230 (char 5666)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và nghiên cứu, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các bằng chứng khoa học.",
    "question": "Xin vui lòng giải...
Retry dòng 62 - Lần 1


  0%|          | 65/310294 [1:37:20<9575:39:36, 111.12s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 502 (char 6017)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học và nghiên cứu lâm sàng, hỗ trợ cung cấp thông tin dựa trên các tiêu chuẩn y khoa và nghiên cứu.",
    "question": "Xin vui lòng mô t...
Retry dòng 65 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 59681 (char 64967)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học và nghiên cứu lâm sàng, cung cấp thông tin chính xác về các đặc điểm nhóm nghiên cứu.",
    "question": "Dựa trên nghiên cứu, hãy mô...
Retry dòng 65 - Lần 2


  0%|          | 67/310294 [1:41:02<8997:45:53, 104.41s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 478 (char 7129)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Homocysteine là gì và vai trò của nó trong bệnh đái tháo đườ...
Retry dòng 67 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 461 (char 8389)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và các yếu tố nguy cơ trong chuyển hóa.",
    "question": "Homocysteine là gì và vai trò của nó trong sinh bệnh học của đái tháo đườn...
Retry dòng 67 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 1066 (char 8425)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu, hỗ trợ nghiên cứu và lâm sàng trong lĩnh vực nội tiết - chuyển hóa và tim mạch, tuân thủ hướng dẫn của Bộ Y tế Việt Nam.",
    "question": "...
Retry dòng 67 - Lần 3


  0%|          | 68/310294 [1:44:37<11854:22:38, 137.56s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 20 column 2700 (char 8523)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin y tế và tư vấn lâm sàng dựa trên bằng chứng khoa học và chuẩn ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Xin...
Retry dòng 68 - Lần 1


  0%|          | 70/310294 [1:47:06<8796:03:30, 102.07s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 369 (char 4967)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Bác sĩ có thể giải thích về tỷ lệ bệnh nhân mắc rối loạn k...
Retry dòng 70 - Lần 1

Lỗi xử lý response: Invalid control character at: line 15 column 551 (char 3749)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên dữ liệu nghiên cứu và phân loại bệnh ICD-10.",
    "question": "Xin vui lòng liệt kê...
Retry dòng 70 - Lần 2


  0%|          | 71/310294 [1:49:20<9623:25:41, 111.68s/it]

Lỗi, thử lại sau 5s... (Lần 1)

Lỗi xử lý response: Invalid control character at: line 10 column 652 (char 2246)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Bác sĩ có thể giải thích về tình trạng rối loạn khớp thái...
Retry dòng 71 - Lần 1


  0%|          | 73/310294 [1:53:30<9508:08:01, 110.34s/it] 


Lỗi xử lý response: Invalid control character at: line 10 column 250 (char 2109)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên phân loại bệnh lý theo ICD-10, đặc biệt về mối liên hệ giữa khớp cắn sai lệch và rối ...
Retry dòng 73 - Lần 1


  0%|          | 74/310294 [1:54:28<8167:49:11, 94.78s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 479 (char 4771)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Mối liên hệ giữa điều trị chỉnh nha và rối loạn khớp thái...
Retry dòng 74 - Lần 1


  0%|          | 76/310294 [1:55:55<5816:48:22, 67.50s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 643 (char 5435)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và điều trị, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Giải thích chi tiết về chấn thương sọ não (TBI...
Retry dòng 76 - Lần 1


  0%|          | 78/310294 [1:57:56<5350:10:09, 62.09s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 5 column 1195 (char 1496)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học thần kinh, cung cấp thông tin và tư vấn lâm sàng dựa trên các bằng chứng khoa học và chuẩn ICD-10.",
    "question": "Các cơ chế bệnh si...
Retry dòng 78 - Lần 1


  0%|          | 79/310294 [1:59:22<5977:51:50, 69.37s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 635 (char 7566)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu, hỗ trợ nghiên cứu và lâm sàng trong chẩn đoán và phân loại mức độ nghiêm trọng của chấn thương sọ não.",
    "question": "Trong các nghiên c...
Retry dòng 79 - Lần 1

Lỗi xử lý response: Invalid control character at: line 10 column 455 (char 2548)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu tế bào gốc, cung cấp thông tin và quy trình dựa trên các tiêu chuẩn y khoa hiện hành.",
    "question": "Xin vui lòng mô tả chi tiế...
Retry dòng 79 - Lần 2


  0%|          | 80/310294 [2:01:19<7211:34:29, 83.69s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 25 column 2601 (char 11042)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học tái tạo và đánh giá lâm sàng, cung cấp thông tin chính xác và đáng tin cậy theo chuẩn Bộ Y tế Việt Nam.",
    "question": "Vui lòng mô t...
Retry dòng 80 - Lần 1


  0%|          | 81/310294 [2:02:53<7455:11:00, 86.52s/it]


Lỗi xử lý response: Invalid \escape: line 15 column 1115 (char 4578)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học thần kinh, đặc biệt là phân loại mức độ nghiêm trọng của đột quỵ dựa trên thang điểm lâm sàng và ý nghĩa điều trị.",
    "question": ...
Retry dòng 81 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 625 (char 6314)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học, cung cấp thông tin và kiến thức lâm sàng, nghiên cứu dựa trên các chuẩn mực y khoa và ICD-10.",
    "question": "Theo tài liệu nghiên c...
Retry dòng 81 - Lần 2


  0%|          | 85/310294 [2:06:40<4859:43:20, 56.40s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 780 (char 8916)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học tổng quát, cung cấp thông tin về các tạp chí y khoa và vai trò của chúng trong giáo dục y tế liên tục.",
    "question": "Tạp chí Y học ...
Retry dòng 85 - Lần 1


  0%|          | 86/310294 [2:08:48<6707:15:32, 77.84s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 410 (char 6327)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học tái tạo và miễn dịch học, cung cấp thông tin và phân tích nghiên cứu lâm sàng dựa trên bằng chứng khoa học.",
    "question": "Dựa trên ...
Retry dòng 86 - Lần 1


  0%|          | 88/310294 [2:10:10<4962:11:45, 57.59s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 302 (char 6318)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Dựa trên các nghiên cứu được trình bày, xin vui lòng trình ...
Retry dòng 88 - Lần 1


  0%|          | 89/310294 [2:11:53<6122:49:10, 71.06s/it]


Lỗi xử lý response: Unterminated string starting at: line 20 column 15 (char 7360)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và điều trị, cung cấp thông tin chính xác về các bệnh lý và phương pháp can thiệp dựa trên chuẩn ICD-10 của Bộ Y tế Việt Nam.",
    "...
Retry dòng 89 - Lần 1


  0%|          | 90/310294 [2:22:01<20025:12:19, 232.40s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 20 column 5205 (char 9708)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y học lâm sàng, cung cấp thông tin và hỗ trợ nghiên cứu dựa trên ICD-10 và các tài liệu khoa học đáng tin cậy.",
    "question": "Dựa trên ng...
Retry dòng 90 - Lần 1


  0%|          | 93/310294 [2:24:34<9407:04:10, 109.17s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 600 (char 6690)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin chào, tôi muốn tìm hiểu về những thay đổi thường gặp t...
Retry dòng 93 - Lần 1


  0%|          | 94/310294 [2:26:13<9158:32:47, 106.29s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 444 (char 5371)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa và nghiên cứu lâm sàng, cung cấp thông tin và tư vấn dựa trên các tiêu chuẩn y khoa, bao gồm cả phân loại theo ICD-10 khi thích h...
Retry dòng 94 - Lần 1

Lỗi xử lý response: Invalid control character at: line 15 column 1207 (char 4893)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y học, nghiên cứu lâm sàng và dược học, cung cấp thông tin và tư vấn dựa trên bằng chứng khoa học và phân loại bệnh tật quốc tế ICD-10.",
   ...
Retry dòng 94 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 348 (char 9837)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui lòng giải thích về sinh non (Preterm Birth - ...
Retry dòng 94 - Lần 3


  0%|          | 99/310294 [2:31:54<5304:47:43, 61.57s/it]  


Lỗi xử lý response: Invalid control character at: line 10 column 497 (char 2661)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học ung thư, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui lòng mô tả cơ chế hoạt động và vai trò của...
Retry dòng 99 - Lần 1


  0%|          | 100/310294 [2:33:44<6571:11:38, 76.26s/it]


Lỗi xử lý response: Invalid \escape: line 20 column 1454 (char 5170)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Vui lòng mô tả chi tiết về trường hợp lâm sàng số 2 được đề ...
Retry dòng 100 - Lần 1


  0%|          | 101/310294 [2:34:43<6119:45:14, 71.02s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 508 (char 4623)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin lâm sàng và nghiên cứu dựa trên dữ liệu hiện có và kiến thức y khoa chính thống.",
    "question": "Xin vui lòng m...
Retry dòng 101 - Lần 1


  0%|          | 103/310294 [2:36:29<5213:41:24, 60.51s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 629 (char 5772)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về ung thư học, cung cấp thông tin và tư vấn lâm sàng về các phác đồ điều trị ung thư theo chuẩn ICD-10.",
    "question": "Dựa trên các nghiên c...
Retry dòng 103 - Lần 1


  0%|          | 106/310294 [2:39:00<4364:00:09, 50.65s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 59971 (char 64753)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học lâm sàng, cung cấp thông tin và tư vấn dựa trên các nghiên cứu và kiến thức y khoa chính thống.",
    "question": "Mô tả tóm tắt các đặc...
Retry dòng 106 - Lần 1


  0%|          | 107/310294 [2:45:10<12612:19:48, 146.38s/it]


Lỗi xử lý response: Invalid \escape: line 20 column 1186 (char 6609)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa và các rối loạn tiểu tiện, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Phân tích mối liên hệ giữa t...
Retry dòng 107 - Lần 1


  0%|          | 108/310294 [2:46:47<11337:22:42, 131.58s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 38
}
]
Retry dòng 108 - Lần 1


  0%|          | 109/310294 [2:47:47<9490:45:25, 110.15s/it] 

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 38
}
]
Retry dòng 109 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 110/310294 [2:48:44<8107:00:50, 94.09s/it] 

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 42
}
]
Retry dòng 110 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 111/310294 [2:49:40<7135:57:43, 82.82s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 45
}
]
Retry dòng 111 - Lần 1


  0%|          | 112/310294 [2:50:29<6258:24:44, 72.64s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 56
}
]
Retry dòng 112 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 113/310294 [2:51:26<5843:07:33, 67.82s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
}
]
Retry dòng 113 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-

  0%|          | 114/310294 [2:52:23<5553:54:54, 64.46s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 3
}
]
Retry dòng 114 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-a

  0%|          | 115/310294 [2:53:19<5350:12:38, 62.10s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 6
}
]
Retry dòng 115 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-a

  0%|          | 116/310294 [2:54:16<5206:53:17, 60.43s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 10
}
]
Retry dòng 116 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 117/310294 [2:55:12<5108:14:24, 59.29s/it]

Lỗi, thử lại sau 5s... (Lần 1)

Lỗi xử lý response: Invalid control character at: line 20 column 873 (char 8126)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu tế bào gốc, cung cấp thông tin khoa học và phương pháp luận chính xác, đáng tin cậy.",
    "question": "Xin chào, tôi đang nghiên c...
Retry dòng 117 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
 

  0%|          | 118/310294 [2:56:39<5823:25:09, 67.59s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 46
}
]
Retry dòng 118 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 119/310294 [2:57:36<5539:07:26, 64.29s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 50
}
]
Retry dòng 119 - Lần 1

Lỗi xử lý response: Invalid control character at: line 15 column 491 (char 2900)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học tái tạo, cung cấp thông tin và phân tích các phương pháp điều trị tiềm năng."

  0%|          | 120/310294 [2:58:43<5622:20:38, 65.26s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 42
}
]
Retry dòng 120 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 121/310294 [2:59:40<5397:58:37, 62.65s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 46
}
]
Retry dòng 121 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 122/310294 [3:00:36<5238:22:15, 60.80s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)

Lỗi xử lý response: Invalid control character at: line 25 column 570 (char 10275)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu tế bào gốc, cung cấp thông tin và giải thích chuyên sâu về các phương pháp biệt hóa tế bào và tiềm năng ứng dụng lâm sàng.",
    "q...
Retry dòng 122 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)


  0%|          | 123/310294 [3:02:12<6134:27:31, 71.20s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 14
}
]
Retry dòng 123 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 124/310294 [3:03:09<5760:42:22, 66.86s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 16
}
]
Retry dòng 124 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 125/310294 [3:04:06<5514:00:13, 64.00s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 19
}
]
Retry dòng 125 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 126/310294 [3:05:03<5339:58:30, 61.98s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 22
}
]
Retry dòng 126 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 127/310294 [3:06:00<5198:54:26, 60.34s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 26
}
]
Retry dòng 127 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 128/310294 [3:06:56<5102:33:41, 59.22s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 29
}
]
Retry dòng 128 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 129/310294 [3:07:53<5031:58:50, 58.40s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 33
}
]
Retry dòng 129 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 130/310294 [3:08:49<4984:55:19, 57.86s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 36
}
]
Retry dòng 130 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 131/310294 [3:09:46<4951:13:52, 57.47s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 40
}
]
Retry dòng 131 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 132/310294 [3:10:43<4929:37:48, 57.22s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 43
}
]
Retry dòng 132 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 133/310294 [3:11:39<4906:59:16, 56.95s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 47
}
]
Retry dòng 133 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 134/310294 [3:12:35<4892:57:33, 56.79s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 50
}
]
Retry dòng 134 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 135/310294 [3:13:32<4887:27:42, 56.73s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 54
}
]
Retry dòng 135 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 136/310294 [3:14:28<4879:41:12, 56.64s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 57
}
]
Retry dòng 136 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

  0%|          | 137/310294 [3:15:25<4874:17:03, 56.58s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 1
}
]
Retry dòng 137 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-a

  0%|          | 138/310294 [3:16:21<4872:40:43, 56.56s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 4
}
]
Retry dòng 138 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-a

  0%|          | 139/310294 [3:17:18<4871:50:28, 56.55s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 8
}
]
Retry dòng 139 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-a

  0%|          | 140/310294 [3:18:14<4871:16:10, 56.54s/it]

Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 250
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  seconds: 11
}
]
Retry dòng 140 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)
Lỗi, thử lại sau 10s... (Lần 2)
Lỗi sau 3 lần thử: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-

## expection talk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Các cuộc hội thoại sai, hoặc kém hay không có nghĩa như: "asdasd","ê","sđs",... thì chỉ rõ ra là câu hỏi người dùng chưa rõ ràng.
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Chỉ rõ chỗ hỏi chưa rõ ràng và hướng dẫn cách hỏi rõ ràng hơn.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy kiểm tra xem câu hỏi có nghĩa không và hãy chỉ tôi cách hỏi."
- "question": Câu hỏi sai, khó hiểu, lung tung, không có nghĩa hay sai.
- "answer": Chỉ ra lỗi hoặc hướng dẫn người dùng cách hỏi rõ ràng hơn, ví dụ: "Câu hỏi của bạn chưa rõ ràng, vui lòng cung cấp thêm thông tin để tôi có thể giúp bạn tốt hơn."
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


## Tư vấn khóa học, tài liệu

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer",
    "document/title", "document/tool", "document/description",
    "cme/title", "cme/tool", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn lâm sàng cho người dùng cuối**.
**Yêu cầu đặc biệt**:
- `answer` phải viết theo ngôn ngữ chuyên môn, **khoa học, cụ thể, không chung chung**, đủ để một bác sĩ hoặc chatbot sử dụng để diễn giải cho người bệnh.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào tư vấn, chỉ dạy cho các bác sỹ trẻ.
- "answer": Câu trả lời chi tiết, có thể bao gồm hướng dẫn, giải thích hoặc thông tin bổ sung liên quan đến câu hỏi cho các bác sỹ trẻ về cách thực hành y khoa, đến diễn giải lý thuyết, hoặc các khuyến nghị lâm sàng.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/tool": Luôn là "call_references"
- "document/description": Mô tả ngắn gọn tài liệu tham khảo cho người dùng học tập, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/tool": Luôn là "call_cme"
- "cme/description": Mô tả ngắn về khóa học CME , giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành cho người dùng hoc tập.

Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", ""),
                "document/title": data.get("document/title", ""),
                "document/tool": data.get("document/tool", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/tool": data.get("cme/tool", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")
