## Chuẩn đoán

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDkIcBxpkno0XHjOgZ-pwpJn9kgnoGC83E")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_diagnosis.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","icd_10", "icd_10/title", "question", "symptom", "diagnosis",
    "document/title",  "document/description",
    "cme/title", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.
Dựa vào đoạn văn sau:
"{dental_text}"
Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.
**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn lâm sàng cho người dùng cuối**.
**Yêu cầu đặc biệt**:
- Nếu đoạn văn có đề cập đến các **chỉ số lâm sàng** như độ sâu túi lợi, chỉ số mảng bám, số răng tổn thương, mức độ đau... thì **phải đưa các con số và dữ liệu đó vào `symptom` và `diagnosis`** để tăng độ chính xác cho chatbot.
- `symptom` và `diagnosis` phải viết theo ngôn ngữ chuyên môn, **khoa học, cụ thể, không chung chung**, đủ để một bác sĩ hoặc chatbot sử dụng để diễn giải cho người bệnh.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "icd_10": Mã bệnh ICD-10 của Bộ Y tế Việt Nam phù hợp nhất với đoạn văn (ví dụ: "A01.1", "P27.0") nhưng nếu không xác định được thì gán mã bệnh gần đúng nhất(Không được để trống).
- "icd_10/title": Tên mã bệnh ICD-10 tương ứng với mã ở trên đúng chuẩn Bộ y tế (ví dụ: "Bệnh lao phổi", "Viêm phổi do virus").
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào chẩn đoán hoặc điều trị y khoa (giống như người dùng hay bác sỹ trẻ hỏi chatbot).
- "symptom": Các triệu chứng hoặc dấu hiệu lâm sàng được nêu trong bài, hoặc suy luận có cơ sở khoa học. **Bao gồm cả các chỉ số định lượng nếu có** như: túi nha chu 6mm, PI=2.2, v.v.
- "diagnosis": Chẩn đoán nha khoa chi tiết, có thể phân loại theo mức độ bệnh hoặc giai đoạn nếu phù hợp. **Phải có cơ sở y khoa vững chắc** và dùng thông số hỗ trợ chẩn đoán nếu có.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/description": Mô tả ngắn gọn tài liệu tham khảo, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/description": Mô tả ngắn về khóa học CME, giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành.
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "icd_10": data.get("icd_10", ""),
                "icd_10/title": data.get("icd_10/title", ""),
                "question": data.get("question", ""),
                "symptom": data.get("symptom", ""),
                "diagnosis": data.get("diagnosis", ""),
                "document/title": data.get("document/title", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 1/310294 [00:37<3194:02:55, 37.06s/it]

## Small talk

In [1]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDACh169FpAdWuCzw6r181Wx7tlEdXlcdU")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_smalltalk.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Dữ liệu cho các tác vụ chung như chào hỏi, giải thích, tư vấn,...
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Dữ liệu cho các tác vụ chung của chatbot như chào hỏi, giải thích, tư vấn... để chatbot có thể phản hồi người dùng một cách tự nhiên và thân thiện.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy tư vấn và chào hỏi thân thiện."
- "question": Câu hỏi y khoa mà các bác sỹ sẽ hỏi đơn giản hay người dùng hỏi chatbot.
- "answer": Câu trả lời thân thiện cho người dùng (ví dụ: Người dùng xin chào thì chat bot sẽ chào lại và hỏi bạn cần giúp gì).
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 3/310294 [00:58<1678:11:17, 19.47s/it]


KeyboardInterrupt: 

## Medicaltalk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyBHJ3cOKxhsO-OyN8nzrmWAuw9QODnvTJw")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_medicaltalk.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Dữ liệu cho các tác vụ về y tế, bệnh học, nghiên cứu, dược học, ....
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình y khoa).
**Yêu cầu đặc biệt**:
- Dữ liệu cho các tác vụ về y tế, bệnh học, nghiên cứu, dược học, y học, y khoa....
- Trong 5 đối tượng JSON, có 3 đối tường trình bày trả lời như bình thường bằng text, 2 đối tượng còn lại sẽ trả ra câu trả lời dưới dạng bảng (table) chuẩn dạng markdown với các cột và hàng rõ ràng, có tiêu đề bảng, tiêu đề cột, tiêu đề hàng, và các ô dữ liệu bên trong.
- Trong 2 đối tượng trả lời dưới dạng bảng thì một dạng bảng trả ra nội dung và một trả ra nội dung cùng số liệu, thông số, thông tin. Câu trả lời phải trình bày chi tiết rồi mời đưa ra bảng dạng markdown cho dẫn chứng.
- Với 3 câu trình bày dạng text như thường thì trình bày đa dạng nhiều kiểu như list có bullet points, số thứ tự, một đoạn trả lời chi tiết, một bản trình bày tóm tắt, v.v.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot về y khoa, bệnh học, nghiên cứu, dược học, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "question": Câu hỏi của bác sỹ hoặc sinh viên y khoa hỏi chatbot về bệnh học, y học, nghiên cứu, dược học, ....
- "answer": Câu trả lời chuyên sâu, chi tiết, có cơ sở y khoa vững chắc, không chung chung, dựa trên các thông số thực tế trong đoạn văn và kiến thức y khoa chính thống.
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
      - "answer" khi trình bày bảng thì các cột, hàng phải đặt tên phù hợp với y khoa, bệnh học, nghiên cứu, dược học, y học,... Đồng thời trong câu trả lời có bảng không được nói là bảng markdown mà nói bảng, tổng hợp, ...
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 1/309249 [00:48<4195:05:00, 48.84s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 1719 (char 7124)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học và điều trị nhãn khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên phân loại ICD-10.",
    "question": "Mộng thịt là gì và mục ti...
Retry dòng 1046 - Lần 1


  0%|          | 2/309249 [02:07<5703:58:22, 66.40s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 1457 (char 9898)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các nghiên cứu y học.",
    "question": "Mộng thịt là gì và các kỹ thuật p...
Retry dòng 1047 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 702 (char 7696)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên bằng chứng khoa học và chuẩn ICD-10.",
    "question": "Mộng thịt là gì và các phươ...
Retry dòng 1047 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 903 (char 5909)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên sâu về nhãn khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên bằng chứng y học.",
    "question": "Xin chào, tôi là một bác sĩ nhãn khoa. Tôi...
Retry dòng 1047 - Lần 3


  0%|          | 5/309249 [06:51<6308:40:13, 73.44s/it]  


Lỗi xử lý response: Invalid \escape: line 20 column 790 (char 5332)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Bác sĩ có thể giải thích chi tiết về hiệu quả cải thiện t...
Retry dòng 1050 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 580 (char 4426)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên nghiên cứu và tiêu chuẩn y khoa, bao gồm cả phân loại ICD-10.",
    "question": "Dựa...
Retry dòng 1050 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 359 (char 5430)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin về các phương pháp phẫu thuật và kết quả điều trị mộng thịt nguyên phát theo mã ICD-10 H11.0.",
    "question": ...
Retry dòng 1050 - Lần 3


  0%|          | 7/309249 [09:34<6318:49:17, 73.56s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 1110 (char 5177)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học mắt, cung cấp thông tin về phẫu thuật mộng thịt và các yếu tố liên quan dựa trên các nghiên cứu mới nhất, tuân thủ các nguyên tắc chẩ...
Retry dòng 1052 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 375 (char 4525)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về phẫu thuật mắt, cung cấp thông tin về kết quả lâm sàng và an toàn trong điều trị bệnh mộng thịt theo tiêu chuẩn y khoa.",
    "question": "Dựa...
Retry dòng 1052 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 969 (char 5237)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin và tư vấn lâm sàng về phẫu thuật mắt dựa trên ICD-10.",
    "question": "Dựa vào nghiên cứu, xin hãy cho biết cá...
Retry dòng 1052 - Lần 3


  0%|          | 9/309249 [12:12<6202:41:24, 72.21s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 569 (char 6191)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin chi tiết về các biến chứng sau phẫu thuật mộng thịt bằng kỹ thuật chuyển vị kết mạc hai vạt trượt.",
    "quest...
Retry dòng 1054 - Lần 1

Lỗi xử lý response: Invalid control character at: line 25 column 896 (char 11431)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nhãn khoa, cung cấp thông tin chi tiết về kết quả phẫu thuật mộng thịt (Mã ICD-10: H11.0).",
    "question": "Xin hãy trình bày chi tiết về k...
Retry dòng 1054 - Lần 2


  0%|          | 10/309249 [15:10<9004:37:12, 104.83s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 462 (char 5978)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học và phẫu thuật mắt, cung cấp thông tin lâm sàng và nghiên cứu dựa trên bằng chứng khoa học, theo chuẩn y khoa.",
    "question": "Xin...
Retry dòng 1055 - Lần 1


  0%|          | 12/309249 [20:19<11562:06:14, 134.60s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 1093 (char 8482)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học gan, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các nghiên cứu y học mới nhất.",
    "question": "Xin hãy giải thích về...
Retry dòng 1057 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 375 (char 5368)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học nội khoa, cung cấp thông tin chẩn đoán và quản lý bệnh dựa trên y văn và các khuyến cáo y tế chính thống.",
    "question": "Bệnh gan nh...
Retry dòng 1057 - Lần 2

Lỗi xử lý response: Expecting ',' delimiter: line 6 column 5 (char 998)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin lâm sàng và y học thực chứng dựa trên ICD-10.",
    "question": "Bệnh gan nhiễm mỡ liên quan chuyển hóa (MAFLD) là...
Retry dòng 1057 - Lần 3


  0%|          | 16/309249 [33:38<11027:38:26, 128.38s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 601 (char 6807)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học gan, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin hãy trình bày chi tiết về các yếu tố nguy cơ của x...
Retry dòng 1061 - Lần 1


  0%|          | 17/309249 [35:48<11075:34:28, 128.94s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 77136 (char 83820)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa tổng quát, cung cấp thông tin và tư vấn y học dựa trên các bằng chứng khoa học và chuẩn ICD-10.",
    "question": "Xin hãy cung cấp thô...
Retry dòng 1062 - Lần 1


  0%|          | 18/309249 [38:43<12255:22:24, 142.67s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 605 (char 6388)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học gan mật, cung cấp thông tin chi tiết về các bệnh lý liên quan đến gan nhiễm mỡ và xơ hóa gan, dựa trên ICD-10 và các nghiên cứu khoa ...
Retry dòng 1063 - Lần 1


  0%|          | 20/309249 [40:52<8571:53:20, 99.79s/it]  

Lỗi, thử lại sau 5s... (Lần 1)


  0%|          | 21/309249 [42:14<8123:07:45, 94.57s/it]

Lỗi, thử lại sau 5s... (Lần 1)


  0%|          | 23/309249 [45:29<7876:51:06, 91.70s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 466 (char 5255)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh lý gan, cụ thể là các yếu tố nguy cơ của xơ hóa gan trong bệnh gan nhiễm mỡ liên quan chuyển hóa (MAFLD).",
    "question": "Các yếu tố ...
Retry dòng 1068 - Lần 1


  0%|          | 24/309249 [46:24<6932:51:02, 80.71s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 823 (char 1144)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh truyền nhiễm và gan mật, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các hướng dẫn của Bộ Y tế Việt Nam.",
    "question": "...
Retry dòng 1069 - Lần 1

Lỗi xử lý response: Expecting ',' delimiter: line 25 column 6536 (char 16144)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học gan mật, cung cấp thông tin chẩn đoán và quản lý bệnh lý gan theo các hướng dẫn y tế hiện hành.",
    "question": "Bác sĩ có thể giải...
Retry dòng 1069 - Lần 2

Lỗi xử lý response: Extra data: line 24 column 1 (char 86623)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y học nội khoa, cung cấp thông tin dựa trên các tài liệu y khoa chính thống và hướng dẫn lâm sàng cập nhật.",
    "question": "FibroScan đóng...
Retry dòng 1069 - Lần 3


  0%|          | 25/309249 [49:10<9128:41:53, 106.28s/it]


Lỗi xử lý response: Invalid \escape: line 20 column 1489 (char 6518)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh lý tim mạch, cung cấp thông tin chi tiết về các biến chứng của nhồi máu cơ tim theo chuẩn y khoa Việt Nam.",
    "question": "Bác sĩ có t...
Retry dòng 1070 - Lần 1

Lỗi xử lý response: Invalid \escape: line 20 column 2016 (char 8058)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về tim mạch, hỗ trợ bác sĩ và sinh viên y khoa trong việc tra cứu thông tin về bệnh lý, chẩn đoán, và tiên lượng, tuân thủ chuẩn ICD-10 và các t...
Retry dòng 1070 - Lần 2

Lỗi xử lý response: Invalid control character at: line 25 column 882 (char 9544)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học tim mạch, hỗ trợ phân loại và đánh giá nguy cơ theo chuẩn y tế, bao gồm ICD-10.",
    "question": "Thưa chuyên gia, xin vui lòng mô t...
Retry dòng 1070 - Lần 3


  0%|          | 30/309249 [1:00:22<7780:29:36, 90.58s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 536 (char 6691)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh lý tim mạch, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt là các biến chứng cấp tính của nhồi máu cơ tim (I21.x, R57.0...
Retry dòng 1075 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 716 (char 8008)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về bệnh lý tim mạch, đặc biệt là nhồi máu cơ tim cấp và biến chứng sốc tim. Cung cấp thông tin nghiên cứu và kiến thức y khoa dựa trên chuẩn ...
Retry dòng 1075 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 677 (char 6608)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh lý tim mạch, cung cấp thông tin chi tiết về các biến chứng của nhồi máu cơ tim cấp theo chuẩn ICD-10 (I21.xx).",
    "question": "Tỷ lệ s...
Retry dòng 1075 - Lần 3


  0%|          | 35/309249 [1:06:11<4885:56:00, 56.88s/it]  


Lỗi xử lý response: Invalid control character at: line 20 column 584 (char 5201)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về huyết học lâm sàng, cung cấp thông tin chi tiết về bệnh lý hemoglobin và phương pháp chẩn đoán theo chuẩn ICD-10.",
    "question": "Vui lòng ...
Retry dòng 1080 - Lần 1

Lỗi xử lý response: Invalid \escape: line 20 column 1414 (char 10042)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học di truyền, cung cấp thông tin chi tiết về phân loại bệnh lý và đặc điểm lâm sàng của Alpha-thalassemia theo chuẩn ICD-10.",
    "ques...
Retry dòng 1080 - Lần 2

Lỗi xử lý response: Invalid control character at: line 15 column 631 (char 3912)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về huyết học, cung cấp thông tin chi tiết về các bệnh lý hồng cầu dựa trên chuẩn ICD-10 và các nghiên cứu lâm sàng.",
    "question": "Xin vui lò...
Retry dòng 1080 - Lần 3


  0%|          | 37/309249 [1:09:00<5821:09:17, 67.77s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 60200 (char 68178)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về dược lý lâm sàng và quản lý bệnh lý tim mạch, đặc biệt là rối loạn lipid máu và tăng huyết áp.",
    "question": "Xin cho biết về vai trò của...
Retry dòng 1082 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1120 (char 9526)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về dược học lâm sàng và điều trị, cung cấp thông tin chi tiết về thuốc và phác đồ điều trị cho các bệnh lý tim mạch và chuyển hóa dựa trên các ng...
Retry dòng 1082 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 950 (char 6541)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu, cung cấp thông tin và tư vấn lâm sàng, nghiên cứu, dược học dựa trên chuẩn ICD-10 và kiến thức y khoa chính thống.",
    "question": "Tại sa...
Retry dòng 1082 - Lần 3


  0%|          | 39/309249 [1:12:06<6626:59:46, 77.16s/it]


Lỗi xử lý response: Kết quả không phải là danh sách JSON.
Response gốc: ```json
{
  "marketing_analysis": {
    "overall_marketing_goal": "To reach customers where they are and to craft the right message that will resonate with them.",
    "mentioned_strategies": [
      ...
Retry dòng 1084 - Lần 1


  0%|          | 41/309249 [1:14:09<5685:55:57, 66.20s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 440 (char 5918)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về bệnh học di truyền, cung cấp thông tin và giải thích chuyên sâu về các bệnh lý huyết học, đặc biệt là alpha-thalassemia (ICD-10: D56.0).",...
Retry dòng 1086 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1215 (char 7650)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học huyết học và di truyền, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin chào. Tôi là sinh viên y khoa và đ...
Retry dòng 1086 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 692 (char 6042)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về Huyết học và Di truyền học, cung cấp thông tin và tư vấn lâm sàng về bệnh Thalassemia dựa trên bằng chứng khoa học và chuẩn ICD-10 của Bộ Y t...
Retry dòng 1086 - Lần 3


  0%|          | 42/309249 [1:16:20<7357:11:21, 85.66s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 625 (char 7511)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về dược lý và bệnh học tim mạch, cung cấp thông tin và tư vấn lâm sàng dựa trên bằng chứng khoa học và chuẩn ICD-10 của Bộ Y tế Việt Nam.",
    "...
Retry dòng 1087 - Lần 1

Lỗi xử lý response: Invalid control character at: line 15 column 409 (char 3641)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu dược học và quản lý bệnh lý tim mạch, cung cấp thông tin lâm sàng và hướng dẫn điều trị dựa trên ICD-10 và chuẩn Bộ Y tế Việt Nam."...
Retry dòng 1087 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 1141 (char 8289)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về dược lý và quản lý bệnh mãn tính, hỗ trợ phân tích các yếu tố ảnh hưởng đến việc sử dụng thuốc.",
    "question": "Theo nghiên cứu được đề cập...
Retry dòng 1087 - Lần 3


  0%|          | 43/309249 [1:21:44<13498:41:40, 157.16s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 517 (char 9725)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tim mạch học, cung cấp thông tin và tóm tắt nghiên cứu khoa học dựa trên tiêu chuẩn y tế.",
    "question": "Theo đoạn văn trên, tóm tắt đặt v...
Retry dòng 1088 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 423 (char 6239)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh lý tim mạch, cung cấp thông tin dựa trên bằng chứng khoa học và phân loại ICD-10.",
    "question": "Sốc tim trong nhồi máu cơ tim cấp l...
Retry dòng 1088 - Lần 2

Lỗi xử lý response: Invalid \escape: line 20 column 1536 (char 6567)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học tim mạch, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin cho biết tóm tắt về nghiên cứu 'Đặc điểm lâm...
Retry dòng 1088 - Lần 3


  0%|          | 44/309249 [1:23:26<12080:12:36, 140.65s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 661 (char 6057)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học tim mạch, cung cấp thông tin và tư vấn lâm sàng dựa trên chuẩn ICD-10.",
    "question": "Sốc tim trong nhồi máu cơ tim cấp được định...
Retry dòng 1089 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 494 (char 7168)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học tim mạch, cung cấp thông tin và tư vấn lâm sàng dựa trên bằng chứng khoa học và chuẩn ICD-10.",
    "question": "Thưa chuyên gia, nhữ...
Retry dòng 1089 - Lần 2


  0%|          | 45/309249 [1:25:33<11747:41:00, 136.78s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 527 (char 5580)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học tim mạch, cung cấp thông tin dựa trên y văn và hướng dẫn lâm sàng.",
    "question": "Theo nghiên cứu được trích dẫn, tiêu chuẩn chẩn...
Retry dòng 1090 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 357 (char 6033)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học tim mạch và nghiên cứu lâm sàng.",
    "question": "Trình bày chi tiết về mục tiêu và đối tượng nghiên cứu của bài báo về sốc tim nộ...
Retry dòng 1090 - Lần 2


  0%|          | 46/309249 [1:27:45<11600:01:17, 135.06s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 453 (char 4749)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh lý tim mạch, cung cấp thông tin và phân tích lâm sàng dựa trên ICD-10.",
    "question": "Dựa trên nghiên cứu, anh/chị có thể trình bày m...
Retry dòng 1091 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 421 (char 8799)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh lý tim mạch, cung cấp thông tin về các biến chứng của nhồi máu cơ tim cấp (NMCT cấp).",
    "question": "Một bệnh nhân bị nhồi máu cơ ti...
Retry dòng 1091 - Lần 2

Lỗi xử lý response: Invalid control character at: line 10 column 388 (char 2896)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tim mạch học, cung cấp thông tin và hỗ trợ nghiên cứu dựa trên dữ liệu lâm sàng và chuẩn ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Xin c...
Retry dòng 1091 - Lần 3


  0%|          | 47/309249 [1:29:15<10461:06:25, 121.80s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 466 (char 8752)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y học cấp cứu và tim mạch can thiệp, cung cấp thông tin và phân tích lâm sàng dựa trên bằng chứng khoa học và chuẩn ICD-10.",
    "question":...
Retry dòng 1092 - Lần 1


  0%|          | 50/309249 [1:32:40<7125:31:02, 82.96s/it]  

Lỗi, thử lại sau 5s... (Lần 1)


  0%|          | 51/309249 [1:33:58<7014:16:11, 81.67s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 91380 (char 103112)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh lý gan mật và chuyển hóa, cung cấp thông tin và tư vấn lâm sàng dựa trên bằng chứng khoa học.",
    "question": "Bác sĩ có thể giải thíc...
Retry dòng 1096 - Lần 1


  0%|          | 52/309249 [1:36:15<8433:34:24, 98.19s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 3013 (char 15456)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về chẩn đoán hình ảnh và bệnh lý thần kinh, cung cấp thông tin y học chính xác và đáng tin cậy theo chuẩn Bộ Y tế Việt Nam.",
    "question": "Bá...
Retry dòng 1097 - Lần 1

Lỗi xử lý response: Invalid \escape: line 20 column 2692 (char 14155)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về thần kinh học và chẩn đoán hình ảnh, cung cấp thông tin về các bệnh lý khối u não và phân biệt chẩn đoán theo ICD-10.",
    "question": "Xin v...
Retry dòng 1097 - Lần 2

Lỗi xử lý response: Invalid control character at: line 5 column 1019 (char 1402)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về chẩn đoán hình ảnh thần kinh, cung cấp hướng dẫn phân biệt các tổn thương não dựa trên tiêu chuẩn y học và hình ảnh học.",
    "question":...
Retry dòng 1097 - Lần 3


  0%|          | 54/309249 [1:46:45<15878:17:29, 184.87s/it]

Lỗi, thử lại sau 5s... (Lần 1)

Lỗi xử lý response: Expecting ',' delimiter: line 23 column 1 (char 94918)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về thần kinh và ung thư, cung cấp thông tin lâm sàng và chẩn đoán phân biệt các khối u não dựa trên tiêu chuẩn y khoa hiện hành và ICD-10.",
    ...
Retry dòng 1099 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1629 (char 13547)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về chẩn đoán hình ảnh và giải phẫu bệnh thần kinh, cung cấp thông tin dựa trên tiêu chuẩn y học hiện hành và phân loại ICD-10.",
    "questio...
Retry dòng 1099 - Lần 2


  0%|          | 55/309249 [1:53:49<22021:22:04, 256.40s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 15 column 3038 (char 7631)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học tiêu hóa và chuyển hóa, cung cấp thông tin và tư vấn lâm sàng dựa trên các định nghĩa bệnh lý mới.",
    "question": "Bác sĩ có thể g...
Retry dòng 1100 - Lần 1


  0%|          | 56/309249 [1:56:09<19025:11:31, 221.51s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 339 (char 6232)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh gan nhiễm mỡ liên quan chuyển hóa (MAFLD) và tác động toàn cầu của nó, cung cấp thông tin dựa trên các nghiên cứu khoa học và chuẩn y tế...
Retry dòng 1101 - Lần 1

Lỗi xử lý response: Expecting ',' delimiter: line 6 column 5 (char 878)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh gan chuyển hóa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Bác sĩ có thể giải thích chi tiết về Bệnh gan ...
Retry dòng 1101 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 448 (char 5178)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh gan nhiễm mỡ liên quan chuyển hóa (MAFLD), cung cấp thông tin và phân tích dựa trên nghiên cứu y học.",
    "question": "Xin hãy tóm tắt ...
Retry dòng 1101 - Lần 3


  0%|          | 59/309249 [1:58:56<9347:57:14, 108.84s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 637 (char 5961)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về bệnh lý chuyển hóa và gan mật, cung cấp thông tin dựa trên các nghiên cứu khoa học và phân loại theo ICD-10.",
    "question": "Xin vui lò...
Retry dòng 1104 - Lần 1


  0%|          | 62/309249 [2:01:36<5997:59:06, 69.84s/it] 


Lỗi xử lý response: Invalid control character at: line 5 column 946 (char 1279)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh lý gan mật, cung cấp thông tin chi tiết về các bệnh gan nhiễm mỡ dựa trên bằng chứng khoa học và cập nhật y tế.",
    "question": "Xin h...
Retry dòng 1107 - Lần 1


  0%|          | 63/309249 [2:02:59<6322:07:23, 73.61s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 1613 (char 7422)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về gan mật, cung cấp thông tin chi tiết về bệnh gan nhiễm mỡ liên quan chuyển hóa và các yếu tố nguy cơ.",
    "question": "Bác sĩ có thể giải th...
Retry dòng 1108 - Lần 1


  0%|          | 66/309249 [2:10:05<8130:36:38, 94.67s/it]  


Lỗi xử lý response: Invalid control character at: line 5 column 686 (char 1161)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh lý gan nhiễm mỡ liên quan chuyển hóa (MAFLD), cung cấp thông tin dựa trên ICD-10 về các yếu tố nguy cơ và đặc điểm lâm sàng.",
    "quest...
Retry dòng 1111 - Lần 1


  0%|          | 69/309249 [2:12:39<5420:49:59, 63.12s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 66641 (char 73057)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên cung cấp thông tin về các bệnh lý chuyển hóa và gan, đặc biệt là bệnh gan nhiễm mỡ liên quan rối loạn chuyển hóa (MAFLD).",
    "question": "Dựa ...
Retry dòng 1114 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 703 (char 7249)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về gan mật, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Xin cho biết về mối liên hệ giữa bệnh...
Retry dòng 1114 - Lần 2


  0%|          | 70/309249 [2:16:04<9095:41:48, 105.91s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 494 (char 10451)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh lý gan và chuyển hóa, cung cấp thông tin và so sánh bệnh học gan nhiễm mỡ chuyển hóa (MAFLD) và gan nhiễm mỡ không do rượu (NAFLD) dựa tr...
Retry dòng 1115 - Lần 1

Lỗi xử lý response: Invalid control character at: line 25 column 1012 (char 13539)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tiêu hóa gan mật, cung cấp thông tin và so sánh các bệnh lý gan chuyển hóa dựa trên các nghiên cứu khoa học và chuẩn ICD-10.",
    "question":...
Retry dòng 1115 - Lần 2

Lỗi xử lý response: Invalid control character at: line 25 column 74565 (char 84800)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học gan, hỗ trợ giải đáp các khái niệm liên quan đến gan nhiễm mỡ và phân loại bệnh.",
    "question": "Xin vui lòng giải thích sự khác b...
Retry dòng 1115 - Lần 3


  0%|          | 71/309249 [2:19:20<11407:06:53, 132.82s/it]


Lỗi xử lý response: Invalid \escape: line 20 column 3009 (char 8976)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên sâu về sức khỏe tâm thần và nghiên cứu dịch tễ học, cung cấp thông tin và phân tích dựa trên y học chính thống và chuẩn ICD-10.",
    "question"...
Retry dòng 1116 - Lần 1


  0%|          | 72/309249 [2:20:25<9670:18:35, 112.60s/it] 


Lỗi xử lý response: Invalid control character at: line 20 column 757 (char 9827)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và tâm thần học, cung cấp thông tin về các rối loạn liên quan đến stress, chẩn đoán theo ICD-10 và các yếu tố nguy cơ ở đối tượng sin...
Retry dòng 1117 - Lần 1


  0%|          | 75/309249 [2:22:58<5814:04:31, 67.70s/it] 

## expection talk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Các cuộc hội thoại sai, hoặc kém hay không có nghĩa như: "asdasd","ê","sđs",... thì chỉ rõ ra là câu hỏi người dùng chưa rõ ràng.
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Chỉ rõ chỗ hỏi chưa rõ ràng và hướng dẫn cách hỏi rõ ràng hơn.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy kiểm tra xem câu hỏi có nghĩa không và hãy chỉ tôi cách hỏi."
- "question": Câu hỏi sai, khó hiểu, lung tung, không có nghĩa hay sai.
- "answer": Chỉ ra lỗi hoặc hướng dẫn người dùng cách hỏi rõ ràng hơn, ví dụ: "Câu hỏi của bạn chưa rõ ràng, vui lòng cung cấp thêm thông tin để tôi có thể giúp bạn tốt hơn."
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


## Tư vấn khóa học, tài liệu

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer",
    "document/title", "document/tool", "document/description",
    "cme/title", "cme/tool", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn lâm sàng cho người dùng cuối**.
**Yêu cầu đặc biệt**:
- `answer` phải viết theo ngôn ngữ chuyên môn, **khoa học, cụ thể, không chung chung**, đủ để một bác sĩ hoặc chatbot sử dụng để diễn giải cho người bệnh.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào tư vấn, chỉ dạy cho các bác sỹ trẻ.
- "answer": Câu trả lời chi tiết, có thể bao gồm hướng dẫn, giải thích hoặc thông tin bổ sung liên quan đến câu hỏi cho các bác sỹ trẻ về cách thực hành y khoa, đến diễn giải lý thuyết, hoặc các khuyến nghị lâm sàng.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/tool": Luôn là "call_references"
- "document/description": Mô tả ngắn gọn tài liệu tham khảo cho người dùng học tập, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/tool": Luôn là "call_cme"
- "cme/description": Mô tả ngắn về khóa học CME , giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành cho người dùng hoc tập.

Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", ""),
                "document/title": data.get("document/title", ""),
                "document/tool": data.get("document/tool", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/tool": data.get("cme/tool", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")
