## Chuẩn đoán

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDkIcBxpkno0XHjOgZ-pwpJn9kgnoGC83E")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_diagnosis.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","icd_10", "icd_10/title", "question", "symptom", "diagnosis",
    "document/title",  "document/description",
    "cme/title", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.
Dựa vào đoạn văn sau:
"{dental_text}"
Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.
**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn lâm sàng cho người dùng cuối**.
**Yêu cầu đặc biệt**:
- Nếu đoạn văn có đề cập đến các **chỉ số lâm sàng** như độ sâu túi lợi, chỉ số mảng bám, số răng tổn thương, mức độ đau... thì **phải đưa các con số và dữ liệu đó vào `symptom` và `diagnosis`** để tăng độ chính xác cho chatbot.
- `symptom` và `diagnosis` phải viết theo ngôn ngữ chuyên môn, **khoa học, cụ thể, không chung chung**, đủ để một bác sĩ hoặc chatbot sử dụng để diễn giải cho người bệnh.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "icd_10": Mã bệnh ICD-10 của Bộ Y tế Việt Nam phù hợp nhất với đoạn văn (ví dụ: "A01.1", "P27.0") nhưng nếu không xác định được thì gán mã bệnh gần đúng nhất(Không được để trống).
- "icd_10/title": Tên mã bệnh ICD-10 tương ứng với mã ở trên đúng chuẩn Bộ y tế (ví dụ: "Bệnh lao phổi", "Viêm phổi do virus").
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào chẩn đoán hoặc điều trị y khoa (giống như người dùng hay bác sỹ trẻ hỏi chatbot).
- "symptom": Các triệu chứng hoặc dấu hiệu lâm sàng được nêu trong bài, hoặc suy luận có cơ sở khoa học. **Bao gồm cả các chỉ số định lượng nếu có** như: túi nha chu 6mm, PI=2.2, v.v.
- "diagnosis": Chẩn đoán nha khoa chi tiết, có thể phân loại theo mức độ bệnh hoặc giai đoạn nếu phù hợp. **Phải có cơ sở y khoa vững chắc** và dùng thông số hỗ trợ chẩn đoán nếu có.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/description": Mô tả ngắn gọn tài liệu tham khảo, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/description": Mô tả ngắn về khóa học CME, giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành.
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "icd_10": data.get("icd_10", ""),
                "icd_10/title": data.get("icd_10/title", ""),
                "question": data.get("question", ""),
                "symptom": data.get("symptom", ""),
                "diagnosis": data.get("diagnosis", ""),
                "document/title": data.get("document/title", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 1/310294 [00:37<3194:02:55, 37.06s/it]

## Small talk

In [1]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDACh169FpAdWuCzw6r181Wx7tlEdXlcdU")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_smalltalk.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Dữ liệu cho các tác vụ chung như chào hỏi, giải thích, tư vấn,...
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Dữ liệu cho các tác vụ chung của chatbot như chào hỏi, giải thích, tư vấn... để chatbot có thể phản hồi người dùng một cách tự nhiên và thân thiện.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy tư vấn và chào hỏi thân thiện."
- "question": Câu hỏi y khoa mà các bác sỹ sẽ hỏi đơn giản hay người dùng hỏi chatbot.
- "answer": Câu trả lời thân thiện cho người dùng (ví dụ: Người dùng xin chào thì chat bot sẽ chào lại và hỏi bạn cần giúp gì).
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 3/310294 [00:58<1678:11:17, 19.47s/it]


KeyboardInterrupt: 

## Medicaltalk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDACh169FpAdWuCzw6r181Wx7tlEdXlcdU")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_medicaltalk.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Dữ liệu cho các tác vụ về y tế, bệnh học, nghiên cứu, dược học, ....
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình y khoa).
**Yêu cầu đặc biệt**:
- Dữ liệu cho các tác vụ về y tế, bệnh học, nghiên cứu, dược học, y học, y khoa....
- Trong 5 đối tượng JSON, có 3 đối tường trình bày trả lời như bình thường bằng text, 2 đối tượng còn lại sẽ trả ra câu trả lời dưới dạng bảng (table) chuẩn dạng markdown với các cột và hàng rõ ràng, có tiêu đề bảng, tiêu đề cột, tiêu đề hàng, và các ô dữ liệu bên trong.
- Trong 2 đối tượng trả lời dưới dạng bảng thì một dạng bảng trả ra nội dung và một trả ra nội dung cùng số liệu, thông số, thông tin. Câu trả lời phải trình bày chi tiết rồi mời đưa ra bảng dạng markdown cho dẫn chứng.
- Với 3 câu trình bày dạng text như thường thì trình bày đa dạng nhiều kiểu như list có bullet points, số thứ tự, một đoạn trả lời chi tiết, một bản trình bày tóm tắt, v.v.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot về y khoa, bệnh học, nghiên cứu, dược học, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "question": Câu hỏi của bác sỹ hoặc sinh viên y khoa hỏi chatbot về bệnh học, y học, nghiên cứu, dược học, ....
- "answer": Câu trả lời chuyên sâu, chi tiết, có cơ sở y khoa vững chắc, không chung chung, dựa trên các thông số thực tế trong đoạn văn và kiến thức y khoa chính thống.
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
      - "answer" khi trình bày bảng thì các cột, hàng phải đặt tên phù hợp với y khoa, bệnh học, nghiên cứu, dược học, y học,... Đồng thời trong câu trả lời có bảng không được nói là bảng markdown mà nói bảng, tổng hợp, ...
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 1/310294 [00:54<4737:36:13, 54.97s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 512 (char 5750)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về sản phụ khoa và tiết niệu, cung cấp thông tin và tư vấn lâm sàng về các bệnh lý như són tiểu gắng sức theo chuẩn ICD-10.",
    "question": "Dự...
Retry dòng 1 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 1569 (char 7696)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tiết niệu - phụ khoa, cung cấp thông tin y học chính xác theo chuẩn y khoa của Bộ Y tế Việt Nam.",
    "question": "Xin cho biết về mục tiêu v...
Retry dòng 1 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 5106 (char 11883)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về bệnh học và phẫu thuật tiết niệu sinh dục, cung cấp thông tin lâm sàng và chỉ định phẫu thuật.",
    "question": "Tôi muốn tìm hiểu về phẫu th...
Retry dòng 1 - Lần 3


  0%|          | 2/310294 [02:50<7820:33:30, 90.73s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 519 (char 5774)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học, bệnh học, nghiên cứu và dược học, cung cấp thông tin và tư vấn lâm sàng đáng tin cậy dựa trên chuẩn ICD-10 của Bộ Y tế Việt Nam.",
    ...
Retry dòng 2 - Lần 1


  0%|          | 3/310294 [04:05<7203:18:07, 83.57s/it]


Lỗi xử lý response: Invalid \escape: line 25 column 1423 (char 9055)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học, cung cấp thông tin y tế chính xác và đáng tin cậy dựa trên các tiêu chuẩn y khoa quốc tế và Việt Nam (ví dụ: ICD-10).",
    "question":...
Retry dòng 3 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 604 (char 9829)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về tiết niệu - sản phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các nghiên cứu y học.",
    "question": "Theo nghiên cứu n...
Retry dòng 3 - Lần 2


  0%|          | 4/310294 [06:49<9913:37:42, 115.02s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 596 (char 6529)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y học lâm sàng và bệnh học, cung cấp thông tin và tư vấn dựa trên nghiên cứu và tiêu chuẩn y tế quốc tế (WHO) và Bộ Y tế Việt Nam.",
    "que...
Retry dòng 4 - Lần 1

Lỗi xử lý response: Expecting ',' delimiter: line 25 column 1158 (char 11251)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về bệnh học phụ khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên chuẩn phân loại bệnh quốc tế ICD-10 của Bộ Y tế Việt Nam.",
    "question":...
Retry dòng 4 - Lần 2


  0%|          | 7/310294 [10:36<6952:34:44, 80.66s/it]  


Lỗi xử lý response: Invalid control character at: line 20 column 260 (char 7139)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về tiết niệu, cung cấp thông tin lâm sàng và điều trị dựa trên bằng chứng khoa học và phân loại bệnh ICD-10.",
    "question": "Vui lòng mô t...
Retry dòng 7 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 517 (char 5926)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và hướng dẫn của Bộ Y tế Việt Nam.",
    "question": "Xin vui lòng mô tả các tri...
Retry dòng 7 - Lần 2

Lỗi xử lý response: Invalid control character at: line 20 column 645 (char 8425)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tiết niệu, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Vui lòng mô tả các dấu hiệu lâm sàng và triệu chứng của t...
Retry dòng 7 - Lần 3


  0%|          | 8/310294 [12:27<7784:48:24, 90.32s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 482 (char 6998)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học tái tạo và nghiên cứu tế bào gốc, cung cấp thông tin và tư vấn lâm sàng dựa trên các nghiên cứu khoa học. Người dùng là một bác sĩ nội t...
Retry dòng 8 - Lần 1


  0%|          | 9/310294 [14:02<7912:23:29, 91.80s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 568 (char 5353)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tim mạch, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin vui lòng mô tả vấn đề chính trong điều trị suy tim liê...
Retry dòng 9 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 58669 (char 63967)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về tim mạch, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Mô tả tổng quan về vấn đề tim mạch mà đoạn văn đề cập và c...
Retry dòng 9 - Lần 2


  0%|          | 11/310294 [23:04<14294:16:10, 165.85s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 397 (char 2153)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về nghiên cứu tế bào gốc, y học tái tạo và phương pháp điều trị điện sinh học, cung cấp thông tin khoa học đáng tin cậy.",
    "question": "Mục ...
Retry dòng 11 - Lần 1


  0%|          | 15/310294 [26:04<6155:29:49, 71.42s/it]  


Lỗi xử lý response: Invalid control character at: line 20 column 523 (char 5150)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về nghiên cứu tế bào gốc và y học tái tạo, hỗ trợ hiểu biết về các liệu pháp tiềm năng cho bệnh lý tim mạch (ví dụ: các mã ICD-10 liên quan đến b...
Retry dòng 15 - Lần 1


  0%|          | 17/310294 [27:58<5461:51:01, 63.37s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 609 (char 7076)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học tái tạo và sinh học phân tử, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 của Bộ Y tế Việt Nam.",
    "question": "Xin vui lòng...
Retry dòng 17 - Lần 1


  0%|          | 21/310294 [31:30<4262:38:45, 49.46s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 1016 (char 3454)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về chấn thương chỉnh hình, cung cấp thông tin về bệnh học, chẩn đoán và đặc điểm lâm sàng của các tổn thương khớp theo chuẩn ICD-10 của Bộ Y tế V...
Retry dòng 21 - Lần 1


  0%|          | 28/310294 [36:30<3262:36:23, 37.86s/it]


Lỗi xử lý response: Invalid control character at: line 20 column 678 (char 8259)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về chấn thương chỉnh hình nhi, cung cấp thông tin lâm sàng và nghiên cứu.",
    "question": "Xin hãy tóm tắt các điểm chính về bệnh lý dây chằng...
Retry dòng 28 - Lần 1

Lỗi xử lý response: Invalid control character at: line 20 column 27610 (char 31761)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về chấn thương chỉnh hình nhi khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Xin chào, tôi là sinh viên y khoa....
Retry dòng 28 - Lần 2


  0%|          | 29/310294 [40:18<8166:50:34, 94.76s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 1072 (char 9856)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y học, cung cấp thông tin và tư vấn lâm sàng dựa trên các bằng chứng khoa học mới nhất.",
    "question": "Xin giải thích cơ chế hoạt động và ...
Retry dòng 29 - Lần 1


  0%|          | 30/310294 [41:51<8109:33:31, 94.10s/it]

## expection talk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Các cuộc hội thoại sai, hoặc kém hay không có nghĩa như: "asdasd","ê","sđs",... thì chỉ rõ ra là câu hỏi người dùng chưa rõ ràng.
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Chỉ rõ chỗ hỏi chưa rõ ràng và hướng dẫn cách hỏi rõ ràng hơn.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy kiểm tra xem câu hỏi có nghĩa không và hãy chỉ tôi cách hỏi."
- "question": Câu hỏi sai, khó hiểu, lung tung, không có nghĩa hay sai.
- "answer": Chỉ ra lỗi hoặc hướng dẫn người dùng cách hỏi rõ ràng hơn, ví dụ: "Câu hỏi của bạn chưa rõ ràng, vui lòng cung cấp thêm thông tin để tôi có thể giúp bạn tốt hơn."
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


## Tư vấn khóa học, tài liệu

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer",
    "document/title", "document/tool", "document/description",
    "cme/title", "cme/tool", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn lâm sàng cho người dùng cuối**.
**Yêu cầu đặc biệt**:
- `answer` phải viết theo ngôn ngữ chuyên môn, **khoa học, cụ thể, không chung chung**, đủ để một bác sĩ hoặc chatbot sử dụng để diễn giải cho người bệnh.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào tư vấn, chỉ dạy cho các bác sỹ trẻ.
- "answer": Câu trả lời chi tiết, có thể bao gồm hướng dẫn, giải thích hoặc thông tin bổ sung liên quan đến câu hỏi cho các bác sỹ trẻ về cách thực hành y khoa, đến diễn giải lý thuyết, hoặc các khuyến nghị lâm sàng.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/tool": Luôn là "call_references"
- "document/description": Mô tả ngắn gọn tài liệu tham khảo cho người dùng học tập, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/tool": Luôn là "call_cme"
- "cme/description": Mô tả ngắn về khóa học CME , giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành cho người dùng hoc tập.

Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", ""),
                "document/title": data.get("document/title", ""),
                "document/tool": data.get("document/tool", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/tool": data.get("cme/tool", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")
