## Chuẩn đoán

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyDACh169FpAdWuCzw6r181Wx7tlEdXlcdU")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_diagnosis.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","icd_10", "icd_10/title", "question", "symptom", "diagnosis",
    "document/title",  "document/description",
    "cme/title", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.
Dựa vào đoạn văn sau:
"{dental_text}"
Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.
**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn lâm sàng cho người dùng cuối**.
**Yêu cầu đặc biệt**:
- Nếu đoạn văn có đề cập đến các **chỉ số lâm sàng** như độ sâu túi lợi, chỉ số mảng bám, số răng tổn thương, mức độ đau... thì **phải đưa các con số và dữ liệu đó vào `symptom` và `diagnosis`** để tăng độ chính xác cho chatbot.
- `symptom` và `diagnosis` phải viết theo ngôn ngữ chuyên môn, **khoa học, cụ thể, không chung chung**, đủ để một bác sĩ hoặc chatbot sử dụng để diễn giải cho người bệnh.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "icd_10": Mã bệnh ICD-10 của Bộ Y tế Việt Nam phù hợp nhất với đoạn văn (ví dụ: "A01.1", "P27.0") nhưng nếu không xác định được thì gán mã bệnh gần đúng nhất(Không được để trống).
- "icd_10/title": Tên mã bệnh ICD-10 tương ứng với mã ở trên đúng chuẩn Bộ y tế (ví dụ: "Bệnh lao phổi", "Viêm phổi do virus").
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào chẩn đoán hoặc điều trị y khoa (giống như người dùng hay bác sỹ trẻ hỏi chatbot).
- "symptom": Các triệu chứng hoặc dấu hiệu lâm sàng được nêu trong bài, hoặc suy luận có cơ sở khoa học. **Bao gồm cả các chỉ số định lượng nếu có** như: túi nha chu 6mm, PI=2.2, v.v.
- "diagnosis": Chẩn đoán nha khoa chi tiết, có thể phân loại theo mức độ bệnh hoặc giai đoạn nếu phù hợp. **Phải có cơ sở y khoa vững chắc** và dùng thông số hỗ trợ chẩn đoán nếu có.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/description": Mô tả ngắn gọn tài liệu tham khảo, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/description": Mô tả ngắn về khóa học CME, giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành.
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "icd_10": data.get("icd_10", ""),
                "icd_10/title": data.get("icd_10/title", ""),
                "question": data.get("question", ""),
                "symptom": data.get("symptom", ""),
                "diagnosis": data.get("diagnosis", ""),
                "document/title": data.get("document/title", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


## Small talk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Dữ liệu cho các tác vụ chung như chào hỏi, giải thích, tư vấn,...
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Dữ liệu cho các tác vụ chung của chatbot như chào hỏi, giải thích, tư vấn... để chatbot có thể phản hồi người dùng một cách tự nhiên và thân thiện.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy tư vấn và chào hỏi thân thiện."
- "question": Câu hỏi y khoa mà các bác sỹ sẽ hỏi đơn giản hay người dùng hỏi chatbot.
- "answer": Câu trả lời thân thiện cho người dùng (ví dụ: Người dùng xin chào thì chat bot sẽ chào lại và hỏi bạn cần giúp gì).
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


## expection talk

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyA99lJZAqngGBqXwg__S18VPWq2KRW9Vhc")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 5 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Các cuộc hội thoại sai, hoặc kém hay không có nghĩa như: "asdasd","ê","sđs",... thì chỉ rõ ra là câu hỏi người dùng chưa rõ ràng.
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa nha khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình nha khoa).
**Yêu cầu đặc biệt**:
- Chỉ rõ chỗ hỏi chưa rõ ràng và hướng dẫn cách hỏi rõ ràng hơn.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot, ví dụ: "Chatbot y khoa chuyên về nha khoa hãy kiểm tra xem câu hỏi có nghĩa không và hãy chỉ tôi cách hỏi."
- "question": Câu hỏi sai, khó hiểu, lung tung, không có nghĩa hay sai.
- "answer": Chỉ ra lỗi hoặc hướng dẫn người dùng cách hỏi rõ ràng hơn, ví dụ: "Câu hỏi của bạn chưa rõ ràng, vui lòng cung cấp thêm thông tin để tôi có thể giúp bạn tốt hơn."
Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


## Tư vấn khóa học, tài liệu

In [None]:
import pandas as pd
import google.generativeai as genai
import time
import os
from tqdm import tqdm
import json
# Cấu hình API Key
genai.configure(api_key="AIzaSyBGlAnlOtB63c0hJSFsNONeDP8ynFZsVRo")  # <-- Nhớ điền API key ở đây

# Khởi tạo model
model = genai.GenerativeModel(model_name='models/gemini-2.5-flash')

# File input và output
input_file = "../document_dataset/document_chunk_dataset.xlsx"
output_file = "SVYKHOA_dataset_guide.xlsx"

# Đọc dữ liệu đầu vào
try:
    df_input = pd.read_excel(input_file)
    df_input = df_input[['Text']].dropna().reset_index(drop=True)
    print(f"Đã đọc file Excel với {len(df_input)} dòng văn bản.")
except Exception as e:
    print(f"Lỗi khi đọc file Excel: {str(e)}")
    exit()

# Tạo DataFrame kết quả
result_columns = [
    "intruction","question", "answer",
    "document/title", "document/tool", "document/description",
    "cme/title", "cme/tool", "cme/description"
]
if os.path.exists(output_file):
    df_result = pd.read_excel(output_file)
else:
    df_result = pd.DataFrame(columns=result_columns)

# Prompt Template mới
prompt_template = """
Bạn là một chuyên gia y tế chuyên về y khoa. Nhiệm vụ của bạn là tạo dữ liệu huấn luyện dành cho một **chatbot y khoa chuyên về y khoa** nhằm giúp chatbot phản hồi người dùng một cách chính xác, khoa học và đáng tin cậy theo chuẩn ICD-10 của Bộ Y tế Việt Nam.

Dựa vào đoạn văn sau:

"{dental_text}"

Hãy sinh ra một **DANH SÁCH GỒM 3 ĐỐI TƯỢNG JSON** chứa đầy đủ TẤT CẢ các trường dưới đây. Tuyệt đối không được bỏ trống bất kỳ trường nào. Nếu đoạn văn không nêu rõ thông tin, bạn được phép **bổ sung hợp lý dựa trên kiến thức y khoa chính thống**, nhưng KHÔNG được bịa đặt hoặc sử dụng thông tin sai sự thật.

**Mục tiêu**: Dữ liệu được tạo ra sẽ được dùng để huấn luyện một **mô hình chatbot y tế**, vì vậy tất cả thông tin cần:
- Chính xác về mặt y học.
- Bám sát nội dung đoạn văn hoặc kiến thức y khoa y khoa phổ biến đã được xác thực (ví dụ: WHO, Bộ Y tế, giáo trình y khoa).
- Có giá trị hướng dẫn, giải thích rõ ràng, có thể dùng để **tư vấn cho những bác sỹ, sinh viên y khoa cách cải thiện và học hỏi kinh nghiệm**.
- Dữ liệu như là về việc tư vấn khóa học, tài liệu tham khảo để chatbot có thể đóng vai trò như một trợ lý học thuật chuyên ngành.
- Dữ liệu đồng thời hướng dẫn sinh viên y khoa, bác sỹ chuyên ngành chọn tài liệu và khóa học CME phù hợp để nâng cao kiến thức chuyên môn. 
**Yêu cầu đặc biệt**:
- `answer` phải trả lời như đang dạy, hướng dẫn sinh viên y khoa, bác sỹ cách làm và thực hành y khoa.
- `answer` trình bày đang dạng như cho bulletpoint, list, đoạn văn, một đoạn.
- Trong 3 Đối Tượng JSON hãy cho random trình bày thêm bảng dạng markdown vào `answer`đã trả lời vào  1 trong 3 Đối Tượng JSON hoặc không cần.
Các trường cần điền:
- "intruction": Mô tả ngắn gọn về nhiệm vụ của chatbot thiên về dạy, hướng dẫn các bác sỹ trẻ, sinh viên y khoa, ví dụ: "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10."
- "question": Một câu hỏi y khoa phù hợp với **nội dung bài viết và câu trả lời**, tập trung vào tư vấn, chỉ dạy cho các bác sỹ trẻ hoặc sinh viên y khoa.
- "answer": Câu trả lời chi tiết, có thể bao gồm hướng dẫn, giải thích hoặc thông tin bổ sung liên quan đến câu hỏi cho các bác sỹ trẻ về cách thực hành y khoa, đến diễn giải lý thuyết, hoặc các khuyến nghị lâm sàng.
- "document/title": Tiêu đề tài liệu y khoa liên quan đến nội dung đoạn văn.
- "document/description": Mô tả ngắn gọn tài liệu tham khảo cho người dùng học tập, nêu rõ mục đích hoặc giá trị ứng dụng.
- "cme/title": Tiêu đề khóa học đào tạo y khoa liên tục (CME) liên quan đến chủ đề trong đoạn văn.
- "cme/description": Mô tả ngắn về khóa học CME , giúp chatbot hiểu và phản hồi như một trợ lý học thuật chuyên ngành cho người dùng hoc tập.

Lưu ý:- Chỉ xuất đầu ra dưới dạng đối tượng JSON hợp lệ. KHÔNG thêm bất kỳ mô tả, lời giải thích hoặc đoạn văn nào khác bên ngoài JSON.
      - Không được bổ trống bất kỳ trường nào trong đối tượng JSON.
      - 
"""



# Hàm sinh dữ liệu
def generate_with_retry(prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = model.generate_content(prompt)
            if response.text:
                return response
        except Exception as e:
            if attempt < max_retries - 1:
                wait_time = (attempt + 1) * 5
                print(f"Lỗi, thử lại sau {wait_time}s... (Lần {attempt + 1})")
                time.sleep(wait_time)
            else:
                print(f"Lỗi sau {max_retries} lần thử: {str(e)}")
                return None
    return None

# Hàm xử lý và lưu
def process_and_save(response):
    try:
        cleaned = response.text.replace('```json', '').replace('```', '').strip()
        data_list = json.loads(cleaned)

        if not isinstance(data_list, list):
            raise ValueError("Kết quả không phải là danh sách JSON.")

        global df_result
        for data in data_list:
            new_row = {
                "intruction": data.get("intruction", ""),
                "question": data.get("question", ""),
                "answer": data.get("answer", ""),
                "document/title": data.get("document/title", ""),
                "document/description": data.get("document/description", ""),
                "cme/title": data.get("cme/title", ""),
                "cme/description": data.get("cme/description", "")
            }
            df_result.loc[len(df_result)] = new_row
        return True
    except Exception as e:
        print(f"\nLỗi xử lý response: {str(e)}")
        print(f"Response gốc: {response.text[:200]}...")
        return False

# Thiết lập số dòng xử lý
start_row = len(df_result)
end_row = len(df_input)
processed_count = 0
start_time = time.time()

# Vòng lặp xử lý
for index in tqdm(range(start_row, end_row)):
    row = df_input.iloc[index]
    retries = 0

    while retries < 3:
        try:
            dental_text = row['Text'].strip()
            prompt = prompt_template.format(dental_text=dental_text)
            response = generate_with_retry(prompt)

            if response and process_and_save(response):
                processed_count += 1
                df_result.to_excel(output_file, index=False)
                time.sleep(2)
                break
            else:
                retries += 1
                print(f"Retry dòng {index} - Lần {retries}")
                time.sleep(3)

        except Exception as e:
            print(f"\nLỗi dòng {index}: {str(e)}")
            retries += 1
            time.sleep(3)

# Lưu cuối
df_result.to_excel(output_file, index=False)
total_time = (time.time() - start_time) / 60
print(f"\nHoàn thành! Đã xử lý {processed_count} dòng.")
print(f"Thời gian chạy: {total_time:.2f} phút")
print(f"File kết quả: {output_file}")


Đã đọc file Excel với 310294 dòng văn bản.


  0%|          | 1/309034 [01:11<6111:54:56, 71.20s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 1461 (char 1856)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt dành cho các bác sĩ trẻ và sinh viên y khoa.",
    "question": "Thưa c...
Retry dòng 1261 - Lần 1

Lỗi xử lý response: Invalid control character at: line 14 column 1930 (char 6270)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hỗ trợ các bác sĩ trẻ và sinh viên y khoa về quản lý sức khỏe tâm thần và phòng...
Retry dòng 1261 - Lần 2


  0%|          | 5/309034 [10:00<9720:39:45, 113.24s/it] 


Lỗi xử lý response: Expecting ',' delimiter: line 6 column 5 (char 2852)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt chú trọng quản lý bệnh mạn tính và chăm sóc sức khỏe tại nhà cho người...
Retry dòng 1265 - Lần 1

Lỗi xử lý response: Invalid \escape: line 14 column 3529 (char 8130)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn các bác sĩ trẻ và sinh viên y khoa trong việc tiếp cận và quản lý bện...
Retry dòng 1265 - Lần 2


  0%|          | 11/309034 [20:37<8650:02:39, 100.77s/it]


Lỗi xử lý response: Invalid control character at: line 23 column 2975 (char 13013)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hỗ trợ bác sĩ trẻ và sinh viên y khoa trong việc đánh giá và triển khai chăm só...
Retry dòng 1271 - Lần 1

Lỗi xử lý response: Invalid control character at: line 14 column 3415 (char 8908)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 cho sinh viên và bác sĩ.",
    "question": "Theo kết quả nghiên cứu, nhu cầu chă...
Retry dòng 1271 - Lần 2

Lỗi xử lý response: Invalid control character at: line 10 column 1466 (char 4646)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và chuẩn Bộ Y tế Việt Nam, hỗ trợ bác sĩ trẻ và sinh viên y khoa trong việc tiếp...
Retry dòng 1271 - Lần 3


  0%|          | 12/309034 [26:54<15868:53:32, 184.87s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 2024 (char 6496)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các bằng chứng khoa học, hướng dẫn cải thiện thực hành và học hỏi kinh nghiệm...
Retry dòng 1272 - Lần 1

Lỗi xử lý response: Invalid \escape: line 14 column 3214 (char 8104)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, các nguyên tắc đạo đức y học và hướng dẫn thực hành nghiên cứu khoa học hiệu qu...
Retry dòng 1272 - Lần 2

Lỗi xử lý response: Invalid control character at: line 23 column 2518 (char 12140)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt dành cho các bác sĩ trẻ và sinh viên y khoa.",
    "question": "Với va...
Retry dòng 1272 - Lần 3


  0%|          | 18/309034 [37:37<8760:47:14, 102.06s/it] 


Lỗi xử lý response: Expecting ',' delimiter: line 6 column 5 (char 3050)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các tiêu chuẩn chẩn đoán hành vi.",
    "question": "Thưa chuyên gia, làm thế...
Retry dòng 1278 - Lần 1

Lỗi xử lý response: Invalid control character at: line 14 column 583 (char 5526)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 về các rối loạn hành vi và sức khỏe tâm thần liên quan đến công nghệ cho bác sĩ ...
Retry dòng 1278 - Lần 2

Lỗi xử lý response: Invalid control character at: line 18 column 2909 (char 7798)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, định hướng phát triển chuyên môn cho bác sĩ trẻ và sinh viên y khoa.",
    "que...
Retry dòng 1278 - Lần 3


  0%|          | 20/309034 [42:54<10637:22:55, 123.93s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 3609 (char 7533)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn về phương pháp nghiên cứu, thiết kế nghiên cứu dịch tễ học và ứng dụng thang đo lâm sàng cho các bác sĩ t...
Retry dòng 1280 - Lần 1


  0%|          | 21/309034 [45:14<11032:36:53, 128.53s/it]


Lỗi xử lý response: Invalid control character at: line 23 column 3512 (char 13954)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn các bác sĩ trẻ và sinh viên y khoa trong thực hành.",
    "question"...
Retry dòng 1281 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 2699 (char 3181)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt trong lĩnh vực sức khỏe tâm thần và hành vi.",
    "question": "Nghiê...
Retry dòng 1281 - Lần 2

Lỗi xử lý response: Invalid control character at: line 23 column 2264 (char 11772)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 của Bộ Y tế Việt Nam, hướng dẫn các bác sĩ trẻ và sinh viên y khoa trong thực hà...
Retry dòng 1281 - Lần 3


  0%|          | 22/309034 [49:47<14764:16:28, 172.00s/it]


Lỗi xử lý response: Invalid \escape: line 14 column 65 (char 4352)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn bác sĩ trẻ và sinh viên y khoa.",
    "question": "Dựa trên nghiên cứ...
Retry dòng 1282 - Lần 1


  0%|          | 24/309034 [55:06<14037:39:05, 163.54s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 4030 (char 10166)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 về các vấn đề sức khỏe tâm thần và hành vi.",
    "question": "Xin chào chuyên g...
Retry dòng 1284 - Lần 1

Lỗi xử lý response: Invalid control character at: line 18 column 1684 (char 7070)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn và đào tạo các bác sĩ trẻ, sinh viên y khoa về chẩn đoán và quản lý c...
Retry dòng 1284 - Lần 2

Lỗi xử lý response: Expecting ',' delimiter: line 6 column 5 (char 3234)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các bằng chứng khoa học cập nhật.",
    "question": "Thưa chuyên gia, dựa trê...
Retry dòng 1284 - Lần 3


  0%|          | 25/309034 [59:43<16978:05:34, 197.80s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 3089 (char 7957)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, tập trung vào sức khỏe tâm thần và các rối loạn hành vi ở sinh viên y khoa.",
 ...
Retry dòng 1285 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)


  0%|          | 27/309034 [1:15:35<26551:10:04, 309.33s/it]


Lỗi xử lý response: Invalid \escape: line 23 column 810 (char 10788)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đồng thời hướng dẫn sinh viên và bác sĩ trẻ trong nghiên cứu khoa học y học, đặ...
Retry dòng 1287 - Lần 1


  0%|          | 30/309034 [1:20:12<13818:23:27, 160.99s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 784 (char 1214)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các khuyến nghị của Bộ Y tế Việt Nam, hỗ trợ bác sĩ trẻ và sinh viên y khoa t...
Retry dòng 1290 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 1536 (char 2058)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, định hướng phát triển chuyên môn cho bác sĩ trẻ và sinh viên y khoa.",
    "que...
Retry dòng 1290 - Lần 2

Lỗi xử lý response: Invalid control character at: line 14 column 1744 (char 6855)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Thưa chuyên gia, làm thế nào để sinh viên y khoa và bác sĩ t...
Retry dòng 1290 - Lần 3


  0%|          | 31/309034 [1:24:03<15631:56:11, 182.12s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 14 column 1603 (char 6671)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Thưa chuyên gia, làm thế nào để một bác sĩ hoặc sinh viên y ...
Retry dòng 1291 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 642 (char 1042)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hỗ trợ đào tạo và phát triển năng lực chuyên môn cho các bác sĩ và sinh viên y ...
Retry dòng 1291 - Lần 2


  0%|          | 37/309034 [1:36:13<9792:05:50, 114.08s/it] 


Lỗi xử lý response: Invalid control character at: line 5 column 663 (char 1108)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, giúp bác sĩ trẻ và sinh viên y khoa nâng cao năng lực chẩn đoán hình ảnh thần k...
Retry dòng 1297 - Lần 1


  0%|          | 42/309034 [1:46:19<8746:34:22, 101.90s/it] 


Lỗi xử lý response: Invalid control character at: line 10 column 2921 (char 6382)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các kỹ thuật chẩn đoán hình ảnh tiên tiến, đặc biệt hữu ích cho sinh viên y k...
Retry dòng 1302 - Lần 1

Lỗi xử lý response: Invalid \escape: line 23 column 1397 (char 11484)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt về ứng dụng chẩn đoán hình ảnh thần kinh.",
    "question": "Thưa chuy...
Retry dòng 1302 - Lần 2

Lỗi xử lý response: Invalid control character at: line 5 column 1352 (char 1847)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt hướng dẫn bác sĩ trẻ và sinh viên y khoa nâng cao năng lực chẩn đoán h...
Retry dòng 1302 - Lần 3


  0%|          | 45/309034 [1:53:20<9849:13:40, 114.75s/it] 


Lỗi xử lý response: Invalid control character at: line 10 column 1567 (char 5517)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn bác sĩ trẻ và sinh viên y khoa về thực hành chẩn đoán hình ảnh thần k...
Retry dòng 1305 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 1889 (char 2433)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên các tiêu chuẩn chẩn đoán cập nhật và ICD-10 cho bác sĩ trẻ và sinh viên, nhằm nâng cao ...
Retry dòng 1305 - Lần 2

Lỗi xử lý response: Expecting ',' delimiter: line 23 column 1814 (char 13412)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt trong chẩn đoán hình ảnh thần kinh.",
    "question": "Thưa chuyên gia...
Retry dòng 1305 - Lần 3


  0%|          | 48/309034 [2:00:41<10900:14:06, 127.00s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 6 column 5 (char 3563)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 về nhiễm khuẩn vết mổ, giúp bác sĩ trẻ và sinh viên y khoa nâng cao kiến thức và...
Retry dòng 1308 - Lần 1


  0%|          | 50/309034 [2:04:54<10630:30:29, 123.86s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 1015 (char 6026)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt trong phân loại và quản lý nhiễm khuẩn vết mổ.",
    "question": "Thư...
Retry dòng 1310 - Lần 1

Lỗi xử lý response: Invalid control character at: line 23 column 3972 (char 15450)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt trong lĩnh vực phòng ngừa và quản lý nhiễm khuẩn vết mổ cho các bác sĩ...
Retry dòng 1310 - Lần 2

Lỗi xử lý response: Invalid control character at: line 5 column 3109 (char 3620)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên phân loại nhiễm khuẩn vết mổ (SSI) theo chuẩn của Bộ Y tế Việt Nam, tương thích với ngu...
Retry dòng 1310 - Lần 3


  0%|          | 51/309034 [2:12:38<19386:08:33, 225.87s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 399 (char 838)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 về các vấn đề liên quan đến nhiễm khuẩn vết mổ và phòng ngừa biến chứng sau phẫu...
Retry dòng 1311 - Lần 1


  0%|          | 55/309034 [2:21:09<13661:51:03, 159.18s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 486 (char 901)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và hướng dẫn thực hành cho các bác sĩ trẻ, sinh viên y khoa.",
    "question": "...
Retry dòng 1315 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 516 (char 1019)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt về phòng ngừa và quản lý nhiễm khuẩn vết mổ trong phẫu thuật tiêu hóa ...
Retry dòng 1315 - Lần 2


  0%|          | 56/309034 [2:26:45<18220:31:06, 212.29s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 2091 (char 6899)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt trong lĩnh vực ngoại khoa và kiểm soát nhiễm khuẩn.",
    "question": ...
Retry dòng 1316 - Lần 1


  0%|          | 57/309034 [2:29:37<17197:15:58, 200.37s/it]


Lỗi xử lý response: Invalid control character at: line 23 column 1061 (char 12413)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 về các loại nhiễm khuẩn vết mổ.",
    "question": "Thưa chuyên gia, khi chẩn đoá...
Retry dòng 1317 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 758 (char 1199)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Chào thầy, em là một sinh viên y khoa đang học về nhiễm khuẩ...
Retry dòng 1317 - Lần 2


  0%|          | 58/309034 [2:34:13<19140:23:51, 223.01s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 419 (char 877)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 về phòng ngừa và quản lý nhiễm khuẩn vết mổ, đặc biệt hữu ích cho bác sĩ và sinh...
Retry dòng 1318 - Lần 1

Lỗi xử lý response: Invalid control character at: line 23 column 815 (char 9717)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn bác sĩ trẻ và sinh viên y khoa về thực hành lâm sàng và học thuật.",
...
Retry dòng 1318 - Lần 2


  0%|          | 60/309034 [2:39:33<16268:15:53, 189.55s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 990 (char 1393)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hỗ trợ đào tạo và nâng cao kiến thức cho bác sĩ và sinh viên y khoa.",
    "que...
Retry dòng 1320 - Lần 1


  0%|          | 64/309034 [2:47:27<11382:18:10, 132.62s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 15 column 5 (char 8408)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Từ kết quả nghiên cứu về người cao tuổi mắc tăng huyết áp, l...
Retry dòng 1324 - Lần 1


  0%|          | 65/309034 [2:50:44<13046:03:43, 152.01s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 2902 (char 8893)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đồng thời hướng dẫn thực hành y khoa cho sinh viên, bác sĩ trẻ để nâng cao chấ...
Retry dòng 1325 - Lần 1


  0%|          | 66/309034 [2:52:20<11592:04:08, 135.07s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 2721 (char 7638)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt dành cho bác sĩ trẻ và sinh viên y khoa về quản lý bệnh mạn tính.",
  ...
Retry dòng 1326 - Lần 1


  0%|          | 69/309034 [2:57:08<9153:19:51, 106.65s/it] 


Lỗi xử lý response: Invalid control character at: line 14 column 1716 (char 5528)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, định hướng phát triển chuyên môn cho bác sĩ trẻ và sinh viên y khoa.",
    "qu...
Retry dòng 1329 - Lần 1


  0%|          | 72/309034 [3:02:31<8864:11:52, 103.28s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 2749 (char 9534)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Với vai trò là một bác sĩ trẻ hoặc sinh viên y khoa, làm thế...
Retry dòng 1332 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 690 (char 1085)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, nhằm hỗ trợ sinh viên y khoa và bác sĩ trẻ nâng cao kiến thức và kỹ năng thực h...
Retry dòng 1332 - Lần 2

Lỗi xử lý response: Invalid control character at: line 5 column 486 (char 916)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn các bác sĩ trẻ và sinh viên y khoa về thực hành nghề nghiệp và nâng c...
Retry dòng 1332 - Lần 3


  0%|          | 73/309034 [3:05:22<10596:40:59, 123.47s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 3040 (char 6912)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, định hướng phát triển chuyên môn cho bác sĩ trẻ và sinh viên y khoa.",
    "que...
Retry dòng 1333 - Lần 1

Lỗi xử lý response: Invalid control character at: line 14 column 2784 (char 7089)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, giúp bác sỹ trẻ và sinh viên y khoa nâng cao kiến thức và kỹ năng thực hành.",
...
Retry dòng 1333 - Lần 2

Lỗi xử lý response: Invalid control character at: line 5 column 937 (char 1386)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn các bác sĩ trẻ và sinh viên y khoa trong việc quản lý bệnh tăng huyết...
Retry dòng 1333 - Lần 3


  0%|          | 74/309034 [3:08:32<12319:38:29, 143.55s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 2442 (char 6797)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hỗ trợ phát triển kỹ năng y khoa và nâng cao năng lực chuyên môn.",
    "questi...
Retry dòng 1334 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 495 (char 846)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn cải thiện thực hành y khoa cho bác sĩ trẻ và sinh viên.",
    "questi...
Retry dòng 1334 - Lần 2


  0%|          | 75/309034 [3:13:24<16132:04:38, 187.97s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 2589 (char 7286)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hỗ trợ đào tạo và phát triển năng lực cho bác sĩ trẻ và sinh viên y khoa.",
   ...
Retry dòng 1335 - Lần 1


  0%|          | 76/309034 [3:17:27<17544:54:01, 204.43s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 6 column 5 (char 2608)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, giúp bác sỹ trẻ và sinh viên y khoa hiểu sâu về yếu tố độc lực của vi khuẩn H. ...
Retry dòng 1336 - Lần 1


  0%|          | 77/309034 [3:20:04<16345:42:26, 190.46s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 2479 (char 6784)
Response gốc: ```json
[
  {
    "intruction": "Chatbot hướng dẫn sinh viên y khoa về các yếu tố độc lực của Helicobacter pylori và ý nghĩa lâm sàng của chúng.",
    "question": "Chào chuyên gia, em là sinh viên y k...
Retry dòng 1337 - Lần 1


  0%|          | 78/309034 [3:23:44<17092:58:24, 199.17s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 3133 (char 7686)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Các bác sĩ trẻ cần hiểu rõ như thế nào về vai trò của các yế...
Retry dòng 1338 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 627 (char 1092)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, hướng dẫn các bác sĩ trẻ và sinh viên y khoa về các yếu tố độc lực của vi khuẩn H.pylori và ý nghĩa lâm sàng trong quản lý bệnh nhân."...
Retry dòng 1338 - Lần 2


  0%|          | 79/309034 [3:27:54<18413:39:19, 214.56s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 1220 (char 5040)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Làm thế nào để các biến thể gen CYP2C19 ảnh hưởng đến hiệu q...
Retry dòng 1339 - Lần 1


  0%|          | 86/309034 [3:41:41<9750:03:18, 113.61s/it] 


Lỗi xử lý response: Invalid control character at: line 14 column 1747 (char 5722)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn học tập và nâng cao chuyên môn cho bác sĩ và sinh viên.",
    "questi...
Retry dòng 1346 - Lần 1

Lỗi xử lý response: Invalid control character at: line 10 column 1140 (char 5524)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 về các bệnh lý tiêu hóa.",
    "question": "Thưa chuyên gia, làm thế nào các gen...
Retry dòng 1346 - Lần 2

Lỗi xử lý response: Invalid control character at: line 18 column 946 (char 5394)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Khi tiếp cận bệnh nhân nghi ngờ nhiễm Helicobacter pylori, đ...
Retry dòng 1346 - Lần 3


  0%|          | 88/309034 [3:48:05<12578:57:25, 146.58s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 980 (char 5876)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các bằng chứng khoa học mới nhất, nhằm hỗ trợ đào tạo và phát triển năng lực ...
Retry dòng 1348 - Lần 1


  0%|          | 90/309034 [3:53:40<12928:59:24, 150.66s/it]


Lỗi xử lý response: Invalid control character at: line 23 column 843 (char 12786)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt hướng dẫn cho các bác sĩ trẻ và sinh viên y khoa.",
    "question": "L...
Retry dòng 1350 - Lần 1


  0%|          | 91/309034 [3:58:28<16472:12:21, 191.94s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 1213 (char 1581)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Dựa trên dữ liệu về phân loại viêm teo dạ dày, xin hãy hướng...
Retry dòng 1351 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 1844 (char 2409)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, các khuyến nghị thực hành và kiến thức y học cập nhật, định hướng cho các bác s...
Retry dòng 1351 - Lần 2


  0%|          | 92/309034 [4:04:07<20261:35:02, 236.10s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 3152 (char 10931)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10. Nhiệm vụ là hướng dẫn bác sĩ trẻ, sinh viên y khoa trong việc phân tích các yếu...
Retry dòng 1352 - Lần 1

Lỗi xử lý response: Expecting ',' delimiter: line 15 column 5 (char 7918)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng về các yếu tố độc lực của vi khuẩn H. pylori, giúp bác sĩ trẻ và sinh viên y khoa hiểu sâu về cơ...
Retry dòng 1352 - Lần 2

Lỗi xử lý response: Invalid control character at: line 5 column 679 (char 1002)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Thưa chuyên gia, sinh viên y khoa cần hiểu gì về mối liên hệ...
Retry dòng 1352 - Lần 3


  0%|          | 98/309034 [4:18:22<11571:12:59, 134.84s/it]


Lỗi xử lý response: Invalid control character at: line 5 column 1080 (char 1466)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hỗ trợ đào tạo và phát triển chuyên môn cho bác sĩ và sinh viên y khoa.",
    "...
Retry dòng 1358 - Lần 1


  0%|          | 99/309034 [4:20:54<12036:31:10, 140.26s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 1385 (char 4750)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Với kiến thức về đường đi và sự phân nhánh phức tạp của thần...
Retry dòng 1359 - Lần 1

Lỗi xử lý response: Invalid control character at: line 14 column 2602 (char 7270)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giải phẫu học ứng dụng và lâm sàng, cung cấp thông tin và tư vấn thực hành y khoa cho sinh viên và bác sĩ trẻ.",
    "question": "Là một bác s...
Retry dòng 1359 - Lần 2

Lỗi xử lý response: Invalid control character at: line 5 column 2169 (char 2788)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt về giải phẫu thần kinh phụ và ứng dụng lâm sàng trong chẩn đoán và điề...
Retry dòng 1359 - Lần 3


  0%|          | 100/309034 [4:26:57<17766:21:46, 207.03s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 2296 (char 5935)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt trong lĩnh vực giải phẫu và thần kinh học ứng dụng.",
    "question": ...
Retry dòng 1360 - Lần 1

Lỗi xử lý response: Invalid control character at: line 10 column 2408 (char 5658)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Nghiên cứu về giải phẫu thần kinh phụ (TKP) và cơ thang (CTh...
Retry dòng 1360 - Lần 2


  0%|          | 102/309034 [4:32:56<16160:49:07, 188.32s/it]


Lỗi xử lý response: Invalid control character at: line 14 column 1968 (char 6307)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên kiến thức giải phẫu thần kinh cổ và các tiêu chuẩn y tế hiện hành.",
    "question": "T...
Retry dòng 1362 - Lần 1


  0%|          | 103/309034 [4:35:17<14931:17:34, 174.00s/it]


Lỗi xử lý response: Expecting ',' delimiter: line 15 column 1626 (char 8308)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên sâu về giải phẫu học thần kinh, cung cấp kiến thức và hướng dẫn ứng dụng lâm sàng cho các thủ thuật liên quan đến thần kinh phụ (TKP).",
    "que...
Retry dòng 1363 - Lần 1


  0%|          | 104/309034 [4:38:13<14997:17:19, 174.77s/it]


Lỗi xử lý response: Invalid control character at: line 15 column 2971 (char 10084)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và chuẩn y khoa của Bộ Y tế Việt Nam.",
    "question": "Thưa chuyên gia, xin v...
Retry dòng 1364 - Lần 1

Lỗi xử lý response: Invalid control character at: line 5 column 1809 (char 2169)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Với vai trò là một bác sĩ trẻ hoặc sinh viên y khoa, chúng t...
Retry dòng 1364 - Lần 2

Lỗi xử lý response: Expecting ',' delimiter: line 10 column 113496 (char 117787)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 cho các bác sĩ và sinh viên y khoa nhằm nâng cao kiến thức và kỹ năng thực hành....
Retry dòng 1364 - Lần 3


  0%|          | 105/309034 [4:43:50<19152:22:31, 223.19s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 1801 (char 5187)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Chào bạn, tôi là một sinh viên y khoa năm cuối đang nghiên c...
Retry dòng 1365 - Lần 1
Lỗi, thử lại sau 5s... (Lần 1)

Lỗi xử lý response: Invalid control character at: line 23 column 3218 (char 13255)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, đặc biệt về giải phẫu chức năng và ứng dụng trong chẩn đoán, điều trị.",
    "q...
Retry dòng 1365 - Lần 2


  0%|          | 111/309034 [5:04:00<16244:49:34, 189.31s/it]


Lỗi xử lý response: Invalid control character at: line 10 column 3386 (char 8575)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10, hướng dẫn bác sĩ và sinh viên y khoa.",
    "question": "Thưa chuyên gia, xin v...
Retry dòng 1371 - Lần 1

Lỗi xử lý response: Expecting ',' delimiter: line 24 column 1 (char 10530)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về giải phẫu lâm sàng, cung cấp thông tin và tư vấn thực hành dựa trên các đặc điểm giải phẫu thần kinh, đặc biệt chú trọng vùng cổ vai.",
    "q...
Retry dòng 1371 - Lần 2


  0%|          | 117/309034 [5:23:52<14662:47:26, 170.87s/it]


Lỗi xử lý response: Invalid control character at: line 25 column 3162 (char 11594)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10.",
    "question": "Kết quả nghiên cứu cho thấy sinh viên chuyên ngành hộ sinh c...
Retry dòng 1377 - Lần 1

Lỗi xử lý response: Invalid control character at: line 10 column 3943 (char 7191)
Response gốc: ```json
[
  {
    "intruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 và các khuyến nghị của Bộ Y tế Việt Nam.",
    "question": "Theo kết quả nghiên ...
Retry dòng 1377 - Lần 2


  0%|          | 118/309034 [5:30:40<20759:38:10, 241.93s/it]


Lỗi xử lý response: Invalid control character at: line 23 column 2602 (char 9340)
Response gốc: ```json
[
  {
    "instruction": "Chatbot y khoa chuyên về y khoa, cung cấp thông tin và tư vấn lâm sàng dựa trên ICD-10 về phòng ngừa tổn thương do vật sắc nhọn.",
    "question": "Làm thế nào để sin...
Retry dòng 1378 - Lần 1


  0%|          | 119/309034 [5:35:05<21359:06:15, 248.91s/it]