In [2]:
!pip install pandas openpyxl sentence-transformers chromadb torch google.generativeai ipywidgets


Collecting ipywidgets
  Using cached ipywidgets-8.1.5-py3-none-any.whl.metadata (2.3 kB)
Using cached ipywidgets-8.1.5-py3-none-any.whl (139 kB)
Installing collected packages: ipywidgets
Successfully installed ipywidgets-8.1.5


# Tổng hợp nội dung chủ đề

In [1]:
import pandas as pd
import numpy as np
import google.generativeai as genai
import os
# from tqdm.notebook import tqdm  # Or use standard tqdm if not in notebook
from tqdm import tqdm  # Or use standard tqdm if not in notebook
import time  # To add delays if needed for API rate limits
import random  # For random sampling

import ipywidgets
print("ipywidgets imported successfully!")

print(f"Thư mục làm việc hiện tại của Kernel là: {os.getcwd()}") # Giữ lại dòng này để kiểm tra nếu cần

# --- Configuration ---
# Vì CWD đã là thư mục 'content', chỉ cần cung cấp tên file
SEARCH_DATA_PATH = 'Data search_with_embeddings.xlsx'
TEST_DATA_PATH = 'Data test.xlsx'
print(f"Thư mục làm việc hiện tại của Kernel là: {os.getcwd()}")
SEARCH_ID_COL = 'ID'
SEARCH_CONTENT_COL = 'Nội dung'  # Column with text content in search file
SEARCH_TOPIC_COL = 'Chủ đề'     # Column with topic in search file
TEST_ID_COL = 'ID'              # Column with target ID in test file
TEST_QUESTION_COL = 'Câu hỏi'   # Column with question text in test file

# Max number of content items per topic to feed Gemini for summarization
MAX_CONTENT_ITEMS_FOR_SUMMARY = 200

# Gemini Configuration
# Load API Key from .env file (Create a .env file with GEMINI_API_KEY=YOUR_API_KEY)
GEMINI_API_KEY = 'AIzaSyBcf15Ozchva7Y6-lVOtHKMBIqwatuI2Lk'
if not GEMINI_API_KEY or GEMINI_API_KEY == 'YOUR_API_KEY':
     # Fallback or error handling if key is missing
     print("Lỗi: Vui lòng đặt GEMINI_API_KEY của bạn vào code.")
     # exit() # Uncomment this line to stop execution if the key is mandatory

# Choose the model
# Use gemini-1.5-flash for potentially better performance and larger context
GEMINI_MODEL_NAME = 'gemini-2.0-flash-thinking-exp-01-21' # Consider trying this model as well

# Optional: Delay between API calls (in seconds) to avoid rate limits
API_CALL_DELAY = 2  # Adjust as needed

# --- Initialize Gemini ---
if not GEMINI_API_KEY or GEMINI_API_KEY == 'YOUR_API_KEY': # Check again before configuring
    print("Lỗi: Không tìm thấy GEMINI_API_KEY. Hãy đặt trực tiếp vào code hoặc sử dụng biến môi trường.")
    exit()

try:
    genai.configure(api_key=GEMINI_API_KEY)
    gemini_llm = genai.GenerativeModel(GEMINI_MODEL_NAME)
    print(f"Đã khởi tạo mô hình Gemini: {GEMINI_MODEL_NAME}")
except Exception as e:
    print(f"Lỗi khi khởi tạo mô hình Gemini: {e}")
    exit()

# --- Helper Functions ---
def load_data(file_path, required_cols):
    """Loads Excel data and validates required columns."""
    print(f"Đang tải dữ liệu từ: {file_path}...")
    try:
        df = pd.read_excel(file_path)
        print(f"Đã tải {len(df)} dòng.")
        if not all(col in df.columns for col in required_cols):
            missing = [col for col in required_cols if col not in df.columns]
            print(f"Lỗi: File Excel '{file_path}' thiếu các cột cần thiết: {missing}")
            return None
        # Don't drop NaNs here yet, handle specifically later
        print(f"Số dòng ban đầu trong file {file_path}: {len(df)}")
        return df
    except FileNotFoundError:
        print(f"Lỗi: Không tìm thấy file {file_path}")
        return None
    except Exception as e:
        print(f"Lỗi khi tải hoặc xử lý file Excel {file_path}: {e}")
        return None

def generate_summary_with_gemini(topic_name, content_list, llm):
    """Generates a summary for a list of content using Gemini."""
    print(f"\n--- Đang tạo tóm tắt cho chủ đề: {topic_name} ---")
    if not content_list:
        print(f"Cảnh báo: Không có nội dung cho chủ đề '{topic_name}'.")
        return "Không có nội dung để tóm tắt."

    # Ensure content items are strings and handle potential NaNs passed in
    valid_content_list = [str(c) for c in content_list if pd.notna(c)]
    if not valid_content_list:
         print(f"Cảnh báo: Không có nội dung hợp lệ (sau khi lọc NaN) cho chủ đề '{topic_name}'.")
         return "Không có nội dung hợp lệ để tóm tắt."

    # Sample content for summarization if there are too many items
    if len(valid_content_list) > MAX_CONTENT_ITEMS_FOR_SUMMARY:
        content_to_summarize_list = random.sample(valid_content_list, MAX_CONTENT_ITEMS_FOR_SUMMARY)
        print(f"Đã lấy mẫu {MAX_CONTENT_ITEMS_FOR_SUMMARY} mục từ {len(valid_content_list)} mục cho chủ đề '{topic_name}'.")
    else:
        content_to_summarize_list = valid_content_list
        print(f"Sử dụng tất cả {len(valid_content_list)} mục nội dung hợp lệ cho chủ đề '{topic_name}'.")

    # --- MODIFICATION: Removed character limit ---
    # Combine full content snippets
    content_to_summarize = "\n---\n".join(content_to_summarize_list)
    # --- End Modification ---

    # Add a check for potentially excessive length (optional, but good practice)
    # Gemini 1.5 Flash has a large context, but still good to be aware
    if len(content_to_summarize) > 150000: # Example threshold, adjust as needed
        print(f"Cảnh báo: Nội dung tổng hợp cho '{topic_name}' khá dài ({len(content_to_summarize)} ký tự). Có thể mất nhiều thời gian hoặc gặp lỗi API.")

    prompt = f"""
Dưới đây là một số ví dụ về nội dung (câu hỏi, bài toán, lý thuyết) được GÁN cho chủ đề '{topic_name}':

Nội dung ví dụ:
{content_to_summarize}

Dựa *chặt chẽ* vào các ví dụ này, hãy viết một bản **mô tả chi tiết** về chủ đề '{topic_name}'.
Mô tả này cần phải đủ cụ thể để giúp **phân biệt** chủ đề này với các chủ đề khác và **xác định phạm vi nội dung** của nó, phục vụ cho việc **giới hạn dữ liệu cần truy xuất** sau này.

Hãy tập trung vào việc xác định và nêu bật:
    *   Các **loại câu hỏi/dạng bài tập** đặc trưng xuất hiện trong ví dụ (ví dụ: tính toán giá trị cụ thể, chứng minh đẳng thức/bất đẳng thức, giải phương trình/hệ phương trình, phân tích đồ thị, câu hỏi lý thuyết trắc nghiệm/tự luận, bài toán ứng dụng thực tế,...).
    *   Các **khái niệm, định nghĩa, công thức, định lý, hoặc đối tượng toán học/khoa học cốt lõi** được đề cập hoặc cần sử dụng để giải quyết các ví dụ.
    *   Các **kỹ năng hoặc phương pháp giải quyết** cần thiết (ví dụ: biến đổi đại số, sử dụng đạo hàm/tích phân, áp dụng định luật cụ thể, lập luận logic, vẽ hình,...).
    *   Bất kỳ **phạm vi hoặc giới hạn** nào có thể suy ra từ các ví dụ (ví dụ: chỉ tập trung vào hàm số bậc hai, chỉ xét trong mặt phẳng Oxy, giới hạn trong chương trình phổ thông,...).

Lưu ý: Mô tả phải được suy luận **hoàn toàn** từ nội dung ví dụ được cung cấp, không thêm kiến thức bên ngoài về chủ đề '{topic_name}'.

Mô tả chi tiết cho chủ đề '{topic_name}':
"""

    try:
        time.sleep(API_CALL_DELAY)
        # Increased timeout might be needed for longer inputs
        request_options = {"request_options": {"timeout": 600}} # 10 minutes, adjust if needed
        response = llm.generate_content(prompt, generation_config=genai.types.GenerationConfig(temperature=0.5), **request_options) # Added temp and options

        # Enhanced response handling
        summary = None
        if hasattr(response, 'text'):
            summary = response.text.strip()
        elif hasattr(response, 'parts') and response.parts:
            summary = response.parts[0].text.strip()

        if summary:
            print(f"Tóm tắt cho '{topic_name}':\n{summary}")
            return summary
        elif hasattr(response, 'prompt_feedback') and response.prompt_feedback and hasattr(response.prompt_feedback, 'block_reason'):
            reason = response.prompt_feedback.block_reason
            print(f"Cảnh báo: Yêu cầu tóm tắt cho '{topic_name}' bị chặn. Lý do: {reason}")
            return f"[Bị chặn do bộ lọc an toàn: {reason}]"
        else:
            print(f"Cảnh báo: Gemini không trả về nội dung tóm tắt cho '{topic_name}'. Phản hồi: {response}")
            return "[Không có phản hồi từ Gemini]"

    except Exception as e:
        print(f"Lỗi khi gọi Gemini để tóm tắt chủ đề '{topic_name}': {e}")
        # Try to get more details from the exception if it's an API error
        error_details = getattr(e, 'message', str(e))
        print(f"Chi tiết lỗi (nếu có): {error_details}")
        return f"[Lỗi API: {str(error_details)[:200]}]"


def identify_topic_with_gemini(query, available_topics, topic_summaries, llm):
    """Identifies topic for a query using Gemini, now with topic summaries in prompt."""
    if not query or not isinstance(query, str) or not query.strip():
        print("Cảnh báo: Câu hỏi trống hoặc không hợp lệ.")
        return None

    if not available_topics: # Check if list is empty or None
        print("Cảnh báo: Danh sách chủ đề trống.")
        return None

    # Build topic descriptions string for the prompt
    topic_descriptions_str = ""
    for topic in available_topics:
        # Handle case where a topic might exist but failed to get a summary
        summary = topic_summaries.get(topic, "[Không có tóm tắt hoặc lỗi tóm tắt]")
        topic_descriptions_str += f"- **{topic}**: {summary}\n"


    prompt = f"""
    Cho câu hỏi/nội dung sau: "{query}"

    Hãy xác định một chủ đề phù hợp nhất cho nội dung này từ danh sách chủ đề dưới đây, dựa vào mô tả của từng chủ đề.
    Chỉ trả về TÊN CHỦ ĐỀ DUY NHẤT và chính xác như trong danh sách, không thêm bất kỳ giải thích, dấu gạch đầu dòng, in đậm hay bất kì định dạng nào khác.


    Mô tả các chủ đề:
    {topic_descriptions_str}

    Danh sách chủ đề (chọn một từ đây):
    {chr(10).join(f"- {topic}" for topic in available_topics)}

    Chủ đề phù hợp nhất:
    """

    try:
        time.sleep(API_CALL_DELAY)
        response = llm.generate_content(prompt, generation_config=genai.types.GenerationConfig(temperature=0.2)) # Lower temp for more deterministic choice

        identified_topic = None
        if hasattr(response, 'text'):
            identified_topic = response.text.strip()
        elif hasattr(response, 'parts') and response.parts:
            identified_topic = response.parts[0].text.strip()
        else:
            if hasattr(response, 'prompt_feedback') and response.prompt_feedback and hasattr(response.prompt_feedback, 'block_reason'):
                 reason = response.prompt_feedback.block_reason
                 print(f"Cảnh báo: Yêu cầu xác định chủ đề bị chặn. Lý do: {reason}")
                 return f"[Bị chặn: {reason}]" # Return specific status
            else:
                print(f"Debug: Không thể trích xuất văn bản từ phản hồi Gemini cho câu hỏi: '{query[:50]}...'. Phản hồi: {response}")
                return "[Lỗi Phản Hồi]" # Return specific status

        # Clean up response - more robustly
        identified_topic = identified_topic.replace('*', '').replace('-', '').strip()

        # Strict validation against available topics list
        # Use case-insensitive comparison for matching, but return the original casing
        for topic_original_case in available_topics:
            if identified_topic.lower() == topic_original_case.lower():
                return topic_original_case # Return the correctly cased topic name

        # If no exact match (after cleaning and case-insensitive check)
        print(f"Debug: Gemini trả về '{identified_topic}' cho câu hỏi '{query[:50]}...', không khớp chính xác với danh sách chủ đề.")
        # Optional: Try a less strict match or return the raw response if needed for debugging
        # return identified_topic # Uncomment to return the raw (but cleaned) response even if not matching
        return "[Không khớp]" # Return specific status indicating mismatch

    except Exception as e:
        print(f"Lỗi khi gọi Gemini để xác định chủ đề cho câu hỏi: '{query[:50]}...': {e}")
        error_details = getattr(e, 'message', str(e))
        print(f"Chi tiết lỗi (nếu có): {error_details}")
        return "[Lỗi API]" # Return specific status


# --- Main Execution ---

# 1. Load Data
print("\n===== BẮT ĐẦU TẢI DỮ LIỆU =====")
df_search = load_data(SEARCH_DATA_PATH, [SEARCH_ID_COL, SEARCH_CONTENT_COL, SEARCH_TOPIC_COL])
df_test = load_data(TEST_DATA_PATH, [TEST_ID_COL, TEST_QUESTION_COL])

# Exit if essential data failed to load
if df_search is None or df_test is None:
    print("\nLỗi: Không thể tải một hoặc cả hai file dữ liệu cần thiết. Đang dừng thực thi.")
    exit()

# Drop rows with missing essential info *after* loading
df_search.dropna(subset=[SEARCH_ID_COL, SEARCH_CONTENT_COL, SEARCH_TOPIC_COL], inplace=True)
df_test.dropna(subset=[TEST_ID_COL, TEST_QUESTION_COL], inplace=True)
print(f"Số dòng search hợp lệ (sau khi bỏ NaN cột cần thiết): {len(df_search)}")
print(f"Số dòng test hợp lệ (sau khi bỏ NaN cột cần thiết): {len(df_test)}")

# 2. Summarize Content per Topic
print("\n===== BẮT ĐẦU TÓM TẮT NỘI DUNG THEO CHỦ ĐỀ =====")
topic_summaries = {}
available_topics_list = df_search[SEARCH_TOPIC_COL].unique().tolist()
print(f"Tìm thấy {len(available_topics_list)} chủ đề duy nhất trong dữ liệu search: {', '.join(available_topics_list)}")

# Ensure available_topics_list is not empty before proceeding
if not available_topics_list:
    print("Lỗi: Không tìm thấy chủ đề nào trong dữ liệu search đã lọc. Không thể tiếp tục.")
    exit()

# Group content by topic first for efficiency
grouped_content = df_search.groupby(SEARCH_TOPIC_COL)[SEARCH_CONTENT_COL].apply(list).to_dict()

for topic in tqdm(available_topics_list, desc="Tạo tóm tắt chủ đề"):
    topic_content = grouped_content.get(topic, []) # Get content for the current topic
    if topic_content:
        summary = generate_summary_with_gemini(topic, topic_content, gemini_llm)
        topic_summaries[topic] = summary
    else:
         print(f"Cảnh báo: Không tìm thấy nội dung cho chủ đề '{topic}' sau khi nhóm.")
         topic_summaries[topic] = "[Không có nội dung]" # Assign placeholder

print("\n===== KẾT THÚC TÓM TẮT NỘI DUNG =====")
print(f"Đã tạo tóm tắt cho {len(topic_summaries)} chủ đề.")


ipywidgets imported successfully!
Thư mục làm việc hiện tại của Kernel là: f:\fontend_NCKH_MATHCHATBOT\backend\content
Thư mục làm việc hiện tại của Kernel là: f:\fontend_NCKH_MATHCHATBOT\backend\content
Đã khởi tạo mô hình Gemini: gemini-2.0-flash-thinking-exp-01-21

===== BẮT ĐẦU TẢI DỮ LIỆU =====
Đang tải dữ liệu từ: Data search_with_embeddings.xlsx...
Đã tải 504 dòng.
Số dòng ban đầu trong file Data search_with_embeddings.xlsx: 504
Đang tải dữ liệu từ: Data test.xlsx...
Đã tải 1779 dòng.
Số dòng ban đầu trong file Data test.xlsx: 1779
Số dòng search hợp lệ (sau khi bỏ NaN cột cần thiết): 504
Số dòng test hợp lệ (sau khi bỏ NaN cột cần thiết): 1779

===== BẮT ĐẦU TÓM TẮT NỘI DUNG THEO CHỦ ĐỀ =====
Tìm thấy 5 chủ đề duy nhất trong dữ liệu search: Số thực, Hàm số và giới hạn của hàm số, Phép tính vi phân và ứng dụng, Dãy số và giới hạn của dãy số, Phép tính tích phân và ứng dụng


Tạo tóm tắt chủ đề:   0%|          | 0/5 [00:00<?, ?it/s]


--- Đang tạo tóm tắt cho chủ đề: Số thực ---
Sử dụng tất cả 22 mục nội dung hợp lệ cho chủ đề 'Số thực'.


Tạo tóm tắt chủ đề:  20%|██        | 1/5 [00:22<01:28, 22.03s/it]

Tóm tắt cho 'Số thực':
Dựa trên các ví dụ đã cho về chủ đề 'Số thực', chúng ta có thể mô tả chi tiết chủ đề này như sau:

**Mô tả chi tiết cho chủ đề 'Số thực'**

Chủ đề 'Số thực' tập trung vào việc nghiên cứu các tính chất nền tảng và ứng dụng của tập hợp số thực $\mathbb{R}$. Phạm vi nội dung chủ yếu xoay quanh các khái niệm cơ bản của giải tích thực, đặc biệt là tính đầy đủ của trường số thực, các bất đẳng thức và ứng dụng của chúng.

**1. Các loại câu hỏi/dạng bài tập đặc trưng:**

*   **Câu hỏi định nghĩa và phân biệt khái niệm:** Yêu cầu phân biệt và làm rõ sự khác nhau giữa các khái niệm liên quan như supremum và maximum, infimum và minimum, cận trên và cận trên đúng, cận dưới và cận dưới đúng. Dạng bài tập này thường đi kèm với việc yêu cầu đưa ra ví dụ minh họa để làm rõ sự khác biệt.
*   **Bài tập chứng minh định lý và tính chất:**  Đây là dạng bài tập chiếm phần lớn, bao gồm chứng minh các định lý về supremum và infimum (Nguyên lý supremum, Nguyên lý infimum, Tính chất của s

Tạo tóm tắt chủ đề:  40%|████      | 2/5 [00:57<01:30, 30.08s/it]

Tóm tắt cho 'Hàm số và giới hạn của hàm số':
Dựa trên các ví dụ đã cho, chủ đề 'Hàm số và giới hạn của hàm số' có thể được mô tả chi tiết như sau:

Chủ đề này tập trung vào việc nghiên cứu **hàm số một biến số thực** và khái niệm **giới hạn** của chúng, bao gồm cả giới hạn hữu hạn, giới hạn vô hạn và giới hạn tại vô cực. Phạm vi nội dung chủ yếu bao gồm:

**1. Các loại câu hỏi/dạng bài tập đặc trưng:**

*   **Tính toán giới hạn:**
    *   Tính giới hạn của các hàm số cơ bản (đa thức, phân thức, lượng giác, mũ, logarit) tại một điểm hữu hạn hoặc vô cực.
    *   Tính giới hạn một phía.
    *   Tính giới hạn của các hàm số được xây dựng từ các phép toán số học (cộng, trừ, nhân, chia, hợp) trên các hàm số cơ bản.
    *   Khử các dạng vô định (0/0, ∞/∞, ∞⁰, 0⁰) bằng các kỹ thuật khác nhau (biến đổi đại số, quy tắc L'Hôpital, khai triển Taylor, sử dụng vô cùng bé tương đương, nhân liên hợp).
*   **Chứng minh:**
    *   Chứng minh sự tồn tại hoặc không tồn tại của giới hạn hàm số tại một điểm

Tạo tóm tắt chủ đề:  60%|██████    | 3/5 [01:39<01:11, 35.58s/it]

Tóm tắt cho 'Phép tính vi phân và ứng dụng':
Mô tả chi tiết về chủ đề 'Phép tính vi phân và ứng dụng' (Differential Calculus and Applications) dựa trên các ví dụ đã cho:

Chủ đề 'Phép tính vi phân và ứng dụng' tập trung vào việc nghiên cứu **đạo hàm** và **vi phân** của hàm số một biến, cùng với các **ứng dụng** đa dạng của chúng trong cả toán học và các lĩnh vực liên quan. Dựa trên các ví dụ đã cung cấp, có thể mô tả chi tiết chủ đề này như sau:

**1. Các loại câu hỏi/dạng bài tập đặc trưng:**

*   **Tính toán đạo hàm và vi phân:**
    *   Tính đạo hàm cấp một và cấp cao bằng định nghĩa và quy tắc.
    *   Tính vi phân cấp một.
    *   Tính đạo hàm và vi phân của các hàm số sơ cấp cơ bản, hàm hợp, hàm ngược, hàm cho bởi nhiều công thức.
    *   Sử dụng phương pháp logarit hóa để tính đạo hàm.
*   **Khảo sát tính khả vi của hàm số:**
    *   Xác định điều kiện để hàm số có đạo hàm tại một điểm hoặc trên một khoảng.
    *   Xét tính khả vi tại điểm nối của hàm số từng khúc.
    *   Tìm 

Tạo tóm tắt chủ đề:  80%|████████  | 4/5 [02:17<00:36, 36.21s/it]

Tóm tắt cho 'Dãy số và giới hạn của dãy số':
Dựa trên các ví dụ đã cung cấp, dưới đây là mô tả chi tiết về chủ đề 'Dãy số và giới hạn của dãy số':

**Mô tả chi tiết chủ đề 'Dãy số và giới hạn của dãy số'**

Chủ đề 'Dãy số và giới hạn của dãy số' tập trung vào việc nghiên cứu các dãy số vô hạn các số thực và khái niệm giới hạn của chúng. Phạm vi nội dung chủ yếu bao gồm:

**1. Các loại câu hỏi/dạng bài tập đặc trưng:**

*   **Định nghĩa và nhận dạng:**
    *   Xác định một dãy số có bị chặn trên, bị chặn dưới, bị chặn hay không.
    *   Xác định một dãy số là dãy tăng, dãy giảm, dãy đơn điệu hay không đơn điệu.
    *   Nhận biết và xác định dãy con của một dãy số cho trước.
    *   Kiểm tra một số cho trước có phải là giới hạn của dãy số theo định nghĩa epsilon-n0 hay không.
    *   Phân biệt dãy hội tụ và dãy phân kỳ.
    *   Xác định giới hạn trên và giới hạn dưới của một dãy số.
    *   Nhận biết và sử dụng định nghĩa dãy Cauchy.

*   **Tính giới hạn của dãy số:**
    *   Tính giới h

Tạo tóm tắt chủ đề: 100%|██████████| 5/5 [02:37<00:00, 31.43s/it]

Tóm tắt cho 'Phép tính tích phân và ứng dụng':
Dựa trên các ví dụ đã cho, mô tả chi tiết về chủ đề 'Phép tính tích phân và ứng dụng' như sau:

**Mô tả chi tiết chủ đề 'Phép tính tích phân và ứng dụng'**

Chủ đề 'Phép tính tích phân và ứng dụng' tập trung vào việc nghiên cứu về phép tính tích phân, bao gồm cả tích phân bất định (nguyên hàm) và tích phân xác định (tích phân Darboux và Riemann), cùng với các ứng dụng của tích phân trong hình học. Phạm vi nội dung được xác định hoàn toàn dựa trên các ví dụ đã cung cấp, bao gồm:

**1. Các loại câu hỏi/dạng bài tập đặc trưng:**

*   **Tính toán tích phân bất định:**
    *   Tính nguyên hàm của các hàm số cơ bản và phức tạp hơn.
    *   Sử dụng các phương pháp tính tích phân bất định như:
        *   Phương pháp đổi biến số (thay thế).
        *   Phương pháp tích phân từng phần.
        *   Tích phân các hàm hữu tỷ (phân tích thành phân thức đơn giản).
        *   Tích phân các hàm vô tỷ (sử dụng phép đổi biến để hữu tỷ hóa, phép biến đổi Eu




In [2]:
# 3. Evaluate Topic Identification Prompt
print("\n===== BẮT ĐẦU ĐÁNH GIÁ PROMPT XÁC ĐỊNH CHỦ ĐỀ (CÓ TÓM TẮT) =====")

# Create mapping from ID to TRUE topic from search data
# Ensure IDs are of compatible types (e.g., both strings or both numbers)
# Handle potential errors if IDs are mixed types
try:
    df_search[SEARCH_ID_COL] = df_search[SEARCH_ID_COL].astype(str)
    df_test[TEST_ID_COL] = df_test[TEST_ID_COL].astype(str)
    id_to_true_topic_map = pd.Series(df_search[SEARCH_TOPIC_COL].values,
                                     index=df_search[SEARCH_ID_COL]).to_dict()
except Exception as e:
    print(f"Lỗi khi tạo bản đồ ID-Chủ đề: {e}. Kiểm tra kiểu dữ liệu cột ID trong cả hai file.")
    exit()


# Add true topic to test data
df_test['true_topic'] = df_test[TEST_ID_COL].map(id_to_true_topic_map)

# --- MODIFICATION: Identify unmappable rows BEFORE dropping ---
initial_test_rows = len(df_test)
unmappable_test_rows_df = df_test[df_test['true_topic'].isna()]
unmappable_test_ids = unmappable_test_rows_df[TEST_ID_COL].tolist()
# --- End Modification ---

# Filter test data: keep only rows where true topic could be found
df_test.dropna(subset=['true_topic'], inplace=True)
valid_test_rows = len(df_test)

print(f"Tổng số câu hỏi test ban đầu (sau khi lọc NaN cơ bản): {initial_test_rows}")
if unmappable_test_ids:
    print(f"Không thể xác định chủ đề thực tế cho {len(unmappable_test_ids)} câu hỏi test (ID không có trong file search).")
    # Print the specific IDs that couldn't be mapped
    print(f"Các ID không thể ánh xạ: {unmappable_test_ids}")
else:
    print("Tất cả các ID trong file test đã được ánh xạ thành công tới chủ đề thực tế từ file search.")
print(f"Số câu hỏi test hợp lệ để đánh giá: {valid_test_rows}")


if valid_test_rows > 0:
    # --- Sample random questions ---
    num_samples = min(200, valid_test_rows) # Sample up to 200
    if num_samples < valid_test_rows:
        df_test_sampled = df_test.sample(n=num_samples, random_state=42)
        print(f"Đã chọn ngẫu nhiên {num_samples} câu hỏi test từ {valid_test_rows} câu hợp lệ để đánh giá.")
    else:
        df_test_sampled = df_test
        print(f"Sử dụng toàn bộ {valid_test_rows} câu hỏi test hợp lệ để đánh giá.")

    correct_predictions = 0
    mismatched_details = []  # Store details of mismatches/errors
    api_error_count = 0
    blocked_count = 0
    mismatch_count = 0
    no_response_count = 0

    # Use the already generated list of topics
    topics_for_prompt = available_topics_list

    print(f"\nBắt đầu đánh giá {len(df_test_sampled)} câu hỏi test...")
    for index, row in tqdm(df_test_sampled.iterrows(), total=len(df_test_sampled), desc="Đánh giá chủ đề"):
        question = row[TEST_QUESTION_COL] if pd.notna(row.get(TEST_QUESTION_COL)) else ""
        true_topic = row['true_topic']
        test_id = row[TEST_ID_COL]

        # Skip empty questions explicitly (already handled by dropna earlier, but good failsafe)
        if not question.strip():
            print(f"Bỏ qua hàng {index} với ID {test_id} do câu hỏi trống.")
            # This case should ideally not happen if dropna worked, but helps track issues
            mismatched_details.append({
                'test_id': test_id,
                'question': '[TRỐNG]',
                'true_topic': true_topic,
                'predicted_topic': '[Bỏ qua - Trống]',
                'status': 'Skipped (Empty)'
            })
            continue

        # Get prediction from Gemini
        predicted_topic_status = identify_topic_with_gemini(question, topics_for_prompt, topic_summaries, gemini_llm)

        # Compare prediction with true topic and categorize outcomes
        status = ""
        if predicted_topic_status == true_topic:
            correct_predictions += 1
            status = "Correct"
            # Optionally skip adding correct predictions to the mismatch list
            # continue
        elif predicted_topic_status == "[Lỗi API]":
            api_error_count += 1
            status = "API Error"
        elif isinstance(predicted_topic_status, str) and predicted_topic_status.startswith("[Bị chặn"):
            blocked_count += 1
            status = "Blocked by Safety Filter"
        elif predicted_topic_status == "[Không khớp]":
            mismatch_count += 1
            status = "Mismatch (Gemini answered, but not in list)"
        elif predicted_topic_status == "[Lỗi Phản Hồi]":
            no_response_count +=1
            status = "Gemini Error (No parsable text)"
        elif predicted_topic_status is None: # Should be handled by identify_topic, but as fallback
             no_response_count += 1
             status = "Error (None returned)"
        else: # Gemini returned something, but it wasn't the true topic and not caught above
             mismatch_count += 1
             status = "Incorrect Prediction"

        # Store details for all non-correct cases (or all cases if needed)
        if status != "Correct":
             mismatched_details.append({
                 'test_id': test_id,
                 'question': question,
                 'true_topic': true_topic,
                 'predicted_topic': predicted_topic_status,
                 'status': status
             })


    # Calculate and print accuracy
    evaluated_count = len(df_test_sampled)
    total_errors_or_unanswered = api_error_count + blocked_count + no_response_count
    answered_validly_count = evaluated_count - total_errors_or_unanswered # Gemini gave an answer (right, wrong, or mismatch)

    accuracy_overall = (correct_predictions / evaluated_count) * 100 if evaluated_count > 0 else 0
    # Accuracy based only on questions where Gemini provided *some* topic answer (right, wrong, or mismatch)
    accuracy_on_answered = (correct_predictions / answered_validly_count) * 100 if answered_validly_count > 0 else 0

    print("\n--- Kết quả Đánh giá Xác định Chủ đề (CÓ TÓM TẮT) ---")
    print(f"Tổng số câu hỏi test đã đánh giá (mẫu): {evaluated_count}")
    print(f"Số dự đoán chủ đề đúng: {correct_predictions}")
    print("-" * 20)
    print(f"Số dự đoán sai (khác chủ đề thực): {mismatch_count}")
    print(f"Số trường hợp Gemini trả về không khớp danh sách: {mismatch_count}") # Merged with above for simplicity now
    print(f"Số lỗi API: {api_error_count}")
    print(f"Số bị chặn bởi bộ lọc an toàn: {blocked_count}")
    print(f"Số lỗi phản hồi Gemini (không trích xuất được): {no_response_count}")
    print(f"Tổng số lỗi/không trả lời/bị chặn: {total_errors_or_unanswered}")
    print("-" * 20)
    print(f"Tỷ lệ chính xác tổng thể (đúng / tổng đánh giá): {accuracy_overall:.2f}%")
    print(f"Tỷ lệ chính xác trên các câu trả lời hợp lệ (đúng / (đúng + sai + không khớp)): {accuracy_on_answered:.2f}%")

    # --- MODIFICATION: Print details of mismatched predictions ---
    if mismatched_details:
        print("\n--- Chi tiết các trường hợp dự đoán sai/lỗi (trên mẫu) ---")
        max_mismatches_to_print = 20  # Limit number of mismatches printed
        for i, mismatch in enumerate(mismatched_details[:max_mismatches_to_print]):
            print(f"  {i+1}. ID: {mismatch['test_id']}, Status: {mismatch['status']}")
            question_snippet = mismatch['question'][:200] + "..." if len(mismatch['question']) > 200 else mismatch['question']
            print(f"     Câu hỏi: {question_snippet}")
            print(f"     Chủ đề thực: {mismatch['true_topic']}")
            print(f"     Chủ đề dự đoán: {mismatch['predicted_topic']}")
            print("-" * 20)
        if len(mismatched_details) > max_mismatches_to_print:
            print(f"... và {len(mismatched_details) - max_mismatches_to_print} trường hợp khác.")
    # --- End Modification ---

    # Save detailed results to Excel file
    if mismatched_details:
        print(f"\n--- Đang lưu chi tiết {len(mismatched_details)} trường hợp không chính xác hoặc lỗi ---")
        try:
            # Include correct ones if needed by removing the 'if status != "Correct":' block earlier
            results_df = pd.DataFrame(mismatched_details)
            output_filename = '/content/topic_identification_results_with_summaries.xlsx'
            results_df.to_excel(output_filename, index=False, engine='openpyxl') # Specify engine
            print(f"Đã lưu chi tiết vào file: '{output_filename}'")
        except Exception as e:
            print(f"Lỗi khi lưu kết quả vào file Excel: {e}")
    else:
        print("\nChúc mừng! Tất cả các dự đoán trong mẫu đều chính xác.")


else:
    print("Không có dữ liệu test hợp lệ để thực hiện đánh giá sau khi lọc và ánh xạ.")

print("\n===== KẾT THÚC ĐÁNH GIÁ PROMPT =====")
print("\nHoàn thành!")


===== BẮT ĐẦU ĐÁNH GIÁ PROMPT XÁC ĐỊNH CHỦ ĐỀ (CÓ TÓM TẮT) =====
Tổng số câu hỏi test ban đầu (sau khi lọc NaN cơ bản): 1779
Tất cả các ID trong file test đã được ánh xạ thành công tới chủ đề thực tế từ file search.
Số câu hỏi test hợp lệ để đánh giá: 1779
Đã chọn ngẫu nhiên 200 câu hỏi test từ 1779 câu hợp lệ để đánh giá.

Bắt đầu đánh giá 200 câu hỏi test...


Đánh giá chủ đề: 100%|██████████| 200/200 [21:19<00:00,  6.40s/it]


--- Kết quả Đánh giá Xác định Chủ đề (CÓ TÓM TẮT) ---
Tổng số câu hỏi test đã đánh giá (mẫu): 200
Số dự đoán chủ đề đúng: 176
--------------------
Số dự đoán sai (khác chủ đề thực): 24
Số trường hợp Gemini trả về không khớp danh sách: 24
Số lỗi API: 0
Số bị chặn bởi bộ lọc an toàn: 0
Số lỗi phản hồi Gemini (không trích xuất được): 0
Tổng số lỗi/không trả lời/bị chặn: 0
--------------------
Tỷ lệ chính xác tổng thể (đúng / tổng đánh giá): 88.00%
Tỷ lệ chính xác trên các câu trả lời hợp lệ (đúng / (đúng + sai + không khớp)): 88.00%

--- Chi tiết các trường hợp dự đoán sai/lỗi (trên mẫu) ---
  1. ID: 7361710d-7260-4ebc-94e5-56c377349156, Status: Incorrect Prediction
     Câu hỏi: Khi chuyển đổi từ tọa độ Descartes $(x, y)$ sang tọa độ cực $(r, \varphi)$ và $x \neq 0$, ta có phương trình $\tan \varphi = \frac{y}{x}$. Trong khoảng $[0, 2\pi)$, có bao nhiêu giá trị góc $\varphi$ ...
     Chủ đề thực: Phép tính vi phân và ứng dụng
     Chủ đề dự đoán: Hàm số và giới hạn của hàm số
----------




# Demo

In [1]:
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import torch
from tqdm.notebook import tqdm
import ast
import os
import google.generativeai as genai
from dotenv import load_dotenv
import re # Import regex for cleaning Gemini output
import time # Import time for API call delay
import traceback # For detailed error logging


# --- Configuration ---

SEARCH_DATA_PATH = 'f:/fontend_NCKH_MATHCHATBOT/backend/content/Data search_with_embeddings.xlsx'
SEARCH_ID_COL = 'ID'
SEARCH_CONTENT_COL = 'Nội dung' # Column with the text content to show Gemini
SEARCH_TOPIC_COL = 'Chủ đề'
SEARCH_EMBEDDING_COL = 'Embedding_MathBERT' # Precomputed MathBERT embeddings
QUERY_EMBEDDING_MODEL = 'BAAI/bge-m3'
TOP_K_RETRIEVAL = 15 # Number of documents to retrieve
# >>>>>>>>>>>> CHANGE START: Configurable Context Length Limits <<<<<<<<<<<<
# GIẢI THÍCH: Giới hạn này QUAN TRỌNG để tránh lỗi token limit, giảm độ trễ và chi phí API.
# Tăng giá trị nếu bạn chắc chắn về giới hạn model và chấp nhận rủi ro.
# Đặt là None hoặc số rất lớn nếu thực sự muốn loại bỏ giới hạn (KHÔNG KHUYẾN KHÍCH).
MAX_LEN_PER_RETRIEVED_ITEM = 100000  # Giới hạn ký tự cho mỗi mục context
MAX_TOTAL_CONTEXT_LENGTH = 1000000  # Giới hạn ký tự tổng cộng cho toàn bộ context gửi đến Gemini
# >>>>>>>>>>>> CHANGE END <<<<<<<<<<<<

GEMINI_MODEL_NAME = 'gemini-2.0-flash-thinking-exp-01-21' # Use a recent STABLE model if possible, adjust if needed. 'gemini-2.0-flash-thinking-exp-01-21' might be experimental.
API_CALL_DELAY = 1 # Seconds to wait between Gemini API calls to avoid rate limits

# --- Load API Key ---

load_dotenv() # Load environment variables from .env file if it exists
# *** IMPORTANT SECURITY NOTE: Use environment variables. Avoid hardcoding keys. ***
GEMINI_API_KEY = 'AIzaSyDx-IzX6g-zHtukS9QTQz5nBSfpJXq77P0' # <<<<<<< WARNING: Avoid hardcoding API keys directly in the script!

if not GEMINI_API_KEY:
    print("Lỗi: Không tìm thấy GEMINI_API_KEY. Hãy tạo file .env hoặc đặt biến môi trường.")
    exit()

genai.configure(api_key=GEMINI_API_KEY)

# --- Helper function to parse string embedding ---

def parse_embedding(embedding_str):
    # (No changes needed here, seems robust enough)
    if not isinstance(embedding_str, str):
        return None
    try:
        embedding_str_cleaned = embedding_str.strip()
        embedding_list = ast.literal_eval(embedding_str_cleaned)
        if not isinstance(embedding_list, list):
             raise TypeError("Parsed object is not a list")
        if not all(isinstance(x, (int, float)) for x in embedding_list):
            raise ValueError("Embedding list contains non-numeric values")
        return np.array(embedding_list, dtype=np.float32)
    except (ValueError, SyntaxError, TypeError) as e:
        # print(f"Debug: Error parsing: '{embedding_str_cleaned[:100]}...' Error: {e}")
        return None
    except Exception as e: # Catch any other unexpected errors
        # print(f"Debug: Unexpected error parsing: '{embedding_str_cleaned[:100]}...' Error: {e}")
        return None

# --- Load and Preprocess Search Data ---

print("Đang tải và xử lý dữ liệu tìm kiếm...")
try:
    df_search = pd.read_excel(SEARCH_DATA_PATH)
    print(f"Đã tải {len(df_search)} dòng từ {SEARCH_DATA_PATH}")

    required_cols = [SEARCH_ID_COL, SEARCH_CONTENT_COL, SEARCH_TOPIC_COL, SEARCH_EMBEDDING_COL]
    if not all(col in df_search.columns for col in required_cols):
        missing = [col for col in required_cols if col not in df_search.columns]
        print(f"Lỗi: File Excel thiếu các cột cần thiết: {missing}")
        exit()

    print("Đang phân tích cú pháp embeddings...")
    tqdm.pandas(desc="Parsing Embeddings")
    df_search['embedding_vector'] = df_search[SEARCH_EMBEDDING_COL].progress_apply(parse_embedding)

    initial_rows = len(df_search)

    parsing_errors = df_search['embedding_vector'].isnull().sum()
    if parsing_errors > 0:
        print(f"Cảnh báo: {parsing_errors} dòng có lỗi khi phân tích embedding.")
        df_search.dropna(subset=['embedding_vector'], inplace=True)

    missing_content = df_search[SEARCH_CONTENT_COL].isnull().sum()
    missing_topic = df_search[SEARCH_TOPIC_COL].isnull().sum()
    if missing_content > 0: print(f"Cảnh báo: {missing_content} dòng thiếu cột '{SEARCH_CONTENT_COL}'.")
    if missing_topic > 0: print(f"Cảnh báo: {missing_topic} dòng thiếu cột '{SEARCH_TOPIC_COL}'.")

    df_search.dropna(subset=[SEARCH_CONTENT_COL, SEARCH_TOPIC_COL], inplace=True)

    processed_rows = len(df_search)
    rows_dropped = initial_rows - processed_rows
    if rows_dropped > 0:
        print(f"Đã loại bỏ tổng cộng {rows_dropped} dòng do lỗi embedding hoặc thiếu nội dung/chủ đề.")

    if processed_rows == 0:
        print("Lỗi: Không có dữ liệu hợp lệ nào sau khi xử lý. Dừng chương trình.")
        exit()

    # Reset index after dropping rows to ensure default integer index (0, 1, 2...)
    # This helps prevent potential issues with numpy indexing later if the original index was sparse
    df_search.reset_index(drop=True, inplace=True)
    print(f"Đã reset index của DataFrame sau khi xử lý.")


    available_topics = sorted(df_search[SEARCH_TOPIC_COL].astype(str).unique().tolist())
    print(f"Các chủ đề có sẵn sau khi xử lý ({len(available_topics)} chủ đề): {', '.join(available_topics)}")

    try:
        search_embeddings_matrix = np.vstack(df_search['embedding_vector'].values)
        print(f"Đã xử lý {processed_rows} mục tìm kiếm hợp lệ.")
        print(f"Kích thước ma trận embedding tìm kiếm: {search_embeddings_matrix.shape}")
        if search_embeddings_matrix.shape[0] > 0:
            expected_dim = search_embeddings_matrix.shape[1]
            print(f"Chiều của embedding tìm kiếm (dự kiến): {expected_dim}")
        else:
            print("Cảnh báo: Ma trận embedding tìm kiếm trống.")

    except ValueError as e:
         print(f"Lỗi khi tạo ma trận embedding: {e}")
         print("Điều này có thể xảy ra nếu các embedding có độ dài khác nhau sau khi parsing.")
         # Example Debugging: Print lengths of first few vectors
         # for i, vec in enumerate(df_search['embedding_vector'].head()):
         #      if vec is not None: print(f"Index {i}, Length: {len(vec)}")
         exit()
except FileNotFoundError:
    print(f"Lỗi: Không tìm thấy file {SEARCH_DATA_PATH}")
    exit()
except Exception as e:
    print(f"Lỗi không xác định khi tải hoặc xử lý file Excel: {e}")
    traceback.print_exc()
    exit()


# --- Load Embedding Model for Queries ---

print(f"\nĐang tải mô hình embedding truy vấn: {QUERY_EMBEDDING_MODEL}...")
try:
    if torch.cuda.is_available():
        device = 'cuda'
        print("Phát hiện GPU (CUDA), đang sử dụng GPU.")
    # elif torch.backends.mps.is_available(): # Uncomment if using Apple Silicon
    #     device = 'mps'
    #     print("Phát hiện Apple Silicon GPU (MPS), đang sử dụng MPS.")
    else:
        device = 'cpu'
        print("Không phát hiện GPU tương thích, đang sử dụng CPU (có thể chậm hơn).")

    query_model = SentenceTransformer(QUERY_EMBEDDING_MODEL, device=device)
    print(f"Đã tải mô hình '{QUERY_EMBEDDING_MODEL}' lên {device}.")
    try:
        test_embedding = query_model.encode("test")
        query_embedding_dim = len(test_embedding)
        print(f"Chiều của embedding truy vấn: {query_embedding_dim}")
        if 'search_embeddings_matrix' in locals() and search_embeddings_matrix.shape[0] > 0:
             if query_embedding_dim != search_embeddings_matrix.shape[1]:
                 # >>>>>>>>>>>> IMPORTANT WARNING <<<<<<<<<<<<
                 print("\n" + "*"*60)
                 print(f"*** CẢNH BÁO NGHIÊM TRỌNG: CHIỀU EMBEDDING KHÔNG KHỚP! ***")
                 print(f"   - Mô hình truy vấn ({QUERY_EMBEDDING_MODEL}): {query_embedding_dim} chiều")
                 print(f"   - Dữ liệu tìm kiếm ({SEARCH_EMBEDDING_COL}): {search_embeddings_matrix.shape[1]} chiều")
                 print("   => Kết quả tìm kiếm sẽ KHÔNG CHÍNH XÁC hoặc gây lỗi.")
                 print("   => Hãy đảm bảo sử dụng embedding nhất quán hoặc kiểm tra lại file dữ liệu.")
                 print("*"*60 + "\n")
                 # Consider exiting here if dimensions don't match, as results will be meaningless
                 # exit()
             else:
                  print("-> Chiều embedding truy vấn và tìm kiếm khớp nhau. Tốt!")

    except Exception as embed_err:
        print(f"Không thể xác định chiều embedding của mô hình truy vấn: {embed_err}")


except Exception as e:
    print(f"Lỗi nghiêm trọng khi tải mô hình SentenceTransformer: {e}")
    traceback.print_exc()
    exit()

# --- Initialize Gemini Model ---
print(f"\nĐang khởi tạo mô hình Gemini: {GEMINI_MODEL_NAME}...")
try:
    # generation_config = genai.types.GenerationConfig(
    #     temperature=0.7, # Adjust creativity/factualness
    #     # max_output_tokens= ... # Consider setting max output tokens if needed
    # )
    safety_settings = [ # Adjust thresholds as needed, be mindful of safety implications
        {"category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_MEDIUM_AND_ABOVE"},
        {"category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_MEDIUM_AND_ABOVE"},
        {"category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_MEDIUM_AND_ABOVE"},
        {"category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_MEDIUM_AND_ABOVE"},
    ]

    gemini_llm = genai.GenerativeModel(
        GEMINI_MODEL_NAME,
        # generation_config=generation_config, # Uncomment to use specific config
        safety_settings=safety_settings
        )
    # Test connection (optional but recommended)
    # print("Kiểm tra kết nối Gemini...")
    # test_response = gemini_llm.generate_content("Hello", safety_settings={'HARM_CATEGORY_HARASSMENT': 'BLOCK_NONE'}) # Use least restrictive for a simple test
    # print("Kiểm tra thành công.")
    print("Đã khởi tạo và cấu hình Gemini thành công.")
except Exception as e:
    print(f"Lỗi nghiêm trọng khi khởi tạo mô hình Gemini: {e}")
    if "API key not valid" in str(e):
        print("-> Lỗi xác thực: API Key không hợp lệ. Vui lòng kiểm tra lại key trong file .env hoặc biến môi trường.")
    elif "permission" in str(e).lower() or "permission denied" in str(e).lower():
         print(f"-> Lỗi quyền truy cập: Tài khoản của bạn có thể không có quyền sử dụng model '{GEMINI_MODEL_NAME}' hoặc cần kích hoạt API.")
    elif "Could not find model" in str(e):
         print(f"-> Lỗi: Không tìm thấy model '{GEMINI_MODEL_NAME}'. Kiểm tra lại tên model hoặc khu vực.")
    else:
        traceback.print_exc()
    exit()

# --- Core Chatbot Functions ---

def clean_gemini_output(text):
    """Removes potential markdown and leading/trailing whitespace."""
    # Remove common markdown like **bold** or *italic* if desired
    # text = re.sub(r'\*\*(.*?)\*\*|\*(.*?)\*', r'\1\2', text)
    # Remove backticks used for code blocks if needed
    # text = text.replace('`', '')
    # Remove leading/trailing list markers or asterisks often added by LLMs
    text = re.sub(r'^[\s*-]+', '', text)
    return text.strip()

def identify_topic(query, topics, llm):
    """Uses Gemini to identify the most relevant topic for the query."""
    print("\nĐang xác định chủ đề...")
    # Add a special topic to handle the case where no topic is suitable
    topics_with_fallback = topics + ["Không xác định chủ đề"]

    # The prompt looks good and detailed. Ensure formatting is exactly as intended.
    # Double braces {{...}} are correct for literal braces within f-string LaTeX like \mathbb{{R}}
    prompt = f"""
Cho câu hỏi/nội dung sau: "{query}"

Hãy xác định một chủ đề phù hợp nhất cho nội dung này từ danh sách chủ đề dưới đây, dựa vào mô tả của từng chủ đề.
**Tập trung vào công cụ toán học chính được sử dụng hoặc khái niệm cốt lõi được hỏi đến.**
Chỉ trả về TÊN CHỦ ĐỀ DUY NHẤT và chính xác như trong danh sách, không thêm bất kỳ giải thích, dấu gạch đầu dòng, in đậm hay bất kì định dạng nào khác.
Nếu không có chủ đề nào trong danh sách thực sự phù hợp, hãy trả về "Không xác định chủ đề".

Mô tả các chủ đề:

Mô tả các chủ đề:

Chủ đề '**Số thực**' tập trung vào việc xây dựng nền tảng lý thuyết về **tập hợp số thực $\mathbb{{R}}$**. Nội dung chính bao gồm:
*   Các tiên đề của trường số thực, tính sắp thứ tự.
*   **Tính đầy đủ**: Khái niệm cận trên/dưới, supremum/infimum, nguyên lý supremum/infimum, tập bị chặn.
*   **Các bất đẳng thức cơ bản**: Cauchy-Schwarz, Minkowski, Bernoulli, AM-GM (chứng minh bằng phương pháp đại số, quy nạp).
*   **Chứng minh các đẳng thức, công thức tổng** liên quan đến số tự nhiên, số nguyên (ví dụ: tổng các số hạng đầu tiên của cấp số cộng/nhân, tổng bình phương, tổng lập phương) bằng **phương pháp quy nạp toán học** hoặc biến đổi đại số trực tiếp.
*   Các khái niệm cơ bản về tập hợp con của $\mathbb{{R}}$ (khoảng, đoạn, lân cận) nhưng **không đi sâu vào giới hạn của hàm số hay dãy số**.
*   **Ví dụ câu hỏi đặc trưng**: Tìm supremum/infimum của một tập hợp số thực; Chứng minh bất đẳng thức AM-GM bằng biến đổi đại số; Chứng minh công thức $1+2+...+n = n(n+1)/2$ bằng quy nạp; Phân biệt $\max$ và $\sup$.
*   **Lưu ý**: Chủ đề này **không** tập trung vào giới hạn của dãy số (thuộc chủ đề 'Dãy số') hay giới hạn của hàm số (thuộc chủ đề 'Hàm số và giới hạn'). Các bài toán về tổng chuỗi thường thuộc 'Dãy số'.

Chủ đề '**Phép tính vi phân và ứng dụng**' tập trung vào **đạo hàm và vi phân** của hàm số một biến và các ứng dụng của chúng. Công cụ chính là **phép tính đạo hàm**. Nội dung chính bao gồm:
*   **Định nghĩa đạo hàm và vi phân**: Tính đạo hàm bằng định nghĩa, đạo hàm một phía.
*   **Các quy tắc tính đạo hàm**: Đạo hàm của tổng, tích, thương, hàm hợp, hàm ngược, hàm ẩn, hàm tham số, hàm mũ, logarit, lượng giác. Tính đạo hàm cấp cao, công thức Leibniz.
*   **Ứng dụng đạo hàm để khảo sát hàm số**: Tìm khoảng đơn điệu, cực trị, điểm uốn, tính lồi/lõm, **tìm tiệm cận (đứng, ngang, xiên) bằng cách sử dụng giới hạn liên quan đến đạo hàm hoặc hàm số**. Vẽ đồ thị hàm số (bao gồm cả trong tọa độ cực).
*   **Các định lý về giá trị trung bình**: Rolle, Lagrange, Cauchy và ứng dụng (chứng minh bất đẳng thức, sự tồn tại nghiệm của phương trình liên quan đến đạo hàm).
*   **Quy tắc L'Hôpital**: **Sử dụng đạo hàm để khử các dạng vô định của giới hạn hàm số** ($\frac{{0}}{{0}}, \frac{{\infty}}{{\infty}}$, và các dạng đưa về được như $0 \cdot \infty, \infty - \infty, 1^\infty, 0^0, \infty^0$).
*   **Công thức Taylor, Maclaurin**: Khai triển hàm số và ứng dụng (tính gần đúng, đánh giá sai số, tính giới hạn).
*   **Ứng dụng hình học**: Tiếp tuyến, pháp tuyến, độ cong. Vận tốc, gia tốc.
*   **Ví dụ câu hỏi đặc trưng**: Tính đạo hàm cấp n của $f(x) = \sin(x)$; Khảo sát và vẽ đồ thị $y = x^3 - 3x$; **Tính giới hạn $\lim_{{x \to 0}} \frac{{\sin x - x}}{{x^3}}$ bằng L'Hôpital**; Tìm tiệm cận xiên của $y = \sqrt{{x^2+1}}$; Viết phương trình tiếp tuyến; Áp dụng định lý Lagrange chứng minh $|\sin b - \sin a| \le |b-a|$; Tìm giá trị lớn nhất/nhỏ nhất trên đoạn bằng đạo hàm.
*   **Lưu ý**: Mặc dù giới hạn là nền tảng, chủ đề này tập trung vào việc **sử dụng đạo hàm** làm công cụ chính. Việc tính giới hạn **mà không dùng** L'Hôpital hoặc Taylor thường thuộc về 'Hàm số và giới hạn'. Việc xét tính liên tục đơn thuần cũng thuộc 'Hàm số và giới hạn', trừ khi nó là điều kiện để xét tính khả vi.

Chủ đề '**Dãy số và giới hạn của dãy số**' tập trung vào nghiên cứu **dãy số thực vô hạn** ($a_n$ khi $n \to \infty$) và sự hội tụ của chúng. Nội dung chính bao gồm:
*   **Định nghĩa dãy số**: Số hạng tổng quát, dãy con, dãy đơn điệu, dãy bị chặn.
*   **Định nghĩa giới hạn dãy số (ngôn ngữ epsilon-N)**: Dãy hội tụ, phân kỳ, giới hạn vô hạn.
*   **Các tính chất và định lý về giới hạn dãy số**: Tính duy nhất, giới hạn và phép toán, định lý kẹp, tiêu chuẩn Weierstrass (dãy đơn điệu bị chặn), Bolzano-Weierstrass, tiêu chuẩn Cauchy cho dãy số.
*   **Tính giới hạn của dãy số**: Các kỹ thuật tính giới hạn cho dãy số cho bởi công thức tổng quát hoặc truy hồi (chia bậc cao nhất, nhân liên hợp, định lý kẹp, sử dụng các giới hạn cơ bản như $\lim (1+1/n)^n = e$).
*   **Giới hạn trên/dưới (limsup, liminf)**.
*   **Ví dụ câu hỏi đặc trưng**: Chứng minh dãy $a_n = (n+1)/n$ hội tụ về 1 bằng định nghĩa; Tính $\lim \frac{{n^2+1}}{{2n^2-n}}$; Xét sự hội tụ của dãy cho bởi $a_1=1, a_{{n+1}} = \sqrt{{2+a_n}}$; Chứng minh dãy hội tụ thì bị chặn.
*   **Lưu ý**: Chủ đề này chỉ xét **dãy số** (biến số $n \in \mathbb{{N}}$ tiến ra vô cùng), **không phải hàm số** (biến số $x \in \mathbb{{R}}$ tiến đến một điểm hoặc vô cùng). Các bài toán về tổng của chuỗi vô hạn $\sum a_n$ cũng liên quan chặt chẽ đến chủ đề này (xét sự hội tụ của dãy tổng riêng).

Chủ đề '**Phép tính tích phân và ứng dụng**' tập trung vào **phép tính tích phân** (nguyên hàm và tích phân xác định) cho hàm một biến và các ứng dụng của nó. Công cụ chính là **phép tính tích phân**. Nội dung chính bao gồm:
*   **Tích phân bất định (Nguyên hàm)**: Định nghĩa, tính chất, bảng nguyên hàm cơ bản.
*   **Các phương pháp tính tích phân**: Đổi biến số, tích phân từng phần, tích phân hàm hữu tỷ, hàm lượng giác, hàm vô tỷ.
*   **Tích phân xác định (Darboux, Riemann)**: Định nghĩa (tổng Darboux, tổng Riemann), điều kiện khả tích, tính chất của tích phân xác định.
*   **Định lý cơ bản của giải tích (Newton-Leibniz)**: Liên hệ giữa tích phân và đạo hàm, công thức tính tích phân xác định.
*   **Ứng dụng của tích phân xác định**: Tính diện tích hình phẳng, thể tích vật thể tròn xoay, độ dài đường cong, diện tích mặt tròn xoay.
*   **Tích phân suy rộng**: Các loại tích phân suy rộng và sự hội tụ.
*   **Ví dụ câu hỏi đặc trưng**: Tính $\int \frac{{dx}}{{x^2+a^2}}$; Tính $\int x e^x dx$; Tính $\int_0^1 \frac{{dx}}{{\sqrt{{1-x^2}}}}$; Tính diện tích giới hạn bởi $y=x^2$ và $y=x$; Tính thể tích khối tròn xoay khi quay $y=e^x$ quanh trục Ox từ 0 đến 1.
*   **Lưu ý**: Chủ đề này tập trung vào phép toán ngược của đạo hàm và các ứng dụng liên quan đến 'tích lũy' (diện tích, thể tích...).

Chủ đề '**Hàm số và giới hạn của hàm số**' tập trung vào việc nghiên cứu **bản chất của hàm số một biến** và hành vi của chúng khi biến số **tiến đến một giá trị cụ thể hoặc vô cực**, sử dụng chủ yếu các công cụ **đại số và lý thuyết giới hạn cơ bản (epsilon-delta)**. Nội dung chính bao gồm:
*   **Khái niệm hàm số**: Miền xác định, miền giá trị, hàm chẵn/lẻ, tuần hoàn, đơn điệu (xét bằng định nghĩa hoặc lập tỉ số), hàm hợp, hàm ngược, hàm số sơ cấp.
*   **Định nghĩa giới hạn hàm số (ngôn ngữ epsilon-delta, ngôn ngữ dãy)**: Giới hạn tại một điểm, giới hạn một phía, giới hạn tại vô cực, giới hạn vô cực.
*   **Tính giới hạn hàm số bằng các phương pháp cơ bản**: Sử dụng định nghĩa, các phép toán giới hạn, **định lý kẹp**, **khử dạng vô định bằng phương pháp đại số** (phân tích nhân tử, nhân liên hợp, chia bậc cao nhất), **sử dụng vô cùng bé/vô cùng lớn tương đương (VCB/VCL)**.
*   **Tính liên tục của hàm số**: Định nghĩa liên tục tại một điểm, trên một khoảng/đoạn, liên tục một phía. Phân loại điểm gián đoạn (loại 1, loại 2).
*   **Các định lý cơ bản về hàm liên tục**: Định lý giá trị trung gian (Bolzano-Cauchy), định lý Weierstrass về giá trị lớn nhất/nhỏ nhất trên đoạn.
*   **Ví dụ câu hỏi đặc trưng**: Tìm miền xác định của $f(x) = \sqrt{{\ln(x)}}$; Xét tính chẵn lẻ của $f(x)=x+\sin x$; Chứng minh $\lim_{{x \to 0}} x \sin(1/x) = 0$ bằng định lý kẹp; **Tính $\lim_{{x \to 1}} \frac{{x^2-1}}{{x-1}}$ bằng phân tích nhân tử**; **Tính $\lim_{{x \to 0}} \frac{{\sin(2x)}}{{x}}$ bằng VCB tương đương**; Xét tính liên tục của hàm cho bởi nhiều công thức; Tìm $m$ để hàm số liên tục tại $x_0$. Phân loại điểm gián đoạn của $f(x)=1/x$.
*   **Lưu ý**: Chủ đề này tập trung vào khái niệm giới hạn và tính liên tục từ định nghĩa và các phép biến đổi **không nhất thiết cần đạo hàm**. Việc tính giới hạn bằng **quy tắc L'Hôpital** hoặc **khai triển Taylor** thuộc về chủ đề 'Phép tính vi phân và ứng dụng'. Việc khảo sát hàm số chi tiết (cực trị, lồi lõm, tiệm cận bằng đạo hàm) cũng thuộc 'Phép tính vi phân'.

Danh sách chủ đề (chọn một từ đây hoặc trả về "Không xác định chủ đề"):
{chr(10).join(f"- {topic}" for topic in topics)}

Chủ đề phù hợp nhất:""" # Make sure the last line prompts for the answer directly

    try:
        # >>>>>>>>>>>> CHANGE START: Add API Call Delay <<<<<<<<<<<<
        # print(f"Chờ {API_CALL_DELAY} giây trước khi gọi API Gemini...")
        time.sleep(API_CALL_DELAY)
        # >>>>>>>>>>>> CHANGE END <<<<<<<<<<<<

        response = llm.generate_content(prompt, generation_config=genai.types.GenerationConfig(temperature=0.1)) # Lower temp for more deterministic classification

        # >>>>>>>>>>>> CHANGE START: More Robust Response Handling <<<<<<<<<<<<
        identified_topic_raw = None
        if response.parts:
             identified_topic_raw = response.text # response.text is a shortcut for parts[0].text
        elif response.prompt_feedback.block_reason:
             reason = response.prompt_feedback.block_reason
             print(f"Cảnh báo: Yêu cầu xác định chủ đề bị chặn bởi bộ lọc an toàn. Lý do: {reason}")
             # Provide specific blocked categories if available
             for rating in response.prompt_feedback.safety_ratings:
                  if rating.blocked:
                      print(f"   - Bị chặn do danh mục: {rating.category}")
             return f"[Bị chặn: {reason}]" # Return specific status
        else:
             # Handle unexpected empty response without blocking reason
             finish_reason = getattr(response, 'finish_reason', 'UNKNOWN')
             print(f"Cảnh báo: Gemini trả về phản hồi trống hoặc không hợp lệ cho việc xác định chủ đề. Lý do kết thúc: {finish_reason}")
             print(f"   Phản hồi đầy đủ (nếu có): {response}")
             return "[Lỗi Phản Hồi]" # Return specific status

        identified_topic_cleaned = clean_gemini_output(identified_topic_raw)

        # Strict validation against available topics list (case-insensitive match)
        for topic_original_case in topics_with_fallback: # Include fallback in check
            if identified_topic_cleaned.lower() == topic_original_case.lower():
                if topic_original_case == "Không xác định chủ đề":
                     print("Gemini xác định: Không có chủ đề phù hợp.")
                     return None # Return None to signal searching all topics
                else:
                     print(f"Chủ đề được xác định: {topic_original_case}")
                     return topic_original_case # Return the correctly cased topic name

        # If no exact match (after cleaning and case-insensitive check)
        print(f"Cảnh báo: Gemini trả về '{identified_topic_raw}' -> '{identified_topic_cleaned}', không khớp chính xác với danh sách chủ đề.")
        print(f"   Danh sách chủ đề hợp lệ: {topics_with_fallback}")
        # Optional: Log the raw response for debugging Gemini's output format
        # print(f"   Raw response: {response}")
        return "[Không khớp]" # Return specific status indicating mismatch
        # >>>>>>>>>>>> CHANGE END <<<<<<<<<<<<

    except ValueError as ve:
         # Handle potential prompt blocking feedback more gracefully if not caught above
         if hasattr(ve, 'response') and "block_reason" in str(ve.response):
              print(f"Cảnh báo: Yêu cầu xác định chủ đề bị chặn bởi bộ lọc an toàn. Lý do: {ve.response.prompt_feedback.block_reason}")
         elif "response is blocked" in str(ve):
              print(f"Cảnh báo: Yêu cầu xác định chủ đề có thể đã bị chặn. {ve}")
         else:
              print(f"Lỗi giá trị khi gọi Gemini để xác định chủ đề: {ve}")
         print("-> Sẽ tìm kiếm trên tất cả chủ đề.")
         return None # Fallback

    except Exception as e:
        print(f"Lỗi không xác định khi gọi Gemini để xác định chủ đề: {e}")
        error_details = getattr(e, 'message', str(e))
        print(f"Chi tiết lỗi (nếu có): {error_details}")
        if "quota" in error_details.lower(): print("-> Lỗi: Có thể đã đạt giới hạn sử dụng API (quota).")
        elif "API key not valid" in error_details: print("-> Lỗi: API Key không hợp lệ.")
        else: traceback.print_exc()
        print("-> Sẽ tìm kiếm trên tất cả chủ đề.")
        return None # Fallback

def search_relevant_content(query, query_model, df_search_full, search_embeddings_full, available_topics_list, topic=None, top_k=5):
    """Embeds query, filters by topic (if valid), finds top_k similar documents."""
    print("Đang tạo embedding cho câu hỏi...")
    try:
        # Normalize query embedding if using models that benefit from it (like BGE)
        # Check BGE model card if normalization is recommended
        query_embedding = query_model.encode(query, convert_to_numpy=True, normalize_embeddings=True)
        query_embedding = query_embedding.reshape(1, -1)
        # print(f"Query embedding dimension: {query_embedding.shape[1]}")
    except Exception as e:
        print(f"Lỗi khi tạo embedding cho câu hỏi: {e}")
        traceback.print_exc()
        return [], None # Return empty list and no dataframe if embedding fails

    print("Đang tìm kiếm nội dung tương đồng...")

    # --- Improved Topic Filtering Logic ---
    df_filtered = df_search_full # Default to full dataframe
    search_embeddings_filtered = search_embeddings_full # Default to full matrix
    filtering_applied = False

    # Filter data by topic ONLY if the identified topic is valid and exists in the data

    if topic and topic in available_topics_list:
        # Check if the topic actually exists in the *current* dataframe's topic column
        if topic in df_filtered[SEARCH_TOPIC_COL].unique():
             print(f"Lọc dữ liệu theo chủ đề: '{topic}'")
             topic_mask = (df_filtered[SEARCH_TOPIC_COL] == topic)
             # Use .loc for boolean mask indexing on the dataframe
             df_filtered = df_filtered.loc[topic_mask].copy() # Use .copy() to avoid SettingWithCopyWarning

             # >>>>>>>>>>>> FIX START: Correct Embedding Matrix Filtering <<<<<<<<<<<<
             # Get the integer positions (iloc) of the filtered rows in the *original* dataframe
             # This assumes df_search_full has a standard 0-based integer index after reset_index()
             filtered_row_indices = df_filtered.index.tolist() # Get the index labels from the filtered df
             # Since we reset_index earlier, these labels should correspond to integer positions
             # If index wasn't reset, use: filtered_row_positions = df_search_full.index.get_indexer_for(filtered_row_indices)

             if not df_filtered.index.is_integer() or not df_filtered.index.is_monotonic_increasing:
                  print("Cảnh báo: Index của DataFrame đã lọc không phải là số nguyên hoặc không tăng dần. Việc lọc embedding có thể không chính xác nếu không dùng get_indexer_for.")
                  # Consider using get_indexer_for robustness if index isn't guaranteed standard
                  # try:
                  #      original_indices_for_filter = df_search_full[topic_mask].index # Get original index labels matching mask
                  #      filtered_row_positions = df_search_full.index.get_indexer_for(original_indices_for_filter)
                  #      search_embeddings_filtered = search_embeddings_full[filtered_row_positions]
                  #      filtering_applied = True
                  # except Exception as idx_err:
                  #       print(f"Lỗi khi lấy vị trí index để lọc embedding: {idx_err}. Tìm kiếm trên tất cả.")
                  #       df_filtered = df_search_full
                  #       search_embeddings_filtered = search_embeddings_full
                  # else: # Default assumption if index is standard integer index
                  search_embeddings_filtered = search_embeddings_full[filtered_row_indices]
                  filtering_applied = True

             else: # If index is standard integer index (0, 1, 2...) after reset
                  search_embeddings_filtered = search_embeddings_full[filtered_row_indices]
                  filtering_applied = True

             # >>>>>>>>>>>> FIX END <<<<<<<<<<<<

             if len(df_filtered) == 0 and filtering_applied:
                 # This case should ideally not happen if the topic existed in .unique()
                 print(f"Cảnh báo: Mặc dù chủ đề '{topic}' tồn tại, không tìm thấy mục nào sau khi lọc. Tìm kiếm trên tất cả.")
                 df_filtered = df_search_full
                 search_embeddings_filtered = search_embeddings_full
                 filtering_applied = False # Reset flag
             elif filtering_applied:
                 print(f"Đã lọc còn {len(df_filtered)} mục theo chủ đề '{topic}'.")
                 print(f"Kích thước ma trận embedding đã lọc: {search_embeddings_filtered.shape}")


        else:
             print(f"Cảnh báo: Chủ đề '{topic}' được xác định nhưng không tìm thấy trong cột chủ đề của dữ liệu đã xử lý (có thể do lỗi trước đó). Tìm kiếm trên tất cả.")
             # topic = None # Reset topic variable if needed elsewhere
             # Defaults already handle searching all

    elif topic: # Topic was identified but invalid (e.g., "[Bị chặn]", "[Không khớp]", etc.)
         print(f"Chủ đề '{topic}' không hợp lệ hoặc không xác định được. Tìm kiếm trên tất cả {len(df_search_full)} mục.")
         # Defaults already handle searching all
    else: # Topic was None from the start (Gemini failed or returned "Không xác định chủ đề")
         print(f"Chủ đề không được xác định hoặc không phù hợp. Tìm kiếm trên tất cả {len(df_search_full)} mục.")
         # Defaults already handle searching all

    if len(df_filtered) == 0 or search_embeddings_filtered.shape[0] == 0:
        print("Không có dữ liệu hoặc embedding để tìm kiếm (có thể do lọc hoặc dữ liệu gốc rỗng).")
        return [], df_filtered # Return empty results but potentially the filtered (empty) df

    # Calculate cosine similarities
    try:
        similarities = cosine_similarity(query_embedding, search_embeddings_filtered)[0]
    except ValueError as e:
         print(f"Lỗi khi tính cosine similarity: {e}")
         print(f"   Kích thước Query Embedding: {query_embedding.shape}")
         print(f"   Kích thước Search Embeddings (filtered): {search_embeddings_filtered.shape}")
         # This often happens due to dimension mismatch! Re-check the earlier warning.
         return [], df_filtered
    except Exception as e:
        print(f"Lỗi không xác định khi tính cosine similarity: {e}")
        traceback.print_exc()
        return [], df_filtered


    # Get top K indices relative to the *filtered* data/embeddings
    num_results = min(top_k, len(df_filtered))
    if num_results == 0 : return [], df_filtered

    # Indices within the current *filtered* set (df_filtered, search_embeddings_filtered)
    # argsort gives indices that would sort the array in ascending order
    # [-num_results:] takes the indices of the largest `num_results` values
    # [::-1] reverses them to get highest similarity first
    top_k_local_indices = np.argsort(similarities)[-num_results:][::-1]

    # Retrieve content using the local indices on the filtered dataframe
    retrieved_content = []
    print(f"Truy xuất top {num_results} kết quả:")
    for local_idx in top_k_local_indices:
        # Use iloc with the local integer index on the potentially filtered dataframe
        row_data = df_filtered.iloc[local_idx]
        similarity_score = similarities[local_idx]
        retrieved_content.append({
            'id': row_data[SEARCH_ID_COL],
            'content': row_data[SEARCH_CONTENT_COL],
            'topic': row_data[SEARCH_TOPIC_COL],
            'score': similarity_score
        })
        # Optional: Print score during retrieval
        # print(f"  - ID: {row_data[SEARCH_ID_COL]}, Score: {similarity_score:.4f}, Topic: {row_data[SEARCH_TOPIC_COL]}")


    print(f"Đã truy xuất {len(retrieved_content)} mục liên quan nhất.")
    return retrieved_content, df_filtered # Return retrieved items and the dataframe they came from

def generate_final_response(query, retrieved_items, llm):
    """Generates the final response using Gemini, distinguishing sources."""
    context_str = ""
    if retrieved_items:
        context_str += "Dưới đây là một số nội dung được tìm thấy có thể liên quan (đã được lọc hoặc từ toàn bộ dữ liệu):\n"
        for i, item in enumerate(retrieved_items):
            content_snippet = item.get('content', '[Nội dung bị thiếu]')
            if not isinstance(content_snippet, str):
                 content_snippet = str(content_snippet) # Convert non-strings

            # >>>>>>>>>>>> CHANGE START: Use Configurable Limits <<<<<<<<<<<<
            # Apply per-item length limit (if configured)
            if MAX_LEN_PER_RETRIEVED_ITEM and len(content_snippet) > MAX_LEN_PER_RETRIEVED_ITEM:
                content_snippet = content_snippet[:MAX_LEN_PER_RETRIEVED_ITEM] + f"... [Cắt bớt, giới hạn {MAX_LEN_PER_RETRIEVED_ITEM} ký tự]"
            # >>>>>>>>>>>> CHANGE END <<<<<<<<<<<<

            context_str += f"\n--- Ngữ cảnh {i+1} (ID: {item.get('id', 'N/A')}, Chủ đề: {item.get('topic', 'N/A')}, Độ tương đồng: {item.get('score', 0.0):.4f}) ---\n"
            context_str += f"{content_snippet}\n"
        context_str += "\n---\n"
    else:
        context_str = "Không tìm thấy nội dung nào liên quan trong dữ liệu để làm ngữ cảnh.\n"

    # >>>>>>>>>>>> CHANGE START: Use Configurable Limits <<<<<<<<<<<<
    # Apply total context length limit (if configured)
    initial_context_len = len(context_str)
    if MAX_TOTAL_CONTEXT_LENGTH and initial_context_len > MAX_TOTAL_CONTEXT_LENGTH:
        context_str = context_str[:MAX_TOTAL_CONTEXT_LENGTH] + f"\n... [TỔNG NGỮ CẢNH ĐÃ BỊ CẮT BỚT, giới hạn {MAX_TOTAL_CONTEXT_LENGTH} ký tự] ..."
        print(f"Cảnh báo: Tổng độ dài ngữ cảnh ({initial_context_len}) vượt quá giới hạn ({MAX_TOTAL_CONTEXT_LENGTH}), đã cắt bớt.")
    # >>>>>>>>>>>> CHANGE END <<<<<<<<<<<<


    # Prompt structure looks good.
    prompt = f"""Bạn là một trợ lý trả lời câu hỏi chuyên sâu về toán học, dựa trên tài liệu được cung cấp.
Người dùng hỏi: "{query}"

{context_str}
Dựa vào câu hỏi của người dùng và ngữ cảnh được cung cấp (nếu có và liên quan):
1.  **Ưu tiên trả lời câu hỏi một cách đầy đủ và chính xác nhất có thể.**
2.  Nếu thông tin trong phần "Ngữ cảnh" **trực tiếp và rõ ràng** trả lời câu hỏi, hãy sử dụng nó và trình bày trong phần **"Nội dung được chứng thực từ tài liệu:"**. Hãy tóm tắt hoặc trích dẫn các phần liên quan nhất từ ngữ cảnh. Ghi rõ ID hoặc Chủ đề của ngữ cảnh được sử dụng nếu có thể.
3.  Nếu ngữ cảnh **không đủ, không rõ ràng, hoặc chỉ liên quan một phần**, hãy sử dụng kiến thức chung của bạn để **bổ sung, giải thích rõ hơn, hoặc trả lời phần còn lại của câu hỏi**. Đặt phần trả lời này vào phần **"Nội dung bổ sung từ Gemini:"**.
4.  Nếu **hoàn toàn không có ngữ cảnh** được cung cấp hoặc ngữ cảnh **hoàn toàn không liên quan** đến câu hỏi, hãy trả lời câu hỏi dựa trên kiến thức nền tảng của bạn và chỉ sử dụng phần **"Nội dung bổ sung từ Gemini:"**.
5.  **Trình bày câu trả lời rõ ràng, mạch lạc**. Phân tách rõ hai phần "Nội dung được chứng thực từ tài liệu:" và "Nội dung bổ sung từ Gemini:" nếu cả hai đều có nội dung. Nếu chỉ có một loại nội dung, chỉ cần hiển thị phần đó với tiêu đề tương ứng. Đảm bảo câu trả lời dễ hiểu và đi thẳng vào vấn đề.
6.  **Sử dụng định dạng toán học (ví dụ: dùng LaTeX trong Markdown nếu có thể) cho các công thức và ký hiệu.**

Câu trả lời của bạn:
"""

    print("Đang tạo câu trả lời cuối cùng với Gemini...")
    try:
        # >>>>>>>>>>>> CHANGE START: Add API Call Delay <<<<<<<<<<<<
        # print(f"Chờ {API_CALL_DELAY} giây trước khi gọi API Gemini...")
        time.sleep(API_CALL_DELAY)
        # >>>>>>>>>>>> CHANGE END <<<<<<<<<<<<

        # Use the safety settings defined during initialization
        response = llm.generate_content(prompt) # Safety settings are part of the model object

        # --- Robust Response Handling ---
        if not response.parts and hasattr(response, 'prompt_feedback') and response.prompt_feedback.block_reason:
            reason = response.prompt_feedback.block_reason
            print(f"Cảnh báo: Yêu cầu tạo phản hồi bị chặn bởi bộ lọc an toàn. Lý do: {reason}")
            # Provide specific blocked categories if available
            blocked_categories = [rating.category for rating in response.prompt_feedback.safety_ratings if rating.blocked]
            if blocked_categories:
                 print(f"   - Bị chặn do các danh mục: {', '.join(str(cat) for cat in blocked_categories)}")
            return f"Rất tiếc, tôi không thể tạo câu trả lời cho yêu cầu này vì lý do an toàn ({reason}). Vui lòng diễn đạt lại câu hỏi của bạn một cách khác."

        # Check for empty response text even if not blocked
        # response.text access the first part's text if available
        final_text = response.text if response.parts else None

        if not final_text:
             # Check finish reason if available (e.g., MAX_TOKENS, SAFETY, RECITATION, OTHER)
             finish_reason = getattr(response, 'finish_reason', 'UNKNOWN')
             if finish_reason != 1: # 1 typically means "STOP" (normal completion)
                 print(f"Cảnh báo: Gemini trả về phản hồi trống. Lý do kết thúc bất thường: {finish_reason}")
                 if finish_reason == 3: # 3 is often MAX_TOKENS
                      return "Rất tiếc, câu trả lời có thể đã bị cắt ngắn do vượt quá giới hạn độ dài đầu ra."
                 elif finish_reason == 4: # 4 is often SAFETY
                      # This case should be caught by block_reason above, but as a fallback:
                       return "Rất tiếc, câu trả lời đã bị chặn vì lý do an toàn."
                 else:
                      return f"Rất tiếc, đã có lỗi xảy ra hoặc mô hình không thể tạo phản hồi cho câu hỏi này (Lý do kết thúc: {finish_reason})."
             else: # Normal finish but empty text
                  print("Cảnh báo: Gemini trả về phản hồi trống dù kết thúc bình thường.")
                  return "Rất tiếc, mô hình không tạo ra được nội dung trả lời cho câu hỏi này."

        return final_text # Return the successful response

    except ValueError as ve:
         print(f"Lỗi giá trị khi gọi Gemini để tạo câu trả lời: {ve}")
         if "response is blocked" in str(ve): # Check for specific blocking error text
             print(f"   -> Yêu cầu có thể đã bị chặn bởi bộ lọc an toàn.")
             return "Rất tiếc, tôi không thể tạo câu trả lời cho yêu cầu này do các hạn chế về an toàn."
         else:
             traceback.print_exc()
             return f"Đã xảy ra lỗi (ValueError) khi chuẩn bị yêu cầu hoặc xử lý phản hồi từ Gemini: {ve}"
    except Exception as e:
        print(f"Lỗi không xác định khi gọi Gemini để tạo câu trả lời: {e}")
        error_details = str(e) # Or check specific attributes like e.message, e.response
        print(f"Chi tiết lỗi (nếu có): {error_details}")
        # Check for common Google API issues
        if "API key not valid" in error_details:
             return "Lỗi: API Key không hợp lệ hoặc đã hết hạn. Vui lòng kiểm tra lại."
        elif "quota" in error_details.lower() or "quota exceeded" in error_details.lower():
             return "Lỗi: Đã đạt đến giới hạn sử dụng API (quota). Vui lòng thử lại sau hoặc kiểm tra hạn mức tài khoản."
        elif "resource exhausted" in error_details.lower():
              return "Lỗi: Tài nguyên máy chủ tạm thời không đủ (Resource Exhausted). Vui lòng thử lại sau một lát."
        elif "Deadline exceeded" in error_details or "504 Gateway Timeout" in error_details:
             return "Lỗi: Yêu cầu đến Gemini mất quá nhiều thời gian để xử lý (Timeout). Vui lòng thử lại, có thể giảm độ phức tạp câu hỏi hoặc độ dài ngữ cảnh."
        else:
            traceback.print_exc()
            return f"Đã xảy ra lỗi không xác định khi giao tiếp với Gemini: {e}"


# --- Chat Loop ---

print("\n--- Chatbot RAG với Gemini đã sẵn sàng ---")
print(f"Sử dụng model: {GEMINI_MODEL_NAME}")
print(f"Truy xuất tối đa: {TOP_K_RETRIEVAL} mục")
print(f"Giới hạn context mỗi mục: {MAX_LEN_PER_RETRIEVED_ITEM}, Tổng giới hạn context: {MAX_TOTAL_CONTEXT_LENGTH}")
print("Nhập 'quit' hoặc 'exit' để thoát.")

while True:
    try:
        user_query = input("\nBạn hỏi: ")
        if user_query.lower() in ['quit', 'exit', 'thoát']:
            break
        if not user_query.strip():
            continue

        # 1. Identify Topic
        # Pass the list of topics available *after* preprocessing
        identified_topic = identify_topic(user_query, available_topics, gemini_llm)
        # Handle cases where topic identification returns a status like "[Bị chặn]"
        if isinstance(identified_topic, str) and identified_topic.startswith("["):
             if "[Bị chặn" in identified_topic:
                  print(f"Chatbot trả lời: Không thể xử lý yêu cầu do vấn đề an toàn khi xác định chủ đề. {identified_topic}")
                  continue # Skip to next iteration
             elif "[Lỗi Phản Hồi]" in identified_topic:
                   print(f"Chatbot trả lời: Gặp lỗi khi nhận phản hồi từ Gemini để xác định chủ đề.")
                   identified_topic = None # Proceed by searching all topics
             elif "[Không khớp]" in identified_topic:
                  print(f"Chatbot trả lời: Chủ đề trả về từ Gemini không khớp danh sách. Sẽ tìm kiếm trên tất cả chủ đề.")
                  identified_topic = None # Proceed by searching all topics
             # Add other specific status handling if needed

        # 2. Search Content
        # Pass the full df, full embeddings matrix, and the list of available topics for validation inside the function
        retrieved_items, df_searched_in = search_relevant_content( # Capture the dataframe used for search
            user_query,
            query_model,
            df_search,                 # Pass the processed dataframe (with reset index)
            search_embeddings_matrix,  # Pass the corresponding full matrix
            available_topics,          # Pass the list of topics for validation
            topic=identified_topic,    # Pass the potentially identified topic (or None or status)
            top_k=TOP_K_RETRIEVAL
        )

        # 3. Generate Response
        final_answer = generate_final_response(user_query, retrieved_items, gemini_llm)

        # 4. Display Answer
        print("\nChatbot trả lời:")
        print(final_answer)

    except KeyboardInterrupt:
        print("\nĐã nhận tín hiệu dừng (Ctrl+C).")
        break
    except Exception as loop_err:
        # >>>>>>>>>>>> CHANGE START: Add Traceback Logging <<<<<<<<<<<<
        print(f"\n--- !!! Đã xảy ra lỗi không mong muốn trong vòng lặp chính !!! ---")
        print(f"Lỗi: {loop_err}")
        print("-" * 30 + " Traceback " + "-" * 30)
        traceback.print_exc() # Print detailed traceback for debugging
        print("-" * (60 + len(" Traceback ")))
        print("Lỗi này không được xử lý cụ thể. Vui lòng kiểm tra traceback ở trên.")
        print("Thử lại hoặc nhập 'quit' để thoát.")
        # >>>>>>>>>>>> CHANGE END <<<<<<<<<<<<


print("\n--- Kết thúc phiên chat ---")

Đang tải và xử lý dữ liệu tìm kiếm...
Đã tải 504 dòng từ f:/fontend_NCKH_MATHCHATBOT/backend/content/Data search_with_embeddings.xlsx
Đang phân tích cú pháp embeddings...


Parsing Embeddings:   0%|          | 0/504 [00:00<?, ?it/s]

Đã reset index của DataFrame sau khi xử lý.
Các chủ đề có sẵn sau khi xử lý (5 chủ đề): Dãy số và giới hạn của dãy số, Hàm số và giới hạn của hàm số, Phép tính tích phân và ứng dụng, Phép tính vi phân và ứng dụng, Số thực
Đã xử lý 504 mục tìm kiếm hợp lệ.
Kích thước ma trận embedding tìm kiếm: (504, 1024)
Chiều của embedding tìm kiếm (dự kiến): 1024

Đang tải mô hình embedding truy vấn: BAAI/bge-m3...
Không phát hiện GPU tương thích, đang sử dụng CPU (có thể chậm hơn).
Đã tải mô hình 'BAAI/bge-m3' lên cpu.
Chiều của embedding truy vấn: 1024
-> Chiều embedding truy vấn và tìm kiếm khớp nhau. Tốt!

Đang khởi tạo mô hình Gemini: gemini-2.0-flash-thinking-exp-01-21...
Đã khởi tạo và cấu hình Gemini thành công.

--- Chatbot RAG với Gemini đã sẵn sàng ---
Sử dụng model: gemini-2.0-flash-thinking-exp-01-21
Truy xuất tối đa: 15 mục
Giới hạn context mỗi mục: 100000, Tổng giới hạn context: 1000000
Nhập 'quit' hoặc 'exit' để thoát.

--- Kết thúc phiên chat ---


#Đánh giá khả năng search

In [33]:
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import torch
from tqdm.notebook import tqdm
import ast

# --- Configuration ---
search_file_path = '/Data search_with_embeddings.xlsx'
test_file_path = '/Data test.xlsx'
search_id_col = 'ID'
search_embedding_col = 'Embedding_MathBERT'
test_id_col = 'ID'
test_question_col = 'Câu hỏi'
top_k = 15
embedding_model_name = 'BAAI/bge-m3'

# --- Topic mapping based on row indexes ---
def get_topic(row_index):
    if 0 <= row_index <= 1189:
        return "Phép tính vi phân và ứng dụng"
    elif 1190 <= row_index <= 1620:
        return "Hàm số và giới hạn của hàm số"
    else:
        return "Số thực"

# --- Helper function to safely convert string embedding to numpy array ---
def parse_embedding(embedding_str):
    if not isinstance(embedding_str, str):
        print(f"Warning: Expected string, got {type(embedding_str)}. Value: {embedding_str}. Returning None.")
        return None
    try:
        embedding_list = ast.literal_eval(embedding_str)
        return np.array(embedding_list, dtype=np.float32)
    except (ValueError, SyntaxError, TypeError) as e:
        print(f"Error parsing embedding string: {embedding_str[:100]}... Error: {e}. Returning None.")
        return None
    except Exception as e:
        print(f"An unexpected error occurred during parsing: {embedding_str[:100]}... Error: {e}. Returning None.")
        return None

# --- Load Data ---
print("Loading data...")
try:
    df_search = pd.read_excel(search_file_path)
    df_test = pd.read_excel(test_file_path)
    print(f"Loaded search data: {df_search.shape[0]} rows")
    print(f"Loaded test data: {df_test.shape[0]} rows")
except FileNotFoundError:
    print(f"Error: One or both files not found. Check paths:")
    print(f"- Search file: {search_file_path}")
    print(f"- Test file: {test_file_path}")
    exit()
except Exception as e:
    print(f"Error loading Excel files: {e}")
    exit()

# --- Add topic information to search dataframe ---
df_search['Topic'] = df_search.index.map(get_topic)
print("Topics distribution in search data:")
print(df_search['Topic'].value_counts())

# --- Process Search Embeddings ---
print("Processing search embeddings...")
# Apply the parsing function and handle potential None values
df_search['embedding_vector'] = df_search[search_embedding_col].apply(parse_embedding)

# Filter out rows where embedding parsing failed
original_search_rows = len(df_search)
df_search.dropna(subset=['embedding_vector'], inplace=True)
parsed_search_rows = len(df_search)
if original_search_rows > parsed_search_rows:
    print(f"Warning: Dropped {original_search_rows - parsed_search_rows} rows from search data due to embedding parsing errors.")

# Check if any search embeddings remain
if parsed_search_rows == 0:
    print("Error: No valid embeddings found in the search data after parsing. Exiting.")
    exit()

# Create a matrix of search embeddings for efficient calculation
search_embeddings_matrix = np.vstack(df_search['embedding_vector'].values)
search_ids = df_search[search_id_col].tolist()  # Get corresponding IDs
search_indexes = df_search.index.tolist()  # Get row indexes for topic identification
search_topics = df_search['Topic'].tolist()  # Get topics

print(f"Processed {parsed_search_rows} valid search embeddings.")
print(f"Search embedding matrix shape: {search_embeddings_matrix.shape}")

# --- Load Embedding Model ---
print(f"Loading embedding model: {embedding_model_name}...")
# Check for GPU availability
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"Using device: {device}")
model = SentenceTransformer(embedding_model_name, device=device)
print("Model loaded.")

# --- Add Topic information to test data based on target ID ---
# First, create a mapping from ID to topic
id_to_topic = dict(zip(df_search[search_id_col], df_search['Topic']))
# Then map to test data
df_test['Target_Topic'] = df_test[test_id_col].map(id_to_topic)

# Stats for tracking results by topic
topic_stats = {
    "Phép tính vi phân và ứng dụng": {"total": 0, "found": 0, "same_topic_hits": 0},
    "Hàm số và giới hạn của hàm số": {"total": 0, "found": 0, "same_topic_hits": 0},
    "Số thực": {"total": 0, "found": 0, "same_topic_hits": 0}
}

# --- Evaluation Loop ---
print(f"Starting evaluation for {len(df_test)} test questions...")
found_count = 0
results = []  # Store detailed results

for index, row in tqdm(df_test.iterrows(), total=df_test.shape[0], desc="Evaluating Questions"):
    question_text = row[test_question_col]
    target_id = row[test_id_col]
    target_topic = row.get('Target_Topic', 'Unknown')  # Get the topic of the target ID

    if pd.isna(question_text) or not isinstance(question_text, str) or not question_text.strip():
        print(f"Warning: Skipping row {index+2} due to invalid question text: {question_text}")
        results.append({'question_index': index, 'target_id': target_id, 'status': 'skipped_invalid_question', 'top_k_ids': []})
        continue

    if pd.isna(target_id) or target_topic == 'Unknown':
        print(f"Warning: Skipping row {index+2} due to missing target ID or topic information.")
        results.append({'question_index': index, 'target_id': target_id, 'status': 'skipped_missing_id_or_topic', 'top_k_ids': []})
        continue

    # Update the topic statistics counter
    if target_topic in topic_stats:
        topic_stats[target_topic]["total"] += 1

    # 1. Embed the test question using bge-m3
    question_embedding = model.encode(question_text, convert_to_numpy=True, normalize_embeddings=True)
    question_embedding = question_embedding.reshape(1, -1)  # Reshape for cosine_similarity

    # 2. Calculate cosine similarity with all search embeddings
    similarities = cosine_similarity(question_embedding, search_embeddings_matrix)[0]

    # 3. Get indices of top K most similar search documents
    top_k_indices = np.argsort(similarities)[-top_k:]
    top_k_indices = top_k_indices[::-1]  # Reverse for highest similarity first

    # 4. Get the IDs corresponding to the top K indices
    top_k_retrieved_ids = [search_ids[i] for i in top_k_indices]
    top_k_retrieved_topics = [search_topics[search_ids.index(id_)] for id_ in top_k_retrieved_ids]

    # 5. Check if the target ID is in the retrieved top K IDs
    is_found = target_id in top_k_retrieved_ids

    if is_found:
        found_count += 1
        if target_topic in topic_stats:
            topic_stats[target_topic]["found"] += 1

    # 6. Count how many results are from the same topic as the target
    same_topic_hits = sum(1 for topic in top_k_retrieved_topics if topic == target_topic)
    if target_topic in topic_stats:
        topic_stats[target_topic]["same_topic_hits"] += same_topic_hits

    results.append({
        'question_index': index,
        'question_text': question_text,
        'target_id': target_id,
        'target_topic': target_topic,
        'status': 'processed',
        'found_in_top_k': is_found,
        'top_k_ids': top_k_retrieved_ids,
        'top_k_similarities': [similarities[i] for i in top_k_indices],
        'top_k_topics': top_k_retrieved_topics,
        'same_topic_hits': same_topic_hits
    })

# --- Calculate and Print Overall Results ---
total_questions = len(df_test)
valid_questions_processed = sum(1 for r in results if r['status'] == 'processed')

if valid_questions_processed > 0:
    hit_rate = (found_count / valid_questions_processed) * 100
    print("\n--- Overall Evaluation Results ---")
    print(f"Total questions in test file: {total_questions}")
    print(f"Valid questions processed: {valid_questions_processed}")
    print(f"Number of questions where target ID was found in Top {top_k}: {found_count}")
    print(f"Hit Rate @{top_k}: {hit_rate:.2f}%")

    # --- Calculate and Print Topic-Specific Results ---
    print("\n--- Topic-Specific Results ---")
    for topic, stats in topic_stats.items():
        if stats["total"] > 0:
            topic_hit_rate = (stats["found"] / stats["total"]) * 100
            topic_relevance_rate = (stats["same_topic_hits"] / (stats["total"] * top_k)) * 100
            print(f"\nTopic: {topic}")
            print(f"Total questions: {stats['total']}")
            print(f"Questions with target found in Top {top_k}: {stats['found']}")
            print(f"Hit Rate @{top_k}: {topic_hit_rate:.2f}%")
            print(f"Same-topic results in Top {top_k}: {stats['same_topic_hits']} out of possible {stats['total'] * top_k}")
            print(f"Topic Relevance Rate: {topic_relevance_rate:.2f}%")
else:
    print("\n--- Evaluation Results ---")
    print("No valid questions were processed.")

# Optional: Save detailed results to a new file
results_df = pd.DataFrame(results)
results_df.to_excel("/content/topic_based_rag_evaluation_results.xlsx", index=False)
print("Detailed results saved to /content/topic_based_rag_evaluation_results.xlsx")

RuntimeError: Failed to import transformers.models.auto because of the following error (look up to see its traceback):
cannot import name 'define_import_structure' from 'transformers.utils.import_utils' (c:\Users\ASUS\anaconda3\envs\llama_env\lib\site-packages\transformers\utils\import_utils.py)