## 1.Import library

In [2]:
import sys
project_path = r"D:/DaiHoc/machinelearning/TLCN/DoAnTotNghiep_chat_bot/"
sys.path.append(project_path)
from source.function.utils_result import RAG
from source.search.utils_search import Qdrant_Utils
from source.rerank.utils_rerank import Rerank_Utils  
from source.model.embedding_model import Sentences_Transformer_Embedding
from source.model.extract_model import Bert_Extract
from source.model.generate_model import Gemini
from source.model.rerank_model import Cohere
from source.data.vectordb.qdrant import Qdrant_Vector
from source.core.config import Settings
from source.generate.generate import Gemini_Generate
from source.extract.utils_extract import Extract_Information
from source.schema.chatbot_querry import ChatbotQuery

setting=Settings()
gemini=Gemini(setting)
cohere=Cohere(setting)
bert=Bert_Extract(setting)
sentences_transformer_embedding=Sentences_Transformer_Embedding(setting)
qdrant=Qdrant_Vector(setting,sentences_transformer_embedding)
rerank_Utils=Rerank_Utils(cohere)
extract_Utils= Extract_Information(bert)
generate_Utils=Gemini_Generate(gemini,setting)
qdrant_Utils=Qdrant_Utils(qdrant, generate_Utils)
rag=RAG(generate_Utils,extract_Utils,qdrant_Utils,rerank_Utils,setting,sentences_transformer_embedding)
import pandas as pd
from tqdm import tqdm
import google.generativeai as genai 
from sklearn.metrics.pairwise import cosine_similarity
import re
import json

## 2. Load file dataset Generate Query

In [3]:
# Đọc file dataset_query_entities
file_path = "../data_danhgia_module_router_generate/dataset_Query_Entities.xlsx"

df_query_entities = pd.read_excel(file_path, engine="openpyxl")

# Hiển thị 5 dòng đầu tiên
print(df_query_entities.head(5))

   STT                                              query  \
0    1  Trong Thông tư số 57/2015/TT-BYT do Bộ Y tế ba...   
1    2  Trong lĩnh vực Thể thao - Y tế, Thông tư số 57...   
2    3  Trong Thông tư số 57/2015/TT-BYT của Bộ Y tế, ...   
3    4  Trong văn bản pháp luật liên quan đến quyền dâ...   
4    5  Văn bản do Bộ Y tế ban hành ngày 30/12/2015 có...   

                                      entities_label  
0  {"Loai-Van-Ban": "Thông tư", "Noi-Ban-Hanh": "...  
1  {"LinhVuc-Nganh": "Thể thao - Y tế", "Loai-Van...  
2  {"Loai-Van-Ban": "Thông tư", "Noi-Ban-Hanh": "...  
3  {"Noi-Ban-Hanh": "Bộ Y tế", "LinhVuc-Nganh": "...  
4  {"Noi-Ban-Hanh": "Bộ Y tế", "Ngay-Ban-Hanh": "...  


> các key duy nhất

In [4]:
import json

all_keys = set()

for val in df_query_entities['entities_label'].unique():
    try:
        entity_dict = json.loads(val)
        all_keys.update(entity_dict.keys())
    except Exception as e:
        print(f"Lỗi khi xử lý chuỗi: {val} - {e}")

print("Các key duy nhất trong entities_label:")
for key in sorted(all_keys):
    print(f"- {key}")


Các key duy nhất trong entities_label:
- LinhVuc-Nganh
- Loai-Van-Ban
- Ngay-Ban-Hanh
- Noi-Ban-Hanh
- So-Hieu


### 3.CALL API Gemini

In [5]:
setting=Settings()
gemini=Gemini(setting)
gemini_func=Gemini_Generate(gemini,setting)

In [6]:
def extract_json_dict(text):
    # Dùng regex để trích nội dung bên trong ```json ... ```
    match = re.search(r'```json\s*(\{.*?\})\s*```', text, re.DOTALL)
    if match:
        json_str = match.group(1)
        return json.loads(json_str)
    else:
        raise ValueError("Không tìm thấy nội dung JSON hợp lệ.")

In [7]:
result=gemini_func.extract_entities("Bao nhiêu tuổi thì phải đăng kí kết hôn?")
print(extract_json_dict(result))

{}


In [8]:
import time
from tqdm import tqdm
import pandas as pd
import json

def process_extract_entities(input_path, output_path, batch_size=10):
    # Đọc dữ liệu từ file Excel
    df = pd.read_excel(input_path, engine="openpyxl")
    queries = df["query"].tolist()
    labels = df["entities_label"].tolist()

    results = []

    for idx, (query, label_str) in enumerate(tqdm(zip(queries, labels), total=len(queries), desc="Extracting entities")):
        try:
            # Gọi Gemini để trích xuất entities
            raw_result = gemini_func.extract_entities(query)
            entity_dict = extract_json_dict(raw_result)
        except Exception as e:
            print(f"Lỗi ở dòng {idx + 1}: {e}")
            entity_dict = {}

        # Lưu kết quả (gồm cả nhãn thực tế)
        results.append({
            "query": query,
            "predict_entities": json.dumps(entity_dict, ensure_ascii=False),
            "entities_label": label_str,
        })

        # Ghi từng batch vào file
        if len(results) >= batch_size:
            _append_results_to_excel(results, output_path)
            results = []

        time.sleep(3)  # Tránh spam API

    # Ghi phần còn lại
    if results:
        _append_results_to_excel(results, output_path)

def _append_results_to_excel(results, output_path):
    result_df = pd.DataFrame(results)
    try:
        existing_df = pd.read_excel(output_path, engine="openpyxl")
        result_df = pd.concat([existing_df, result_df], ignore_index=True)
    except FileNotFoundError:
        pass
    result_df.to_excel(output_path, index=False, engine="openpyxl")
    print(f"Đã lưu {len(results)} kết quả vào {output_path}")


In [9]:
input_file = "../data_danhgia_module_router_generate/dataset_Query_Entities.xlsx"
output_file = "../data_danhgia_module_router_generate/eval_entities_extract.xlsx"

process_extract_entities(input_file, output_file)


Extracting entities:   1%|          | 9/906 [00:38<1:03:37,  4.26s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:   2%|▏         | 19/906 [01:22<1:04:08,  4.34s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:   3%|▎         | 29/906 [02:06<1:06:51,  4.57s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:   4%|▍         | 39/906 [02:50<1:01:33,  4.26s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:   5%|▌         | 49/906 [03:37<1:07:16,  4.71s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:   7%|▋         | 59/906 [04:23<1:03:38,  4.51s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:   8%|▊         | 69/906 [05:20<1:09:40,  4.99s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:   9%|▊         | 79/906 [06:03<59:14,  4.30s/it]  

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  10%|▉         | 89/906 [06:48<1:02:28,  4.59s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  11%|█         | 99/906 [07:32<1:00:59,  4.53s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  12%|█▏        | 109/906 [08:17<57:43,  4.35s/it]  

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  13%|█▎        | 119/906 [09:06<1:01:10,  4.66s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  14%|█▍        | 129/906 [09:54<1:15:33,  5.83s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  15%|█▌        | 139/906 [10:38<57:08,  4.47s/it]  

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  16%|█▋        | 149/906 [11:30<1:00:11,  4.77s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  18%|█▊        | 159/906 [12:13<56:44,  4.56s/it]  

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  19%|█▊        | 169/906 [12:57<54:57,  4.47s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  20%|█▉        | 179/906 [13:40<51:43,  4.27s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  21%|██        | 189/906 [14:24<53:39,  4.49s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  22%|██▏       | 199/906 [15:07<53:55,  4.58s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  23%|██▎       | 209/906 [15:52<51:23,  4.42s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  24%|██▍       | 219/906 [16:37<50:15,  4.39s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  25%|██▌       | 229/906 [17:24<51:22,  4.55s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  26%|██▋       | 239/906 [18:10<53:23,  4.80s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  27%|██▋       | 249/906 [18:59<1:02:03,  5.67s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  29%|██▊       | 259/906 [19:43<46:36,  4.32s/it]  

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  30%|██▉       | 269/906 [20:28<47:43,  4.50s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  31%|███       | 279/906 [21:09<42:31,  4.07s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  32%|███▏      | 289/906 [21:50<41:05,  4.00s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  33%|███▎      | 299/906 [22:31<41:33,  4.11s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  34%|███▍      | 309/906 [23:15<42:02,  4.23s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  35%|███▌      | 319/906 [24:08<44:52,  4.59s/it]  

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  36%|███▋      | 329/906 [24:52<43:01,  4.47s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  37%|███▋      | 339/906 [25:33<39:41,  4.20s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  39%|███▊      | 349/906 [26:17<41:04,  4.42s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  40%|███▉      | 359/906 [27:01<39:06,  4.29s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  41%|████      | 369/906 [27:46<38:42,  4.32s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  42%|████▏     | 379/906 [28:31<38:06,  4.34s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  43%|████▎     | 389/906 [29:15<36:21,  4.22s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  44%|████▍     | 399/906 [29:58<36:19,  4.30s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  45%|████▌     | 409/906 [30:44<36:30,  4.41s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  46%|████▌     | 419/906 [31:31<36:46,  4.53s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  47%|████▋     | 429/906 [32:16<34:20,  4.32s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  48%|████▊     | 439/906 [33:02<36:53,  4.74s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  50%|████▉     | 449/906 [33:47<34:14,  4.50s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  51%|█████     | 459/906 [34:32<32:38,  4.38s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  52%|█████▏    | 469/906 [35:19<35:32,  4.88s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  53%|█████▎    | 479/906 [36:06<33:27,  4.70s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  54%|█████▍    | 489/906 [36:51<31:18,  4.50s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  55%|█████▌    | 499/906 [37:36<30:19,  4.47s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  56%|█████▌    | 509/906 [38:24<32:07,  4.85s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  57%|█████▋    | 519/906 [39:09<29:31,  4.58s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  58%|█████▊    | 529/906 [39:54<28:10,  4.48s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  59%|█████▉    | 539/906 [40:39<27:13,  4.45s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  61%|██████    | 549/906 [41:22<26:35,  4.47s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  62%|██████▏   | 559/906 [42:05<24:03,  4.16s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  63%|██████▎   | 569/906 [42:51<26:08,  4.65s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  64%|██████▍   | 579/906 [43:38<25:16,  4.64s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  65%|██████▌   | 589/906 [44:22<23:01,  4.36s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  66%|██████▌   | 599/906 [45:08<23:30,  4.59s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  67%|██████▋   | 609/906 [45:52<21:34,  4.36s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  68%|██████▊   | 619/906 [46:39<20:57,  4.38s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  69%|██████▉   | 629/906 [47:21<19:12,  4.16s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  71%|███████   | 639/906 [48:04<19:43,  4.43s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  72%|███████▏  | 649/906 [48:50<19:37,  4.58s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  73%|███████▎  | 659/906 [49:34<17:09,  4.17s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  74%|███████▍  | 669/906 [50:18<16:39,  4.22s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  75%|███████▍  | 679/906 [51:04<17:31,  4.63s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  76%|███████▌  | 689/906 [51:49<15:28,  4.28s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  77%|███████▋  | 699/906 [52:34<15:51,  4.60s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  78%|███████▊  | 709/906 [53:19<14:50,  4.52s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  79%|███████▉  | 719/906 [54:02<13:12,  4.24s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  80%|████████  | 729/906 [54:45<12:18,  4.17s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  82%|████████▏ | 739/906 [55:29<12:31,  4.50s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  83%|████████▎ | 749/906 [56:12<12:14,  4.68s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  84%|████████▍ | 759/906 [56:57<10:52,  4.44s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  85%|████████▍ | 769/906 [57:43<10:20,  4.53s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  86%|████████▌ | 779/906 [58:27<09:17,  4.39s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  87%|████████▋ | 789/906 [59:15<09:06,  4.67s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  88%|████████▊ | 799/906 [59:59<07:57,  4.46s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  89%|████████▉ | 809/906 [1:00:43<06:54,  4.28s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  90%|█████████ | 819/906 [1:01:28<06:48,  4.70s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  92%|█████████▏| 829/906 [1:02:15<05:55,  4.61s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  93%|█████████▎| 839/906 [1:03:05<05:24,  4.84s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  94%|█████████▎| 849/906 [1:03:49<04:23,  4.62s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  95%|█████████▍| 859/906 [1:04:32<03:15,  4.15s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  96%|█████████▌| 869/906 [1:05:15<02:32,  4.14s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  97%|█████████▋| 879/906 [1:05:56<01:51,  4.12s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  98%|█████████▊| 889/906 [1:06:38<01:10,  4.13s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities:  99%|█████████▉| 899/906 [1:07:19<00:28,  4.05s/it]

Đã lưu 10 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx


Extracting entities: 100%|██████████| 906/906 [1:07:47<00:00,  4.49s/it]


Đã lưu 6 kết quả vào ../data_danhgia_module_router_generate/eval_entities_extract.xlsx
