In [13]:
import os
import search_Qdrant as sq
import numpy as np
from dotenv import load_dotenv
from apikeys_GEMINI import APIKeyManager
import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity


In [14]:
load_dotenv()
APIS_GEMINI_LIST = os.getenv('APIS_GEMINI_LIST').split(',')
key_manager = APIKeyManager(APIS_GEMINI_LIST)

In [21]:

model = AutoModelForQuestionAnswering.from_pretrained("quanghuy123/fine-tuning-bert-for-QA",token='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')
tokenizer = AutoTokenizer.from_pretrained('google-bert/bert-base-multilingual-cased')
MODEL_RERANK = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
rerank_model = SentenceTransformer(MODEL_RERANK)
MAX_LENGTH = 512
STRIDE = 380
N_BEST = 180
MAX_ANSWER_LENGTH = 2000




In [22]:
def predict(contexts, question):
    answer_final = []
    for context in contexts:
        inputs = tokenizer(
            question,
            context,
            max_length=MAX_LENGTH,
            truncation="only_second",
            stride=STRIDE,
            return_offsets_mapping=True,
            padding="max_length",
            return_tensors="pt"
        )
        with torch.no_grad():
            outputs = model(**{k: v for k, v in inputs.items() if k in ['input_ids', 'attention_mask']})
        start_logits = outputs.start_logits.squeeze().cpu().numpy()
        end_logits = outputs.end_logits.squeeze().cpu().numpy()
        offsets = inputs["offset_mapping"][0].cpu().numpy()
        answers = []
        start_indexes = np.argsort(start_logits)[-N_BEST:][::-1].tolist()
        end_indexes = np.argsort(end_logits)[-N_BEST:][::-1].tolist()

        for start_index in start_indexes:
            for end_index in end_indexes:
                if end_index < start_index or end_index - start_index + 1 > MAX_ANSWER_LENGTH:
                    continue
                if offsets[start_index][0] is not None and offsets[end_index][1] is not None:
                    answer_text = context[offsets[start_index][0]: offsets[end_index][1]].strip()
                    if answer_text:
                        answer = {
                            "text": answer_text,
                            "score": start_logits[start_index] + end_logits[end_index],
                        }
                        answers.append(answer)
        if answers:
            answers.sort(key=lambda x: x["score"], reverse=True)
            best_answer = answers[0]['text']
            if best_answer not in answer_final:
                answer_final.append(best_answer)
        else: 
            return "Không có câu trả lời"
    return answer_final  
 

In [32]:
question="Điều 4 của Luật Giá giải thích thế nào về khái niệm hàng hóa thiết yếu?"
contexts=sq.search_Article(question,key_manager)
for context in contexts:
    print(context,"\n----------------------------------------------------------------")


Các kết quả trả về:

Điều 19. Nguồn vốn thực hiện chính sách
1. Nguồn vốn từ ngân sách nhà nước theo quy định của pháp luật về ngân sách nhà nước.
2. Nguồn vốn từ miễn, giảm thuế, phí, lệ phí, tiền thuê đất, tiền sử dụng đất và các khoản phải nộp ngân sách nhà nước theo quy định của pháp luật.
3. Nguồn vốn tín dụng ưu đãi theo quy định của pháp luật.
4. Nguồn huy động, tài trợ hợp pháp từ cá nhân, tổ chức trong nước và nước ngoài. 
----------------------------------------------------------------
Điều 37. Đấu giá biển số xe
1. Biển số xe đưa ra đấu giá là biển số xe ô tô, xe mô tô, xe gắn máy được quy định tại điểm c và điểm d khoản 2 Điều 36 của Luật này, được công khai để tổ chức, cá nhân lựa chọn đăng ký tham gia đấu giá. Biển số xe không được tổ chức, cá nhân lựa chọn để đăng ký tham gia đấu giá được chuyển vào hệ thống đăng ký, quản lý xe để đăng ký theo quy định của pháp luật.
2. Giá khởi điểm của một biển số xe ô tô đưa ra đấu giá không thấp hơn 40 triệu đồng; giá khởi điểm một 

In [33]:
results=predict(contexts,question)
for result in results:
    print(result,"\n----------------------------------------------------------------")

Nguồn vốn từ miễn, giảm thuế, phí, lệ phí, tiền thuê đất, tiền sử dụng đất và các khoản phải nộp ngân sách nhà nước theo quy định của pháp luật.
3. Nguồn vốn tín dụng ưu đãi theo quy định của pháp luật.
4. Nguồn huy động, tài trợ hợp pháp từ cá nhân, tổ chức trong nước và nước ngoài. 
----------------------------------------------------------------
Tiền đặt trước không thấp hơn giá khởi điểm của loại biển số xe đưa ra đấu giá.
4. Khi hết thời hạn đăng ký tham gia đấu giá mà chỉ có một người đăng ký tham gia đấu giá hoặc có nhiều người đăng ký tham gia đấu giá nhưng chỉ có một người tham gia đấu giá hoặc có nhiều người tham gia đấu giá nhưng chỉ có một người trả giá ít nhất bằng giá khởi điểm của một biển số xe đưa ra đấu giá thì người đó được xác định là người trúng đấu giá biển số xe.
5. Đăng ký xe và biển số xe trúng đấu giá sau khi chuyển nhượng, trao đổi, tặng cho, để thừa kế xe gắn biển số xe trúng đấu giá được quản lý, cấp, thu hồi theo quy định tại Điều 39 của Luật này.
6. Số ti

In [19]:
def rerank_By_Cosin_TF_IDF(user_query, documents):
    user_query_embedding = rerank_model.encode(user_query)
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(documents)  
    user_query_tfidf = vectorizer.transform([user_query]) 
    tfidf_scores = cosine_similarity(user_query_tfidf, tfidf_matrix).flatten() 
    
    combined_scores = []
    for i, document in enumerate(documents):
        document_embedding = rerank_model.encode(document) 
        cos_sim = cosine_similarity([user_query_embedding], [document_embedding])[0][0]  
        combined_score = 0.7 * cos_sim + 0.3 * tfidf_scores[i]  
        combined_scores.append(combined_score)
    
    results_with_scores = [(documents[i], combined_scores[i]) for i in range(len(documents))]
    results_with_scores.sort(key=lambda x: x[1], reverse=True)
    
    top_results = [results_with_scores[i][0] for i in range(min(2, len(documents)))]
    return top_results

In [31]:
finals=rerank_By_Cosin_TF_IDF(question,results)
for final in finals:
    print(final,"\n----------------------------------------------------------------")

Thực hiện công bố thông tin cho thành viên theo quy định tại Điều 14 của Luật này và công bố thông tin theo quy định của pháp luật có liên quan.
11. Bồi thường thiệt hại do hợp tác xã, liên hiệp hợp tác xã gây ra cho thành viên theo quy định của pháp luật và Điều lệ.
12. Lập, cập nhật và lưu trữ sổ đăng ký thành viên chính thức, thành viên liên kết góp vốn.
13. Thực hiện chế độ báo cáo, cập nhật thông tin về tình hình hoạt động của hợp tác xã, liên hiệp hợp tác xã theo quy định của pháp luật.
14. Nghĩa vụ khác theo quy định của pháp luật và Điều lệ. 
----------------------------------------------------------------
Thực hiện nghĩa vụ tài chính về đất đai theo quy định của pháp luật. 
----------------------------------------------------------------
