In [1]:
import os
import search_Qdrant as sq
import numpy as np
from dotenv import load_dotenv
from apikeys_GEMINI import APIKeyManager
import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity







In [2]:
load_dotenv()
APIS_GEMINI_LIST = os.getenv('APIS_GEMINI_LIST').split(',')
key_manager = APIKeyManager(APIS_GEMINI_LIST)

In [3]:

model = AutoModelForQuestionAnswering.from_pretrained("quanghuy123/fine-tunned-bert-for-QA-final",token='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')
tokenizer = AutoTokenizer.from_pretrained('google-bert/bert-base-multilingual-cased')
MODEL_RERANK = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
rerank_model = SentenceTransformer(MODEL_RERANK)
MAX_LENGTH = 512
STRIDE = 350
N_BEST = 150
MAX_ANSWER_LENGTH = 2000


In [4]:
def predict(contexts, question):
    answer_final = []
    for context in contexts:
        inputs = tokenizer(
            question,
            context,
            max_length=MAX_LENGTH,
            truncation="only_second",
            stride=STRIDE,
            return_offsets_mapping=True,
            padding="max_length",
            return_tensors="pt"
        )
        with torch.no_grad():
            outputs = model(**{k: v for k, v in inputs.items() if k in ['input_ids', 'attention_mask']})
        start_logits = outputs.start_logits.squeeze().cpu().numpy()
        end_logits = outputs.end_logits.squeeze().cpu().numpy()
        offsets = inputs["offset_mapping"][0].cpu().numpy()
        answers = []
        start_indexes = np.argsort(start_logits)[-N_BEST:][::-1].tolist()
        end_indexes = np.argsort(end_logits)[-N_BEST:][::-1].tolist()

        for start_index in start_indexes:
            for end_index in end_indexes:
                if end_index < start_index or end_index - start_index + 1 > MAX_ANSWER_LENGTH:
                    continue
                if offsets[start_index][0] is not None and offsets[end_index][1] is not None:
                    answer_text = context[offsets[start_index][0]: offsets[end_index][1]].strip()
                    if answer_text:
                        answer = {
                            "text": answer_text,
                            "score": start_logits[start_index] + end_logits[end_index],
                        }
                        answers.append(answer)
        if answers:
            answers.sort(key=lambda x: x["score"], reverse=True)
            best_answer = answers[0]['text']
            if best_answer not in answer_final:
                answer_final.append(best_answer)
        else: 
            return "Không có câu trả lời"
    return answer_final  
 

In [22]:
question="Hãy cho tôi biết các trường hợp phải xác định dòng chảy tối thiểu bao gồm những gì ?"
contexts=sq.search_Article(question,key_manager)
for context in contexts:
    print(context,"\n----------------------------------------------------------------")


Các kết quả trả về:

Điều 24. Dòng chảy tối thiểu
1. Các trường hợp phải xác định dòng chảy tối thiểu bao gồm:
a) Sông, suối có các công trình chuyển nước, đập, hồ chứa, công trình khai thác nước lớn có khả năng ảnh hưởng đến hoạt động dân sinh, phát triển kinh tế - xã hội, hệ sinh thái thủy sinh.
Căn cứ nguồn lực, điều kiện phát triển kinh tế - xã hội tại địa phương, tầm quan trọng của nguồn nước, yêu cầu phòng, chống thiên tai, yêu cầu bảo vệ nguồn nước, cơ quan có thẩm quyền quy định tại khoản 6 và khoản 7 Điều này quyết định thứ tự ưu tiên, vị trí cần duy trì dòng chảy tối thiểu của từng sông, suối cần xác định dòng chảy tối thiểu.
b) Đập, hồ chứa xây dựng trên các sông, suối, trừ trường hợp các đập, hồ chứa đã đi vào vận hành mà không thể điều chỉnh, bổ sung hạng mục công trình xả dòng chảy tối thiểu.
2. Dòng chảy tối thiểu là một trong những căn cứ để xem xét trong quá trình thẩm định, phê duyệt các nhiệm vụ sau đây:
a) Quy hoạch về tài nguyên nước; quy hoạch có tính chất kỹ thu

In [26]:
results=predict(contexts,question)
for result in results:
    print(result,"\n----------------------------------------------------------------")

Điều 24. Dòng chảy tối thiểu
1. Các trường hợp phải xác định dòng chảy tối thiểu bao gồm:
a) Sông, suối có các công trình chuyển nước, đập, hồ chứa, công trình khai thác nước lớn có khả năng ảnh hưởng đến hoạt động dân sinh, phát triển kinh tế - xã hội, hệ sinh thái thủy sinh.
Căn cứ nguồn lực, điều kiện phát triển kinh tế - xã hội tại địa phương, tầm quan trọng của nguồn nước, yêu cầu phòng, chống thiên tai, yêu cầu bảo vệ nguồn nước, cơ quan có thẩm quyền quy định tại khoản 6 và khoản 7 Điều này quyết định thứ tự ưu tiên, vị trí cần duy trì dòng chảy tối thiểu của từng sông, suối cần xác định dòng chảy tối thiểu. 
----------------------------------------------------------------


In [29]:
def rerank_By_Cosin_TF_IDF(user_query, documents):
    user_query_embedding = rerank_model.encode(user_query)
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(documents)  
    user_query_tfidf = vectorizer.transform([user_query]) 
    tfidf_scores = cosine_similarity(user_query_tfidf, tfidf_matrix).flatten() 
    
    combined_scores = []
    for i, document in enumerate(documents):
        document_embedding = rerank_model.encode(document) 
        cos_sim = cosine_similarity([user_query_embedding], [document_embedding])[0][0]  
        combined_score = 0.7 * cos_sim + 0.3 * tfidf_scores[i]  
        combined_scores.append(combined_score)
    
    results_with_scores = [(documents[i], combined_scores[i]) for i in range(len(documents))]
    results_with_scores.sort(key=lambda x: x[1], reverse=True)
    
    top_results = [results_with_scores[i][0] for i in range(min(2, len(documents)))]
    return top_results

In [30]:
finals=rerank_By_Cosin_TF_IDF(question,results)
for final in finals:
    print(final,"\n----------------------------------------------------------------")

Điều 24. Dòng chảy tối thiểu
1. Các trường hợp phải xác định dòng chảy tối thiểu bao gồm:
a) Sông, suối có các công trình chuyển nước, đập, hồ chứa, công trình khai thác nước lớn có khả năng ảnh hưởng đến hoạt động dân sinh, phát triển kinh tế - xã hội, hệ sinh thái thủy sinh.
Căn cứ nguồn lực, điều kiện phát triển kinh tế - xã hội tại địa phương, tầm quan trọng của nguồn nước, yêu cầu phòng, chống thiên tai, yêu cầu bảo vệ nguồn nước, cơ quan có thẩm quyền quy định tại khoản 6 và khoản 7 Điều này quyết định thứ tự ưu tiên, vị trí cần duy trì dòng chảy tối thiểu của từng sông, suối cần xác định dòng chảy tối thiểu. 
----------------------------------------------------------------
