In [29]:
import os
import search_Qdrant as sq
import numpy as np
from dotenv import load_dotenv
from apikeys_GEMINI import APIKeyManager
import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity


In [30]:
load_dotenv()
APIS_GEMINI_LIST = os.getenv('APIS_GEMINI_LIST').split(',')
key_manager = APIKeyManager(APIS_GEMINI_LIST)

In [31]:

model = AutoModelForQuestionAnswering.from_pretrained("quanghuy123/fine-tuning-bert-for-QA",token='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')
tokenizer = AutoTokenizer.from_pretrained('google-bert/bert-base-multilingual-cased')
MODEL_RERANK = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
rerank_model = SentenceTransformer(MODEL_RERANK)
MAX_LENGTH = 512
STRIDE = 320
N_BEST = 120
MAX_ANSWER_LENGTH = 2000


In [32]:
def predict(contexts, question):
    answer_final = []
    for context in contexts:
        inputs = tokenizer(
            question,
            context,
            max_length=MAX_LENGTH,
            truncation="only_second",
            stride=STRIDE,
            return_offsets_mapping=True,
            padding="max_length",
            return_tensors="pt"
        )
        with torch.no_grad():
            outputs = model(**{k: v for k, v in inputs.items() if k in ['input_ids', 'attention_mask']})
        start_logits = outputs.start_logits.squeeze().cpu().numpy()
        end_logits = outputs.end_logits.squeeze().cpu().numpy()
        offsets = inputs["offset_mapping"][0].cpu().numpy()
        answers = []
        start_indexes = np.argsort(start_logits)[-N_BEST:][::-1].tolist()
        end_indexes = np.argsort(end_logits)[-N_BEST:][::-1].tolist()

        for start_index in start_indexes:
            for end_index in end_indexes:
                if end_index < start_index or end_index - start_index + 1 > MAX_ANSWER_LENGTH:
                    continue
                if offsets[start_index][0] is not None and offsets[end_index][1] is not None:
                    answer_text = context[offsets[start_index][0]: offsets[end_index][1]].strip()
                    if answer_text:
                        answer = {
                            "text": answer_text,
                            "score": start_logits[start_index] + end_logits[end_index],
                        }
                        answers.append(answer)
        if answers:
            answers.sort(key=lambda x: x["score"], reverse=True)
            best_answer = answers[0]['text']
            if best_answer not in answer_final:
                answer_final.append(best_answer)
        else: 
            return "Không có câu trả lời"
    return answer_final  
 

In [33]:
question="Trong luật đầu khí thì Dầu khí bao gồm những gì?"
contexts=sq.search_Article(question,key_manager)
for context in contexts:
    print(context,"\n----------------------------------------------------------------")


Các kết quả trả về:

Điều 29. Các loại hợp đồng dầu khí
1. Hợp đồng chia sản phẩm dầu khí.
2. Loại hợp đồng dầu khí khác. 
----------------------------------------------------------------
Điều 69. Tiền cấp quyền khai thác tài nguyên nước
1. Tổ chức, cá nhân khai thác tài nguyên nước thuộc trường hợp phải cấp phép khai thác nước mặt, nước dưới đất phải nộp tiền cấp quyền khai thác tài nguyên nước trong các trường hợp sau đây:
a) Khai thác nước mặt để phát điện có mục đích thương mại;
b) Khai thác nước mặt, nước dưới đất để phục vụ hoạt động sản xuất, kinh doanh, dịch vụ, nuôi trồng thủy sản, cấp cho nông nghiệp, cấp cho sinh hoạt.
2. Tổ chức, cá nhân khai thác tài nguyên nước không phải nộp tiền cấp quyền khai thác tài nguyên nước trong các trường hợp sau đây:
a) Khai thác nước biển;
b) Khai thác, sử dụng tài nguyên nước cho sinh hoạt, sản xuất nông nghiệp, nuôi trồng thủy sản, sản xuất công nghiệp, thủy điện, thủy lợi, thể thao, du lịch, kinh doanh, dịch vụ, tạo nguồn, ngăn mặn, chống

In [34]:
results=predict(contexts,question)
for result in results:
    print(result,"\n----------------------------------------------------------------")

Điều 29. Các loại hợp đồng dầu khí
1. Hợp đồng chia sản phẩm dầu khí.
2. Loại hợp đồng dầu khí khác. 
----------------------------------------------------------------
Khai thác tài nguyên nước cho các mục đích tạo nguồn, ngăn mặn, chống ngập, tạo cảnh quan quy định tại khoản 1 Điều 52 của Luật này. 
----------------------------------------------------------------
Điều 36. Chuyển nhượng quyền lợi tham gia, quyền và nghĩa vụ của nhà thầu trong hợp đồng dầu khí
1. Nhà thầu có quyền chuyển nhượng quyền lợi tham gia, quyền và nghĩa vụ của nhà thầu trong hợp đồng dầu khí. Việc chuyển nhượng toàn bộ hoặc một phần quyền lợi tham gia, quyền và nghĩa vụ của nhà thầu trong hợp đồng dầu khí phải đáp ứng các điều kiện sau đây:
a) Bên nhận chuyển nhượng cam kết kế thừa các quyền lợi tham gia, quyền và nghĩa vụ của bên chuyển nhượng và thực hiện các nội dung của hợp đồng dầu khí đã được ký kết;
b) Bên chuyển nhượng và bên nhận chuyển nhượng phải đáp ứng được các điều kiện theo quy định của Luật này v

In [46]:
def rerank_By_Cosin_TF_IDF(user_query, documents):
    user_query_embedding = rerank_model.encode(user_query)
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(documents)  
    user_query_tfidf = vectorizer.transform([user_query]) 
    tfidf_scores = cosine_similarity(user_query_tfidf, tfidf_matrix).flatten() 
    
    combined_scores = []
    for i, document in enumerate(documents):
        document_embedding = rerank_model.encode(document) 
        cos_sim = cosine_similarity([user_query_embedding], [document_embedding])[0][0]  
        combined_score = 0.7 * cos_sim + 0.3 * tfidf_scores[i]  
        combined_scores.append(combined_score)
    
    results_with_scores = [(documents[i], combined_scores[i]) for i in range(len(documents))]
    results_with_scores.sort(key=lambda x: x[1], reverse=True)
    
    top_results = [results_with_scores[i][0] for i in range(2)]
    return top_results

In [47]:
finals=rerank_By_Cosin_TF_IDF(question,results)
for final in finals:
    print(final,"\n----------------------------------------------------------------")

Điều 3. Giải thích từ ngữ
Trong Luật này, các từ ngữ dưới đây được hiểu như sau:
1. Dầu khí bao gồm dầu thô, khí thiên nhiên và hydrocarbon ở thể rắn hoặc nửa rắn trong trạng thái tự nhiên, dầu khí phi truyền thống. Dầu khí phi truyền thống bao gồm khí than, dầu đá phiến hoặc dầu sét, khí đá phiến hoặc khí sét, băng cháy, bitum hoặc các dạng khác có thể tồn tại.
2. Điều tra cơ bản về dầu khí là hoạt động nghiên cứu, khảo sát, điều tra về thành tạo địa chất và thành phần vật chất, các điều kiện và quy luật sinh dầu khí nhằm đánh giá tiềm năng, triển vọng dầu khí làm cơ sở cho việc định hướng hoạt động tìm kiếm thăm dò dầu khí.
3. Hoạt động dầu khí bao gồm hoạt động tìm kiếm thăm dò dầu khí, phát triển mỏ dầu khí, khai thác dầu khí, thu dọn công trình dầu khí.
4. Hợp đồng dầu khí là sự thỏa thuận bằng văn bản được ký kết giữa Tập đoàn Dầu khí Việt Nam với nhà thầu để tiến hành hoạt động dầu khí.
5. Hợp đồng chia sản phẩm dầu khí là hợp đồng dầu khí, trong đó có quy định việc chia sản phẩ