## 1.Import library

In [None]:

import os
from dotenv import load_dotenv
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_core.prompts import ChatPromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.output_parsers import StrOutputParser
from langchain_qdrant import QdrantVectorStore
from sentence_transformers import SentenceTransformer, util
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from typing import List, Tuple
from qdrant_client.models import Filter, FieldCondition, MatchValue
from langchain_qdrant import QdrantVectorStore, RetrievalMode
from googlesearch import search
import requests
from sentence_transformers import CrossEncoder
import json
from bs4 import BeautifulSoup
from selenium import webdriver
import time
import re
import shutil
from selenium import webdriver
from langchain_experimental.text_splitter import SemanticChunker
from langchain.docstore.document import Document
from selenium.webdriver.chrome.options import Options
from generate.reset_api_key import APIKeyManager
from qdrant_client import QdrantClient

## 2.Retrieval Augmented Generation 

### 2.1.Load environment

In [None]:
load_dotenv()

### 2.2.Initialize Embedding Models

In [None]:
MODEL_GENERATETOR = os.getenv("MODEL_GEMINI")
MODEL_EMBEDDING=os.getenv("MODEL_EMBEDDING")
API_GENERATETOR=os.getenv("APIS_GEMINI_LIST")
MODEL_RERANKER=os.getenv("MODEL_RERANK")

In [1]:
from langchain_community.tools.tavily_search import TavilySearchResults

# Khởi tạo công cụ tìm kiếm Tavily
search_tool = TavilySearchResults()

# Sử dụng công cụ tìm kiếm để tìm thông tin
query = "Tư tưởng Hồ Chí Minh là gì?"
results = search_tool.run(query)

# In kết quả tìm kiếm
print(results)


ValidationError: 1 validation error for TavilySearchAPIWrapper
  Value error, Did not find tavily_api_key, please add an environment variable `TAVILY_API_KEY` which contains it, or pass `tavily_api_key` as a named parameter. [type=value_error, input_value={}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.9/v/value_error

### 2.3.Initialize Embedding Models

In [None]:
embeddings_query = SentenceTransformer(MODEL_EMBEDDING)
model_rerank=CrossEncoder(MODEL_RERANKER)

### 2.4.Function to calculate cosine similarity between two queries

In [None]:
def calculate_similarity(query1: str, query2: str) -> float:
    embedding1 = embeddings_query.encode(query1, convert_to_tensor=True)
    embedding2 = embeddings_query.encode(query2, convert_to_tensor=True)
    cosine_similarity = util.cos_sim(embedding1, embedding2).item()
    return cosine_similarity

### 2.5.Function to generate diverse queries

In [None]:
def query_generator(original_query: str, API_GENERATETOR) -> List[str]:
    print(API_GENERATETOR)
    prompt = ChatPromptTemplate.from_messages(
        [
            ("system", 
            "Bạn là một trợ lý chuyên gia về chính trị Việt Nam. Nhiệm vụ của bạn là tạo ra bốn câu truy vấn tìm kiếm liên quan đến một truy vấn gốc. "
            "Câu truy vấn phải được xây dựng sao cho thay đổi về vị trí từ ngữ trong câu, nhưng vẫn giữ nguyên ý nghĩa. "
            "Hãy áp dụng các cách: đảo ngữ, thay thế từ đồng nghĩa, thay đổi dạng câu hỏi (mở, đóng), hoặc diễn đạt lại mà không làm sai ý. "
            "Câu truy vấn này có thể sử dụng trong tìm kiếm trên internet. "
            "Ví dụ: "
            "- 'Quan điểm của Hồ Chí Minh về khai thác di sản tư tưởng của Nho giáo?' có thể đổi thành 'Về khai thác di sản tư tưởng của Nho giáo, Hồ Chí Minh quan điểm như thế nào?'"
            "- 'Tính mới mẻ của tư tưởng Hồ Chí Minh là gì?' có thể đổi thành 'Nêu khái niệm của tính mới mẻ trong tư tưởng Hồ Chí Minh?'"
            "- 'Những phẩm chất thiên tài kết hợp với hoạt động thực tiễn của Hồ Chí Minh thể hiện ở đâu?' có thể đổi thành 'Hồ Chí Minh có những phẩm chất thiên tài kết hợp với hoạt động thực tiễn thể hiện ở đâu?'"
            "- 'Tư tưởng Hồ Chí Minh là gì?' có thể đổi thành 'Tư tưởng Hồ Chí Minh là như thế nào?'"
            "- 'Tính sáng tạo của tư tưởng Hồ Chí Minh thể hiện ở đâu?' có thể đổi thành 'Tính sáng tạo của tư tưởng Hồ Chí Minh thể hiện ở những điểm nào?'"
            "Hãy đảm bảo mỗi câu truy vấn khác biệt nhau về cấu trúc ngữ pháp, nhưng vẫn đúng ngữ nghĩa."
            ),
            ("human", f"Vui lòng tạo ra bốn câu truy vấn tìm kiếm liên quan nhất đến: {original_query}. Chỉ trả về bốn câu truy vấn, không giải thích gì thêm.")
        ]
    )
    model = ChatGoogleGenerativeAI(
        google_api_key=API_GENERATETOR,
        model=MODEL_GENERATETOR,  
        max_tokens=1000,
        temperature=0, 
    )
    query_generator_chain = prompt | model | StrOutputParser()  
    result = query_generator_chain.invoke({"original_query": original_query})
    generated_queries = result.strip().split('\n')
    cleaned_queries = [re.sub(r'^\d+\.\s*', '', query).strip() for query in generated_queries] 
    valid_queries = [query for query in  cleaned_queries if calculate_similarity(original_query, query) >= 0.5]
    valid_queries.append(original_query)
    return valid_queries

### 2.6.Initialize Qdrant for vector store

In [None]:
def create_qdrant_environment(collection_name) -> QdrantVectorStore:
    return QdrantVectorStore.from_existing_collection(
        embedding=HuggingFaceEmbeddings(model_name=MODEL_EMBEDDING),
        url="http://localhost:6333",
        collection_name=collection_name,
        retrieval_mode=RetrievalMode.DENSE,
        metadata_payload_key="metadata"
    )

### 2.7.Filter keyword

> keyword

In [None]:
keywords = [
        "không có nguyên lý", "không có quy luật mới", 
        "không đúc rút được", "trừu tượng hóa", "vận dụng", 
        "khái quát hóa", "khai thác", "công nhận", "sai lầm", 
        "chắp vá", "từ ngữ đời thường", "cóp nhặt", "mới mẻ", 
        "sáng tạo", "dân dã", "trừu tượng cao"
    ]

In [None]:
def create_should_filter(user_keywords: List[str], metadata_fields: str) -> Filter:
    should_conditions = []
    for keyword_condition in user_keywords:
        should_conditions.append(FieldCondition(
            key=metadata_fields, 
            match=MatchValue(value=keyword_condition)
        ))
    return Filter(
        should=should_conditions
    )

### 2.8.Function to search without reranking

In [None]:
def search_qdrant_without_rerank(generated_queries: List[str],collection_name) -> List[List[Tuple]]:
    qdrant_exit = create_qdrant_environment(collection_name)
    all_top_documents = []
    total_documents_searched = 0

    for query in generated_queries:
        if query:
            user_matched_keywords = [keyword for keyword in keywords if keyword in query.lower()]
            filter_condition = create_should_filter(user_matched_keywords, 'metadata.keyword_sub') if user_matched_keywords else None
            
            if filter_condition:
                top_documents = qdrant_exit.similarity_search_with_score(query, k=5, filter=filter_condition)
                print("filter keyword + search similarity")
            else:
                top_documents = qdrant_exit.similarity_search_with_score(query, k=5)
                print("search similarity")
            total_documents_searched += len(top_documents)
            for doc, score in top_documents:
                    all_top_documents.append((doc, score))
    return all_top_documents

###  2.9. Function to rerank documents

In [None]:
# def rerank_documents_with_bert(
#     top_documents: List[Tuple], query_text: str
# ) -> List[Tuple]:
#     device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
#     model_reranker.to(device)
#     scores = []
#     for doc, original_score in top_documents:
#         if hasattr(doc, "page_content") and doc.page_content:
#             passage = doc.page_content
#             inputs = tokenizer(
#                 query_text, passage, return_tensors="pt", padding=True, truncation=True, max_length=512
#             ).to(device)
#             with torch.no_grad():
#                 logits = model_reranker(**inputs).logits  
#                 relevance_score = torch.softmax(logits, dim=1)[0, 1].item()  
#             combined_score = 0.6 * original_score + 0.4 * relevance_score
#             scores.append((doc, combined_score))
#     return sorted(scores, key=lambda x: x[1], reverse=True)


In [None]:
def rerank_documents(top_documents: List[Tuple], query_text: str) -> List[Tuple]:
 
    query_passage_pairs = [
        (query_text, doc.page_content) 
        for doc, _ in top_documents 
        if hasattr(doc, "page_content") and doc.page_content.strip()
    ]

    if not query_passage_pairs:
        return []
    scores = model_rerank.predict(query_passage_pairs)
    ranked_documents = [
        (doc, score) for (doc, _), score in zip(top_documents, scores)
    ]
    return sorted(ranked_documents, key=lambda x: x[1], reverse=True)

### 2.10.Main search function with rerank

In [None]:
def search_qdrant(generated_queries: List[str], original_query: str,collection_name) -> List[Tuple]:
    qdrant_exit = create_qdrant_environment(collection_name)
    all_top_documents = []
    seen_documents = set()
    total_documents_searched = 0
    
    for query in generated_queries:
        if query:
            user_matched_keywords = [keyword for keyword in keywords if keyword in query.lower()]
            filter_condition = create_should_filter(user_matched_keywords, 'metadata.keyword_sub') if user_matched_keywords else None
            if filter_condition:
                top_documents = qdrant_exit.similarity_search_with_score(query, k=5, filter=filter_condition)
            else:
                top_documents = qdrant_exit.similarity_search_with_score(query, k=5) 
            total_documents_searched += len(top_documents)
            for doc, score in top_documents:
                if hasattr(doc, 'page_content'):
                    doc_content = doc.page_content
                    if doc_content not in seen_documents:
                        seen_documents.add(doc_content)
                        all_top_documents.append((doc, score))
    reranked_docs = rerank_documents(all_top_documents, original_query)
    return reranked_docs[:5]

In [None]:
origin_query="Tư tưởng hồ chí minh là gì ?"
querys=query_generator(origin_query,API_GENERATETOR)

In [None]:
print(querys)

In [None]:
results=search_qdrant(['Tư tưởng Hồ Chí Minh có những điểm mới mẻ nào?', 'Sự mới mẻ trong tư tưởng Hồ Chí Minh được thể hiện như thế nào?', 'Điểm đổi mới trong tư tưởng của Hồ Chí Minh là gì?', 'Những nét mới mẻ của tư tưởng Hồ Chí Minh?', 'Tính mới mẻ của tư tưởng hồ chí minh là gì ?'] ,'Tính mới mẻ của tư tưởng hồ chí minh là gì ?',"document_embeddings_500_word_4_bkai")
for i, (result, score) in enumerate(results):
    print(f"Document {i+1}:")
    print(f"Page Content: {result.page_content}")
    print(f"Metadata: {result.metadata}")
    print(f"Score: {score}")
    print("-" * 50)  

### 2.11.Combine context and generate response

> prompt 1

In [None]:
def prompt_template_one(docs: List[Tuple], original_query: str) -> str:
    context = "\n".join([doc.page_content for doc, _ in docs])
    response_prompt = ChatPromptTemplate.from_messages(
        [
            ("system", "Bạn là một trợ lý chuyên gia về chính trị Việt Nam, có nhiệm vụ trả lời câu hỏi về chính trị Việt Nam nói chung hay tư tưởng Hồ Chí Minh nói riêng."),
            ("human", f"""
                Bạn hãy trả lời câu hỏi '{original_query}' dựa vào nội dung đã được cung cấp.
                Hãy lấy toàn bộ ý trong nội dung sau để trả lời:
                {context}
                Đảm bảo câu trả lời phải dài nhưng không thêm bất kỳ thông tin mới nào.Nếu không có câu trả lời trong nội dung đã được cung cấp, chỉ cần phản hồi "trong bộ dữ liệu không có thông tin"
            """)
        ]
    )
    return response_prompt

> prompt 2

In [None]:
def prompt_template_final(docs: List[Tuple], original_query: str) -> str:
    context = "\n".join([doc.page_content for doc, _ in docs])
    # Tạo template cho phản hồi với ChatPromptTemplate
    response_prompt = ChatPromptTemplate.from_messages(
        [
            ("system", "Bạn là một trợ lý chuyên gia về chính trị Việt Nam, có nhiệm vụ trả lời câu hỏi về chính trị Việt Nam nói chung hay tư tưởng Hồ Chí Minh nói riêng."),
            ("human", f"""
                Bạn chỉ được trả lời câu hỏi '{original_query}' dựa vào nội dung đã cung cấp.
                Không thêm bất kỳ thông tin mới nào hoặc không suy đoán.
                Nếu không có câu trả lời trong ngữ cảnh, bạn phải phản hồi 4-5 ý dựa trên kiến thức của bản thân đã biết.
                Dưới đây là nội dung liên quan:
                {context}
            """)
        ]
    )
    return response_prompt

### 2.12.Rerank link

In [None]:
def rerank_links(docs: List[Tuple], response: str) -> List[str]:
    link_with_scores = []
    doc_contents = [doc.page_content for doc, _ in docs]

    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfidf_vectorizer.fit_transform(doc_contents)
    response_tfidf = tfidf_vectorizer.transform([response])
    scores_tfidf = cosine_similarity(response_tfidf, tfidf_matrix).flatten()

    response_embedding = rerank_model.encode(response, convert_to_tensor=True)

    for (doc, _), tfidf_score in zip(docs, scores_tfidf):
        doc_embedding = rerank_model.encode(doc.page_content, convert_to_tensor=True)
        cosine_score = util.pytorch_cos_sim(response_embedding, doc_embedding).item()
        combined_score = 0.7 * cosine_score + 0.3 * tfidf_score
        link_with_scores.append((doc.metadata['link'], combined_score))
    sorted_links = sorted(link_with_scores, key=lambda x: x[1], reverse=True)
    seen_links = set()
    unique_sorted_links = []
    for link, score in sorted_links:
        if link not in seen_links:
            seen_links.add(link)
            unique_sorted_links.append((link, score))

    return unique_sorted_links 


### 2.13.Check Response

In [None]:
def check_response(response, target_sentence="trong bộ dữ liệu không có thông tin"):
    if target_sentence in  response.lower():
        return True
    return False

### 2.14.Load LLM and create response chain

> Response final

In [None]:
def generate_final_response(original_query: str, docs: List[Tuple]) -> str:
    response_model = ChatGoogleGenerativeAI(
        google_api_key=API_GENERATETOR,
        model=MODEL_GENERATETOR,
        temperature=0.1,
        max_tokens=4000,
        top_p=0.6,
    )
    
    response_chain = prompt_template_final(docs, original_query) | response_model | StrOutputParser()
    final_response = response_chain.invoke({"original_query": original_query}).strip()
    ranked_links = rerank_links(docs, final_response)
    links_output = "\n".join([f"{link} (Điểm số liên quan: {score:.2f})" for link, score in ranked_links])
    return f"{final_response}\n\nCác đường link liên quan:\n{links_output}"


> Response Final

In [None]:
def generate_response(original_query: str, docs: List[Tuple]) -> str:
    response_model = ChatGoogleGenerativeAI(
        google_api_key=API_GENERATETOR,
        model=MODEL_GENERATETOR,
        temperature=0.1,
        max_tokens=6000,
        top_p=0.6,
    )
    response_chain = prompt_template_one(docs, original_query) | response_model | StrOutputParser()
    final_response = response_chain.invoke({"original_query": original_query}).strip()
    if check_response(final_response):
        response_chain = prompt_template_final(docs, original_query) | response_model | StrOutputParser()
        final_response = response_chain.invoke({"original_query": original_query}).strip()
        docs_search = search_qdrant([final_response], original_query)
        final = generate_final_response(original_query, docs_search)
        return final
    ranked_links = rerank_links(docs, final_response)
    links_output = "\n".join([f"{link} (Điểm số liên quan: {score:.2f})" for link, score in ranked_links])
    return (f"{final_response}\n\n"
            f"Các đường link liên quan:\n{links_output}\n"
            f'Chào Bạn! Tôi là một trợ lý chuyên gia về chính trị Việt Nam. Nếu bạn có câu hỏi nào về chính trị Việt Nam hoặc tư tưởng Hồ Chí Minh, đừng ngần ngại hỏi tôi nhé! Tôi sẵn sàng cung cấp thêm thông tin cho Bạn.')
    

### 2.15.Determine User Query

In [None]:

def determine_user_query(original_query: str) -> int:
    examples: List[str] = [
        "Cho tôi thêm thông tin ngoài những ý bạn nói ở trên? : 1",
        "Cho tôi biết thêm một số khái niệm? : 1",
        "Ngoài những điều đã đề cập, còn có gì khác không? : 1",
        "Có thông tin nào khác liên quan đến chủ đề này không? : 1",
        "Có bạn hãy cho tôi thêm thông tin về vấn đề này? : 1",
        "Bạn có thể cung cấp thêm thông tin về vấn đề này không? : 1",
        "Có những khía cạnh nào khác mà tôi nên biết không? : 1",
        "Bạn có thể giải thích thêm về chủ đề này không? : 1",
        "Xin hãy cho tôi biết thêm về các giải pháp khả thi? : 1",
        "Có nguồn thông tin nào khác về điều này không? : 1",
        "Hãy cho tôi biết tính sáng tạo của tư tưởng Hồ Chí Minh? : 0",
        "Tư tưởng Hồ Chí Minh là gì? : 0",
        "Tính mới mẻ của tư tưởng Hồ Chí Minh? : 0",
        "Tính khai thác của tư tưởng Hồ Chí Minh thể hiện ở khía cạnh nào? : 0",
        "Bạn hãy khái quát hoá về tư tưởng Hồ Chí Minh? : 0",
        "Hãy mô tả về những điểm chính trong tư tưởng Hồ Chí Minh? : 0",
        "Tại sao tư tưởng Hồ Chí Minh lại quan trọng trong lịch sử Việt Nam? : 0",
        "Làm thế nào để áp dụng tư tưởng Hồ Chí Minh vào thực tiễn hiện nay? : 0",
        "Bạn có thể cho tôi biết những thành tựu nổi bật trong tư tưởng Hồ Chí Minh? : 0",
        "Tư tưởng Hồ Chí Minh có ảnh hưởng gì đến các chính sách hiện tại không? : 0"
    ]
    prompt = ChatPromptTemplate.from_messages(
        [
            ("system", "Bạn là một trợ lý hữu ích, có nhiệm vụ phân loại câu hỏi của người dùng vào một trong hai lớp: yêu cầu thêm thông tin hoặc yêu cầu giải thích cụ thể."),
            ("human", f"Hãy xác định xem câu hỏi sau đây: '{original_query}' thuộc vào lớp nào dựa vào các ví dụ này: {examples}. "
                     f"Nếu câu hỏi thuộc lớp yêu cầu thêm thông tin, hãy trả ra 1; nếu không, hãy trả ra 0. "
                     f"Tuyệt đối không trả lời bằng bất kỳ giá trị nào khác ngoài 0 hoặc 1.")
        ]
    )
    model = ChatGoogleGenerativeAI(
        google_api_key=API_GENERATETOR,
        model=MODEL_GENERATETOR,
        temperature=0,
        max_tokens=10,
    )
    query_generator_chain = prompt | model | StrOutputParser()
    result = query_generator_chain.invoke({"original_query": original_query})
    return int(result)  

### 2.16.Extract Information From google

In [None]:
def search_google(query: str, num_results: int = 5) -> str:
    results = search(query, num_results=num_results)
    links = []
    for result in results:
        links.append(result)
    if links:
        return links
    return 0


In [None]:

def crawl_and_save_to_file(url, output_file):
    edge_options = Options()
    edge_options.add_argument("--headless")
    edge_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36")
    driver = webdriver.Edge(options=edge_options)
    driver.get(url)
    time.sleep(2)  
    try:
            response = requests.get(url, verify=False)
            if response.headers.get('Content-Type') == 'application/pdf':
                with open(output_file, 'wb') as pdf_file:
                    pdf_file.write(response.content)
                driver.quit()
                return
    except Exception as e:
            print(f"Có lỗi xảy ra khi tải xuống file PDF: {e}")
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    wr_bottom = soup.find('div', id='wr_bottom')
    if wr_bottom:
        wr_bottom.decompose() 
    box_gray = soup.find('div', class_='box_gray bottom10 list-article-bottom')
    if box_gray:
        for p in box_gray.find_all('p'):
            p.decompose()  
    box_others = soup.find_all('div', class_='box_other pad10 clearfix')
    for box_other in box_others:
        box_other.clear() 
    modal_dialogs = soup.find_all('div', class_='modal-dialog')
    for modal_dialog in modal_dialogs:
        modal_dialog.clear()  
    popup_confirm_notify=soup.find('div',class_='popup-confirm-notify')
    if popup_confirm_notify:
        popup_confirm_notify.clear()
    binhluan = soup.find('div', class_='binhluan')
    if binhluan:
        binhluan.decompose() 
    other=soup.find('div',class_='other')
    if other:
        other.clear()
    AsideFirstZone_206=soup.find('div', id='AsideFirstZone_206')
    if AsideFirstZone_206:
        AsideFirstZone_206.clear()
    margin_5pxs=soup.find_all('div', style="margin:5px;border-top: 1px dashed #DDDDDD")
    for margin_5px in margin_5pxs :
        margin_5px.clear()
    col_md_7=soup.find('div',class_='col-md-7 col-sm-5')
    if col_md_7:
        col_md_7.clear()
    time_post=soup.find('p',class_='time-post text-change-size')
    if time_post:
        time_post.clear()
    portlet_title=soup.find('h1',class_='portlet-title')
    if portlet_title: 
        portlet_title.clear()
    titlebar_clearfixs=soup.find_all('div',class_='titlebar clearfix')
    for titlebar_clearfix in titlebar_clearfixs:
         titlebar_clearfix.clear()
    rows=soup.find_all('div',class_='col-xs-6 col-sm-4')
    for row in rows:
        row.clear()
    zonepage_r=soup.find('div',class_='zonepage-r')
    if zonepage_r:
        zonepage_r.clear()
    message_hidden=soup.find('div',class_='message hidden')
    if message_hidden:
        message_hidden.clear()
    commentform_clearfix=soup.find('div',class_='commentform clearfix')
    if commentform_clearfix:
        commentform_clearfix.clear()
    pnlCommentDialog=soup.find('div',id='pnlCommentDialog')
    if pnlCommentDialog:
        pnlCommentDialog.clear()
    storyothers_clearfix=soup.find('div',class_='storyothers clearfix')
    if storyothers_clearfix:
        storyothers_clearfix.clear()
    box_tinlienquan=soup.find('div',class_='content-right column')
    if box_tinlienquan:
        box_tinlienquan.clear()
    col_sm=soup.find('div',class_='col-sm-8 col-md-6')
    if col_sm:
        col_sm.clear()
    post_relate=soup.find('div',class_='post-relate')
    if post_relate:
        post_relate.clear()
    col_12=soup.find('div',class_='bg-white py-3 py-lg-4')
    if col_12:
        col_12.clear()
    item_news_other=soup.find('div',class_='item_news_other')
    if item_news_other:
        item_news_other.clear()
    panel_body_other=soup.find('div',class_='panel-body other-news')
    if panel_body_other:
        panel_body_other.clear()
    box_related_news=soup.find('div',class_='box-related-news')
    if box_related_news:
        box_related_news.clear()
    timeline_secondary=soup.find('div',class_='timeline secondary')
    if timeline_secondary:
        timeline_secondary.clear()
    note_btn=soup.find('div',class_='note-btn')
    if note_btn:
        note_btn.clear()
    panel_panel_default=soup.find('div',class_='col-xs-12 col-sm-12 col-md-12')
    if panel_panel_default:
        panel_panel_default.clear()
    relate_news=soup.find('div',class_='relate-news')
    if relate_news:
        relate_news.clear()
    section_maybelike=soup.find('section',class_='section-3 maybelike')
    if section_maybelike:
        section_maybelike.clear()
    section_3_d_none=soup.find('section',class_='section-3 d-none')
    if section_3_d_none:
        section_3_d_none.clear()
    section_1_section_3=soup.find('section',class_='section-1 section-3')
    if section_1_section_3:
        section_1_section_3.clear()
    box_tinkhac=soup.find('div',class_='box_tinkhac')
    if box_tinkhac :
        box_tinkhac.clear()
    more_news=soup.find('div',class_='tin-van')
    if more_news:
        more_news.clear()
    tab_content=soup.find('div',class_='tab-content')
    if tab_content:
        tab_content.clear()
    with open(output_file, 'w', encoding='utf-8') as file:
        headers = []
        for i in range(1, 2):
            headers.extend(soup.find_all(f'h{i}'))
        for header in headers:
            file.write(header.get_text(strip=True) + '\n')  
        footers = soup.find_all(lambda tag: tag.name == 'footer' or 
                                (tag.get('id') and 'footer' in tag.get('id')) or 
                                (tag.get('class') and any('footer' in cls for cls in tag.get('class'))))

        footer_elements = [footer for footer in footers]
        paragraphs = soup.find_all('p')
        for paragraph in paragraphs:
            if not any(paragraph in footer.find_all('p') for footer in footer_elements):
                file.write(paragraph.get_text(strip=True) + '\n') 
        body_text_div = soup.find('div', class_='bodytext margin-bottom-lg', id='news-bodyhtml')
        if body_text_div:
            file.write(body_text_div.get_text(strip=True) + '\n')
    with open(output_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    if len(lines) < 6:
        spans = soup.find_all('span')
        with open(output_file, 'a', encoding='utf-8') as file: 
            for span in spans:
                if not any(span in footer.find_all('span') for footer in footer_elements):
                    file.write(span.get_text(strip=True) + '\n')
    driver.quit()

### 2.17.Transform Information From google

In [None]:
def transform_data(files: list[str], links: list[str]) -> None:
    data_list = []
    for idx, (file, link) in enumerate(zip(files, links), start=1):  
        try:
            with open(file, 'r', encoding='utf-8') as f:
                content = f.read()
        except Exception as e:
            print(f"Có lỗi xảy ra khi đọc file {file}: {e}")
            continue 
        data = {
            'id': idx,  
            'content': content,
            'link': link
        }
        data_list.append(data)

    json_file_path = '../data/data_temp/data_temp.json'
    try:
        with open(json_file_path, 'w', encoding='utf-8') as json_f:
            json.dump(data_list, json_f, ensure_ascii=False, indent=4)
    except Exception as e:
        print(f"Có lỗi xảy ra khi lưu vào file JSON {json_file_path}: {e}")


### 2.18.Load VectorDBQdrant

In [None]:
def load_qdrant(path, collection_name='temp'):
    with open(path, 'r', encoding='utf-8') as json_file:
        documents = json.load(json_file)
    text_splitter = SemanticChunker(
        embeddings=HuggingFaceEmbeddings(model_name=MODEL_EMBEDDING),
        buffer_size=4,
        breakpoint_threshold_type="gradient",
        breakpoint_threshold_amount=0.5,
        min_chunk_size=400,
    )
    documents_with_embeddings = []
    for doc in documents:
        content = doc["content"] 
        metadata = {
            "id": doc["id"],
            "link": doc["link"]
        }
        document = Document(page_content=content, metadata=metadata)
        chunks = text_splitter.split_documents([document])
        documents_with_embeddings.extend(
            Document(page_content=chunk.page_content, metadata=metadata) for chunk in chunks
        )
    QdrantVectorStore.from_documents(
        documents=documents_with_embeddings,
        embedding=HuggingFaceBgeEmbeddings(model_name=MODEL_EMBEDDING),  # Mô hình nhúng
        url="http://localhost:6333",
        collection_name=collection_name,
        retrieval_mode=RetrievalMode.DENSE,
        prefer_grpc=True,
        metadata_payload_key="metadata"
    )
    return 1


> Search Engi

In [None]:
# import requests

# API_KEY = 'AIzaSyDm7rhZZcqN7B-Q6RsKh2P0AMky4cygc_8'
# SEARCH_ENGINE_ID = '40815e75c047f4b83'  # Thay bằng Search Engine ID của bạn

# def google_search(query, api_key, search_engine_id):
#     url = f'https://www.googleapis.com/customsearch/v1?key={api_key}&cx={search_engine_id}&q={query}'
#     response = requests.get(url)
#     return response.json()

# # Ví dụ sử dụng
# results = google_search('Tư Tưởng Hồ Chí Minh là gì ?', API_KEY, SEARCH_ENGINE_ID)

# if 'items' in results:
#     for item in results['items'][:5]:  
#         title = item.get('title')       
#         link = item.get('link')         
#         snippet = item.get('snippet')   
#         print(f'Tiêu đề: {title}')
#         print(f'Liên kết: {link}')
#         print(f'Mô tả: {snippet}\n')
# else:
#     print('Không tìm thấy kết quả nào.')

> Execute Function

In [None]:
def Execute_Function(query):
    links = search_google(query)
    if links==0:
        print("Không tìm thấy thông tin")
    output_files=[]
    output_dir = '../data/data_temp/'
    for i, link in enumerate(links, start=1):
        output_file = os.path.join(output_dir, f'data_{i}.txt')  
        output_files.append(output_file)
        crawl_and_save_to_file(link, output_file)  # Gọi hàm lưu nội dung
    transform_data(output_files,links)
    load_qdrant('../data/data_temp/data_temp.json')
    shutil.rmtree(output_dir, ignore_errors=True)
    os.makedirs(output_dir, exist_ok=True)
    

> Result

In [1]:
import os
from dotenv import load_dotenv
from generate.reset_api_key import APIKeyManager
from generate.gemini import Gemini
from vector_database.vector_db import Qdrannt_VectorDB
from vector_database.cohere import Cohere
load_dotenv()
MODEL_GENERATETOR = os.getenv("MODEL_GEMINI")
APIS_GEMINI_LIST = os.getenv('APIS_GEMINI_LIST').split(',')
MODEL_RERANKER = os.getenv("MODEL_RERANKER")
API_RERANKER=os.getenv("API_RERANKER").split(',')
key_manager = APIKeyManager(APIS_GEMINI_LIST)
key_manager_cohere=APIKeyManager(API_RERANKER)
model_gemini=Gemini(key_manager,MODEL_GENERATETOR)
model_reranker=Cohere(key_manager_cohere,MODEL_RERANKER)
keywords = [
        "không có nguyên lý", "không có quy luật mới", 
        "không đúc rút được", "trừu tượng hóa", "vận dụng", 
        "khái quát hóa", "khai thác", "công nhận", "sai lầm", 
        "chắp vá", "từ ngữ đời thường", "cóp nhặt", "mới mẻ", 
        "sáng tạo", "dân dã", "trừu tượng cao"
    ]
def result_query(original_query):
        vector_db=Qdrannt_VectorDB("document_embeddings_500_word_4_bkai")
        generated_queries = model_gemini.generate_query(original_query)
        print(generated_queries)
        docs = vector_db.search_qdrant(generated_queries,keywords) 
        result_rerank=model_reranker.rerank_documents(original_query, docs)
        if result_rerank==1:
                response=model_gemini.generate_response_links(original_query)
                return response
        else:
                response=model_gemini.generate_response(original_query,result_rerank)
                ranked_links = model_reranker.rerank_links(result_rerank, response)
                links_output = "\n".join([f"{link} (Điểm số liên quan: {score:.2f})" for link, score in ranked_links])
                return (f"{response}\n\n"
                        f"Các đường link liên quan:\n{links_output}\n")




In [3]:
result=result_query("tổng thống của nước mỹ là ai tại thời điểm hiện tại ?")

['Tổng thống Mỹ hiện tại là ai?', 'Ai là người đang giữ chức vụ Tổng thống Hoa Kỳ?', 'Chủ tịch nước Mỹ hiện nay là ai?', 'Tổng thống Mỹ hiện thời là ai?', 'Vị tổng thống đang điều hành nước Mỹ là ai?', 'Ai đang đảm nhiệm chức vụ tổng thống của Mỹ?', 'Ai là người đứng đầu chính phủ Hoa Kỳ hiện nay?', 'Hiện nay, tổng thống của nước Mỹ là ai?', 'Nhân vật giữ chức vụ tổng thống Mỹ hiện tại là ai?', 'Quốc gia Mỹ hiện nay có tổng thống là ai?', 'tổng thống của nước mỹ là ai tại thời điểm hiện tại ?']
0


In [4]:
print(result)

Tổng thống Hoa Kỳ hiện tại là người đứng đầu chính phủ Hoa Kỳ.

**1. Danh tính Tổng thống**: Trong bộ dữ liệu không có thông tin về tổng thống Hoa Kỳ hiện tại.

**2. Vai trò và quyền hạn**: Tổng thống Hoa Kỳ là người đứng đầu chính phủ liên bang, chịu trách nhiệm thi hành luật liên bang và bổ nhiệm các quan chức hành chính, ngoại giao, quản lý nhà nước và tư pháp của chính quyền liên bang.  Tổng thống cũng là thống lĩnh Quân đội Hoa Kỳ.

**3. Quyền lực và ảnh hưởng**: Tổng thống Hoa Kỳ là một trong những nhân vật chính trị có quyền lực lớn nhất trên thế giới, lãnh đạo siêu cường quốc duy nhất, và lãnh đạo nền kinh tế lớn nhất thế giới.  Tổng thống có quyền lực cứng và mềm cả trong nước lẫn quốc tế.

**Tóm lại**:  Câu hỏi yêu cầu thông tin về tổng thống Hoa Kỳ hiện tại, nhưng bộ dữ liệu không cung cấp thông tin đó.  Tuy nhiên, dữ liệu cung cấp thông tin về vai trò, quyền hạn và ảnh hưởng của tổng thống Hoa Kỳ.

Các đường link liên quan:
https://vi.wikipedia.org/wiki/T%E1%BB%95ng_th%E1%B

In [15]:
import requests
from bs4 import BeautifulSoup
from typing import List
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from langchain.docstore.document import Document
from googlesearch import search
import urllib3
import ssl

# Tắt kiểm tra kích thước khóa DH và xác thực SSL
ssl._create_default_https_context = ssl._create_unverified_context
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

class ETL:
    def __init__(self, links: List[str]):
        self.links = links

    def extract_data_from_link(self):
        contents = []
        # Cấu hình trình duyệt Edge
        edge_options = Options()
        edge_options.add_argument("--headless")
        edge_options.add_argument(
            "user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36"
        )
        driver = webdriver.Edge(options=edge_options)
        
        for link in self.links:
            try:
                # Thử tải nội dung bằng requests
                response = requests.get(link, headers={"User-Agent": edge_options.arguments[-1]}, verify=False)
                if response.status_code == 200:
                    soup = BeautifulSoup(response.text, "html.parser")
                    content = soup.get_text(strip=True)
                    contents.append(Document(page_content=content, metadata={"link": link}))
                    print("Thành công với requests")
                    continue  # Nếu thành công, bỏ qua Selenium

                # Nếu requests thất bại, sử dụng Selenium
                driver.get(link)
                html = driver.page_source
                soup = BeautifulSoup(html, "html.parser")
                content = soup.get_text(strip=True)
                print("Thành công với Selenium")
                contents.append(Document(page_content=content, metadata={"link": link}))

            except requests.exceptions.SSLError as ssl_error:
                print(f"Lỗi SSL khi truy cập link {link}: {ssl_error}")
                contents.append(Document(page_content="Lỗi SSL", metadata={"link": link}))
            except Exception as e:
                print(f"Lỗi khác khi truy cập link {link}: {e}")
                contents.append(Document(page_content="", metadata={"link": link}))

        driver.quit()
        return contents


def search_google(query: str, num_results: int = 15) -> List[str]:
    try:
        results = list(search(query, num_results=num_results))
        return results if results else []
    except Exception as e:
        print(f"Lỗi khi tìm kiếm Google: {e}")
        return []


In [16]:
links=search_google("Ai là người lớn nhất ở việt nam tính theo cấp bật trong bộ máy nhà nước ?")
etl=ETL(links)
list_links_content=etl.extract_data_from_link()

Thành công với Selenium
Thành công với Selenium
Thành công với requests
Thành công với Selenium
Thành công với requests
Thành công với Selenium
Thành công với Selenium
Lỗi SSL khi truy cập link https://sotuphap.camau.gov.vn/wps/portal/?1dmy&page=trangchitiet&urile=wcm%3Apath%3A/sotuphaplibrary/sotuphapsite/noidungtrangrss/tintucsukien/thoisuchinhtrivatintuc/tin02-01-6-2022: HTTPSConnectionPool(host='sotuphap.camau.gov.vn', port=443): Max retries exceeded with url: /wps/portal/?1dmy&page=trangchitiet&urile=wcm%3Apath%3A/sotuphaplibrary/sotuphapsite/noidungtrangrss/tintucsukien/thoisuchinhtrivatintuc/tin02-01-6-2022 (Caused by SSLError(SSLError(1, '[SSL: DH_KEY_TOO_SMALL] dh key too small (_ssl.c:1006)')))
Thành công với requests
Thành công với requests
Thành công với requests
Thành công với requests
Thành công với requests
Thành công với requests
Thành công với requests


In [7]:
print(list_links_content)

[Document(metadata={'link': 'https://vi.wikipedia.org/wiki/V%C3%B5_Nguy%C3%AAn_Gi%C3%A1p'}, page_content='Võ Nguyên Giáp – Wikipedia tiếng ViệtBước tới nội dungTrình đơn chínhTrình đơn chínhchuyển sang thanh bênẩnĐiều hướngTrang ChínhNội dung chọn lọcBài viết ngẫu nhiênThay đổi gần đâyBáo lỗi nội dungTương tácHướng dẫnGiới thiệu WikipediaCộng đồngThảo luận chungGiúp sử dụngLiên lạcTải lên tập tinTìm kiếmTìm kiếmGiao diệnQuyên gópTạo tài khoảnĐăng nhậpCông cụ cá nhânQuyên gópTạo tài khoảnĐăng nhậpTrang dành cho người dùng chưa đăng nhậptìm hiểu thêmĐóng gópThảo luận cho địa chỉ IP nàyNội dungchuyển sang thanh bênẩnĐầu1Thân thế2Thời niên thiếu3Thời thanh niên4Bắt đầu sự nghiệp quân sựHiện/ẩn mục Bắt đầu sự nghiệp quân sự4.1Kháng chiến chống Pháp, Nhật trong Chiến tranh thế giới thứ hai4.2Thành lập đội Việt Nam Tuyên truyền Giải phóng quân4.3Tham gia thành lập Việt Nam Dân chủ Cộng hòa4.4Trấn áp các đảng phái chống Chính phủ5Chiến tranh Đông Dương lần 1Hiện/ẩn mục Chiến tranh Đông Dương l

In [5]:

from googlesearch import search
def search_google(query, num_results: int = 10) -> str:
            results = search(query, num_results=num_results)
            links = []
            for result in results:
                links.append(result)
            if links:
                return links
            return 0

In [6]:
query=search_google("Tư tưởng hồ chí minh là gì ")

In [9]:
print(len(query))

7


In [10]:
list_query=['https://soctrang.gov.vn/mDefault.aspx?sname=huyenchauthanh&sid=1308&pageid=369&catid=65973&id=375022&catname=Chuy%E1%BB%83n%20%C4%91%E1%BB%95i%20s%E1%BB%91&title=dong-chi-truong-quoc-dien-chu-tich-ubnd-huyen-chau-thanh-kiem-tra-tien-do-cai-dat-dinh-danh-dien', 'https://soctrang.gov.vn/huyenchauthanh/1308/33327/57718/274849/Uy-ban-nhan-dan/THANH-VIEN-UBND-HUYEN-CHAU-THANH.aspx', 'https://baosoctrang.org.vn/thoi-su/202410/trao-quyet-inh-chuan-y-pho-bi-thu-huyen-uy-chau-thanh-0eb342b/', 'https://laodong.vn/xa-hoi/lap-tai-khoan-gia-mao-chu-tich-huyen-de-truc-loi-1431297.ldo', 'https://www.baotravinh.vn/hoc-tap-va-lam-theo-tu-tuong-dao-duc-phong-cach-ho-chi-minh/chau-thanh-hieu-qua-tu-mo-hinh-phat-huy-tai-dan-suc-dan-loi-cho-dan-42145.html', 'https://haugiang.gov.vn/lich-su-hinh-thanh', 'https://luatvietnam.soctrang.gov.vn/huyenchauthanh/1308/33327/57718/274849/Uy-ban-nhan-dan/THANH-VIEN-UBND-HUYEN-CHAU-THANH.aspx', 'https://baosoctrang.org.vn/thoi-su/202410/trao-quyet-inh-chuan-y-pho-bi-thu-huyen-uy-chau-thanh-0eb342b/', 'https://laodong.vn/xa-hoi/lap-tai-khoan-gia-mao-chu-tich-huyen-de-truc-loi-1431297.ldo', 'https://www.baotravinh.vn/hoc-tap-va-lam-theo-tu-tuong-dao-duc-phong-cach-ho-chi-minh/chau-thanh-hieu-qua-tu-mo-hinh-phat-huy-tai-dan-suc-dan-loi-cho-dan-42145.html', 'https://haugiang.gov.vn/lich-su-hinh-thanh', 'https://luatvietnam.vn/thoi-su/202410/trao-quyet-inh-chuan-y-pho-bi-thu-huyen-uy-chau-thanh-0eb342b/', 'https://laodong.vn/xa-hoi/lap-tai-khoan-gia-mao-chu-tich-huyen-de-truc-loi-1431297.ldo', 'https://www.baotravinh.vn/hoc-tap-va-lam-theo-tu-tuong-dao-duc-phong-cach-ho-chi-minh/chau-thanh-hieu-qua-tu-mo-hinh-phat-huy-tai-dan-suc-dan-loi-cho-dan-42145.html', 'https://haugiang.gov.vn/lich-su-hinh-thanh', 'https://luatvietnam.tich-huyen-de-truc-loi-1431297.ldo', 'https://www.baotravinh.vn/hoc-tap-va-lam-theo-tu-tuong-dao-duc-phong-cach-ho-chi-minh/chau-thanh-hieu-qua-tu-mo-hinh-phat-huy-tai-dan-suc-dan-loi-cho-dan-42145.html', 'https://haugiang.gov.vn/lich-su-hinh-thanh', 'https://luatvietnam.ieu-qua-tu-mo-hinh-phat-huy-tai-dan-suc-dan-loi-cho-dan-42145.html', 'https://haugiang.gov.vn/lich-su-hinh-thanh', 'https://luatvietnam.vn/hanh-chinh/quyet-dinh-1612-qd-ttg-2024-cong-nhan-huyen-chau-thanh-tinh-soc-trang-dat-chuan-nong-thon-moi-381013-d1.html', 'https://thanhtra.com.vn/thanh-tra/ket-luan-thanh-tra/soc-trang-thanh-tra-phat-hien-so-tien-sai-pham-hon-183-trieu-dong-tai-huyen-chau-thanh-222400.html', 'http://bocongan.gov.vn/Pages/Index.aspx', 'https://soctrang.dcs.vn/mDefault.aspx?sname=tinhuy&sid=4&pageid=75&catid=54293&id=285704&catname=%C4%90%E1%BA%A3ng%20b%E1%BB%99%20t%E1%BB%89nh%20S%C3%B3c%20Tr%C4%83ng&title=cac-chi-bo-dang-dau-tien-ra-doi-o-tinh-soc-trang']
print(len(query))

7
