## 1.Import library

In [1]:

import os
from dotenv import load_dotenv
from langchain_community.embeddings import HuggingFaceBgeEmbeddings
from langchain_core.prompts import ChatPromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.output_parsers import StrOutputParser
from langchain_qdrant import QdrantVectorStore
from sentence_transformers import SentenceTransformer, util
from typing import List, Tuple
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from typing import List, Tuple
from qdrant_client.models import Filter, FieldCondition, MatchValue
from langchain_qdrant import QdrantVectorStore, RetrievalMode
from googlesearch import search
import requests
import json
from bs4 import BeautifulSoup
from selenium import webdriver
import time
import shutil
from selenium import webdriver
from langchain_experimental.text_splitter import SemanticChunker
from langchain.docstore.document import Document
from selenium.webdriver.chrome.options import Options
from qdrant_client import QdrantClient




## 2.Retrieval Augmented Generation 

### 2.1.Load environment

In [2]:
load_dotenv()

True

### 2.2.Initialize Embedding Models

In [3]:
MODEL_GENERATETOR = os.getenv("MODEL_GEMINI")
MODEL_EMBEDDING=os.getenv("MODEL_EMBEDDING")
MODEL_RERANK=os.getenv("MODEL_RERANK")
API_GENERATETOR=os.getenv("APIS_GEMINI")

### 2.3.Initialize Embedding Models

In [4]:
embeddings_query = SentenceTransformer(MODEL_EMBEDDING)
rerank_model = SentenceTransformer(MODEL_RERANK)

ValueError: Path ./model/vietnamese-bi-encoder/ not found

### 2.4.Function to calculate cosine similarity between two queries

In [None]:
def calculate_similarity(query1: str, query2: str) -> float:
    embedding1 = embeddings_query.encode(query1, convert_to_tensor=True)
    embedding2 = embeddings_query.encode(query2, convert_to_tensor=True)
    return util.pytorch_cos_sim(embedding1, embedding2).item()

### 2.5.Function to generate diverse queries

In [None]:
def query_generator(original_query: str) -> List[str]:
    prompt = ChatPromptTemplate.from_messages(
        [("system", "Bạn là một trợ lý chuyên gia về chính trị Việt Nam, có nhiệm vụ tạo ra nhiều truy vấn tìm kiếm dựa trên một truy vấn gốc."),
         ("human", f"Tạo 5 truy vấn tìm kiếm liên quan nhất đến: {original_query}. Mỗi truy vấn trên một dòng mới, và đảm bảo chỉ trả về các truy vấn, không có thêm bất kỳ giải thích hay văn bản nào khác.")] 
    )
    
    model = ChatGoogleGenerativeAI(
        google_api_key=API_GENERATETOR,
        model=MODEL_GENERATETOR,
        temperature=0.1,
        max_tokens=1000,
        top_p=0.3,
    )
    query_generator_chain = prompt | model | StrOutputParser()

    result = query_generator_chain.invoke({"original_query": original_query})
    generated_queries = result.strip().split('\n')
    valid_queries = [query for query in generated_queries if calculate_similarity(original_query, query) 
                     > 0.6]
    valid_queries.append(original_query)  
    return valid_queries

### 2.6.Initialize Qdrant for vector store

In [7]:
def create_qdrant_environment(collection_name) -> QdrantVectorStore:
    return QdrantVectorStore.from_existing_collection(
        embedding=HuggingFaceBgeEmbeddings(model_name=MODEL_EMBEDDING),
        url="http://localhost:6333",
        collection_name=collection_name,
        retrieval_mode=RetrievalMode.DENSE,
        prefer_grpc=True,
        metadata_payload_key="metadata"
    )


### 2.7.Filter keyword

> keyword

In [8]:
keywords = [
        "không có nguyên lý", "không có quy luật mới", 
        "không đúc rút được", "trừu tượng hóa", "vận dụng", 
        "khái quát hóa", "khai thác", "công nhận", "sai lầm", 
        "chắp vá", "từ ngữ đời thường", "cóp nhặt", "mới mẻ", 
        "sáng tạo", "dân dã", "trừu tượng cao"
    ]

In [9]:
def create_should_filter(user_keywords: List[str], metadata_fields: str) -> Filter:
    should_conditions = []
    for keyword_condition in user_keywords:
        should_conditions.append(FieldCondition(
            key=metadata_fields, 
            match=MatchValue(value=keyword_condition)
        ))

    return Filter(
        should=should_conditions
    )

### 2.8.Function to search without reranking

In [10]:
def search_qdrant_without_rerank(generated_queries: List[str],collection_name) -> List[List[Tuple]]:
    qdrant_exit = create_qdrant_environment(collection_name)
    all_top_documents = []
    total_documents_searched = 0

    for query in generated_queries:
        if query:
            user_matched_keywords = [keyword for keyword in keywords if keyword in query.lower()]
            filter_condition = create_should_filter(user_matched_keywords, 'metadata.keyword_sub') if user_matched_keywords else None
            
            if filter_condition:
                top_documents = qdrant_exit.similarity_search_with_score(query, k=5, filter=filter_condition)
                print("filter keyword + search similarity")
            else:
                top_documents = qdrant_exit.similarity_search_with_score(query, k=5)
                print("search similarity")
                
            total_documents_searched += len(top_documents)
            for doc, score in top_documents:
                    all_top_documents.append((doc, score))
    
    return all_top_documents


###  2.9. Function to rerank documents

In [11]:
def rerank_documents(top_documents: List[Tuple], query_embedding) -> List[Tuple]:
    docs_with_scores = []
    doc_contents = [doc.page_content for doc, _ in top_documents if doc.page_content]
    if not doc_contents:
        raise ValueError("Không có nội dung tài liệu hợp lệ để xử lý TF-IDF.")
    tfidf_vectorizer = TfidfVectorizer() 
    tfidf_matrix = tfidf_vectorizer.fit_transform(doc_contents)
    query_tfidf = tfidf_vectorizer.transform([query_embedding])
    tfidf_scores = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
    
    query_embedding = rerank_model.encode(query_embedding, convert_to_tensor=True)
    
    for (doc, _), tfidf_score in zip(top_documents, tfidf_scores):
        doc_embedding = rerank_model.encode(doc.page_content, convert_to_tensor=True)
        cosine_sim = util.pytorch_cos_sim(query_embedding, doc_embedding).item()
        combined_score = 0.8 * cosine_sim + 0.2 * tfidf_score
        docs_with_scores.append((doc, combined_score))
    
    return sorted(docs_with_scores, key=lambda x: x[1], reverse=True)


### 2.10.Main search function with rerank

In [12]:
def search_qdrant(generated_queries: List[str], original_query: str,collection_name,check) -> List[Tuple]:
    qdrant_exit = create_qdrant_environment(collection_name)
    all_top_documents = []
    seen_documents = set()
    total_documents_searched = 0
    
    for query in generated_queries:
        if query:
            user_matched_keywords = [keyword for keyword in keywords if keyword in query.lower()]
            filter_condition = create_should_filter(user_matched_keywords, 'metadata.keyword_sub') if user_matched_keywords else None
            if filter_condition and check == 1:
                top_documents = qdrant_exit.similarity_search_with_score(query, k=5, filter=filter_condition)
                print("filter keyword + search similarity")
            else:
                top_documents = qdrant_exit.similarity_search_with_score(query, k=5) 
                print("search similarity")
            total_documents_searched += len(top_documents)
            for doc, score in top_documents:
                if hasattr(doc, 'page_content'):
                    doc_content = doc.page_content
                    if doc_content not in seen_documents:
                        seen_documents.add(doc_content)
                        all_top_documents.append((doc, score))
    reranked_docs = rerank_documents(all_top_documents, original_query)
    print("kết thúc hàm search")
    return reranked_docs[:5]


### 2.11.Combine context and generate response

> prompt 1

In [13]:
def prompt_template_one(docs: List[Tuple], original_query: str) -> str:
    context = "\n".join([doc.page_content for doc, _ in docs])
    response_prompt = ChatPromptTemplate.from_messages(
        [
            ("system", "Bạn là một trợ lý chuyên gia về chính trị Việt Nam, có nhiệm vụ trả lời câu hỏi về chính trị Việt Nam nói chung hay tư tưởng Hồ Chí Minh nói riêng."),
            ("human", f"""
                Bạn hãy trả lời câu hỏi '{original_query}' dựa vào nội dung đã được cung cấp.
                Hãy lấy toàn bộ ý trong nội dung sau để trả lời:
                {context}
                Đảm bảo câu trả lời phải dài nhưng không thêm bất kỳ thông tin mới nào.Nếu không có câu trả lời trong nội dung đã được cung cấp, chỉ cần phản hồi "trong bộ dữ liệu không có thông tin"
            """)
        ]
    )
    return response_prompt

> prompt 2

In [14]:
def prompt_template_final(docs: List[Tuple], original_query: str) -> str:
    context = "\n".join([doc.page_content for doc, _ in docs])
    # Tạo template cho phản hồi với ChatPromptTemplate
    response_prompt = ChatPromptTemplate.from_messages(
        [
            ("system", "Bạn là một trợ lý chuyên gia về chính trị Việt Nam, có nhiệm vụ trả lời câu hỏi về chính trị Việt Nam nói chung hay tư tưởng Hồ Chí Minh nói riêng."),
            ("human", f"""
                Bạn chỉ được trả lời câu hỏi '{original_query}' dựa vào nội dung đã cung cấp.
                Không thêm bất kỳ thông tin mới nào hoặc không suy đoán.
                Nếu không có câu trả lời trong ngữ cảnh, bạn phải phản hồi 4-5 ý dựa trên kiến thức của bản thân đã biết.
                Dưới đây là nội dung liên quan:
                {context}
            """)
        ]
    )
    return response_prompt

### 2.12.Rerank link

In [15]:
def rerank_links(docs: List[Tuple], response: str) -> List[str]:
    link_with_scores = []
    doc_contents = [doc.page_content for doc, _ in docs]

    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfidf_vectorizer.fit_transform(doc_contents)
    response_tfidf = tfidf_vectorizer.transform([response])
    scores_tfidf = cosine_similarity(response_tfidf, tfidf_matrix).flatten()

    response_embedding = rerank_model.encode(response, convert_to_tensor=True)

    for (doc, _), tfidf_score in zip(docs, scores_tfidf):
        doc_embedding = rerank_model.encode(doc.page_content, convert_to_tensor=True)
        cosine_score = util.pytorch_cos_sim(response_embedding, doc_embedding).item()
        combined_score = 0.7 * cosine_score + 0.3 * tfidf_score
        link_with_scores.append((doc.metadata['link'], combined_score))
    sorted_links = sorted(link_with_scores, key=lambda x: x[1], reverse=True)
    seen_links = set()
    unique_sorted_links = []
    for link, score in sorted_links:
        if link not in seen_links:
            seen_links.add(link)
            unique_sorted_links.append((link, score))

    return unique_sorted_links 


### 2.13.Check Response

In [16]:
def check_response(response, target_sentence="trong bộ dữ liệu không có thông tin"):
    if target_sentence in  response.lower():
        return True
    return False

### 2.14.Load LLM and create response chain

> Response final

In [17]:
def generate_final_response(original_query: str, docs: List[Tuple]) -> str:
    response_model = ChatGoogleGenerativeAI(
        google_api_key=API_GENERATETOR,
        model=MODEL_GENERATETOR,
        temperature=0.1,
        max_tokens=4000,
        top_p=0.6,
    )
    
    response_chain = prompt_template_final(docs, original_query) | response_model | StrOutputParser()
    final_response = response_chain.invoke({"original_query": original_query}).strip()
    ranked_links = rerank_links(docs, final_response)
    links_output = "\n".join([f"{link} (Điểm số liên quan: {score:.2f})" for link, score in ranked_links])
    return f"{final_response}\n\nCác đường link liên quan:\n{links_output}"


> Response Final

In [18]:
def generate_response(original_query: str, docs: List[Tuple]) -> str:
    response_model = ChatGoogleGenerativeAI(
        google_api_key=API_GENERATETOR,
        model=MODEL_GENERATETOR,
        temperature=0.1,
        max_tokens=6000,
        top_p=0.6,
    )
    response_chain = prompt_template_one(docs, original_query) | response_model | StrOutputParser()
    final_response = response_chain.invoke({"original_query": original_query}).strip()
    if check_response(final_response):
        response_chain = prompt_template_final(docs, original_query) | response_model | StrOutputParser()
        final_response = response_chain.invoke({"original_query": original_query}).strip()
        docs_search = search_qdrant([final_response], original_query)
        final = generate_final_response(original_query, docs_search)
        return final
    ranked_links = rerank_links(docs, final_response)
    links_output = "\n".join([f"{link} (Điểm số liên quan: {score:.2f})" for link, score in ranked_links])
    return (f"{final_response}\n\n"
            f"Các đường link liên quan:\n{links_output}\n"
            f'Chào Bạn! Tôi là một trợ lý chuyên gia về chính trị Việt Nam. Nếu bạn có câu hỏi nào về chính trị Việt Nam hoặc tư tưởng Hồ Chí Minh, đừng ngần ngại hỏi tôi nhé! Tôi sẵn sàng cung cấp thêm thông tin cho Bạn.')
    

### 2.15.Determine User Query

In [19]:

def determine_user_query(original_query: str) -> int:
    examples: List[str] = [
        "Cho tôi thêm thông tin ngoài những ý bạn nói ở trên? : 1",
        "Cho tôi biết thêm một số khái niệm? : 1",
        "Ngoài những điều đã đề cập, còn có gì khác không? : 1",
        "Có thông tin nào khác liên quan đến chủ đề này không? : 1",
        "Có bạn hãy cho tôi thêm thông tin về vấn đề này? : 1",
        "Bạn có thể cung cấp thêm thông tin về vấn đề này không? : 1",
        "Có những khía cạnh nào khác mà tôi nên biết không? : 1",
        "Bạn có thể giải thích thêm về chủ đề này không? : 1",
        "Xin hãy cho tôi biết thêm về các giải pháp khả thi? : 1",
        "Có nguồn thông tin nào khác về điều này không? : 1",
        "Hãy cho tôi biết tính sáng tạo của tư tưởng Hồ Chí Minh? : 0",
        "Tư tưởng Hồ Chí Minh là gì? : 0",
        "Tính mới mẻ của tư tưởng Hồ Chí Minh? : 0",
        "Tính khai thác của tư tưởng Hồ Chí Minh thể hiện ở khía cạnh nào? : 0",
        "Bạn hãy khái quát hoá về tư tưởng Hồ Chí Minh? : 0",
        "Hãy mô tả về những điểm chính trong tư tưởng Hồ Chí Minh? : 0",
        "Tại sao tư tưởng Hồ Chí Minh lại quan trọng trong lịch sử Việt Nam? : 0",
        "Làm thế nào để áp dụng tư tưởng Hồ Chí Minh vào thực tiễn hiện nay? : 0",
        "Bạn có thể cho tôi biết những thành tựu nổi bật trong tư tưởng Hồ Chí Minh? : 0",
        "Tư tưởng Hồ Chí Minh có ảnh hưởng gì đến các chính sách hiện tại không? : 0"
    ]
    prompt = ChatPromptTemplate.from_messages(
        [
            ("system", "Bạn là một trợ lý hữu ích, có nhiệm vụ phân loại câu hỏi của người dùng vào một trong hai lớp: yêu cầu thêm thông tin hoặc yêu cầu giải thích cụ thể."),
            ("human", f"Hãy xác định xem câu hỏi sau đây: '{original_query}' thuộc vào lớp nào dựa vào các ví dụ này: {examples}. "
                     f"Nếu câu hỏi thuộc lớp yêu cầu thêm thông tin, hãy trả ra 1; nếu không, hãy trả ra 0. "
                     f"Tuyệt đối không trả lời bằng bất kỳ giá trị nào khác ngoài 0 hoặc 1.")
        ]
    )
    model = ChatGoogleGenerativeAI(
        google_api_key=API_GENERATETOR,
        model=MODEL_GENERATETOR,
        temperature=0,
        max_tokens=10,
    )
    query_generator_chain = prompt | model | StrOutputParser()
    result = query_generator_chain.invoke({"original_query": original_query})
    return int(result)  

### 2.16.Extract Information From google

In [20]:
def search_google(query: str, num_results: int = 5) -> str:
    results = search(query, num_results=num_results)
    links = []
    for result in results:
        links.append(result)
    if links:
        return links
    return 0


In [21]:

def crawl_and_save_to_file(url, output_file):
    edge_options = Options()
    edge_options.add_argument("--headless")
    edge_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36")
    driver = webdriver.Edge(options=edge_options)
    driver.get(url)
    time.sleep(2)  
    try:
            response = requests.get(url, verify=False)
            if response.headers.get('Content-Type') == 'application/pdf':
                with open(output_file, 'wb') as pdf_file:
                    pdf_file.write(response.content)
                driver.quit()
                return
    except Exception as e:
            print(f"Có lỗi xảy ra khi tải xuống file PDF: {e}")
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    wr_bottom = soup.find('div', id='wr_bottom')
    if wr_bottom:
        wr_bottom.decompose() 
    box_gray = soup.find('div', class_='box_gray bottom10 list-article-bottom')
    if box_gray:
        for p in box_gray.find_all('p'):
            p.decompose()  
    box_others = soup.find_all('div', class_='box_other pad10 clearfix')
    for box_other in box_others:
        box_other.clear() 
    modal_dialogs = soup.find_all('div', class_='modal-dialog')
    for modal_dialog in modal_dialogs:
        modal_dialog.clear()  
    popup_confirm_notify=soup.find('div',class_='popup-confirm-notify')
    if popup_confirm_notify:
        popup_confirm_notify.clear()
    binhluan = soup.find('div', class_='binhluan')
    if binhluan:
        binhluan.decompose() 
    other=soup.find('div',class_='other')
    if other:
        other.clear()
    AsideFirstZone_206=soup.find('div', id='AsideFirstZone_206')
    if AsideFirstZone_206:
        AsideFirstZone_206.clear()
    margin_5pxs=soup.find_all('div', style="margin:5px;border-top: 1px dashed #DDDDDD")
    for margin_5px in margin_5pxs :
        margin_5px.clear()
    col_md_7=soup.find('div',class_='col-md-7 col-sm-5')
    if col_md_7:
        col_md_7.clear()
    time_post=soup.find('p',class_='time-post text-change-size')
    if time_post:
        time_post.clear()
    portlet_title=soup.find('h1',class_='portlet-title')
    if portlet_title: 
        portlet_title.clear()
    titlebar_clearfixs=soup.find_all('div',class_='titlebar clearfix')
    for titlebar_clearfix in titlebar_clearfixs:
         titlebar_clearfix.clear()
    rows=soup.find_all('div',class_='col-xs-6 col-sm-4')
    for row in rows:
        row.clear()
    zonepage_r=soup.find('div',class_='zonepage-r')
    if zonepage_r:
        zonepage_r.clear()
    message_hidden=soup.find('div',class_='message hidden')
    if message_hidden:
        message_hidden.clear()
    commentform_clearfix=soup.find('div',class_='commentform clearfix')
    if commentform_clearfix:
        commentform_clearfix.clear()
    pnlCommentDialog=soup.find('div',id='pnlCommentDialog')
    if pnlCommentDialog:
        pnlCommentDialog.clear()
    storyothers_clearfix=soup.find('div',class_='storyothers clearfix')
    if storyothers_clearfix:
        storyothers_clearfix.clear()
    box_tinlienquan=soup.find('div',class_='content-right column')
    if box_tinlienquan:
        box_tinlienquan.clear()
    col_sm=soup.find('div',class_='col-sm-8 col-md-6')
    if col_sm:
        col_sm.clear()
    post_relate=soup.find('div',class_='post-relate')
    if post_relate:
        post_relate.clear()
    col_12=soup.find('div',class_='bg-white py-3 py-lg-4')
    if col_12:
        col_12.clear()
    item_news_other=soup.find('div',class_='item_news_other')
    if item_news_other:
        item_news_other.clear()
    panel_body_other=soup.find('div',class_='panel-body other-news')
    if panel_body_other:
        panel_body_other.clear()
    box_related_news=soup.find('div',class_='box-related-news')
    if box_related_news:
        box_related_news.clear()
    timeline_secondary=soup.find('div',class_='timeline secondary')
    if timeline_secondary:
        timeline_secondary.clear()
    note_btn=soup.find('div',class_='note-btn')
    if note_btn:
        note_btn.clear()
    panel_panel_default=soup.find('div',class_='col-xs-12 col-sm-12 col-md-12')
    if panel_panel_default:
        panel_panel_default.clear()
    relate_news=soup.find('div',class_='relate-news')
    if relate_news:
        relate_news.clear()
    section_maybelike=soup.find('section',class_='section-3 maybelike')
    if section_maybelike:
        section_maybelike.clear()
    section_3_d_none=soup.find('section',class_='section-3 d-none')
    if section_3_d_none:
        section_3_d_none.clear()
    section_1_section_3=soup.find('section',class_='section-1 section-3')
    if section_1_section_3:
        section_1_section_3.clear()
    box_tinkhac=soup.find('div',class_='box_tinkhac')
    if box_tinkhac :
        box_tinkhac.clear()
    more_news=soup.find('div',class_='tin-van')
    if more_news:
        more_news.clear()
    tab_content=soup.find('div',class_='tab-content')
    if tab_content:
        tab_content.clear()
    with open(output_file, 'w', encoding='utf-8') as file:
        headers = []
        for i in range(1, 2):
            headers.extend(soup.find_all(f'h{i}'))
        for header in headers:
            file.write(header.get_text(strip=True) + '\n')  
        footers = soup.find_all(lambda tag: tag.name == 'footer' or 
                                (tag.get('id') and 'footer' in tag.get('id')) or 
                                (tag.get('class') and any('footer' in cls for cls in tag.get('class'))))

        footer_elements = [footer for footer in footers]
        paragraphs = soup.find_all('p')
        for paragraph in paragraphs:
            if not any(paragraph in footer.find_all('p') for footer in footer_elements):
                file.write(paragraph.get_text(strip=True) + '\n') 
        body_text_div = soup.find('div', class_='bodytext margin-bottom-lg', id='news-bodyhtml')
        if body_text_div:
            file.write(body_text_div.get_text(strip=True) + '\n')
    with open(output_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    if len(lines) < 6:
        spans = soup.find_all('span')
        with open(output_file, 'a', encoding='utf-8') as file: 
            for span in spans:
                if not any(span in footer.find_all('span') for footer in footer_elements):
                    file.write(span.get_text(strip=True) + '\n')
    driver.quit()

### 2.17.Transform Information From google

In [None]:
def transform_data(files: list[str], links: list[str]) -> None:
    data_list = []
    for idx, (file, link) in enumerate(zip(files, links), start=1):  
        try:
            with open(file, 'r', encoding='utf-8') as f:
                content = f.read()
        except Exception as e:
            print(f"Có lỗi xảy ra khi đọc file {file}: {e}")
            continue 
        data = {
            'id': idx,  
            'content': content,
            'link': link
        }
        data_list.append(data)

    json_file_path = '../data/data_temp/data_temp.json'
    try:
        with open(json_file_path, 'w', encoding='utf-8') as json_f:
            json.dump(data_list, json_f, ensure_ascii=False, indent=4)
    except Exception as e:
        print(f"Có lỗi xảy ra khi lưu vào file JSON {json_file_path}: {e}")


### 2.18.Load VectorDBQdrant

In [23]:
def load_qdrant(path, collection_name='temp'):
    with open(path, 'r', encoding='utf-8') as json_file:
        documents = json.load(json_file)
    text_splitter = SemanticChunker(
        embeddings=HuggingFaceBgeEmbeddings(model_name=MODEL_EMBEDDING),
        buffer_size=4,
        breakpoint_threshold_type="gradient",
        breakpoint_threshold_amount=0.5,
        min_chunk_size=400,
    )
    documents_with_embeddings = []
    for doc in documents:
        content = doc["content"] 
        metadata = {
            "id": doc["id"],
            "link": doc["link"]
        }
        document = Document(page_content=content, metadata=metadata)
        chunks = text_splitter.split_documents([document])
        documents_with_embeddings.extend(
            Document(page_content=chunk.page_content, metadata=metadata) for chunk in chunks
        )
    QdrantVectorStore.from_documents(
        documents=documents_with_embeddings,
        embedding=HuggingFaceBgeEmbeddings(model_name=MODEL_EMBEDDING),  # Mô hình nhúng
        url="http://localhost:6333",
        collection_name=collection_name,
        retrieval_mode=RetrievalMode.DENSE,
        prefer_grpc=True,
        metadata_payload_key="metadata"
    )
    return 1


> Search Engi

In [24]:
import requests

API_KEY = 'AIzaSyDm7rhZZcqN7B-Q6RsKh2P0AMky4cygc_8'
SEARCH_ENGINE_ID = '40815e75c047f4b83'  # Thay bằng Search Engine ID của bạn

def google_search(query, api_key, search_engine_id):
    url = f'https://www.googleapis.com/customsearch/v1?key={api_key}&cx={search_engine_id}&q={query}'
    response = requests.get(url)
    return response.json()

# Ví dụ sử dụng
results = google_search('Tư Tưởng Hồ Chí Minh là gì ?', API_KEY, SEARCH_ENGINE_ID)

if 'items' in results:
    for item in results['items'][:5]:  
        title = item.get('title')       
        link = item.get('link')         
        snippet = item.get('snippet')   
        print(f'Tiêu đề: {title}')
        print(f'Liên kết: {link}')
        print(f'Mô tả: {snippet}\n')
else:
    print('Không tìm thấy kết quả nào.')

Tiêu đề: Cổng thông tin điện tử Tỉnh Kiên Giang - Những nội dung cốt lõi của ...
Liên kết: https://hctd.kiengiang.gov.vn/Trang/TinTuc/ChiTiet.aspx?nid=1519&chuyenmuc=7
Mô tả: 18 thg 6, 2022 ... Theo Hồ Chí Minh, những phẩm chất cơ bản của đạo đức cách mạng đó là: Trung với nước, hiếu với dân; yêu thương con người, sống có nghĩa, có tình ...

Tiêu đề: Tư tưởng Hồ Chí Minh – Wikipedia tiếng Việt
Liên kết: https://vi.wikipedia.org/wiki/T%C6%B0_t%C6%B0%E1%BB%9Fng_H%E1%BB%93_Ch%C3%AD_Minh
Mô tả: Tư tưởng Hồ Chí Minh là một hệ thống quan điểm và · Các nội dung trong tư tưởng Hồ Chí Minh được hình thành và phát triển gắn với các thời kì hoạt động của Hồ ...

Tiêu đề: Về những cốt lõi trong tư tưởng Hồ Chí Minh
Liên kết: https://vass.gov.vn/nghien-cuu-khoa-hoc-xa-hoi-va-nhan-van/Ve-nhung-cot-loi-trong-tu-tuong-Ho-Chi-Minh-156
Mô tả: 9 thg 7, 2021 ... Tư tưởng Hồ Chí Minh là mẫu mực của tinh thần độc lập, tự chủ, đổi mới và sáng tạo. Bài học này đòi hỏi phải luôn xuất phát từ thực tế khách ...


> Execute Function

In [None]:
def Execute_Function(query):
    links = search_google(query)
    if links==0:
        print("Không tìm thấy thông tin")
    output_files=[]
    output_dir = '../data/data_temp/'
    for i, link in enumerate(links, start=1):
        output_file = os.path.join(output_dir, f'data_{i}.txt')  
        output_files.append(output_file)
        crawl_and_save_to_file(link, output_file)  # Gọi hàm lưu nội dung
    transform_data(output_files,links)
    load_qdrant('../data/data_temp/data_temp.json')
    shutil.rmtree(output_dir, ignore_errors=True)
    os.makedirs(output_dir, exist_ok=True)
    

> Result

In [26]:
client = QdrantClient(url="http://localhost:6333")
client.delete_collection("temp")

False

In [27]:
def Result(original_query):
    generated_queries=query_generator(original_query)
    print(generated_queries)
    if determine_user_query(original_query) == 1:
       Execute_Function(original_query)
       docs = search_qdrant(generated_queries, original_query,'temp',check=0)
       final_response = generate_response(original_query, docs)
       return final_response
    else:
       docs = search_qdrant(generated_queries, original_query,"document_embeddings_400_word_4",check=1)
       final_response = generate_response(original_query, docs)
       return final_response

In [28]:
result_final=Result("Tư tưởng Hồ Chí Minh là gì ?")
print(result_final)

['Những nguyên lý cơ bản của tư tưởng Hồ Chí Minh', 'So sánh tư tưởng Hồ Chí Minh với các tư tưởng chính trị khác', 'Tư tưởng Hồ Chí Minh là gì ?']
search similarity
search similarity
search similarity
kết thúc hàm search
Tư tưởng Hồ Chí Minh là một hệ thống quan điểm toàn diện và sâu sắc về những vấn đề cơ bản của cách mạng Việt Nam, là kết quả của sự vận dụng và phát triển sáng tạo chủ nghĩa Mác-Lênin vào điều kiện cụ thể của nước ta, kế thừa và phát triển các giá trị truyền thống tốt đẹp của dân tộc, tiếp thu tinh hoa văn hoá của nhân loại.  Cùng với chủ nghĩa Mác-Lênin, tư tưởng Hồ Chí Minh là nền tảng tư tưởng, kim chỉ nam cho hành động, là tài sản tinh thần to lớn, quý giá của Đảng và cách mạng Việt Nam. Việc tìm hiểu tư tưởng Hồ Chí Minh không chỉ dừng lại trên văn bản mà cần phải tìm hiểu trong thực tiễn hành động, trong việc làm và cách làm của Người. Cũng cần tìm hiểu tư tưởng Hồ Chí Minh trong các tác phẩm của các đồng chí và học trò gần gũi đã được Người chỉ giáo, đã lĩnh h

In [30]:
results=search_qdrant(['Những nguyên lý cơ bản của tư tưởng Hồ Chí Minh', 'So sánh tư tưởng Hồ Chí Minh với các tư tưởng chính trị khác', 'Tư tưởng Hồ Chí Minh là gì ?']
,'Tư tưởng Hồ Chí Minh là gì ?',"document_embeddings_400_word_4",check=1)
for i, (result, score) in enumerate(results):
    print(f"Document {i+1}:")
    print(f"Page Content: {result.page_content}")
    print(f"Metadata: {result.metadata}")
    print(f"Score: {score}")
    print("-" * 50)  

search similarity
search similarity
search similarity
kết thúc hàm search
Document 1:
Page Content: Hiểu đúng và đủ về khái niệm “Tư tưởng Hồ Chí Minh” trong quá trình đấu tranh phản bác các luận điệu tuyên truyền xuyên tạc của các thế lực thù địch









Đăng lúc: 08:05:52 20/12/2021 (GMT+7)
45127 lượt xem
ThS. Lê Nữ Sinh - GV Khoa Lý luận cơ sở
Cùng với chủ nghĩa Mác-Lênin, tư tưởng Hồ Chí Minh là nền tảng tư tưởng, kim chỉ nam cho hành động, là tài sản tinh thần to lớn, quý giá của Đảng và cách mạng Việt Nam.
Metadata: {'word_type': 'động từ tích cực', 'link': 'http://truongchinhtrithanhhoa.gov.vn/web/trang-chu/khoa-hoc-thong-tin-tu-lieu/bai-viet-chuyen-de/hieu-dung-va-du-ve-khai-niem-tu-tuong-ho-chi-minh-trong-qua-trinh-dau-tranh-phan-bac-cac-luan-dieu-tuyen-truyen-xuyen-tac-cua-cac-the-luc-thu-dich.html', 'id': 28, 'keyword_sub': 'khái quát hóa', 'keyword': 'Tư tưởng Hồ Chí Minh', '_id': '31faf789-903c-490d-96fd-678faa63ed58', '_collection_name': 'document_embeddings_400_word_4'