In [1]:
from IPython.display import Markdown  # Import lớp Markdown từ thư viện IPython.display
import textwrap  # Import module textwrap để định dạng văn bản

def to_markdown(text):
  """
  Chuyển đổi một chuỗi văn bản thành định dạng Markdown, bôi đậm toàn bộ văn bản
  và thay thế ký tự '•' thành '  *' để tạo ra danh sách.

  Args:
      text: Chuỗi văn bản cần chuyển đổi thành Markdown.

  Returns:
      Đối tượng Markdown chứa văn bản đã được định dạng.
  """
  text = text.replace('•', '  *')  # Thay thế ký tự '•' thành '  *' để tạo mục danh sách
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))  # Bôi đậm toàn bộ văn bản bằng textwrap.indent()

In [2]:
from langchain_google_genai import ChatGoogleGenerativeAI  # Import lớp ChatGoogleGenerativeAI từ thư viện langchain_google_genai
from langchain import PromptTemplate  # Import lớp PromptTemplate từ thư viện langchain
from langchain.chains.question_answering import load_qa_chain  # Import hàm load_qa_chain từ thư viện langchain.chains.question_answering
from langchain.document_loaders import PyPDFLoader  # Import lớp PyPDFLoader từ thư viện langchain.document_loaders
from langchain.text_splitter import RecursiveCharacterTextSplitter  # Import lớp RecursiveCharacterTextSplitter từ thư viện langchain.text_splitter
from langchain.vectorstores import Chroma  # Import lớp Chroma từ thư viện langchain.vectorstores
from langchain.chains import RetrievalQA  # Import lớp RetrievalQA từ thư viện langchain.chains

GOOGLE_API_KEY = ""  # Khởi tạo biến GOOGLE_API_KEY với API Key của Google Cloud

# Tạo mô hình Google Generative AI sử dụng Gemini-Pro
model = ChatGoogleGenerativeAI(
    model="gemini-pro",  # Sử dụng mô hình Gemini-Pro
    google_api_key=GOOGLE_API_KEY,  # Cung cấp API Key của Google Cloud
    temperature=0.2,  # Điều chỉnh nhiệt độ của mô hình (temperature)
    convert_system_message_to_human=True  # Chuyển đổi tin nhắn hệ thống sang tin nhắn của người dùng
)

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
pdf_loader = PyPDFLoader(f"./data_source/dulieudulich.pdf")  # Tạo đối tượng PyPDFLoader để đọc file PDF
pages = pdf_loader.load_and_split()  # Đọc và chia file PDF thành các trang riêng biệt
print(pages[3].page_content)  # In ra nội dung của trang thứ 4 (trang có index là 3) trong file PDF

Mặt tích cực: 
Giá cả phải chăng: Bangkok là điểm đến lý tưởng cho du khách muốn du lịch tiết kiệm. 
Nét văn hóa độc đáo: Nơi kết hợp giữa văn hóa truyền thống Thái Lan với ảnh hưởng của văn 
hóa phương Tây. 
Thực phẩm ngon và đa dạng: Từ món ăn đường phố đến các nhà hàng sang trọng, Bangkok 
là thiên đường ẩm thực. 
Nhiều điểm du lịch hấp dẫn: Chùa Phật Ngọc, Cung điện Hoàng gia, chợ nổi Damnoen 
Saduak, khu phố đèn đỏ Patpong... 
Giao thông thuận tiện: Hệ thống xe tuk tuk, taxi, tàu điện ngầm tiện lợi. 
Mặt tiêu cực: 
Ô nhiễm không khí: Bangkok là một trong những thành phố ô nhiễm nhất thế giới. 
Lừa đảo du khách: Khách du lịch cần đề phòng các trường hợp lừa đảo, chặt chém giá. 
Khí hậu nóng ẩm: Bangkok có khí hậu nhiệt đới nóng ẩm, đặc biệt là vào mùa mưa. 
3. Bali, Indonesia: 
Mặt tích cực: 
Thiên nhiên tuyệt đẹp: Bali nổi tiếng với những bãi biển cát trắng, rừng nhiệt đới, núi lửa 
hùng vĩ. 
Văn hóa độc đáo: Bali có nền văn hóa Hindu giáo độc đáo, với những ngôi đền cổ kính và 
n

In [4]:
len(pages)

31

In [5]:
from langchain_community.vectorstores import FAISS  # Import lớp FAISS từ thư viện langchain_community.vectorstores
from langchain_google_genai import GoogleGenerativeAIEmbeddings  # Import lớp GoogleGenerativeAIEmbeddings từ thư viện langchain_google_genai
import google.generativeai as genai  # Import thư viện google.generativeai để sử dụng Google Generative AI API
import os  # Import thư viện os để thao tác với hệ thống file
from dotenv import load_dotenv  # Import thư viện dotenv để load biến môi trường từ file .env

load_dotenv()  # Load biến môi trường từ file .env
genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))  # Cấu hình Google Generative AI API với API Key

# Khởi tạo mô hình embedding
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")  # Sử dụng mô hình "models/embedding-001" của Google Generative AI

# Tải index FAISS từ file "faiss_index"
new_db = FAISS.load_local(
    "faiss_index", embeddings, allow_dangerous_deserialization=True  # Cho phép giải mã không an toàn
)

In [6]:
new_db.embedding_function

GoogleGenerativeAIEmbeddings(client=<google.ai.generativelanguage_v1beta.services.generative_service.client.GenerativeServiceClient object at 0x0000020F7FAF0620>, model='models/embedding-001', task_type=None, google_api_key=None, credentials=None, client_options=None, transport=None, request_options=None)

In [7]:
query = "Hãng hành không Vietjet"
docs = new_db.similarity_search(query)
docs[0]

Document(page_content='bay đẹp, mạng lưới bay rộng khắp khu vực châu Á Thái Bình Dương và các nước khác. \nVirgin Australia (Úc): Hãng hàng không lớn thứ hai Úc, nổi tiếng với dịch vụ tốt, nội thất máy \nbay đẹp, mạng lưới bay rộng khắp khu vực châu Á Thái Bình Dương và các nước khác. \nLưu ý: Danh sách này chỉ là một số hãng hàng không uy tín ở các quốc gia 5 châu lục. Bạn \nnên kiểm tra kỹ thông tin về giá vé, dịch vụ, chính sách hành lý và đánh giá của khách hàng \ntrước khi đặt vé. \n \nUser \nchi tiết ở trung quốc , thái lan , hàn quốc, anh , mỹ , pháp , ấn độ hơn nnữaddi \n \nModel \n17.1s \nChi tiết Hãng Hàng Không Uy Tín ở một số quốc gia: \nTrung Quốc: \nAir China: Hãng hàng không quốc gia Trung Quốc, mạng lưới bay rộng khắp trong và ngoài \nnước. Nổi tiếng với dịch vụ tốt, đặc biệt là đối với hành khách hạng thương gia. Họ cung cấp \nnhiều lựa chọn giải trí trên máy bay và ẩm thực truyền thống. \nChina Southern Airlines: Hãng hàng không lớn nhất Trung Quốc, mạng lưới bay rộng

In [8]:
qa_chain = RetrievalQA.from_chain_type(
    llm=model,  # Cung cấp mô hình ngôn ngữ lớn (LLM) cho chuỗi câu hỏi-trả lời
    chain_type="stuff",  # Sử dụng kiểu chuỗi "stuff" để kết hợp câu hỏi và tài liệu tìm kiếm vào prompt của LLM
    retriever=new_db.as_retriever(search_kwargs={"k": 1}),  # Sử dụng index FAISS đã được tải để tìm kiếm tài liệu liên quan
    return_source_documents=True  # Trả về tài liệu nguồn được sử dụng để trả lời câu hỏi
)

In [9]:
question = "Phú sĩ"  # Khai báo câu hỏi
result = qa_chain.invoke({"query": question})  # Gọi chuỗi câu hỏi-trả lời với câu hỏi
result  # Hiển thị kết quả



{'query': 'Phú sĩ',
 'result': 'Tôi không tìm thấy thông tin về món ăn đặc sản của Phú Thọ trong đoạn văn này.',
 'source_documents': [Document(page_content='ngọt, sợi phở dai mềm. Bún chả Hà Nội với bún trắng, chả nướng thơm ngon, nước chấm \nchua ngọt. Bánh cuốn Hà Nội với lớp vỏ mỏng, nhân thịt mộc nhĩ thơm ngon. Bánh giò Hà \nNội với phần vỏ dẻo, nhân thịt nạc, mộc nhĩ hấp dẫn. Ngoài ra, còn có rất nhiều món ăn đặc \nsản như bún thang, chả cá Lã Vọng, nem rán, chả quế, chè Hà Nội... \nHải Phòng: Ẩm thực Hải Phòng mang đậm dấu ấn của biển cả với những món ăn từ hải sản \ntươi ngon. Bánh đa cua Hải Phòng với nước dùng ngọt thanh, cua đồng thơm ngon, bánh đa \ndai mềm. Bánh mì Hải Phòng với nhân thịt nướng, pate, chả, đồ chua... Bánh cam Hải \nPhòng với phần vỏ giòn, nhân ngọt ngào. Ngoài ra, còn có rất nhiều món ăn đặc sản khác \nnhư bún cá rô, chả mực, cá kho làng Vũ Đại... \nNinh Bình: Nổi tiếng với món dê núi hấp dẫn. Dê núi Ninh Bình được chế biến thành nhiều \nmón ăn thơm ngon n

In [10]:
template = """Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer. Keep the answer as concise as possible. Always say "thanks for asking!" at the end of the answer.
{context}
Question: {question}
Helpful Answer:"""

QA_CHAIN_PROMPT = PromptTemplate.from_template(template)  # Tạo prompt template

qa_chain = RetrievalQA.from_chain_type(
    model,  # Mô hình ngôn ngữ lớn (LLM) được sử dụng
    retriever=new_db.as_retriever(search_kwargs={"k": 3}),  # Sử dụng index FAISS để tìm kiếm 3 tài liệu liên quan nhất
    return_source_documents=True,  # Trả về tài liệu nguồn được sử dụng để trả lời câu hỏi
    chain_type_kwargs={"prompt": QA_CHAIN_PROMPT}  # Sử dụng prompt template đã tạo
)

question = "Tell me about tourism in Asia"  # Câu hỏi 
result = qa_chain.invoke({"query": question})  # Gọi chuỗi QA chain với câu hỏi
result["result"]  # Lấy câu trả lời từ kết quả



'**Du lịch Châu Á**\n\nChâu Á là một lục địa rộng lớn và đa dạng, với những danh lam thắng cảnh tuyệt đẹp, những di sản văn hóa lịch sử hào hùng và những câu chuyện hấp dẫn. Du lịch Châu Á là một trải nghiệm tuyệt vời, mang lại những kỷ niệm đáng nhớ và những bài học quý giá về văn hóa, lịch sử và con người.\n\n**Những điểm đến du lịch nổi tiếng**\n\nChâu Á có rất nhiều điểm đến du lịch nổi tiếng, từ những thành phố hiện đại như Tokyo, Seoul và Singapore đến những địa điểm lịch sử như Vạn Lý Trường Thành và Angkor Wat. Một số điểm đến du lịch nổi tiếng nhất bao gồm:\n\n* **Trung Quốc:** Vạn Lý Trường Thành, Tử Cấm Thành, Đội quân đất nung\n* **Nhật Bản:** Tokyo, Kyoto, Núi Phú Sĩ\n* **Hàn Quốc:** Seoul, Đảo Jeju, Cung điện Gyeongbokgung\n* **Thái Lan:** Bangkok, Phuket, Vịnh Phang Nga\n* **Việt Nam:** Hà Nội, Thành phố Hồ Chí Minh, Vịnh Hạ Long\n* **Campuchia:** Angkor Wat, Siem Reap, Đền Banteay Srei\n* **Ấn Độ:** Taj Mahal, Cung điện Umaid Bhawan, Đền Vàng\n* **Indonesia:** Bali, Bor