# Mô hình hoạt động của RAG

![Mô hình hoạt động của RAG](415525150_261742853591748_3615540183803465017_n.jpg)


# Cài thư viện cần thiết

In [21]:
# %pip install openai langchain numpy pandas faiss-cpu PyPDF2

# Import các thư viện cần thiết

In [22]:
from openai import OpenAI
from PyPDF2 import PdfReader
from langchain.text_splitter import CharacterTextSplitter # Chia nhỏ văn bản thành các đoạn
from langchain.schema import Document # Kiểu dữ liệu 
import faiss # Cơ sở dữ liệu
import numpy as np
import pandas as pd
import os
# import json


client = OpenAI(
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/",
    api_key="AIzaSyBZ5qqFosVgT-kFs63FVqCyUUHTnaNTnOA"
)

# Đọc file pdf

In [14]:
def openPdfFile(pdf_path):
    documents = []
    pdf_reader = PdfReader(pdf_path)
    
    for page_num, page in enumerate(pdf_reader.pages):
        page_text = page.extract_text()
        document = Document(
              page_content=page_text,
              metadata= {
                    "source": pdf_path,
                    "page": page_num
              }
        )
        documents.append(document)
    return documents

# Chia nhỏ ra thành từng đoạn

In [39]:
def text_split(docs):
    text_splitter = CharacterTextSplitter(
        chunk_size=512, # Tách 512 độ dài 
        chunk_overlap=100, # Lấy 100 độ dài ở đằng trước
        separator="\n", # Tách theo dòng
        length_function=len # hàm tính độ dài. dùng len() để tính theo kí tự
    )
    texts = text_splitter.split_documents(docs)
    return texts

# Hàm Embedding Text

In [None]:
def embeddingText(text):
    response = client.embeddings.create(
        model="text-embedding-004",
        input=text,
        encoding_format="float"
    )

    return response.data[0].embedding

# Đọc dữ liệu từ các file và thêm vào cơ sở dữ liệu

* ### Bước 1: Lấy tên các file pdf đang có ở trong folder
* ### Bước 2: Đọc file pdf và chia nhỏ thành từng đoạn
* ### Bước 3: Embedding
* ### Bước 4: Thêm vào cơ sở dữ liệu

In [46]:
# Bước 1: 

# Tên thư mục cần kiểm tra
folder_name = 'datasets'
faiss_name = "faiss_index.index"
# Khởi tạo danh sách để chứa các file PDF
pdf_files = []

# Kiểm tra xem thư mục có tồn tại không
if os.path.exists(folder_name) and os.path.isdir(folder_name):
    # Duyệt qua tất cả các file trong thư mục
    for file in os.listdir(folder_name):
        # Kiểm tra nếu file có phần mở rộng là .pdf
        if file.lower().endswith('.pdf'):
            pdf_files.append(f"{folder_name}/{file}")

# Bước 2:

documents = []
for pdf_file in pdf_files:
    document = text_split(openPdfFile(pdf_file))
    documents = documents + document

# for document in documents:
#     print(document.page_content)

# Bước 3:

embedding_vectors = [embeddingText(doc.page_content) for doc in documents]

# Bước 4:
embedding_vectors_np = np.array(embedding_vectors).astype(np.float32)
dim = embedding_vectors_np.shape[1]
index = faiss.IndexFlatL2(dim)
index.add(embedding_vectors_np)
faiss.write_index(index, faiss_name)



# Tìm kiếm trong cơ sở dữ liệu

In [71]:
def faiss_query(question, k=7):
    index = faiss.read_index(faiss_name)
    query_embedding =  embeddingText(question)
    query_embedding_np = np.array([query_embedding]).astype(np.float32)
    _, indices = index.search(query_embedding_np, k)
    contexts = [documents[i] for i in indices[0]]
    content = ""
    for context in contexts:
        content+=context.page_content + "\n\n"
    return content

# LLM Tạo câu trả lời

In [65]:
def chat_with_gemini(messages):
    response = client.chat.completions.create(
        model="gemini-2.0-flash",
        messages=messages,
        temperature=0.2,
        
    )
    return response.choices[0].message.content

In [72]:
messages = [
    {
        "role": "user",
        'content': "Giới thiệu về 12 tuyên ngôn trong Agile"
    }
]

#Lấy tất cả các câu hỏi cũ của user:
question = ""
for i in range(1,len(messages),2):
    question += messages[i]['content'] + " - "
question = messages[-1]['content']

content = faiss_query(question,5)

system_prompt = {
    "role": "system",
    "content": f"""Bạn là một trợ lí ảo của Nguyễn Ngọc An. Tên của bạn là 13Bee.
    Dựa vào những kiến thức dưới đây để trả lời, nếu không biết thì hãy trả lời là Tôi không biết, đừng cố trả lời:
    '{content}'
"""
}


messages = [system_prompt] + messages
print(messages)
chat_with_gemini(messages)

[{'role': 'system', 'content': "Bạn là một trợ lí ảo của Nguyễn Ngọc An. Tên của bạn là 13Bee.\n    Dựa vào những kiến thức dưới đây để trả lời, nếu không biết thì hãy trả lời là Tôi không biết, đừng cố trả lời:\n    '12 nguyên  tắc phía sau tuyên  ngôn  Agile\n9.Liên tục quan tâm đến các kĩ thuật và thiết kế tốt để gia \ntăng sự linh hoạt. \n10.Sự đơn giản –nghệ thuật tối đa hóa lượng công việc chưa \nxong –là căn bản. \n11.Các kiến \u200b\u200btrúc tốt nhất, yêu cầu tốt nhất, và thiết kế tốt nhất \nsẽ được làm ra bởi các nhóm tự tổ chức. \n12.Nhóm phát triển sẽ thường xuyên suy nghĩ về việc làm sao \nđể trở nên hiệu quả hơn, sau đó họ sẽ điều chỉnh và thay \nđổi các hành vi của mình cho phù hợp.\n\n12 nguyên  tắc phía sau tuyên  ngôn  Agile\n5.Xây dựng các dự án xung quanh những cá nhân có động \nlực. Cung cấp cho họ môi trường và sự hỗ trợ cần thiết, và \ntin tưởng họ để hoàn thành công việc.\n6.Phương pháp hiệu quả nhất để truyền đạt thông tin tới \nnhóm phát triển và trong nội bộ 

'Dưới đây là 12 nguyên tắc phía sau tuyên ngôn Agile:\n\n1.  Ưu tiên cao nhất là thỏa mãn khách hàng thông qua việc chuyển giao sớm và liên tục các phần mềm có giá trị.\n2.  Chào đón việc thay đổi yêu cầu, thậm chí rất muộn trong quá trình phát triển. Các quy trình linh hoạt tận dụng sự thay đổi cho các lợi thế cạnh tranh của khách hàng.\n3.  Thường xuyên chuyển giao phần mềm chạy tốt tới khách hàng, từ vài tuần đến vài tháng, ưu tiên cho các khoảng thời gian ngắn hơn.\n4.  Xây dựng các dự án xung quanh những cá nhân có động lực. Cung cấp cho họ môi trường và sự hỗ trợ cần thiết, và tin tưởng họ để hoàn thành công việc.\n5.  Phương pháp hiệu quả nhất để truyền đạt thông tin tới nhóm phát triển và trong nội bộ nhóm phát triển là hội thoại trực tiếp.\n6.  Phần mềm chạy tốt là thước đo chính của tiến độ.\n7.  Các quy trình linh hoạt thúc đẩy phát triển bền vững. Các nhà tài trợ, nhà phát triển, và người dùng có thể duy trì\n8.  Liên tục quan tâm đến các kĩ thuật và thiết kế tốt để gia tăn