In [46]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS

In [63]:
with open("dataset.txt", "r") as f:
    data = " ".join([line.strip() for line in f])

In [64]:
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
chunks = splitter.create_documents([data])

In [65]:
from langchain.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-en-v1.5")
vector_store = FAISS.from_documents(chunks, embeddings)

In [82]:
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 10})
retriever.invoke('Thông tin của Shin')

[Document(id='83440912-639e-40b7-b45e-fa5d189bafca', metadata={}, page_content='bị đè sập ý nghĩ và tình thần cô, loáng thoáng nghe được giọng của Shin. “Thiếu tá! Tắt đồng bộ ngay! Thiếu tá Millize!” Trong giọng nói của thiếu niên luôn trầm tĩnh như cậu mang theo vẻ nôn nóng hiếm thấy, nhưng một Lena đã hoảng hốt thì không nghe thấy được. Cô chỉ cố hết sức che tai lại, co rúm người trốn tránh tất cả, gào thét lên mong có thể át đi những tiếng kêu kia, nhưng tiếng kêu lúc lâm chung mãi không ngừng đó dần dần gặm nhấm lý trí cô… “Tch!” Shin chậc lưỡi, tắt đồng bộ đi. Tiếng la hét thảm thiết cũng biến mất ngay. “……A…” Lena chậm chạp ngẩng đầu lên, buông hai tay ra trong sợ hãi… Không nghe thấy gì nữa. Coi bộ tất cả Processor đều đã tắt đồng bộ. Lena không biết đã từ ghế ngã xuống đất từ lúc nào, nhịp thở trở nên dồn dập vì sợ hãi, đôi mắt trợn trừng trong kinh hãi nhìn vào bóng đen trong phòng quản lí. …Thứ khi nãy… là gì…? Đó không phải bắt nguồn từ các Processor cô đồng bộ. Không phải 

In [86]:
from groq import Groq
from apikey import api

client = Groq(api_key=api)


def get_answer_from_context(question: str, context: str) -> str:
    prompt = f"""Câu hỏi: {question}
Ngữ cảnh: {context}
Trả lời:"""
    response = client.chat.completions.create(
        model="llama3-70b-8192",
        messages=[
            {"role": "system", "content": "Bạn là một trợ lý hữu ích. Chỉ trả lời dựa trên dữ liệu cung cấp. Nếu dữ liệu không đủ, chỉ cần nói bạn không biết. Câu trả lời phải luôn là tiếng Việt."},
            {"role": "user", "content": prompt}
        ],
        temperature=1,
        max_tokens=8192,
        top_p=1,
        stream=False
    )
    return response.choices[0].message.content

In [88]:
question = "Thông tin của Shin"
retrieved_docs = retriever.invoke(question)

context_text = "\n\n".join(doc.page_content for doc in retrieved_docs)

answer = get_answer_from_context(question, context_text)
print(answer)

Thông tin về Shin:

* Shin là một thiếu tá trong binh đoàn Spearhead.
* Cậu có vẻ bình tĩnh, già dặn và lạnh lùng, không bao giờ bị lung lay.
* Cậu có thể đồng bộ với người khác, nghe được tiếng nói của họ và nói chuyện với họ.
* Cậu có thể khống chế và tiêu diệt quân địch với kỹ năng chiến đấu cao.
* Cậu có một cảm xúc bí mật, mong muốn không quên và được nhớ tới.
* Cậu có thể nói những lời không bình thường, ví dụ như đọc kinh thánh.
* Cậu có thể kiểm soát và điều chỉnh thiết bị RAID, đồng bộ với người khác.
* Cậu có quan hệ đặc biệt với Lena, có thể nói chuyện với cô và hiểu cảm xúc của cô.
