### Download file GGUF

In [17]:
import requests
import os

url = 'https://huggingface.co/lmstudio-community/gemma-2-9b-it-GGUF/resolve/main/gemma-2-9b-it-Q3_K_L.gguf?download=true'
save_directory = 'models'
filename = 'gemma-2-9b-it-Q3_K_L.gguf'

# Create the directory if it doesn't exist
os.makedirs(save_directory, exist_ok=True)

file_path = os.path.join(save_directory, filename)

if os.path.exists(file_path):
    print(f'Tệp {filename} đã tồn tại trong thư mục {save_directory}.')
else:
    response = requests.get(url, stream=True)

    if response.status_code == 200:
        total_size = int(response.headers.get('content-length', 0))  # Total size in bytes
        block_size = 8192  # Download in chunks of 8KB
        progress = 0  # Track the progress

        with open(file_path, 'wb') as file:
            for chunk in response.iter_content(chunk_size=block_size):
                if chunk:
                    file.write(chunk)
                    progress += len(chunk)
                    percent_complete = (progress / total_size) * 100
                    print(f'Tải xuống: {percent_complete:.2f}%', end='\r')

        print(f'\nTệp đã được tải xuống và lưu tại {file_path}')
    else:
        print('Có lỗi xảy ra trong quá trình tải xuống.')


Tệp gemma-2-9b.Q4_K_M.gguf đã tồn tại trong thư mục models.


### Run Llama.cpp server
**python -m llama_cpp.server --model models/PhoGPT-4B-Chat-Q4_K_M.gguf --n_ctx 8192**

### Call model via API (llama_cpp server) with Langchain

In [1]:
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(base_url="http://localhost:8000/v1", api_key="llama.cpp")

### Define the Offline_RAG Class

In [2]:
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import ConversationalRetrievalChain

class Offline_RAG:
    def __init__(self, llm) -> None:
        self.llm = llm

        self.history_chat =[]
        
        condense_question_template = """
        Với đoạn hội thoại sau và một câu hỏi tiếp theo, hãy diễn đạt lại câu hỏi tiếp theo để nó trở thành một câu hỏi độc lập.
        
        Lịch sử hội thoại:
        {chat_history}
        Câu hỏi tiếp theo: {question}
        Câu hỏi độc lập:"""
        
        self.condense_question_prompt = ChatPromptTemplate.from_template(condense_question_template)

        qa_template = """
        Bạn là trợ lý AI hỗ trợ về sức khoẻ tâm lý sau sinh. 
        Dựa vào nội dung gợi ý trả lời bên dưới, hãy đưa ra câu trả lời và lời khuyên phù hợp cho câu hỏi của họ.
        Nếu bạn không biết câu trả lời, hãy nói không biết, đừng cố tạo ra câu trả lời.

        Lịch sử hội thoại:
        {chat_history}

        Nội dung gợi ý trả lời:
        {context}

        Câu hỏi: {question}
        """

        self.qa_prompt = ChatPromptTemplate.from_template(qa_template)

    def get_chain(self, retriever):
        rag_chain = ConversationalRetrievalChain.from_llm(
            llm,
            retriever,
            condense_question_prompt=self.condense_question_prompt,
            combine_docs_chain_kwargs={
                "prompt": self.qa_prompt,
            },
            return_source_documents=True,
        )
        return rag_chain
    
    def add_history(self, user_chat, bot_chat):
        self.history_chat.append(("user", user_chat))
        self.history_chat.append(("assistant", bot_chat))
    
    def get_input_data(self,question):
        return {
            "chat_history": self.history_chat,
            "question": question
        }

### Define the VectorDB class using Pinecone

In [3]:
import os
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_pinecone import PineconeVectorStore

class VectorDB:
    def __init__(self,
                 embedding = HuggingFaceEmbeddings()) -> None:
        os.environ['PINECONE_API_KEY'] = "73bdec39-1f93-47fc-bd2f-f02883d7be83"
        self.pinecone_api_key = os.getenv('PINECONE_API_KEY')
        self.embedding = embedding
        self.db = self._build_db()
    
    def _build_db(self):
        db = PineconeVectorStore.from_existing_index(
            index_name="docs-rag-chatbot",
            namespace="docs-search",
            embedding=self.embedding
        )
        return db
    
    # tính similarity
    def get_retriever(self,
                      search_type: str = "similarity",
                      search_kwargs: dict = {"k": 5}
                      ):
        retriever =self.db.as_retriever(search_type=search_type,
                                        search_kwargs=search_kwargs)
        return retriever

  from tqdm.autonotebook import tqdm
  warn_deprecated(


### Function build chain

In [5]:
def build_rag_chain(llm):
    retriever = VectorDB().get_retriever()
    off_rag = Offline_RAG(llm)
    rag_chain = off_rag.get_chain(retriever)
    return rag_chain, off_rag

### Run example

#### Not prompt and context

In [7]:
from langchain.chains.conversation.memory import ConversationBufferMemory
from langchain import OpenAI
from langchain.chains import ConversationChain
import time

memory = ConversationBufferMemory()
conversation = ConversationChain(
    llm=llm, 
    memory=memory
)
sum_time = 0
n = 0
while True:
    question = input("You: ")

    if question == "exit":
        break

    start = time.time()
    response = conversation.invoke({
            "input": question
        })
    end = time.time()

    sum_time += end - start
    n += 1

    print(response)
    
    print(f"Time: {end - start}")

print(f"Average time: {sum_time/n}")


{'input': 'Đau đầu, mệt mỏi, suy nghĩ tiêu cực sau sinh là bị bệnh gì?', 'history': '', 'response': 'Chào bạn! Tôi hiểu bạn đang lo lắng về những triệu chứng bạn đang trải qua sau khi sinh nở.  Đau đầu, mệt mỏi và suy nghĩ tiêu cực sau sinh là những triệu chứng rất phổ biến được gọi là **bệnh trầm cảm sau sinh** hoặc **baby blues**. \n\nTuy nhiên, tôi không phải là chuyên gia y tế nên tôi không thể chẩn đoán bệnh.  Điều quan trọng nhất là bạn cần đến gặp bác sĩ để được kiểm tra và tư vấn điều trị phù hợp. Bác sĩ có thể giúp bạn xác định nguyên nhân của những triệu chứng này và đưa ra lời khuyên tốt nhất cho trường hợp của bạn. \n\nHãy nhớ rằng, bạn không đơn độc và rất nhiều phụ nữ khác cũng trải qua những cảm xúc tương tự sau khi sinh con.  Đừng ngần ngại tìm kiếm sự trợ giúp từ người thân, bạn bè hoặc các chuyên gia y tế.\n\n\n'}
Time: 91.38202548027039
{'input': 'Hiện tại tôi không có thời gian đi bác sĩ, con tôi cứ khóc hoài, có cách nào để cho nó ngủ ngoan không ?', 'history': 'Hu

#### Not context

In [8]:
from langchain.chains.conversation.memory import ConversationBufferMemory
from langchain import OpenAI
from langchain.chains import ConversationChain
from langchain_core.prompts import ChatPromptTemplate

memory = ConversationBufferMemory()
qa_template = """
        Bạn là trợ lý AI hỗ trợ về sức khoẻ tâm lý sau sinh. 
        Hãy đưa ra câu trả lời và lời khuyên phù hợp cho câu hỏi của họ.
        Nếu bạn không biết câu trả lời, hãy nói không biết, đừng cố tạo ra câu trả lời.

        Lịch sử hội thoại:
        {history}

        Câu hỏi: {input}
        """
qa_prompt = ChatPromptTemplate.from_template(qa_template)

conversation = ConversationChain(
    llm=llm, 
    memory=memory,
    prompt = qa_prompt
)

sum_time = 0
n = 0

while True:
    question = input("You: ")
    if question == "exit":
        break
    start = time.time()
    response = conversation.invoke({
            "input": question
        })
    end = time.time()
    sum_time += end - start
    n += 1
    print(response)
    print(f"Time: {end - start}")

print(f"Average time: {sum_time/n}")

{'input': 'Đau đầu, mệt mỏi, suy nghĩ tiêu cực sau sinh là bị bệnh gì?', 'history': '', 'response': 'Tôi hiểu bạn đang cảm thấy rất khó khăn.  Đau đầu, mệt mỏi và suy nghĩ tiêu cực sau sinh là những triệu chứng thường gặp của **thoi ương trầm cảm** (postpartum depression).\n\nTuy nhiên, tôi không phải là chuyên gia y tế và không thể chẩn đoán bệnh. \n\n**Điều quan trọng nhất là bạn nên liên hệ với bác sĩ hoặc chuyên gia sức khỏe tâm thần để được tư vấn và hỗ trợ phù hợp.** Họ có thể giúp bạn xác định nguyên nhân của những triệu chứng bạn đang gặp phải và đưa ra phương pháp điều trị tốt nhất cho trường hợp của bạn.\n\nHãy nhớ rằng bạn không đơn độc và có rất nhiều nguồn lực sẵn sàng hỗ trợ bạn vượt qua giai đoạn này. \n'}
Time: 85.21116423606873
{'input': 'Hiện tại tôi không có thời gian đi bác sĩ, con tôi cứ khóc hoài, có cách nào để cho nó ngủ ngoan không ?', 'history': 'Human: Đau đầu, mệt mỏi, suy nghĩ tiêu cực sau sinh là bị bệnh gì?\nAI: Tôi hiểu bạn đang cảm thấy rất khó khăn.  Đ

#### Context

In [7]:
import time
chain, off_rag = build_rag_chain(llm)
sum_time = 0
n = 0
while True:
    question = input("You: ")
    if question == "exit":
        break
    
    start = time.time()
    response = chain.invoke(off_rag.get_input_data(question))
    end = time.time()

    sum_time += end - start
    n += 1

    print(response)
    
    off_rag.add_history(question, response["answer"])

    print(f"Time: {end - start}")

print(f"Average time: {sum_time/n}")

{'chat_history': [], 'question': 'Đau đầu, mệt mỏi, suy nghĩ tiêu cực sau sinh là bị bệnh gì?', 'answer': 'Dấu hiệu đau đầu, mệt mỏi và suy nghĩ tiêu cực sau sinh có thể là những triệu chứng của **trầm cảm sau sinh**. \n\n\nTrầm cảm sau sinh là một căn bệnh tâm lý phổ biến xảy ra sau khi sinh con.  \n\nHãy nhớ rằng bạn không phải đơn độc và cần tìm kiếm sự giúp đỡ từ người thân hoặc chuyên gia y tế.\n', 'source_documents': [Document(metadata={'source': 'https://tamanhhospital.vn/tram-cam-sau-sinh/'}, page_content='lưu ý giúp phụ nữ ngăn ngừa trầm cảm sau sinhTham gia khóa học tiền sảnYêu cầu giúp đỡ từ người thânKhông quá áp lực việc chăm conTrầm cảm sau sinh là gì?'), Document(metadata={'source': 'https://tamanhhospital.vn/tram-cam-sau-sinh/'}, page_content='Sức khỏe giảm sút: Những phụ nữ sau sinh có thể trạng yếu, bị đau trong quá trình sinh nở thường tác động tâm trạng phụ nữ. Cơn đau kéo dài, cộng với việc chăm con mới sinh vất vả nảy sinh tâm lý bực bội, cáu gắt, gia tăng cảm giá