Nhấn Ctrl+F9 để chạy tất cả

In [1]:
!pip -qq install -U xformers --index-url https://download.pytorch.org/whl/cu118
!pip -qq install langchain optimum qdrant-client wikipedia
!pip -qq install https://github.com/vllm-project/vllm/releases/download/v0.2.2/vllm-0.2.2+cu118-cp310-cp310-manylinux1_x86_64.whl

In [2]:
!huggingface-cli login --token=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

Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /home/.cache/huggingface/token
Login successful


In [1]:
GENERATE_MODEL_NAME="vinai/PhoGPT-7B5-Instruct"
EMBEDDINGS_MODEL_NAME="sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
QDRANT_URL = "<QDRANT_URL>"
QDRANT_COLLECTION_NAME = "nttu_sotay_vector_db_v1"

In [2]:
#@title API KEY OF DATABASE
HUGGINGFACE_API_KEY = "<HUGGINGFACE_API_KEY>"
QDRANT_API_KEY =      "<QDRANT_API_KEY>"

In [3]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from optimum.bettertransformer import BetterTransformer
import torch
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model_rerank = AutoModelForSequenceClassification.from_pretrained('amberoad/bert-multilingual-passage-reranking-msmarco').to(device)
model_rerank = BetterTransformer.transform(model_rerank)
tokenizer_rerank = AutoTokenizer.from_pretrained('amberoad/bert-multilingual-passage-reranking-msmarco')

The BetterTransformer implementation does not support padding during training, as the fused kernels do not support attention masks. Beware that passing padded batched data during training may result in unexpected outputs. Please refer to https://huggingface.co/docs/optimum/bettertransformer/overview for more details.


In [4]:
from langchain.schema.document import Document
from langchain_core.vectorstores import VectorStoreRetriever
from langchain.retrievers import WikipediaRetriever
from typing import List
class RerankRetriever(VectorStoreRetriever):
    vectorstore: VectorStoreRetriever
    def get_relevant_documents(self, query: str) -> List[Document]:
        docs = self.vectorstore.get_relevant_documents(query=query)
        candidates = [doc.page_content for doc in docs]
        queries = [query]*len(candidates)
        features = tokenizer_rerank(queries, candidates,  padding=True, truncation=True, return_tensors="pt").to(device)
        with torch.no_grad():
            scores = model_rerank(**features).logits
            values, indices = torch.sum(scores, dim=1).sort()
            # relevant_docs = docs[indices[0]]
        return [docs[indices[0]],docs[indices[1]]]
class RerankWikiRetriever(VectorStoreRetriever):
    vectorstore: WikipediaRetriever
    def get_relevant_documents(self, query: str) -> List[Document]:
        docs = self.vectorstore.get_relevant_documents(query=query)
        candidates = [doc.page_content for doc in docs]
        queries = [query]*len(candidates)
        features = tokenizer_rerank(queries, candidates,  padding=True, truncation=True, return_tensors="pt").to(device)
        with torch.no_grad():
            scores = model_rerank(**features).logits
            values, indices = torch.sum(scores, dim=1).sort()
            # relevant_docs = docs[indices[0]]
        return [docs[indices[0]],docs[indices[1]]]

In [5]:
from langchain.retrievers import WikipediaRetriever
from langchain.vectorstores import Qdrant
from langchain.llms import HuggingFacePipeline
from qdrant_client import QdrantClient
from langchain.prompts import PromptTemplate
from langchain.embeddings import HuggingFaceInferenceAPIEmbeddings
from langchain.chains import RetrievalQA,MultiRetrievalQAChain
from langchain.llms import VLLM
from langchain.llms import HuggingFaceHub

class LLMServe:
    def __init__(self) -> None:
      self.embeddings = self.load_embeddings()
      self.current_source = "wiki"
      self.retriever = self.load_retriever(retriever_name = self.current_source,embeddings=self.embeddings)
      self.pipe = self.load_model_pipeline(max_new_tokens=300)
      self.prompt = self.load_prompt_template()
      self.rag_pipeline = self.load_rag_pipeline(llm=self.pipe,
                                            retriever=self.retriever,
                                            prompt=self.prompt)
    def load_embeddings(self):
      embeddings = HuggingFaceInferenceAPIEmbeddings(
          model_name=EMBEDDINGS_MODEL_NAME,
          api_key = HUGGINGFACE_API_KEY,
          model_kwargs = {'device': "auto"}
      )
      return embeddings

    def load_retriever(self,retriever_name,embeddings):
      retriever=None
      if retriever_name == "wiki":
        retriever = RerankWikiRetriever(vectorstore = WikipediaRetriever(lang="vi",
                                       doc_content_chars_max=800,top_k_results=15))
      else:
        client = QdrantClient(
            url=QDRANT_URL,api_key=QDRANT_API_KEY, prefer_grpc=False
        )
        db = Qdrant(client=client,
                    embeddings=embeddings,
                    collection_name=QDRANT_COLLECTION_NAME)

        retriever = RerankRetriever(vectorstore = db.as_retriever(search_kwargs={"k":15}))

      return retriever

    def load_model_pipeline(self,max_new_tokens=100):
      llm = VLLM(
          model=GENERATE_MODEL_NAME,
          trust_remote_code=True,  # mandatory for hf models
          max_new_tokens=max_new_tokens,
            # temperature=1.0,
            # top_k=50,
            # top_p=0.9,
          top_k=10,
          top_p=0.95,
          temperature=0.4,
          dtype="half",
          # vllm_kwargs={"quantization": "awq"}
      )
      return llm

    def load_prompt_template(self):
      # query_template = "Bạn là một trợ lý của trường Đại học Nguyễn Tất Thành. Hãy trả lời câu hỏi sau dựa trên ngữ cảnh, nếu ngữ cảnh không cung cấp câu trả lời hoặc không chắc chắn hãy trả lời 'Tôi không biết thông tin này, tuy nhiên đoạn thông tin dưới phần tham khảo có thể có câu trả lời cho bạn!' đừng cố tạo ra câu trả lời không có trong ngữ cảnh.\nNgữ cảnh: {context} \nCâu hỏi: {question}\nTrả lời: "
      query_template = "Tham khảo ngữ cảnh:{context}\n\n### Câu hỏi:{question}\n\n### Trả lời:"
      # query_template = "Bạn là một chatbot thông minh trả lời câu hỏi dựa trên ngữ cảnh (context).\n\n### Context:{context} \n\n### Human: {question}\n\n### Assistant:"
      prompt = PromptTemplate(template=query_template,
                        input_variables= ["context","question"])
      return prompt

    def load_rag_pipeline(self,llm,retriever,prompt):
      rag_pipeline = RetrievalQA.from_chain_type(
      llm=llm, chain_type='stuff',
      retriever=retriever,
      chain_type_kwargs={
      "prompt": prompt
      },
      return_source_documents=True)
      return rag_pipeline

    def rag(self,source):
      if source == self.current_source:
        return self.rag_pipeline
      else:
        self.retriever = self.load_retriever(retriever_name=source,embeddings=self.embeddings)
        self.rag_pipeline = self.load_rag_pipeline(llm=self.pipe,
                                      retriever=self.retriever,
                                      prompt=self.prompt)
        self.current_source = source
        return self.rag_pipeline

In [6]:
app = LLMServe()



INFO 12-05 13:46:38 llm_engine.py:72] Initializing an LLM engine with config: model='vinai/PhoGPT-7B5-Instruct', tokenizer='vinai/PhoGPT-7B5-Instruct', tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.float16, max_seq_len=2048, download_dir=None, load_format=auto, tensor_parallel_size=1, quantization=None, seed=0)




INFO 12-05 13:47:02 llm_engine.py:207] # GPU blocks: 419, # CPU blocks: 512


In [22]:
# 1
print(app.rag(source="nttu")("Điều kiện nhận học bổng?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:05<00:00,  5.77s/it]

Điều kiện để nhận học bổng khuyến khích học tập bao gồm: 

1. Hoàn thành tất cả các học phần đã đăng ký trong năm học (gồm cả 03 học kỳ trong năm học);
2. Điểm trung bình chung của năm học đạt từ 2.50 trở lên theo thang điểm 4;
3. Sinh viên đạt tổng số tín chỉ tích lũy từ 30 tín chỉ trở lên trong năm học, riêng với sinh viên năm cuối đạt tổng số tín chỉ tích lũy từ 20 tín chỉ trở lên trong năm học;
4. Sinh viên không có điểm thi kết thúc môn học và điểm trung bình tổng kết của mỗi học phần dưới 5.0 điểm trong năm học;
5. Kết quả rèn luyện năm học từ loại khá trở lên (>=70 điểm);
6. Sinh viên không được xét kết quả các học phần miễn học, chuyển điểm vào điểm trung bình chung của năm học;
7. Sinh viên tạm nghỉ học trong năm học xem như không được nhận học bổng;
8. Sinh viên bị kỷ luật từ mức Khá trở lên trong năm học.





In [8]:
# 2
print(app.rag(source="nttu")("Bao nhiêu điểm thì học lực Xuất sắc?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:00<00:00,  1.30it/s]

Học lực Xuất sắc có điểm hệ 10 từ 9.0 – 10 (điểm hệ 4 từ 3.60 – 4.00).





In [9]:
# 3
print(app.rag(source="nttu")("Bao nhiêu điểm thì học lực Giỏi?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:00<00:00,  2.06it/s]

Học lực Giỏi có điểm từ 3,60 đến 4,00.





In [23]:
# 4
print(app.rag(source="nttu")("Bao nhiêu điểm thì học lực Khá?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:01<00:00,  1.93s/it]

Học lực Khá được tính bằng cách nhân điểm hệ số của học lực Trung bình với tổng điểm, sau đó chia cho hạng tốt nghiệp. Vì vậy, học lực Khá = (3,60 + 4,00) / 4 = 3,59





In [11]:
# 5
print(app.rag(source="nttu")("Điều kiện thực tập tốt nghiệp là gì?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:02<00:00,  2.06s/it]

Điều kiện thực tập tốt nghiệp được các khoa thông báo cụ thể đến sinh viên ngay từ đầu khóa học hoặc chậm nhất tại thời điểm khoa chia chuyên ngành đào tạo.





In [12]:
# 6
print(app.rag(source="nttu")("Học phần đã đăng ký có trạng thái N* là gì?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:00<00:00,  1.77it/s]

Học phần đã đăng ký có trạng thái N* là học phần chưa đóng học phí.





In [13]:
# 7
print(app.rag(source="nttu")("Điều kiện nào để được xét chuyển trường?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:03<00:00,  3.30s/it]

Để được xét chuyển trường, sinh viên cần đáp ứng các điều kiện sau:
- Không đang là sinh viên trình độ năm 1 hoặc năm cuối, không thuộc diện bị xem xét buộc thôi học và còn đủ thời gian học tập theo quy định.
- Sinh viên đạt điều kiện trúng tuyển của chương trình, ngành đào tạo cùng khóa tuyển sinh tại nơi chuyển đến.
- Nơi chuyển đến có đủ các điều kiện bảo đảm chất lượng, chưa vượt quá năng lực đào tạo đối với chương trình, ngành đào tạo đó theo quy định hiện hành.
- Sinh viên phải hoàn tất các nghĩa vụ với Trường đang theo học.





In [14]:
# 8
print(app.rag(source="nttu")("Nếu điểm thi kết thúc học phần < 4 thì như thế nào?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:01<00:00,  1.38s/it]

Nếu điểm thi kết thúc học phần < 4, sinh viên sẽ nhận điểm 0 và phải thi lại học phần kế tiếp. Trường hợp đặc biệt có lý do chính đáng sẽ được thi cùng với lớp học phần kế tiếp nhưng không phải học lại.





In [15]:
# 9
print(app.rag(source="nttu")("Phí cấp lại thẻ sinh viên khi bị mất là bao nhiêu?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:00<00:00,  1.38it/s]

Theo quy định của Nhà trường, phí cấp lại thẻ sinh viên khi bị mất là 20.000đ/lần.





In [16]:
# 10
print(app.rag(source="nttu")("Để đạt loại xuất sắc điểm rèn luyện cần bao nhiêu điểm?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:00<00:00,  1.98it/s]

Để đạt loại xuất sắc điểm rèn luyện, sinh viên cần đạt 90 điểm.





In [17]:
# 11
print(app.rag(source="nttu")("Để đạt loại tốt điểm rèn luyện cần bao nhiêu điểm?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:00<00:00,  2.38it/s]

Để đạt loại tốt điểm rèn luyện cần từ 90 điểm trở lên.





In [18]:
# 12
print(app.rag(source="nttu")("Nếu sinh viên không đạt ở một học phần, phải làm gì?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:01<00:00,  1.95s/it]

Nếu sinh viên không đạt ở một học phần, họ cần đăng ký và học lại từ đầu học phần đó. Nếu điểm thi kết thúc học phần của họ không đạt, họ sẽ bị cấm thi kết thúc học phần. Trong trường hợp họ không được dự thi kết thúc học phần, họ cần đăng ký và học lại từ đầu học phần đó.





In [19]:
# 13
print(app.rag(source="nttu")("Lớp trưởng được cấp bao nhiêu tiền?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:00<00:00,  1.80it/s]

Lớp trưởng được cấp 200.000đ/tháng/cá nhân x 10 tháng.





In [20]:
# 14
print(app.rag(source="nttu")("Lớp phó được cấp bao nhiêu tiền?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:00<00:00,  2.51it/s]

Lớp phó được cấp 100.000đ/tháng.





In [24]:
# 15
print(app.rag(source="nttu")("Bao nhiêu điểm thì bị rớt?")["result"])

Processed prompts: 100%|██████████| 1/1 [00:00<00:00,  1.96it/s]

Nếu điểm thi kết thúc học phần < 4, sinh viên sẽ bị rớt.



