In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [4]:
!pip install -r /content/drive/MyDrive/Project/requirements.txt

Collecting langchain-community (from -r /content/drive/MyDrive/Project/requirements.txt (line 3))
  Downloading langchain_community-0.3.5-py3-none-any.whl.metadata (2.9 kB)
Collecting pypdf (from -r /content/drive/MyDrive/Project/requirements.txt (line 5))
  Downloading pypdf-5.1.0-py3-none-any.whl.metadata (7.2 kB)
Collecting gpt4all (from -r /content/drive/MyDrive/Project/requirements.txt (line 7))
  Downloading gpt4all-2.8.2-py3-none-manylinux1_x86_64.whl.metadata (4.8 kB)
Collecting faiss-cpu (from -r /content/drive/MyDrive/Project/requirements.txt (line 8))
  Downloading faiss_cpu-1.9.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.4 kB)
Collecting ctransformers (from -r /content/drive/MyDrive/Project/requirements.txt (line 10))
  Downloading ctransformers-0.2.27-py3-none-any.whl.metadata (17 kB)
Collecting wget (from -r /content/drive/MyDrive/Project/requirements.txt (line 11))
  Downloading wget-3.2.zip (10 kB)
  Preparing metadata (setup.py) ... [?25l

#PREPARE DB

In [2]:
!pip install langchain_groq

Collecting langchain_groq
  Downloading langchain_groq-0.2.1-py3-none-any.whl.metadata (2.9 kB)
Collecting groq<1,>=0.4.1 (from langchain_groq)
  Downloading groq-0.11.0-py3-none-any.whl.metadata (13 kB)
Collecting langchain-core<0.4.0,>=0.3.15 (from langchain_groq)
  Downloading langchain_core-0.3.15-py3-none-any.whl.metadata (6.3 kB)
Downloading langchain_groq-0.2.1-py3-none-any.whl (14 kB)
Downloading groq-0.11.0-py3-none-any.whl (106 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m106.5/106.5 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading langchain_core-0.3.15-py3-none-any.whl (408 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m408.7/408.7 kB[0m [31m18.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: groq, langchain-core, langchain_groq
  Attempting uninstall: langchain-core
    Found existing installation: langchain-core 0.3.13
    Uninstalling langchain-core-0.3.13:
      Successfully uninstalled langchai

In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
from langchain.document_loaders import PyPDFLoader, DirectoryLoader
from langchain_community.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_groq import ChatGroq

In [6]:
from google.colab import userdata
GROQ = userdata.get('GROQ_API')

In [7]:
import os
os.environ['GROQ_API_KEY'] = GROQ

In [8]:
data_path = '/content/drive/MyDrive/Project/data/'
vector_db_path = 'vector_db/'
EMBEDDING_PATH = '/content/drive/MyDrive/Project/models/all-MiniLM-L6-v2.F16.gguf'


In [9]:
from langchain.embeddings import GPT4AllEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import PyPDFLoader, DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
import os
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma

def create_db(persist_directory):
  loader = DirectoryLoader(data_path, glob='*.pdf', loader_cls=PyPDFLoader)
  documents = loader.load()
  text_splitter = RecursiveCharacterTextSplitter(
      separators = '\n',
      chunk_size = 500,
      chunk_overlap = 50,
      length_function = len
  )
  embedding = GPT4AllEmbeddings(model=EMBEDDING_PATH)
  chunks = text_splitter.split_documents(documents)
  db = Chroma.from_documents(chunks, embedding, persist_directory=persist_directory)
  db.persist()
  return db

def setUp_retriever(db):
  retriever = db.as_retriever()
  return retriever

#QA

In [10]:
from langchain_community.llms import CTransformers
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

In [16]:
def load_llm():
    llm = ChatGroq(
        groq_api_key = GROQ,
        model_name = 'Llama3-8b-8192',
        temperature=0
    )
    return llm

def create_prompt(template):
  prompt = PromptTemplate(template=template, input_variables=["context","question"])
  return prompt

def create_chain(llm, prompt, db):
  retriever = db.as_retriever(
      search_type="similarity_score_threshold",
        search_with_scores=False,
        search_kwargs={"score_threshold": 0.45, "k": 3},
    )
  chain = RetrievalQA.from_chain_type(
      llm=llm,
      chain_type='stuff',
      retriever=retriever,
      return_source_documents=True,
      chain_type_kwargs={'prompt': prompt}
  )
  return chain

def give_answer(chain, question):
  res = chain.invoke({'query': question})
  #get the relevent infor

  return res


def extract_answer(res):
  # Instead of accessing a dictionary, we return the result string itself
  # or you can process the result string further to extract the answer
  # based on the expected format of your chain's output.
  answer = res # Assuming the answer is directly in the response
  return answer

In [17]:
pip install chromadb



In [19]:
persist_directory = 'vector_db'
db = create_db(persist_directory)
llm = load_llm()

template = '''<|im_start|>system
Bạn là trợ lý AI hũu ích của trường Đại học Công nghệ - Đại học Quốc gia Hà Nội.Dựa vào thông tin cung cấp hãy đưa ra thông tin hữu ích cho sinh viên. Hãy đưa ra kết quả là Tiếng Việt.
Nếu không tìm được câu trả lời thì không đưa ra kết quả.
{context}<|im_end|><|im_start|>user
{question}<|im_end|>
<|im_start|>assistant'''


prompt = create_prompt(template)
chain = create_chain(llm, prompt, db)

In [22]:
question = 'Hãy cho tôi thông tin địa chỉ Trường Đại học Quốc Gia Hà Nội'
give_answer(chain, question)

{'query': 'Hãy cho tôi thông tin địa chỉ Trường Đại học Quốc Gia Hà Nội',
 'result': 'Xin chào sinh viên!\n\nTheo thông tin cung cấp, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội có địa chỉ tại:\n\nĐịa chỉ: 136 Xóm Dịch, Phường Nam Từ Liêm, Quận Bắc Từ Liêm, Hà Nội\n\nVui lòng ghi nhớ địa chỉ này để dễ dàng đến trường và tham gia các hoạt động học tập. Nếu có bất kỳ thắc mắc nào, vui lòng liên hệ với chúng tôi để được hỗ trợ.\n\nChúc các bạn học tập tốt!',
 'source_documents': [Document(metadata={'page': 5, 'source': '/content/drive/MyDrive/Project/data/uet-vnu-edu-vn-lich-su-.pdf'}, page_content='Viễn thông, Khoa học Máy tính, Công nghệ Kỹ thuật – Cơ điện tử, Mạng máy tính và Truyền\nthông Dữ liệu) được kiểm định theo bộ tiêu chuẩn AUN-QA của Mạng lưới các Trường Đại học\nĐông Nam Á.\nTừ ngày 8/11 – 12/11/2022, Đoàn đánh giá ngoài đến từ Trung tâm Kiểm định chất lượng giáo\ndục, Đại học Quốc gia Thành phố Hồ Chí Minh (CEA) đã hoàn thành đợt khảo sát chính thức,\nđánh giá chất lư