In [2]:
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import MarkdownTextSplitter,RecursiveCharacterTextSplitter
from langchain.prompts import ChatPromptTemplate

from langchain_community.llms import Ollama

from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
import tqdm
import os

from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough


In [6]:
from langchain.document_loaders import PyPDFLoader
#from langchain_community.document_loaders import WebBaseLoader

loader = PyPDFLoader("../data/AT_PersonalInformation_Intern.pdf")
# loader = WebBaseLoader("https://docs.smith.langchain.com/user_guide")

pages = loader.load()

In [7]:

# text_splitter = MarkdownTextSplitter(
#     chunk_size=1000,
#     chunk_overlap=200,
# )
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)


In [8]:
docs = text_splitter.split_documents(pages)
for idx, text in enumerate(docs):
    text.metadata["id"] = idx

In [9]:
print(docs[1])

page_content='4. Dân tộc:   Kinh …………………………………….Quốc tịch:  Việt Nam  \n5. Số CM ND:  034203001213  …cấp ngày :  2/1/2018  ...nơi cấp  Thành phố Thái Bình, Thái Bình  .  \n6.Trường  học: đại học Bách Khoa Hà Nội  ................................ ................................ ........................    \n7. Ngành học:  Khoa học máy tính ……… Lớp: IT1 -04 K66……..Mã SV:  20215335 ……   \n8. Tình trạng hôn nhân:           Độc thân             Đã kết hôn  \n9. Tên chồng/vợ:  ................................ ........  Ngày sinh: ................................ ................................ ....  \n10. Nơi đăng ký hộ khẩu thường trú  (Quê quán) : 56, Lê Thánh Tông, Bồ Xuyên, Thái Bình ……  \n11. Chỗ ở hiện tại:  32, 36, Lê Thanh Nghị, Cầu Dền, Hà Nội  ................................ ....................   \n12. Số điện thoại: NR:………………………………..Di động:   0326920625  ...........................' metadata={'source': '../data/AT_PersonalInformation_Intern.pdf', 'page': 0, 'id': 1}


In [13]:


model ="VoVanPhuc/sup-SimCSE-VietNamese-phobert-base"

embeddings = HuggingFaceEmbeddings(model_name = model)


  from tqdm.autonotebook import tqdm, trange
No sentence-transformers model found with name VoVanPhuc/sup-SimCSE-VietNamese-phobert-base. Creating a new one with mean pooling.


In [15]:
vectorstore = FAISS.from_documents(docs, embeddings)
vectorstore.save_local("faiss_index")


In [7]:
vectorstore = FAISS.load_local("faiss_index", embeddings, allow_dangerous_deserialization=True)

# Reranking

In [16]:

def pretty_print_docs(docs):
    print(
        f"\n{'-' * 100}\n".join(
            [
                f"Document {i+1}:\n\n{d.page_content}\nMetadata: {d.metadata}"
                for i, d in enumerate(docs)
            ]
        )
    )
retriever = vectorstore.as_retriever(search_type="mmr", search_kwargs={"k": 10})

query = "định nghĩa của mạng RNN"
docs = retriever.invoke(query)
pretty_print_docs(docs)

Document 1:

12. Số điện thoại: NR:………………………………..Di động:   0326920625  ...........................   
13. E-mail:   Duy.PT215335@sis.hust.edu.vn  ................................ ................................ ..............   
14. Vị trí  :  Thực tập sinh …… ………. ..Dự án :  Nghiên cứu và xây dựng ứng dụng dựa trên 
Open CV, AI, Deep Learnin g 
15. Ngày bắt đầu :  10/6/2024 ………………………………..  ................................ ...................   
16. Quy định về bảo mật thông tin: ( điền theo mẫu riêng của công ty ) 
18. Tên máy tính  (nên đặt tên máy mang tính gợi nhớ, vd: TaiND ):  pduy395  ...............................    
19. Địa chỉ MAC mạng LAN : 08-8F-C3-0B-9F-67 …Địa chỉ MAC WIFI:  14-85-7F-5C-53-00. 
 Hà Nội, Ngày 10 tháng 6 năm 2024  
  
 Người khai  Phụ trách trực tiếp   Phụ trách bộ phận  Phụ trách nhân sự  
Duy 
Phạm Tiến Duy
Metadata: {'source': '../data/AT_PersonalInformation_Intern.pdf', 'page': 0, 'id': 2}
------------------------------------------------------------

In [18]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CohereRerank

# Create the retriever
compressor = CohereRerank(cohere_api_key='1Ld9LQLqTkOc29ABj54VRHOfyONyp4mtYIfpy7m1', top_n=5)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=retriever
)

In [10]:

compressed_docs = compression_retriever.invoke(
    query
)
print([doc.metadata["id"] for doc in compressed_docs])

[283, 249, 275, 271, 289]


In [21]:

import pathlib
import textwrap

import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown


def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

In [22]:
# Or use `os.getenv('GOOGLE_API_KEY')` to fetch an environment variable.
GOOGLE_API_KEY="AIzaSyCozqIzVfFdFfvJgmxAlN8g5ETeuyJkxUQ"

genai.configure(api_key=GOOGLE_API_KEY)

In [23]:
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-flash
models/gemini-1.5-flash-001
models/gemini-1.5-flash-latest
models/gemini-1.5-pro
models/gemini-1.5-pro-001
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision


In [24]:
model = genai.GenerativeModel('gemini-1.5-pro-latest')

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

def generate_response(input_text):
    doc = format_docs(compression_retriever.invoke(input_text))
#
    prompt_text = f"""
        Bạn là trợ lý cho các nhiệm vụ trả lời câu hỏi.
        Hãy trả lời câu hỏi dựa trên dữ liệu có trong đoạn ngữ cảnh
        Hãy trả lời không biết nêu không có thông tin tron đoạn ngữ cảnh

        đoạn ngữ cảnh: {doc}

        câu hỏi: {input_text}

        câu trả lời:
        """


    response = model.generate_content(prompt_text)
    return to_markdown(response.text).data


In [None]:
generate_response("địa chỉ người khai thông tin là")

In [None]:
import gradio as gr


iface = gr.Interface(generate_response,
                     inputs="textbox",
                     outputs="textbox",
                     title="Chatbot about Deep learning",
                     description="Enter your message and the chatbot will respond accordingly.")
iface.launch()


In [29]:
import gradio as gr

with gr.Blocks() as demo:
    chatbot = gr.Chatbot(height=600)
    msg = gr.Textbox()
    clear = gr.ClearButton([msg, chatbot])

    def respond(message, chat_history):
        bot_message = generate_response(message)
        chat_history.append((message, bot_message))
        return "", chat_history

    msg.submit(respond, [msg, chatbot], [msg, chatbot])

In [30]:
demo.launch()

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.




Traceback (most recent call last):
  File "d:\thực tập doanh nghiệp\New folder\.venv\lib\site-packages\gradio\queueing.py", line 541, in process_events
    response = await route_utils.call_process_api(
  File "d:\thực tập doanh nghiệp\New folder\.venv\lib\site-packages\gradio\route_utils.py", line 276, in call_process_api
    output = await app.get_blocks().process_api(
  File "d:\thực tập doanh nghiệp\New folder\.venv\lib\site-packages\gradio\blocks.py", line 1928, in process_api
    result = await self.call_function(
  File "d:\thực tập doanh nghiệp\New folder\.venv\lib\site-packages\gradio\blocks.py", line 1514, in call_function
    prediction = await anyio.to_thread.run_sync(
  File "d:\thực tập doanh nghiệp\New folder\.venv\lib\site-packages\anyio\to_thread.py", line 56, in run_sync
    return await get_async_backend().run_sync_in_worker_thread(
  File "d:\thực tập doanh nghiệp\New folder\.venv\lib\site-packages\anyio\_backends\_asyncio.py", line 2177, in run_sync_in_worker_threa