In [1]:
from langchain_community.document_loaders import PyMuPDFLoader, UnstructuredCSVLoader, UnstructuredWordDocumentLoader
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI
from langchain_openai import OpenAI
from langchain.schema import Document
from langchain_community.document_loaders import Docx2txtLoader
from dotenv import load_dotenv
import os
import pandas as pd



In [2]:
# Đọc PDF
def load_pdf(path):
    return PyMuPDFLoader(path).load()

# Đọc DOCX
def load_docx(path):
    return Docx2txtLoader(path).load()

# Đọc CSV và gộp nhiều dòng lại thành 1 đoạn lớn
def load_csv_as_docs(path, filename, batch_size=5):
    df = pd.read_csv(path)
    docs = []
    columns_info = f"File này có các cột: {', '.join(df.columns)}.\n"

    for i in range(0, len(df), batch_size):
        chunk = df.iloc[i:i+batch_size]
        rows = []
        for j, row in chunk.iterrows():
            row_text = ", ".join([f"{col} = {row[col]}" for col in df.columns])
            rows.append(f"Dòng {i + j + 1}: {row_text}")
        content = columns_info + "\n".join(rows)
        docs.append(Document(page_content=content, metadata={"filename": filename, "start_row": i+1}))
    return docs


In [3]:
def load_all_documents(folder_path):
    docs = []
    for file in os.listdir(folder_path):
        full_path = os.path.join(folder_path, file)
        if file.endswith(".pdf"):
            docs.extend(load_pdf(full_path))
        elif file.endswith(".docx"):
            docs.extend(load_docx(full_path))
        elif file.endswith(".csv"):
            docs.extend(load_csv_as_docs(full_path, file, batch_size=5))
    return docs


In [4]:
# Tách đoạn và tạo vector store
def prepare_vectorstore(docs):
    splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=100)
    split_docs = splitter.split_documents(docs)
    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
    vectorstore = FAISS.from_documents(split_docs, embeddings)
    return vectorstore


In [5]:
load_dotenv()


True

In [14]:
def build_rag_chain(vectorstore):
    llm = OpenAI(
    base_url="https://models.inference.ai.azure.com",
    api_key= "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",
    model="gpt-4o",
    temperature=0.1,
    )

    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
        return_source_documents=True,
        input_key="query"  # Thêm xác định input key
    )
    return qa_chain

In [15]:

# Khởi tạo hệ thống
data_folder = "data/"
documents = load_all_documents(data_folder)
vectordb = prepare_vectorstore(documents)
qa_chain = build_rag_chain(vectordb)

print("\nNhập 'exit' để thoát.")

# Vòng lặp hỏi đáp
while True:
    query = input("\nNhập câu hỏi của bạn: ")
    
    if query.lower() in ['exit', 'quit', 'thoát']:
        print("Cảm ơn bạn đã sử dụng hệ thống!")
        break
        
    print("Đang xử lý câu hỏi...")
    result = qa_chain(query)
    
    print("\n=== Trả lời ===")
    print(result['result'])
    
    print("\n=== Nguồn tham chiếu ===")
    for i, doc in enumerate(result["source_documents"][:3], 1):
        print(f"  {i}. {doc.metadata}")




Nhập 'exit' để thoát.
Đang xử lý câu hỏi...

=== Trả lời ===
 

Tóm tắt nội dung file seminar:

1. Mô tả bài toán:
   - Định nghĩa LangChain và mục đích.
   - Ứng dụng của LangChain trong xây dựng trợ lý ảo đọc hiểu tài liệu định dạng hỗn hợp.
   - Vấn đề cốt lõi LangChain giải quyết trong bài toán.

2. Mô tả giải thuật:
   - Kiến trúc cốt lõi LangChain.
   - Mô hình thành phần hoá của LangChain.
   - Cách kết nối các thành phần trong LangChain.

3. Mô tả thư viện sử dụng:
   - Thư viện cốt lõi LangChain.
   - Thư viện document loaders và processors.
   - Thư viện vector database và embeddings.
   - Thư viện LLM và Integration.
   - Thư viện dev tools và deployment.

4. Chi tiết input-output của các function/methods:
   - LangChain Document Loaders.
   - LangChain Text Splitters.
   - LangChain Embedding Models.
   - LangChain Vector Stores.
   - LangChain RetrievalQA Chain.
   - LangChain CSV Agent.
   - LangChain Multi-Document Agent.

5. Code

=== Nguồn tham chiếu ===
  1. {'source