# 1. How Run 

1. Cài database local Milvus bằng Docker - https://milvus.io/docs/install_milvus_docker.md
```bash
docker-compose up --build
# or 
docker-compose build and docker-compose up  
docker run -p 8000:3000 -e MILVUS_URL=localhost:19530 zilliz/attu:v2.4 # Check Milvus running at http://localhost:8000/#/databases/default/colletions
```
- Lệnh này dùng để chạy Attu - một GUI tool để quản lý và theo dõi Milvus database. Hãy phân tích từng phần:
    - `-p 8000:3000`: Mở port 8000 trên máy host để kết nối với Attu
    - `-e MILVUS_URL=localhost:19530`: Chỉ định URL của Milvus server (localhost là IP của máy host, 19530 là port mà Milvus sử dụng)
    - `zilliz/attu:v2.4`: Image Docker của Attu, version 2.4
2. Ctrl Shift P -> cài .venv
- Cài requirements.txt
```markdown
HÃY CHO TÔI BIẾT
1. các lỗi gì đã xảy ra
2. Tại sao xảy ra
3. Bạn đã fix  như nào ???
```

4. `.env`
```bash
OPENAI_API_KEY=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

LANGCHAIN_TRACING_V2=true
LANGCHAIN_ENDPOINT="https://api.smith.langchain.com"
LANGCHAIN_API_KEY="your-langchain-api-key-here"
LANGCHAIN_PROJECT="project-name"
```

3. Chạy ứng dụng: 

- Crawl data về local trước khi bắt đầu chạy ứng dụng. Mở Terminal/Command Prompt, di chuyển vào thư mục src và chạy:
```python
cd src
python crawl.py
```

- Seed data vào Milvus:
```python
python seed_data.py
```
Data được seed tới Milvus database với tên collection là `data_test`
Milvus vector database running locally at http://localhost:19530. Milvus is a vector database used for storing and searching vector embeddings.

- Chạy ứng dụng:
```python
streamlit run main.py
```





## 1.2 lỗi cài thư viện

Tôi sẽ phân tích chi tiết các vấn đề:

### 1. Các lỗi đã xảy ra:
- **Lỗi 1**: Conflict giữa `pydantic` và `chromadb`
- **Lỗi 2**: Không thể build wheel cho `chroma-hnswlib` vì thiếu Microsoft Visual C++ Build Tools

### 2. Nguyên nhân:
- **Lỗi 1**: `chromadb` phiên bản cũ yêu cầu `pydantic<2.0` trong khi file requirements.txt yêu cầu `pydantic>=2.0.0`
- **Lỗi 2**: `chromadb` cần phải được biên dịch từ source code trên Windows, điều này yêu cầu C++ compiler

### 3. Cách fix:
Tôi đã đề xuất thay đổi sang sử dụng FAISS thay vì Chroma vì:
1. FAISS có sẵn pre-built wheels cho Windows
2. Không cần C++ compiler
3. Hiệu năng tốt và được sử dụng rộng rãi

Các thay đổi cụ thể trong requirements.txt:
```requirements.txt
# Thay đổi trong phần LangChain & AI
- langchain-chroma>=0.0.1
+ langchain-faiss>=0.0.1

# Thay đổi trong phần Vector Database & Search
- chromadb>=0.4.0
+ faiss-cpu>=1.7.4
```

Đây là giải pháp đơn giản nhất vì:
1. Tránh phải cài đặt Visual Studio Build Tools
2. Không cần xử lý conflicts về dependencies
3. FAISS là một lựa chọn tốt cho vector store, được sử dụng rộng rãi trong production

Nếu bạn vẫn muốn sử dụng Chroma, bạn sẽ cần:
1. Cài đặt Microsoft Visual C++ Build Tools
2. Đảm bảo version compatibility giữa pydantic và chromadb
3. Rebuild lại virtual environment

## 1.3: Tìm hiểu về crawl data



Tôi thấy bạn đang cố chạy file `crawl_data.py` nhưng file thực tế là `crawl.py`. Đây là cách để chạy đúng quy trình:

1. **Đầu tiên, chạy crawl.py để lấy dữ liệu**:
```bash
python crawl.py
```

File này sẽ:
- Crawl dữ liệu từ `https://www.stack-ai.com/docs`
- Lưu vào `data/stack.json`
- Tham khảo hàm `main()` trong `crawl.py`:

```81:92:src/crawl.py
def main():
    """
    Hàm chính điều khiển luồng chương trình:
    1. Crawl dữ liệu từ trang web stack-ai
    2. Lưu dữ liệu đã crawl vào file JSON
    3. In kết quả crawl để kiểm tra
    """
    # Crawl dữ liệu từ trang docs của stack-ai
    data = crawl_web('https://www.stack-ai.com/docs')
    # Lưu dữ liệu vào thư mục data_v2
    save_data_locally(data, 'stack.json', 'data')
    print('data: ', data)  # In dữ liệu đã crawl
```


2. **Sau khi có dữ liệu, chạy seed_data.py để đưa vào Milvus**:
```bash
python seed_data.py
```

File này sẽ:
- Đọc dữ liệu từ `data/stack.json`
- Tạo embeddings và lưu vào Milvus
- Tham khảo hàm `main()` trong `seed_data.py`:

```150:167:src/seed_data.py
def main():
    """
    Hàm chính để kiểm thử các chức năng của module
    Thực hiện:
        1. Test seed_milvus với dữ liệu từ file local 'stack.json'
        2. (Đã comment) Test seed_milvus_live với dữ liệu từ trang web stack-ai
    Chú ý:
        - Đảm bảo Milvus server đang chạy tại localhost:19530
        - Các biến môi trường cần thiết (như OPENAI_API_KEY) đã được cấu hình
    """
    # Test seed_milvus với dữ liệu local
    seed_milvus('http://localhost:19530', 'data_test', 'stack.json', 'data', use_ollama=False)
    # Test seed_milvus_live với URL trực tiếp
    # seed_milvus_live('https://www.stack-ai.com/docs', 'http://localhost:19530', 'data_test_live', 'stack-ai', use_ollama=False)
# Chạy main() nếu file được thực thi trực tiếp
if __name__ == "__main__":
    main()
```


3. **Cuối cùng mới chạy ứng dụng Streamlit**:
```bash
streamlit run main.py
```

Lỗi "Không tìm thấy documents trong collection 'data_test'" xảy ra vì bạn chưa thực hiện bước 1 và 2 để tạo dữ liệu trước khi chạy ứng dụng.

Tóm lại quy trình đầy đủ là:
1. Crawl dữ liệu (`crawl.py`)
2. Seed dữ liệu vào Milvus (`seed_data.py`)
3. Chạy ứng dụng (`main.py) 

## 1.4 Langchain 


Run any LLM, Chat model, or Chain. Its trace will be sent to this project.
```python
from langchain_openai import ChatOpenAI

llm = ChatOpenAI()
llm.invoke("Hello, world!")
```

# 1.5 Seed data vào Milvus trước khi run main.py

 Seed data vào Milvus:
 
```python 
python seed_data.py
```
(Kiểm tra data đã aào Milvus chưa bằng cách truy cập: http://localhost:8000/#/databases/default/colletions
<Nhớ để ý `docker run -p 8000:3000 -e MILVUS_URL={milvus server IP}:19530 zilliz/attu:v2.4` để chắc chắn Milvus đang hoạt động >)




File `seed_data.py` có 4 nhiệm vụ chính:

1. **Đọc dữ liệu từ file JSON local**:

```13:29:src/seed_data.py
def load_data_from_local(filename: str, directory: str) -> tuple:
    """
    Hàm đọc dữ liệu từ file JSON local
    Args:
        filename (str): Tên file JSON cần đọc (ví dụ: 'data.json')
        directory (str): Thư mục chứa file (ví dụ: 'data_v3')
    Returns:
        tuple: Trả về (data, doc_name) trong đó:
            - data: Dữ liệu JSON đã được parse
            - doc_name: Tên tài liệu đã được xử lý (bỏ đuôi .json và thay '_' bằng khoảng trắng)
    """
    file_path = os.path.join(directory, filename)
    with open(file_path, 'r') as file:
        data = json.load(file)
    print(f'Data loaded from {file_path}')
    # Chuyển tên file thành tên tài liệu (bỏ đuôi .json và thay '_' bằng khoảng trắng)
    return data, filename.rsplit('.', 1)[0].replace('_', ' ')
```

- Đọc dữ liệu từ file JSON trong thư mục được chỉ định
- Trả về dữ liệu và tên tài liệu đã được xử lý

2. **Tạo vector embeddings từ dữ liệu local**:

```31:84:src/seed_data.py
def seed_milvus(URI_link: str, collection_name: str, filename: str, directory: str, use_ollama: bool = False) -> Milvus:
    """
    Hàm tạo và lưu vector embeddings vào Milvus từ dữ liệu local
    Args:
        URI_link (str): Đường dẫn kết nối đến Milvus
        collection_name (str): Tên collection trong Milvus để lưu dữ liệu
        filename (str): Tên file JSON chứa dữ liệu nguồn
        directory (str): Thư mục chứa file dữ liệu
        use_ollama (bool): Sử dụng Ollama embeddings thay vì OpenAI
    """
    # Khởi tạo model embeddings tùy theo lựa chọn
    if use_ollama:
        embeddings = OllamaEmbeddings(
            model="llama2"  # hoặc model khác mà bạn đã cài đặt
        )
    else:
        embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
    
    # Đọc dữ liệu từ file local
    local_data, doc_name = load_data_from_local(filename, directory)

    # Chuyển đổi dữ liệu thành danh sách các Document với giá trị mặc định cho các trường
    documents = [
        Document(
            page_content=doc.get('page_content') or '',
            metadata={
                'source': doc['metadata'].get('source') or '',
                'content_type': doc['metadata'].get('content_type') or 'text/plain',
                'title': doc['metadata'].get('title') or '',
                'description': doc['metadata'].get('description') or '',
                'language': doc['metadata'].get('language') or 'en',
                'doc_name': doc_name,
                'start_index': doc['metadata'].get('start_index') or 0
            }
        )
        for doc in local_data
    ]
    print('documents: ', documents)

    # Tạo ID duy nhất cho mỗi document
    uuids = [str(uuid4()) for _ in range(len(documents))]

    # Khởi tạo và cấu hình Milvus
    vectorstore = Milvus(
        embedding_function=embeddings,
        connection_args={"uri": URI_link},
        collection_name=collection_name,
        drop_old=True  # Xóa data đã tồn tại trong collection
    )
    # Thêm documents vào Milvus
    vectorstore.add_documents(documents=documents, ids=uuids)
    print('vector: ', vectorstore)
    return vectorstore
```

- Chuyển đổi dữ liệu JSON thành các Document
- Tạo embeddings bằng OpenAI hoặc Ollama
- Lưu embeddings vào Milvus database

3. **Crawl và tạo embeddings trực tiếp từ URL**:

```86:129:src/seed_data.py
def seed_milvus_live(URL: str, URI_link: str, collection_name: str, doc_name: str, use_ollama: bool = False) -> Milvus:
    """
    Hàm crawl dữ liệu trực tiếp từ URL và tạo vector embeddings trong Milvus
    Args:
        URL (str): URL của trang web cần crawl dữ liệu
        URI_link (str): Đường dẫn kết nối đến Milvus
        collection_name (str): Tên collection trong Milvus
        doc_name (str): Tên định danh cho tài liệu được crawl
        use_ollama (bool): Sử dụng Ollama embeddings thay vì OpenAI
    """
    if use_ollama:
        embeddings = OllamaEmbeddings(
            model="llama2"  # hoặc model khác mà bạn đã cài đặt
        )
    else:
        embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
    
    documents = crawl_web(URL)

    # Cập nhật metadata cho mỗi document với giá trị mặc định
    for doc in documents:
        metadata = {
            'source': doc.metadata.get('source') or '',
            'content_type': doc.metadata.get('content_type') or 'text/plain',
            'title': doc.metadata.get('title') or '',
            'description': doc.metadata.get('description') or '',
            'language': doc.metadata.get('language') or 'en',
            'doc_name': doc_name,
            'start_index': doc.metadata.get('start_index') or 0
        }
        doc.metadata = metadata
    uuids = [str(uuid4()) for _ in range(len(documents))]

    vectorstore = Milvus(
        embedding_function=embeddings,
        connection_args={"uri": URI_link},
        collection_name=collection_name,
        drop_old=True
    )
    vectorstore.add_documents(documents=documents, ids=uuids)
    print('vector: ', vectorstore)
    return vectorstore
```

- Crawl dữ liệu từ URL được chỉ định
- Xử lý metadata và tạo embeddings
- Lưu vào Milvus database

4. **Kết nối tới Milvus database**:

```130:148:src/seed_data.py
def connect_to_milvus(URI_link: str, collection_name: str) -> Milvus:
    """
    Hàm kết nối đến collection có sẵn trong Milvus
    Args:
        URI_link (str): Đường dẫn kết nối đến Milvus
        collection_name (str): Tên collection cần kết nối
    Returns:
        Milvus: Đối tượng Milvus đã được kết nối, sẵn sàng để truy vấn
    Chú ý:
        - Không tạo collection mới hoặc xóa dữ liệu cũ
        - Sử dụng model 'text-embedding-3-large' cho việc tạo embeddings khi truy vấn
    """
    embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
    vectorstore = Milvus(
        embedding_function=embeddings,
        connection_args={"uri": URI_link},
        collection_name=collection_name,
    )
    return vectorstore
```

- Tạo kết nối tới collection có sẵn trong Milvus
- Sử dụng để truy vấn dữ liệu

Tóm lại, file này đóng vai trò quan trọng trong việc:
- Chuẩn bị dữ liệu cho chatbot
- Tạo và quản lý vector database (Milvus)
- Cung cấp các hàm tiện ích để xử lý dữ liệu
- Là cầu nối giữa dữ liệu thô và hệ thống truy vấn vector

Nếu bỏ qua bước seed data:'


- Thiếu dữ liệu cho vector search:
- Hàm get_retriever() trong local_ollama.py sẽ không tìm thấy documents trong Milvus
- Dẫn đến lỗi "Không tìm thấy documents trong collection 'data_test'"

- Chatbot không có dữ liệu để tìm kiếm thông tin liên quan
- Không thể trả lời các câu hỏi dựa trên context
- Chỉ có thể trả lời dựa trên kiến thức có sẵn của model, không có khả năng RAG

Tôi sẽ giải thích luồng hoạt động chính của code:

1. **Khởi động ứng dụng** (trong main.py):

```199:220:src/main.py
# === HÀM CHÍNH ===
def main():
    """
    Hàm chính điều khiển luồng chương trình
    """
    initialize_app()
    model_choice = setup_sidebar()  # Chỉ cần trả về model choice để xử lý chat
    msgs = setup_chat_interface(model_choice)
    
    # Khởi tạo AI dựa trên lựa chọn model để trả lời
    if model_choice == "OpenAI GPT":
        retriever = get_openai_retriever()
        agent_executor = get_openai_agent(retriever)
    else:
        retriever = get_ollama_retriever()
        agent_executor = get_ollama_agent(retriever)
    
    handle_user_input(msgs, agent_executor)

# Chạy ứng dụng
if __name__ == "__main__":
    main()
```

- Khởi tạo app với `initialize_app()`
- Tạo sidebar để cấu hình với `setup_sidebar()`
- Tạo giao diện chat với `setup_chat_interface()`
- Khởi tạo AI agent dựa vào lựa chọn model (OpenAI hoặc Ollama)

2. **Xử lý tin nhắn người dùng** (trong main.py):

```160:197:src/main.py
# === XỬ LÝ TIN NHẮN NGƯỜI DÙNG ===
def handle_user_input(msgs, agent_executor):
    """
    Xử lý khi người dùng gửi tin nhắn:
    1. Hiển thị tin nhắn người dùng
    2. Gọi AI xử lý và trả lời
    3. Lưu vào lịch sử chat
    """
    if prompt := st.chat_input("Hãy hỏi tôi bất cứ điều gì về Stack AI!"):
        # Lưu và hiển thị tin nhắn người dùng
        st.session_state.messages.append({"role": "human", "content": prompt})
        st.chat_message("human").write(prompt)
        msgs.add_user_message(prompt)

        # Xử lý và hiển thị câu trả lời
        with st.chat_message("assistant"):
            st_callback = StreamlitCallbackHandler(st.container())
            
            # Lấy lịch sử chat
            chat_history = [
                {"role": msg["role"], "content": msg["content"]}
                for msg in st.session_state.messages[:-1]
            ]

            # Gọi AI xử lý
            response = agent_executor.invoke(
                {
                    "input": prompt,
                    "chat_history": chat_history
                },
                {"callbacks": [st_callback]}
            )

            # Lưu và hiển thị câu trả lời
            output = response["output"]
            st.session_state.messages.append({"role": "assistant", "content": output})
            msgs.add_ai_message(output)
            st.write(output)
```

- Khi người dùng nhập tin nhắn
- Lưu tin nhắn vào lịch sử
- Gọi AI agent để xử lý với context từ lịch sử chat
- Hiển thị câu trả lời

3. **Cấu hình AI Agent** (trong agent.py và local_ollama.py):

Với OpenAI:

```64:95:src/agent.py
def get_llm_and_agent(_retriever) -> AgentExecutor:
    """
    Khởi tạo Language Model và Agent với cấu hình cụ thể
    Args:
        _retriever: Retriever đã được cấu hình để tìm kiếm thông tin
    Returns:
        AgentExecutor: Agent đã được cấu hình với:
            - Model: GPT-4
            - Temperature: 0
            - Streaming: Enabled
            - Custom system prompt
    Chú ý:
        - Yêu cầu OPENAI_API_KEY đã được cấu hình
        - Agent được thiết lập với tên "ChatchatAI"
        - Sử dụng chat history để duy trì ngữ cảnh hội thoại
    """
    # Khởi tạo ChatOpenAI với chế độ streaming
    llm = ChatOpenAI(temperature=0, streaming=True, model="gpt-4o-mini")
    tools = [tool]
    
    # Thiết lập prompt template cho agent
    system = """You are an expert at AI. Your name is ChatchatAI."""
    prompt = ChatPromptTemplate.from_messages([
        ("system", system),
        MessagesPlaceholder(variable_name="chat_history"),
        ("human", "{input}"),
        MessagesPlaceholder(variable_name="agent_scratchpad"),
    ])

    # Tạo và trả về agent
    agent = create_openai_functions_agent(llm=llm, tools=tools, prompt=prompt)
    return AgentExecutor(agent=agent, tools=tools, verbose=True)
```

- Sử dụng GPT-4
- Temperature = 0 (ít sáng tạo, tập trung vào thông tin chính xác)
- Streaming = True (hiển thị từng từ một)

Với Ollama:

```62:93:src/local_ollama.py
def get_llm_and_agent(retriever):
    """
    Khởi tạo LLM và agent với Ollama
    """
    # Tạo retriever tool
    tool = create_retriever_tool(
        retriever,
        "find_documents",
        "Search for information of Stack AI."
    )

    # Khởi tạo ChatOllama
    llm = ChatOllama(
        model="llama2",  # hoặc model khác tùy chọn
        temperature=0,
        streaming=True
    )

    tools = [tool]

    # Thiết lập prompt template
    system = """You are an expert at AI. Your name is ChatchatAI. For Stack AI questions call the find_document tool"""
    prompt = ChatPromptTemplate.from_messages([
        ("system", system),
        MessagesPlaceholder(variable_name="chat_history"),
        ("human", "{input}"),
        MessagesPlaceholder(variable_name="agent_scratchpad"),
    ])

    # Tạo agent
    agent = create_openai_functions_agent(llm=llm, tools=tools, prompt=prompt)
    return AgentExecutor(agent=agent, tools=tools, verbose=True)
```

- Sử dụng LLaMA2 
- Cấu hình tương tự OpenAI
- Chạy locally

4. **Xử lý dữ liệu** (trong seed_data.py và crawl.py):

Crawl dữ liệu:

```21:39:src/crawl.py
def crawl_web(url_data):
    """
    Hàm crawl dữ liệu từ URL với chế độ đệ quy
    Args:
        url_data (str): URL gốc để bắt đầu crawl
    Returns:
        list: Danh sách các Document object, mỗi object chứa nội dung đã được chia nhỏ
              và metadata tương ứng
    """
    # Tạo loader với độ sâu tối đa là 4 cấp
    loader = RecursiveUrlLoader(url=url_data, extractor=bs4_extractor, max_depth=4)
    docs = loader.load()  # Tải nội dung
    print('length: ', len(docs))  # In số lượng tài liệu đã tải
    
    # Chia nhỏ văn bản thành các đoạn 10000 ký tự, với 500 ký tự chồng lấp
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000, chunk_overlap=500)
    all_splits = text_splitter.split_documents(docs)
    print('length_all_splits: ', len(all_splits))  # In số lượng đoạn văn bản sau khi chia
    return all_splits
```

- Crawl từ URL với độ sâu tối đa 4 cấp
- Chia nhỏ văn bản thành các đoạn 10000 ký tự
- Overlap 500 ký tự để duy trì ngữ cảnh

Lưu vào Milvus:

```130:148:src/seed_data.py
def connect_to_milvus(URI_link: str, collection_name: str) -> Milvus:
    """
    Hàm kết nối đến collection có sẵn trong Milvus
    Args:
        URI_link (str): Đường dẫn kết nối đến Milvus
        collection_name (str): Tên collection cần kết nối
    Returns:
        Milvus: Đối tượng Milvus đã được kết nối, sẵn sàng để truy vấn
    Chú ý:
        - Không tạo collection mới hoặc xóa dữ liệu cũ
        - Sử dụng model 'text-embedding-3-large' cho việc tạo embeddings khi truy vấn
    """
    embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
    vectorstore = Milvus(
        embedding_function=embeddings,
        connection_args={"uri": URI_link},
        collection_name=collection_name,
    )
    return vectorstore
```

- Tạo embeddings với OpenAI hoặc Ollama
- Lưu vào Milvus database để tìm kiếm vector
- Kết nối qua localhost:19530

Toàn bộ hệ thống hoạt động theo mô hình RAG (Retrieval Augmented Generation):
1. Tìm thông tin liên quan từ Milvus
2. Kết hợp với prompt và lịch sử chat
3. Gửi cho AI model để tạo câu trả lời
4. Hiển thị kết quả theo dạng streaming

# 3. Chunk and Embedding 

## Chunk như nào ??

Dựa vào codebase, tôi thấy việc chunk dataset trong RAG được thực hiện qua RecursiveCharacterTextSplitter với các thông số cụ thể:
```python
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=10000,  # Mỗi chunk có độ dài 10000 ký tự
    chunk_overlap=500  # Overlap 500 ký tự giữa các chunk liền kề
)
all_splits = text_splitter.split_documents(docs)
```
Copy

Apply

src\crawl.py
Các điểm chính về chunking strategy:

Sử dụng RecursiveCharacterTextSplitter - một phương pháp chunk thông minh theo ký tự, đảm bảo không cắt giữa câu/đoạn văn

Kích thước mỗi chunk là 10000 ký tự - đủ lớn để giữ ngữ cảnh nhưng không quá lớn để tối ưu việc embedding

Overlap 500 ký tự - giúp duy trì tính liên tục của thông tin giữa các chunk

Sau khi chunk, dữ liệu được lưu vào Milvus vector store với metadata đầy đủ như source, content_type, title, description, language, doc_name và start_index

Đây là cách tiếp cận hiệu quả để chuẩn bị dữ liệu cho RAG system.

Try again with different c

## Embedding lưu ở đâu

Dựa vào codebase, tôi thấy việc chunk dataset trong RAG được thực hiện qua RecursiveCharacterTextSplitter với các thông số cụ thể:

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=10000,  # Mỗi chunk có độ dài 10000 ký tự
    chunk_overlap=500  # Overlap 500 ký tự giữa các chunk liền kề
)
all_splits = text_splitter.split_documents(docs)

Copy

Apply

src\crawl.py
Các điểm chính về chunking strategy:

Sử dụng RecursiveCharacterTextSplitter - một phương pháp chunk thông minh theo ký tự, đảm bảo không cắt giữa câu/đoạn văn

Kích thước mỗi chunk là 10000 ký tự - đủ lớn để giữ ngữ cảnh nhưng không quá lớn để tối ưu việc embedding

Overlap 500 ký tự - giúp duy trì tính liên tục của thông tin giữa các chunk

Sau khi chunk, dữ liệu được lưu vào Milvus vector store với metadata đầy đủ như source, content_type, title, description, language, doc_name và start_index

Đây là cách tiếp cận hiệu quả để chuẩn bị dữ liệu cho RAG system.

Try again with different c