In [1]:
!pip install raganything


Collecting raganything
  Downloading raganything-1.2.9-py3-none-any.whl.metadata (54 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/54.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.8/54.8 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
Collecting lightrag-hku (from raganything)
  Downloading lightrag_hku-1.4.9.11-py3-none-any.whl.metadata (90 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m90.5/90.5 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting mineru[core] (from raganything)
  Downloading mineru-2.7.6-py3-none-any.whl.metadata (37 kB)
Collecting configparser (from lightrag-hku->raganything)
  Downloading configparser-7.2.0-py3-none-any.whl.metadata (5.5 kB)
Collecting json_repair (from lightrag-hku->raganything)
  Downloading json_repair-0.58.0-py3-none-any.whl.metadata (15 kB)
Collecting nano-vectordb (from lightrag-hku->raganything)
  Downloading nano_vectordb-

In [3]:
# Verify installation
!mineru --version

# Check if properly configured
!python -c "from raganything import RAGAnything; rag = RAGAnything(); print('✅ MinerU installed properly' if rag.check_parser_installation() else '❌ MinerU installation issue')"

mineru, version 2.7.6
INFO: RAGAnything initialized with config:
INFO:   Working directory: ./rag_storage
INFO:   Parser: mineru
INFO:   Parse method: auto
INFO:   Multimodal processing - Image: True, Table: True, Equation: True
INFO:   Max concurrent files: 1
✅ MinerU installed properly


In [1]:
!rm -rf ./rag_storage/*

In [2]:
import shutil

shutil.rmtree("output", ignore_errors=True)
shutil.rmtree("rag_storage", ignore_errors=True)

print("Deleted successfully")

Deleted successfully


In [1]:
import asyncio
import os
import shutil
import logging
import nest_asyncio
import numpy as np
from openai import AsyncOpenAI
from raganything import RAGAnything, RAGAnythingConfig
from lightrag.llm.openai import openai_complete_if_cache
from lightrag.utils import EmbeddingFunc

# 1. CẤU HÌNH MÔI TRƯỜNG
nest_asyncio.apply()
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger("RAGAnything-Fix")

async def main():
    # --- THÔNG TIN CẤU HÌNH ---
    # API key bạn đã cung cấp
    api_key = "YOUR_API"
    working_dir = "./rag_storage"
    input_file = "/content/2510.12323v1.pdf"
    output_dir = "./output"

    # --- DỌN DẸP DỮ LIỆU CŨ ---
    if os.path.exists(working_dir):
        logger.info(f"Đang xóa dữ liệu cũ tại {working_dir}...")
        shutil.rmtree(working_dir)

    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    # --- 2. CẤU HÌNH RAGANYTHING ---
    config = RAGAnythingConfig(
        working_dir=working_dir,
        parser="mineru",
        parse_method="auto",
        enable_image_processing=True,
        enable_table_processing=True,
        enable_equation_processing=True,
    )

    aclient = AsyncOpenAI(api_key=api_key)

    # --- 3. ĐỊNH NGHĨA CÁC HÀM XỬ LÝ (MODELS) ---
    async def llm_model_func(prompt, system_prompt=None, history_messages=[], **kwargs):
        return await openai_complete_if_cache(
            "gpt-4o-mini",
            prompt,
            system_prompt=system_prompt,
            history_messages=history_messages,
            api_key=api_key,
            **kwargs,
        )

    async def vision_model_func(
        prompt, system_prompt=None, history_messages=[], image_data=None, messages=None, **kwargs
    ):
        if messages:
            return await openai_complete_if_cache(
                "gpt-4o", "", messages=messages, api_key=api_key, **kwargs
            )
        elif image_data:
            return await openai_complete_if_cache(
                "gpt-4o", "",
                messages=[
                    {"role": "system", "content": system_prompt} if system_prompt else None,
                    {
                        "role": "user",
                        "content": [
                            {"type": "text", "text": prompt},
                            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}},
                        ],
                    }
                ],
                api_key=api_key, **kwargs
            )
        else:
            return await llm_model_func(prompt, system_prompt, history_messages, **kwargs)

    # --- HÀM EMBEDDING (FIX TRẢ VỀ NUMPY ARRAY) ---
    async def wrapped_embedding_func(texts: list[str]) -> np.ndarray:
        response = await aclient.embeddings.create(
            model="text-embedding-3-large",
            input=texts
        )

        embeddings = [item.embedding for item in response.data]

        if len(embeddings) == len(texts) * 2:
            embeddings = embeddings[:len(texts)]

        # CHUYỂN ĐỔI SANG NUMPY ARRAY ĐỂ TRÁNH LỖI 'size'
        return np.array(embeddings)

    embedding_func = EmbeddingFunc(
        embedding_dim=3072,
        max_token_size=8192,
        func=wrapped_embedding_func
    )

    # --- 4. KHỞI TẠO VÀ CHẠY RAG ---
    rag = RAGAnything(
        config=config,
        llm_model_func=llm_model_func,
        vision_model_func=vision_model_func,
        embedding_func=embedding_func,
    )

    logger.info("Bắt đầu parse và index tài liệu (Quá trình này có thể mất vài phút)...")
    try:
        await rag.process_document_complete(
            file_path=input_file,
            output_dir=output_dir,
            parse_method="auto"
        )
        logger.info("Xử lý tài liệu hoàn tất!")
    except Exception as e:
        logger.error(f"Lỗi trong quá trình xử lý: {e}")
        return

    # --- 5. KIỂM TRA KẾT QUẢ ---
    print("\n" + "="*50)
    print("TRUY VẤN THỬ NGHIỆM")
    print("="*50)

    try:
        text_result = await rag.aquery(
            "Tóm tắt các phát hiện chính trong tài liệu này?",
            mode="hybrid"
        )
        print(f"\n[Kết quả văn bản]:\n{text_result}")

        multimodal_result = await rag.aquery_with_multimodal(
            "Giải thích ý nghĩa của công thức này trong ngữ cảnh tài liệu",
            multimodal_content=[{
                "type": "equation",
                "latex": "P(d|q) = \\frac{P(q|d) \\cdot P(d)}{P(q)}",
                "equation_caption": "Relevance probability"
            }],
            mode="hybrid"
        )
        print(f"\n[Kết quả đa phương thức]:\n{multimodal_result}")
    except Exception as e:
        print(f"\n[Lỗi truy vấn]: {e}")

if __name__ == "__main__":
    asyncio.run(main()) if not asyncio.get_event_loop().is_running() else await main()

INFO: Created working directory: ./rag_storage
INFO: RAGAnything initialized with config:
INFO:   Working directory: ./rag_storage
INFO:   Parser: mineru
INFO:   Parse method: auto
INFO:   Multimodal processing - Image: True, Table: True, Equation: True
INFO:   Max concurrent files: 1
INFO: Parser 'mineru' installation verified
INFO: Initializing LightRAG with parameters: {'working_dir': './rag_storage'}
INFO: [] Created new empty graph file: ./rag_storage/graph_chunk_entity_relation.graphml
INFO: [] Process 32769 KV load full_docs with 0 records
INFO: [] Process 32769 KV load text_chunks with 0 records
INFO: [] Process 32769 KV load full_entities with 0 records
INFO: [] Process 32769 KV load full_relations with 0 records
INFO: [] Process 32769 KV load entity_chunks with 0 records
INFO: [] Process 32769 KV load relation_chunks with 0 records
INFO: [] Process 32769 KV load llm_response_cache with 0 records
INFO: [] Process 32769 doc status load doc_status with 0 records
INFO: [] Process


TRUY VẤN THỬ NGHIỆM


INFO:  == LLM cache == saving: hybrid:keywords:6751a2c83f9cff3cd5b7554954a4155f
INFO: Query nodes: Phát hiện chính, Tài liệu (top_k:40, cosine:0.2)
INFO: Local query: 40 entites, 100 relations
INFO: Query edges: Summary, Key findings, Document analysis (top_k:40, cosine:0.2)
INFO: Global query: 52 entites, 40 relations
INFO: Raw search results: 85 entities, 130 relations, 0 vector chunks
INFO: After truncation: 85 entities, 130 relations
INFO: Selecting 60 from 60 entity-related chunks by vector similarity
INFO: Find no additional relations-related chunks from 130 relations
INFO: Round-robin merged chunks: 60 -> 60 (deduplicated 0)
INFO: Final context: 85 entities, 130 relations, 20 chunks
INFO: Final chunks S+F/O: E2/1 E1/2 E2/3 E2/4 E3/5 E1/6 E2/7 E3/8 E2/9 E4/10 E2/11 E3/12 E5/13 E1/14 E1/15 E3/16 E2/17 E2/18 E6/19 E1/20
INFO: Found 3 image path matches in prompt
INFO: Processed 3 images for VLM
INFO: VLM enhanced query completed
INFO: Executing multimodal query: Giải thích ý nghĩa 


[Kết quả văn bản]:
Tài liệu này tập trung vào việc giới thiệu và phân tích một khung xử lý toàn diện có tên "RAG-Anything: All-In-One RAG Framework". Dưới đây là một số phát hiện chính từ tài liệu:

1. **Khung Xử Lý RAG-Anything**: Được giới thiệu như một giải pháp toàn diện cho việc tạo dữ liệu bổ sung từ các nguồn khác nhau (Retrieval-Augmented Generation - RAG), nhấn mạnh vào việc tích hợp đa phương thức để cải thiện khả năng truy xuất và hiểu dữ liệu. Khung này nổi bật với chiến lược dựng đồ thị kép và cơ chế truy xuất kết hợp, giúp xử lý các tài liệu phức tạp hơn so với các phương pháp truyền thống [1].

2. **Hiệu Suất Cao Trong Các Ngữ Cảnh Phức Tạp**: RAG-Anything đã chứng minh khả năng vượt trội trong việc xử lý các tài liệu dài và đa phương thức. Nó đạt được độ chính xác cao nhất trong bộ dữ liệu DocBench với 63.4%, và hiệu suất nổi bật trong việc xử lý các báo cáo nghiên cứu và báo cáo tài chính, cho thấy khả năng lý giải và tích hợp dữ liệu đa dạng [1].

3. **Kết Cấu và Khả

INFO: Multimodal query content processing completed
INFO: Generated enhanced query length: 2495 characters
INFO: Executing VLM enhanced query: User query: Giải thích ý nghĩa của công thức này trong ngữ cảnh tài liệu

Related equation content: ...
INFO:  == LLM cache == saving: hybrid:keywords:d5c8cc6cebffa00e455c747912dd3a05
INFO: Query nodes: Posterior probability, Likelihood, Prior probability, Marginal likelihood, Medical Diagnosis, Spam Detection, Machine Learning, Finance, Inference, Decision Making, Uncertainty, Bayesian Statistics (top_k:40, cosine:0.2)
INFO: Local query: 40 entites, 158 relations
INFO: Query edges: Bayes' Theorem, Probability theory, Statistical significance (top_k:40, cosine:0.2)
INFO: Global query: 54 entites, 40 relations
INFO: Raw search results: 81 entities, 183 relations, 0 vector chunks
INFO: After truncation: 81 entities, 176 relations
INFO: Selecting 69 from 69 entity-related chunks by vector similarity
INFO: Find no additional relations-related chunks


[Lỗi truy vấn]: RetryError[<Future at 0x7dda7b647950 state=finished raised RateLimitError>]


In [4]:
import asyncio
import os
import logging
import nest_asyncio
import numpy as np
from openai import AsyncOpenAI
from raganything import RAGAnything, RAGAnythingConfig
from lightrag.llm.openai import openai_complete_if_cache
from lightrag.utils import EmbeddingFunc

# 1. CẤU HÌNH MÔI TRƯỜNG
nest_asyncio.apply()
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger("RAG-Query")

async def run_query_loop():
    # --- THÔNG TIN CẤU HÌNH ---
    # Lưu ý: Thay API Key mới nếu bạn đã thu hồi key cũ để bảo mật
    api_key = "YOUR_API"
    working_dir = "./rag_storage"

    if not os.path.exists(working_dir):
        print(f"Lỗi: Không tìm thấy thư mục {working_dir}. Bạn cần chạy block Index tài liệu trước!")
        return

    # 2. CẤU HÌNH RAGANYTHING
    config = RAGAnythingConfig(
        working_dir=working_dir,
        parser="mineru",
        enable_image_processing=True,
        enable_table_processing=True,
        enable_equation_processing=True,
    )

    aclient = AsyncOpenAI(api_key=api_key)

    # 3. ĐỊNH NGHĨA CÁC HÀM XỬ LÝ (Bắt buộc phải có đủ)
    async def llm_model_func(prompt, system_prompt=None, history_messages=[], **kwargs):
        return await openai_complete_if_cache(
            "gpt-4o-mini",
            prompt,
            system_prompt=system_prompt,
            history_messages=history_messages,
            api_key=api_key,
            **kwargs,
        )

    # Thêm vision_model để hỗ trợ mode hybrid/multimodal
    async def vision_model_func(prompt, system_prompt=None, history_messages=[], **kwargs):
        return await llm_model_func(prompt, system_prompt, history_messages, **kwargs)

    async def wrapped_embedding_func(texts: list[str]) -> np.ndarray:
        response = await aclient.embeddings.create(
            model="text-embedding-3-large",
            input=texts
        )
        return np.array([item.embedding for item in response.data])

    embedding_func = EmbeddingFunc(
        embedding_dim=3072,
        max_token_size=8192,
        func=wrapped_embedding_func
    )

    # 4. KHỞI TẠO VÀ KÍCH HOẠT ENGINE
    rag = RAGAnything(
        config=config,
        llm_model_func=llm_model_func,
        vision_model_func=vision_model_func, # Cần thiết cho các phiên bản mới
        embedding_func=embedding_func,
    )

    # --- BƯỚC QUAN TRỌNG: Nạp dữ liệu cũ ---
    try:
        await rag._ensure_lightrag_initialized()
        print("\n✅ Đã kết nối với dữ liệu đã index thành công!")
    except Exception as e:
        print(f"⚠️ Cảnh báo khi khởi tạo database: {e}")

    # 5. VÒNG LẶP HỎI ĐÁP
    print("\n" + "="*50)
    print("SẴN SÀNG TRUY VẤN. Gõ 'exit' để thoát.")
    print("="*50)

    # Sử dụng loop để tránh treo khi dùng input() trong async
    loop = asyncio.get_event_loop()

    while True:
        query = await loop.run_in_executor(None, input, "\nCâu hỏi của bạn: ")

        if query.lower() in ['exit', 'quit', 'thoát']:
            print("Đang đóng ứng dụng...")
            break
        if not query.strip():
            continue

        try:
            print("🤖 Đang suy nghĩ...")
            # Sử dụng mode 'hybrid' để tìm cả trong văn bản và quan hệ thực thể
            result = await rag.aquery(query, mode="hybrid")
            print(f"\n[Trả lời]:\n{result}")
        except Exception as e:
            print(f"❌ Lỗi truy vấn: {e}")

# Chạy mã
if __name__ == "__main__":
    if asyncio.get_event_loop().is_running():
        # Nếu đang chạy trong Colab/Jupyter
        await run_query_loop()
    else:
        # Nếu chạy file .py bình thường
        asyncio.run(run_query_loop())

INFO: RAGAnything initialized with config:
INFO:   Working directory: ./rag_storage
INFO:   Parser: mineru
INFO:   Parse method: auto
INFO:   Multimodal processing - Image: True, Table: True, Equation: True
INFO:   Max concurrent files: 1
INFO: Parser 'mineru' installation verified
INFO: Initializing LightRAG with parameters: {'working_dir': './rag_storage'}
INFO: [] Loaded graph from ./rag_storage/graph_chunk_entity_relation.graphml with 678 nodes, 1307 edges
INFO: [] Process 46164 KV load full_docs with 1 records
INFO: [] Process 46164 KV load text_chunks with 91 records
INFO: [] Process 46164 KV load full_entities with 1 records
INFO: [] Process 46164 KV load full_relations with 1 records
INFO: [] Process 46164 KV load entity_chunks with 107 records
INFO: [] Process 46164 KV load relation_chunks with 75 records
INFO: [] Process 46164 KV load llm_response_cache with 192 records
INFO: [] Process 46164 doc status load doc_status with 1 records
INFO: [] Process 46164 KV load parse_cache


✅ Đã kết nối với dữ liệu đã index thành công!

SẴN SÀNG TRUY VẤN. Gõ 'exit' để thoát.

Câu hỏi của bạn: paper này là gì


INFO: Executing VLM enhanced query: paper này là gì...
INFO: LLM func: 4 new workers initialized (Timeouts: Func: 180s, Worker: 360s, Health Check: 375s)


🤖 Đang suy nghĩ...


INFO:  == LLM cache == saving: hybrid:keywords:8615a8274c67dde474234665aec22a90
INFO: Embedding func: 8 new workers initialized (Timeouts: Func: 30s, Worker: 60s, Health Check: 75s)
INFO: Query nodes: N/A (top_k:40, cosine:0.2)
INFO: Local query: 40 entites, 154 relations
INFO: Query edges: Paper, Definition, Purpose (top_k:40, cosine:0.2)
INFO: Global query: 52 entites, 40 relations
INFO: Raw search results: 90 entities, 191 relations, 0 vector chunks
INFO: After truncation: 90 entities, 160 relations
INFO: Selecting 78 from 78 entity-related chunks by vector similarity
INFO: Find no additional relations-related chunks from 160 relations
INFO: Round-robin merged chunks: 78 -> 78 (deduplicated 0)
INFO: Final context: 90 entities, 160 relations, 20 chunks
INFO: Final chunks S+F/O: E2/1 E4/2 E5/3 E2/4 E2/5 E3/6 E2/7 E1/8 E4/9 E2/10 E1/11 E1/12 E4/13 E3/14 E4/15 E4/16 E3/17 E4/18 E3/19 E2/20
INFO: Found 6 image path matches in prompt
INFO: Processed 6 images for VLM
INFO: VLM enhanced que


[Trả lời]:
The paper titled "RAG-ANYTHING: ALL-IN-ONE RAG FRAMEWORK" discusses the RAG-Anything framework, which is a comprehensive approach aimed at enhancing Retrieval-Augmented Generation (RAG) methodologies. It addresses existing challenges in multimodal retrieval systems that primarily rely on textual data, emphasizing the need for handling various modalities like images, structured data, and mathematical expressions.

### Key Highlights of the Paper:

- **Unified Framework**: RAG-Anything introduces a unified model that allows for comprehensive knowledge retrieval across all modalities rather than treating data types in isolation.
  
- **Dual-Graph Construction**: This framework employs a dual-graph construction strategy that captures both cross-modal relationships and textual semantics, facilitating effective reasoning over heterogeneous content.

- **Performance Improvements**: The paper showcases significant performance gains of the RAG-Anything framework over traditional tex

INFO: Executing VLM enhanced query: paper này nói về cái gì ...


🤖 Đang suy nghĩ...


INFO:  == LLM cache == saving: hybrid:keywords:e1a73ea6e582f67a7953872b27009501
INFO: Query nodes: N/A (top_k:40, cosine:0.2)
INFO: Local query: 40 entites, 154 relations
INFO: Query edges: Paper topic, Content analysis (top_k:40, cosine:0.2)
INFO: Global query: 47 entites, 40 relations
INFO: Raw search results: 84 entities, 191 relations, 0 vector chunks
INFO: After truncation: 84 entities, 162 relations
INFO: Selecting 75 from 75 entity-related chunks by vector similarity
INFO: Find no additional relations-related chunks from 162 relations
INFO: Round-robin merged chunks: 75 -> 75 (deduplicated 0)
INFO: Final context: 84 entities, 162 relations, 20 chunks
INFO: Final chunks S+F/O: E3/1 E2/2 E3/3 E1/4 E1/5 E1/6 E4/7 E2/8 E2/9 E2/10 E1/11 E2/12 E3/13 E4/14 E2/15 E2/16 E1/17 E2/18 E4/19 E1/20
INFO: Found 1 image path matches in prompt
INFO: Processed 1 images for VLM
INFO: VLM enhanced query completed



[Trả lời]:
Bài báo này tập trung vào một khung giải pháp có tên là **RAG-Anything: ALL-IN-ONE RAG FRAMEWORK**, nhằm cải thiện hiệu quả trong việc truy xuất kiến thức đa phương thức (multimodal knowledge retrieval) và xử lý tài liệu đa dạng. Cụ thể, nội dung chính của bài báo bao gồm:

### Giới thiệu về RAG-Anything
- RAG-Anything là một khung thống nhất được thiết kế để giải quyết các thách thức trong các hệ thống truy xuất dữ liệu truyền thống, đặc biệt là trong các kịch bản đa phương thức.
- Khung này tích hợp nhiều phương pháp khác nhau, bao gồm việc xây dựng đồ thị kép (dual-graph construction) và pha trộn các cơ chế truy xuất để nâng cao tính hiệu quả.

### Nội dung Phân tích
- Bài báo phân tích cách mà RAG-Anything vượt qua những hạn chế của các mô hình truyền thống thông qua các nghiên cứu trường hợp và đánh giá hiệu suất.
- Nó cũng đề cập đến cách cấu trúc lại thông tin để cải thiện khả năng truy xuất và hiểu biết từ các nguồn dữ liệu khác nhau như hình ảnh, văn bản và bảng bi

INFO: Executing VLM enhanced query: cho tôi bảng so sánh...


🤖 Đang suy nghĩ...


INFO: Query nodes: cho tôi bảng so sánh (top_k:40, cosine:0.2)
INFO: Local query: 12 entites, 42 relations
INFO: Raw search results: 12 entities, 42 relations, 0 vector chunks
INFO: After truncation: 12 entities, 42 relations
INFO: Selecting 13 from 13 entity-related chunks by vector similarity
INFO: Find no additional relations-related chunks from 42 relations
INFO: Round-robin merged chunks: 13 -> 13 (deduplicated 0)
INFO: Final context: 12 entities, 42 relations, 13 chunks
INFO: Final chunks S+F/O: E1/1 E2/2 E1/3 E1/4 E2/5 E2/6 E1/7 E1/8 E1/9 E1/10 E1/11 E1/12 E1/13
INFO: Found 8 image path matches in prompt
INFO: Processed 8 images for VLM
INFO: VLM enhanced query completed



[Trả lời]:
### Bảng So Sánh Các Phương Pháp

Dưới đây là bảng so sánh về hiệu suất của các phương pháp khác nhau khi xử lý dữ liệu trên tập dữ liệu DocBench. Bảng này tập trung vào các phương pháp cụ thể và chỉ ra độ chính xác của chúng qua nhiều miền và thể loại tài liệu khác nhau.

| **Phương Pháp**        | **Miền**        | **Aca.** | **Fin.** | **Gov.** | **Law.** | **News** | **Tổng Quan** |
|------------------------|------------------|----------|----------|----------|----------|----------|--------------|
| **Chunk-only**         |                  | 55.8     | 61.5     | 60.1     | 60.7     | 64.0     | 60.0         |
| **w/o Reranker**       |                  | 60.9     | 63.5     | 58.8     | 60.2     | 68.6     | 62.4         |
| **RAGAnything**        |                  | 61.4     | 67.0     | 61.5     | 60.2     | 66.3     | **63.4**     |

#### Phân Tích Bảng
- **RAGAnything** đạt độ chính xác cao nhất tổng thể (63.4%), cho thấy khả năng xử lý dữ liệu của nó vượt trội hơ

INFO: Executing VLM enhanced query: cho tôi các hình ảnh...


🤖 Đang suy nghĩ...


INFO:  == LLM cache == saving: hybrid:keywords:f203e9abd6e9bf2e40d911a2a7e5d200
INFO: Query nodes: Hình ảnh (top_k:40, cosine:0.2)
INFO: Local query: 24 entites, 118 relations
INFO: Query edges: Hình ảnh (top_k:40, cosine:0.2)
INFO: Global query: 43 entites, 40 relations
INFO: Raw search results: 50 entities, 122 relations, 0 vector chunks
INFO: After truncation: 50 entities, 122 relations
INFO: Selecting 48 from 48 entity-related chunks by vector similarity
INFO: Find no additional relations-related chunks from 122 relations
INFO: Round-robin merged chunks: 48 -> 48 (deduplicated 0)
INFO: Final context: 50 entities, 122 relations, 20 chunks
INFO: Final chunks S+F/O: E6/1 E3/2 E3/3 E2/4 E4/5 E4/6 E3/7 E4/8 E4/9 E1/10 E3/11 E4/12 E5/13 E4/14 E3/15 E5/16 E5/17 E4/18 E3/19 E5/20
INFO: Found 19 image path matches in prompt
INFO: Processed 19 images for VLM
INFO: VLM enhanced query completed



[Trả lời]:
Dựa trên thông tin từ ngữ liệu, dưới đây là các hình ảnh cùng với thông tin mô tả tương ứng:

1. **Hình ảnh: RAG-Anything**
   - Mô tả: Trình bày quy trình sử dụng các lớp LSTM hai chiều để tạo nhãn đầu ra từ các ký tự đầu vào.
   - **Hình path**: `/content/output/2510.12323v1/hybrid_auto/images/ae0d073fec8e9fc5912602c472ad1d217648e1c9e8a1305093aea7dadfed02bf.jpg`

2. **Hình ảnh: GPT-4o-mini**
   - Mô tả: Mô hình BERT-to-BERT đạt được giá trị AUPRC cao nhất trong dataset Evidence Inference.
   - **Hình path**: `/content/output/2510.12323v1/hybrid_auto/images/09dbbdbce919902a905ccde7512a58d9f9e781dce78bed4abf2678859dfa506f.jpg`

3. **Hình ảnh: LightRAG**
   - Mô tả: Tăng cường độ chính xác trong lĩnh vực "Train" bằng phương pháp fine-tuning GEM.
   - **Hình path**: `/content/output/2510.12323v1/hybrid_auto/images/e463aea5b04288ae18185bd159ad748512f9137f6d84994db730778cc5eaa5c8.jpg`

4. **Hình ảnh: MMGraphRAG**
   - Mô tả: Mô hình "Bert-To-Bert" đạt giá trị AUPRC là 0.708 tro