# Testing File Filtering in LongContextRAG

This notebook demonstrates how to test the file filtering functionality in the LongContextRAG class.

In [None]:
import os
import tempfile
from autocoder.rag.long_context_rag import LongContextRAG
from autocoder.common import AutoCoderArgs
from byzerllm import ByzerLLM

# Create a temporary directory for testing
with tempfile.TemporaryDirectory() as temp_dir:
    # Create some test files
    files = [
        ('test1.md', '# Test 1\nThis is a markdown file.'),
        ('test2.txt', 'This is a text file.'),
        ('test3.pdf', b'%PDF-1.4\n%\xe2\xe3\xcf\xd3\n1 0 obj\n<</Type/Catalog/Pages 2 0 R>>\nendobj\n2 0 obj\n<</Type/Pages/Count 1/Kids[3 0 R]>>\nendobj\n3 0 obj\n<</Type/Page/MediaBox[0 0 612 792]/Parent 2 0 R/Resources<<>>>>\nendobj\nxref\n0 4\n0000000000 65535 f\n0000000015 00000 n\n0000000060 00000 n\n0000000111 00000 n\n trailer\n<</Size 4/Root 1 0 R>>\nstartxref\n190\n%%EOF\n'),
        ('test4.docx', b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00!\x00\xf3S\xc5\xdd\xd5\x01\x00\x00\xe2\x05\x00\x00\x13\x00\x08\x02[Content_Types].xml \xa2\x04\x02(\xa0\x00\x02\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00PK\x01\x02\x14\x00\x14\x00\x06\x00\x08\x00\x00\x00!\x00\xf3S\xc5\xdd\xd5\x01\x00\x00\xe2\x05\x00\x00\x13\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00[Content_Types].xmlPK\x05\x06\x00\x00\x00\x00\x01\x00\x01\x00A\x00\x00\x00\x16\x02\x00\x00\x00\x00'),
        ('test5.py', '# This is a Python file\nprint("Hello, World!")'),
        ('.serveignore', '*.txt\n*.py')
    ]
    
    for filename, content in files:
        with open(os.path.join(temp_dir, filename), 'wb' if isinstance(content, bytes) else 'w') as f:
            f.write(content)
    
    # Initialize LongContextRAG
    args = AutoCoderArgs()
    args.required_exts = '.md,.pdf,.docx'
    llm = ByzerLLM()
    rag = LongContextRAG(llm, args, temp_dir)
    
    # Test file retrieval
    documents = rag._retrieve_documents()
    
    print("Retrieved documents:")
    for doc in documents:
        print(f"- {doc.module_name}")
    
    print("\nContent of test1.md:")
    print(next(doc.source_code for doc in documents if doc.module_name == 'test1.md'))

    # Test ignore functionality
    print("\nTesting ignore functionality:")
    print(f"Is 'test2.txt' ignored: {rag.ignore_spec.match_file('test2.txt')}")
    print(f"Is 'test5.py' ignored: {rag.ignore_spec.match_file('test5.py')}")
    print(f"Is 'test1.md' ignored: {rag.ignore_spec.match_file('test1.md')}")

This test notebook does the following:

1. Creates a temporary directory with various test files, including a `.serveignore` file.
2. Initializes a LongContextRAG instance with specific file extension requirements.
3. Retrieves documents using the `_retrieve_documents` method.
4. Prints the names of retrieved documents.
5. Displays the content of a specific retrieved document.
6. Tests the ignore functionality by checking if certain files are ignored based on the `.serveignore` rules.

You can run this notebook to verify that the file filtering in LongContextRAG is working as expected, including the handling of required extensions and the `.serveignore` file.