In [1]:
%pip install tiktoken pymupdf -q

Note: you may need to restart the kernel to use updated packages.


# 필수 패키지 설치

#### src.processors.document_processor.py
HWP를 PDF로 변환하여 처리하는 코드 추가
- LibreOffice + unoconv(pyuno) 변환을 위한 환경 설정 필요

In [None]:
# -*- coding: utf-8 -*-
import hashlib
from pathlib import Path
from typing import Optional, Dict, Any, List, Tuple
import tiktoken

try:
    import pymupdf
    import pymupdf4llm
    PYMUPDF_AVAILABLE = True
except ImportError:
    PYMUPDF_AVAILABLE = False

from src.config import get_config
from src.utils.logging_config import get_logger
from tqdm.notebook import tqdm

import importlib
from src.db import documents_db
importlib.reload(documents_db)
from src.db.documents_db import DocumentsDB

class DocumentProcessor:
    """
    문서 처리 클래스

    주요 기능:
    - PDF 파일을 Markdown 형식으로 변환
    - 변환된 데이터를 데이터베이스에 저장
    - 파일 해시 계산

    사용 예:
        processor = DocumentProcessor()
        file_hash = processor.process_pdf("example.pdf")
    """

    def __init__(self, db_path: Optional[str] = None, config=None, progress_callback=None):
        """
        DocumentProcessor 초기화

        Args:
            db_path (Optional[str]): 데이터베이스 파일 경로 (기본값: config에서 로드)
            config: 설정 객체 (기본값: get_config() 호출)
            progress_callback: 진행 상황 콜백 함수
        """
        # 설정 객체 로드 (기본값: get_config 함수 호출)
        self.config = config or get_config()
        # 로깅 객체 초기화
        self.logger = get_logger('[DOCP]')
        
        # 데이터베이스 경로 설정 (기본값: config에서 로드)
        if db_path is None:
            db_path = self.config.DOCUMENTS_DB_PATH

        # 데이터베이스 객체 초기화
        self.docs_db = DocumentsDB(db_path)
        # 토크나이저 초기화 (OpenAI 모델 기반)
        self.tokenizer = tiktoken.encoding_for_model(self.config.OPENAI_TOKENIZER_MODEL)
        # 진행 상황 콜백 함수 설정
        self.progress_callback = progress_callback

        # 페이지 마커 덤프 디렉토리 생성
        if self.config.MARKER_DUMP_ENABLED:
            self.marker_dump_path = Path(self.config.MARKER_DUMP_PATH)
            self.marker_dump_path.mkdir(parents=True, exist_ok=True)
            self.logger.info(f"마커 덤프 활성화: {self.marker_dump_path}")
            self._create_missing_dump_files()
        else:
            self.marker_dump_path = None
    
        # 초기화 완료 메시지 로깅
        self.logger.info(f"DocumentProcessor 초기화 완료 (DB: {db_path})")

    def _create_missing_dump_files(self) -> None:
        """
        DB에 있는 문서 중 덤프 파일이 없는 문서의 마커 덤프 파일 생성
        """
        if not self.config.MARKER_DUMP_ENABLED:
            self.logger.debug("마커 덤프 비활성화됨")
            return
        
        all_docs = self.docs_db.get_documents_all()
        
        if not all_docs:
            self.logger.debug("DB에 문서 없음")
            return
        
        created_count = 0
        for doc in all_docs:
            file_name = doc.get('file_name')
            text_content = doc.get('text_content')
            
            if not file_name or not text_content:
                continue
            
            if self._save_marker_dump_file(file_name, text_content):
                created_count += 1
        
        if created_count > 0:
            self.logger.info(f"기존 문서 덤프 파일 생성: {created_count}개")
            
    def _save_marker_dump_file(self, file_name: str, text_content: str) -> bool:
        """
        단일 문서의 마커 덤프 파일 저장
        
        Args:
            file_name: 문서 파일명
            text_content: 마크다운 텍스트 내용
        
        Returns:
            bool: 파일 생성 여부 (이미 존재하면 False)
        """
        if not self.config.MARKER_DUMP_ENABLED or not self.marker_dump_path:
            return False
        
        # 확장자 처리: .md면 그대로, 아니면 .md로 변경
        file_path = Path(file_name)
        if file_path.suffix.lower() == '.md':
            dump_file_name = file_path.name
        else:
            dump_file_name = file_path.stem + '.md'
        
        dump_file_path = self.marker_dump_path / dump_file_name
        
        if dump_file_path.exists():
            return False
        
        dump_file_path.write_text(text_content, encoding='utf-8')
        self.logger.debug(f"마커 덤프 저장: {dump_file_path}")
        return True

    def clean_markdown_text(self, text: str) -> str:
        """
        Markdown 텍스트 전처리

        Args:
            text: 원본 텍스트

        Returns:
            str: 전처리된 텍스트
        """
        import re

        # 공백 및 탭을 단일 공백으로 변환
        text = re.sub(r'[ \t]+', ' ', text)
        # 연속된 세 줄 이상의 개행을 두 줄로 축소
        text = re.sub(r'\n{3,}', '\n\n', text)
        # 각 줄의 앞뒤 공백 제거
        lines = [line.strip() for line in text.split('\n')]
        # 줄 단위로 다시 합침
        text = '\n'.join(lines)

        return text.strip()

    def calculate_file_hash(self, file_path: str) -> str:
        """
        파일의 SHA-256 해시를 계산합니다.

        Args:
            file_path (str): 해시를 계산할 파일 경로

        Returns:
            str: 파일의 SHA-256 해시값
        """
        # 파일을 바이너리 모드로 열고, 내용을 읽어 SHA-256 해시 계산
        with open(file_path, 'rb') as f:
            return hashlib.sha256(f.read()).hexdigest()

    def markdown_with_progress(self, pdf_path: str) -> Tuple[List[Dict], int]:
        """
        PDF를 페이지별로 Markdown 변환 (진행 상황 표시)
        
        Args:
            pdf_path (str): PDF 파일 경로
        
        Returns:
            List[Dict]: [{'page_num': int, 'content': str}, ...]
        """
        # 파일 이름 추출
        file_name = Path(pdf_path).name
        total_pages = 0
        
        # PDF 파일 열기
        with pymupdf.open(pdf_path) as doc:
            total_pages = len(doc)  # 총 페이지 수 계산

        pages_data = []
        # 진행 상황 표시를 위한 tqdm 초기화
        with tqdm(total=total_pages, desc="PDF to Markdown", unit="page") as pbar:
            for page_num in range(total_pages):
                try:
                    # 페이지를 Markdown 형식으로 변환
                    markdown = pymupdf4llm.to_markdown(
                        doc=pdf_path,
                        pages=[page_num]
                    )
                    
                    # 변환된 Markdown 텍스트 전처리
                    markdown = self.clean_markdown_text(markdown)
                    
                    # 빈 페이지 처리
                    if not markdown.strip():
                        status = 'empty'
                        markdown = self.config.EMPTY_PAGE_MARKER
                        pbar_msg = f"빈 페이지: {page_num + 1}"
                    else:
                        status = 'processing'
                        pbar_msg = f"페이지 {page_num + 1} len={len(markdown)}"
                    
                    # 페이지 데이터 저장
                    pages_data.append({
                        'page_num': page_num + 1,
                        'content': markdown
                    })
                    
                    # 진행 상황 콜백 호출
                    if self.progress_callback:
                        self.progress_callback({
                            'file_name': file_name,
                            'current_page': page_num + 1,
                            'total_pages': total_pages,
                            'page_content_length': len(markdown),
                            'status': status,
                            'error': ""
                        })

                except Exception as e:
                    # 예외 발생 시 경고 메시지 로깅 및 실패 처리
                    pbar_msg = f"페이지 {page_num + 1} 실패: {e}"
                    self.logger.warning(pbar_msg)
                    
                    pages_data.append({
                        'page_num': page_num + 1,
                        'content': self.config.ERROR_PAGE_MARKER
                    })
                    
                    if self.progress_callback:
                        self.progress_callback({
                            'file_name': file_name,
                            'current_page': page_num + 1,
                            'total_pages': total_pages,
                            'page_content_length': 0,
                            'status': 'failed',
                            'error': str(e)
                        })
                finally:
                    # 진행 상황 업데이트
                    pbar.set_postfix_str(pbar_msg)
                    pbar.update(1)
        
        return pages_data, total_pages

    def process_pdf(self, pdf_path: str, pdf_name: Optional[str] = None) -> Optional[str]:
        """
        PDF 파일을 처리하여 Markdown으로 변환하고 DB에 저장합니다.

        Args:
            pdf_path (str): 처리할 PDF 파일 경로
            pdf_name (Optional[str]): 처리할 PDF 파일 이름 (기본값: None)
                데이터베이스에 저장할 때 사용됩니다, 고유 해야 합니다. 만약 동일한 이름이라면 경로를 추가하세요.

        Returns:
            Optional[str]: 처리된 파일의 해시값 (실패 시 None 반환)
        """
        # PyMuPDF 설치 여부 확인
        if not PYMUPDF_AVAILABLE:
            self.logger.error("PyMuPDF/pymupdf4llm 미설치: pip install pymupdf pymupdf4llm")
            return None

        # PDF 파일 경로 확인
        pdf_file = Path(pdf_path)
        if not pdf_file.exists() or not pdf_file.is_file():
            self.logger.error(f"파일 없음: {pdf_path}")
            return None
        
        # 파일 이름 설정
        if pdf_name is None:
            pdf_name = pdf_file.name

        self.logger.info(f"PDF 처리 시작: {pdf_file.name}")

        # 파일 크기 및 해시 계산
        file_size = pdf_file.stat().st_size
        file_hash = self.calculate_file_hash(pdf_path)
        self.logger.debug(f"파일 해시: {file_hash[:16]}...")

        # 중복 검사: file_name과 file_hash가 모두 일치하는 문서 검색
        existing_docs = self.docs_db.search_documents(file_hash)
        if existing_docs:
            self.logger.info(f"이미 처리된 파일 (skip): {pdf_name}, hash={file_hash[:16]}...")
            return file_hash

        # PDF를 Markdown으로 변환
        pages_data, total_pages = self.markdown_with_progress(pdf_path)
        
        # 변환된 페이지 데이터를 하나의 텍스트로 합침
        all_content = []
        for page_data in pages_data:
            page_num = page_data['page_num']
            content = page_data['content']
            
            is_empty = (content == self.config.EMPTY_PAGE_MARKER)
            
            if not is_empty:
                page_content = f"{self.config.PAGE_MARKER_FORMAT.format(page_num=page_num)}\n\n{content}"
            else:
                page_content = content
            
            all_content.append(page_content)
            
        text_content = '\n'.join(all_content)
        text_content = self.clean_markdown_text(text_content)
        
        # 데이터베이스에 저장
        self.docs_db.insert_text_content(
            file_name=pdf_name,
            file_hash=file_hash,
            total_pages=total_pages,
            file_size=file_size,
            text_content=text_content
        )
        
        # 페이지 마커 덤프 저장
        if self._save_marker_dump_file(pdf_name, text_content):
            self.logger.info(f"마커 덤프 생성: {Path(pdf_name).stem}.md")
            
            if not self.marker_dump_path.exists():
                self.marker_dump_path.write_text(text_content, encoding='utf-8')
                self.logger.info(f"마커 덤프 저장: {self.marker_dump_path}")

        self.logger.info(
            f"PDF 처리 완료: {pdf_file.name} "
            f"({len(pages_data)} 페이지, {file_size / 1024:.1f}KB), 변환문자수={len(text_content):,}"
        )
        return file_hash

#### src.db.documents_db

In [None]:
# -*- coding: utf-8 -*-
import sqlite3
from datetime import datetime
from pathlib import Path
from typing import Optional, List, Dict, Any
from src.utils.logging_config import get_logger
logger = get_logger('[DOCDB]')

class DocumentsDB:
    """
    마크다운 문서 데이터베이스 관리 클래스

    주요 기능:
    - 마크다운 파일 정보를 SQLite 데이터베이스에 저장
    - 데이터베이스 테이블 생성 및 관리
    - 문서 통계 정보 제공

    사용 예:
        db = DocumentsDB("data/documents.db")
        db.insert_text_content(file_hash, file_name, total_pages, file_size, text_content)
        stats = db.get_document_stats()
    """

    def __init__(self, db_path: str = 'data/documents.db'):
        """
        DocumentsDB 초기화

        Args:
            db_path (str): 데이터베이스 파일 경로 (기본값: 'data/documents.db')
        """
        self.USER_VERSION = 1
        self.logger = get_logger('[DOCDB]')
        self.db_path = Path(db_path)
        self.db_path.parent.mkdir(parents=True, exist_ok=True)  # 데이터베이스 경로 생성
        self._create_tables()  # 테이블 생성

    def _get_connection(self):
        """
        SQLite 데이터베이스 연결 생성

        Returns:
            sqlite3.Connection: 데이터베이스 연결 객체
        """
        conn = sqlite3.connect(self.db_path)
        conn.row_factory = sqlite3.Row  # 결과를 딕셔너리 형태로 반환
        return conn

    def _create_tables(self):
        """
        데이터베이스 테이블 및 인덱스 생성

        - TB_DOCUMENTS: 마크다운 파일 정보를 저장하는 테이블
            - file_hash: 파일의 고유 해시값 (기본 키, 중복 불가)
            - file_name: 파일 이름 (경로 포함, 고유 해야함)
            - total_pages: 원본 파일의 총 페이지 수
            - file_size: 원본 파일 크기 (바이트 단위)
            - text_content: 변환된 파일의 텍스트 콘텐츠 (텍스트, 마크다운, HTML 등)
            - created_at: 레코드 생성 시각 (기본값: 현재 시각)
            - updated_at: 레코드 수정 시각 (기본값: 현재 시각)
        
        - 인덱스:
            - idx_file_name: file_name 컬럼에 대한 인덱스
            - idx_created_at: created_at 컬럼에 대한 시간 기반 검색 최적화를 위한 인덱스
        """
        with self._get_connection() as conn:
            cursor = conn.cursor()
            # TB_DOCUMENTS 테이블 생성
            cursor.execute("""
                CREATE TABLE IF NOT EXISTS TB_DOCUMENTS (
                    file_hash TEXT PRIMARY KEY,  -- 파일 고유 해시값 (중복 불가)
                    file_name TEXT NOT NULL,    -- 파일 이름 (변환 전 이름, 고유 해야함)
                    total_pages INTEGER NOT NULL,  -- 원본 파일 총 페이지 수
                    file_size INTEGER NOT NULL,    -- 원본 파일 크기 (바이트 단위)
                    text_content TEXT,             -- 변환된 파일의 텍스트 콘텐츠
                    created_at TIMESTAMP DEFAULT (datetime('now', '+9 hours')),  -- 생성 시각
                    updated_at TIMESTAMP DEFAULT (datetime('now', '+9 hours'))   -- 수정 시각
                )
            """)
            # 트리거를 사용해 updated_at 컬럼 자동 업데이트
            cursor.execute("""
                CREATE TRIGGER IF NOT EXISTS update_updated_at
                AFTER UPDATE ON TB_DOCUMENTS
                FOR EACH ROW
                BEGIN
                    UPDATE TB_DOCUMENTS
                    SET updated_at = CURRENT_TIMESTAMP
                    WHERE file_hash = OLD.file_hash;
                END;
            """)            
            # 추후 프로그램 고도화시 마이 그레이션 에서 검토 한다.
            # # 인덱스 생성 (file_name)
            # cursor.execute("""
            #     CREATE INDEX IF NOT EXISTS idx_file_name
            #     ON TB_DOCUMENTS (file_name)
            # """)
            # # created_at 인덱스 생성
            # cursor.execute("""
            #     CREATE INDEX IF NOT EXISTS idx_created_at
            #     ON TB_DOCUMENTS (created_at)
            # """)
            
            # PRAGMA user_version을 사용한 DB 버전 관리
            cursor.execute("PRAGMA user_version")
            db_version = cursor.fetchone()[0]
            
            if db_version == 0:
                # 초기화: user_version이 0이면 현재 버전으로 설정
                cursor.execute(f"PRAGMA user_version = {self.USER_VERSION}")
                self.logger.info(f"데이터베이스 버전 초기화: {self.USER_VERSION}")
            elif db_version != self.USER_VERSION:
                self.logger.warning(f"데이터베이스 버전 불일치: {db_version} → {self.USER_VERSION}")
                # 마이그레이션 로직 추가 가능
                self._migrate_database(db_version, self.USER_VERSION)

            conn.commit()
            
    def _migrate_database(self, old_version: int, new_version: int):
        """
        데이터베이스 마이그레이션 로직
        추후 버전 업그레이드 시 필요한 마이그레이션 로직을 여기에 구현
        
        Args:
            old_version (int): 기존 데이터베이스 버전
            new_version (int): 새로운 데이터베이스 버전
        """
        #with self._get_connection() as conn:
            #cursor = conn.cursor()
            #self.logger.info(f"데이터베이스 마이그레이션 시작: {old_version} → {new_version}")
            
            # if old_version == 1 and 2 == new_version:
                
            #     # 버전 2로 마이그레이션
            #     cursor.execute("ALTER TABLE TB_DOCUMENTS ADD COLUMN new_column TEXT")
            #     self.logger.info("버전 2로 마이그레이션 완료")
            # 추가 마이그레이션 로직 작성 가능
            
            # 최종적으로 user_version 업데이트
            # cursor.execute(f"PRAGMA user_version = {new_version}")
            # conn.commit()
            #self.logger.info(f"데이터베이스 마이그레이션 완료: {new_version}")            
        raise NotImplementedError("마이그레이션 로직이 구현되지 않았습니다.")

    def insert_text_content(self, 
                            file_name: str = "",
                            file_hash: str = "", 
                            total_pages: Optional[int] = 0, 
                            file_size: Optional[int] = 0, 
                            text_content: Optional[str] = "") -> bool:
        """
        마크다운 파일 정보를 데이터베이스에 저장

        Args:
            file_hash (str): 파일의 해시값
            file_name (str): 파일 이름 (필수, 고유)
            total_pages (Optional[int]): 총 페이지 수 (기본값: None)
            file_size (Optional[int]): 파일 크기 (기본값: None)
            text_content (Optional[str]): 파일의 전체 텍스트 콘텐츠 (기본값: "")

        Returns:
            bool: 저장 성공 여부
        """
        if not file_name:
            raise ValueError("file_name은 필수 항목이며 None 또는 빈 값일 수 없습니다.")
        if text_content is None:
            text_content = ""  # 최소한 빈 문자열이어야 함

        with self._get_connection() as conn:
            cursor = conn.cursor()
            cursor.execute("""
                INSERT OR REPLACE INTO TB_DOCUMENTS
                (file_hash, file_name, total_pages, file_size, text_content, updated_at)
                VALUES (?, ?, ?, ?, ?, ?)
            """, (file_hash, file_name, total_pages, file_size, text_content, datetime.now()))
            conn.commit()
            return True
        
    def get_document_by_hash(self, file_hash: str) -> Optional[Dict[str, Any]]:
        """
        파일 해시값으로 문서 정보 조회

        Args:
            file_hash (str): 조회할 파일의 해시값

        Returns:
            Optional[Dict[str, Any]]: 문서 정보 (없으면 None 반환)
        """
        with self._get_connection() as conn:
            cursor = conn.cursor()
            cursor.execute("""
                SELECT * FROM TB_DOCUMENTS WHERE file_hash = ?
            """, (file_hash,))
            row = cursor.fetchone()
            if row:
                return dict(row)
            return None

    def get_documents_all(self) -> List[Dict[str, Any]]:
        """
        데이터베이스의 모든 문서 조회
        
        Returns:
            List[Dict[str, Any]]: 문서 리스트 (file_name, file_hash, text_content 등)
        """
        with self._get_connection() as conn:
            cursor = conn.cursor()
            cursor.execute("""
                SELECT * FROM TB_DOCUMENTS
                ORDER BY updated_at DESC
            """)
            
            columns = [desc[0] for desc in cursor.description]
            results = [dict(zip(columns, row)) for row in cursor.fetchall()]
        
        return results

    def get_document_stats(self) -> Dict[str, Any]:
        """
        데이터베이스에 저장된 문서 통계 정보를 반환

        Returns:
            Dict[str, Any]: 문서 통계 정보
                - total_files: 총 파일 수
                - total_pages: 총 페이지 수
                - total_size_bytes: 총 파일 크기 (바이트 단위)
                - total_size_mb: 총 파일 크기 (MB 단위)
        """
        with self._get_connection() as conn:
            cursor = conn.cursor()
            
            cursor.execute('SELECT COUNT(*) FROM TB_DOCUMENTS')
            total_files = cursor.fetchone()[0]
            
            cursor.execute('SELECT SUM(total_pages) FROM TB_DOCUMENTS')
            total_pages = cursor.fetchone()[0] or 0
            
            cursor.execute('SELECT SUM(file_size) FROM TB_DOCUMENTS')
            total_size = cursor.fetchone()[0] or 0
            return {
                'total_files': total_files,
                'total_pages': total_pages,
                'total_size_bytes': total_size,
                'total_size_mb': round(total_size / (1024 * 1024), 2),
            }
            
    def search_documents(self, 
                        search_term: str, 
                        search_type: str = 'auto') -> List[Dict[str, Any]]:
        """
        파일명 또는 file_hash로 문서 검색
        
        Args:
            search_term (str): 검색어 (파일명 또는 file_hash)
            search_type (str): 검색 타입
                - 'auto': file_hash 형식(64자 hex)이면 hash 검색, 아니면 filename 검색
                - 'filename': file_name LIKE 검색
                - 'hash': file_hash 완전 일치 검색
        
        Returns:
            List[Dict[str, Any]]: 검색 결과 리스트
        
        Example:
            >>> # file_hash로 검색
            >>> results = db.search_documents("abc123def456...")
            >>> 
            >>> # 파일명으로 검색
            >>> results = db.search_documents("공고문", search_type='filename')
            >>> 
            >>> # 자동 판별
            >>> results = db.search_documents("test.pdf", search_type='auto')
        """
        if not search_term:
            self.logger.warning("검색어가 비어있습니다.")
            return []
        
        # search_type 결정
        if search_type == 'auto':
            # 64자 hex 문자열이면 hash 검색
            if len(search_term) == 64 and all(c in '0123456789abcdefABCDEF' for c in search_term):
                search_type = 'hash'
            else:
                search_type = 'filename'
        
        # 검색 쿼리 실행
        if search_type == 'hash':
            query = "SELECT * FROM TB_DOCUMENTS WHERE file_hash = ?"
            params = (search_term,)
        elif search_type == 'filename':
            query = "SELECT * FROM TB_DOCUMENTS WHERE file_name LIKE ?"
            params = (f"%{search_term}%",)
        else:
            self.logger.error(f"지원하지 않는 search_type: {search_type}")
            return []
        
        results = self.execute_query(query, params)
        self.logger.debug(f"검색 완료: {len(results)}건 ({search_type} 모드, 검색어: {search_term})")
        return results
            
    def execute_query(self, query: str, params: Optional[tuple] = None) -> List[Dict[str, Any]]:
        """
        SELECT 쿼리를 실행하고 결과를 반환
        
        Args:
            query (str): 실행할 SQL 쿼리
            params (Optional[tuple]): 쿼리 파라미터 (기본값: None)
        
        Returns:
            List[Dict[str, Any]]: 쿼리 결과 (각 행이 딕셔너리)
        
        Example:
            >>> results = db.execute_query("SELECT * FROM TB_DOCUMENTS WHERE file_hash = ?", ("abc123",))
            >>> for row in results:
            >>>     print(row['file_name'])
        """
        try:
            with self._get_connection() as conn:
                cursor = conn.cursor()
                if params:
                    cursor.execute(query, params)
                else:
                    cursor.execute(query)
                
                rows = cursor.fetchall()
                return [dict(row) for row in rows]
        
        except Exception as e:
            self.logger.error(f"쿼리 실행 중 오류: {e}")
            self.logger.debug(f"쿼리: {query}")
            if params:
                self.logger.debug(f"파라미터: {params}")
            return []
            
    def summary(self) -> None:
        """
        데이터베이스의 모든 테이블 요약 정보 출력.
        
        각 테이블의 컬럼명과 레코드 수를 로거로 출력합니다.
        """
        try:
            # 테이블 목록 조회
            tables = self.execute_query(
                "SELECT name FROM sqlite_master WHERE type='table' ORDER BY name"
            )
            
            if not tables:
                self.logger.info("데이터베이스에 테이블이 없습니다.")
                return
            
            self.logger.info("=" * 80)
            self.logger.info(f"데이터베이스: {self.db_path}")
            self.logger.info(f"총 테이블 수: {len(tables)}")
            self.logger.info("=" * 80)
            
            for table_info in tables:
                table_name = table_info['name']
                
                # 컬럼 정보
                columns = self.execute_query(f"PRAGMA table_info({table_name})")
                column_names = [col['name'] for col in columns]
                
                # 레코드 수
                count_result = self.execute_query(f"SELECT COUNT(*) as cnt FROM {table_name}")
                row_count = count_result[0]['cnt'] if count_result else 0
                
                self.logger.info(f"테이블: {table_name}")
                self.logger.info(f"  - 컬럼 수: {len(column_names)}")
                self.logger.info(f"  - 컬럼명: {', '.join(column_names)}")
                self.logger.info(f"  - 레코드 수: {row_count}")
                self.logger.info("-" * 80)
                
        except Exception as e:
            self.logger.error(f"summary() 실행 중 오류: {e}")
            
logger.info("DocumentsDB 모듈이 로드되었습니다.")
if __name__ == "__main__":
    db = DocumentsDB("data/documents.db")
    db.summary()

# document_processer 테스트

In [1]:
# 환경 설정 및 모듈 임포트
import sys
from pathlib import Path

# 프로젝트 루트를 sys.path에 추가
project_root = Path.cwd().parent.parent
if str(project_root) not in sys.path:
    sys.path.insert(0, str(project_root))

from src.processors.document_processor import DocumentProcessor
from src.db.documents_db import DocumentsDB
from src.utils.logging_config import get_logger

logger = get_logger(__name__)
logger.info("테스트 환경 설정 완료")

Consider using the pymupdf_layout package for a greatly improved page layout analysis.
설정 검증 통과
2025-11-16 11:24:53 [I] [DOCDB] - DocumentsDB 모듈이 로드되었습니다.
2025-11-16 11:24:53 [I] [DOCDB] - DocumentsDB 모듈이 로드되었습니다.
2025-11-16 11:24:55 [I] [DOCDB] - DocumentsDB 모듈이 로드되었습니다.
2025-11-16 11:24:55 [I] __main__ - 테스트 환경 설정 완료


## 파일 하나만 넣기

In [6]:
# 하나만 넣기
def test_real_pdf_if_available() -> None:
    """실제 PDF 파일이 있는 경우 테스트"""
    from pathlib import Path
    
    # data/raw 디렉토리에서 PDF 파일 검색
    raw_dir = project_root / "data" / "pdf_conv_2"
    pdf_files = list(raw_dir.glob("*.pdf")) if raw_dir.exists() else []
    
    if not pdf_files:
        logger.warning("⚠ data/raw 디렉토리에 PDF 파일이 없습니다.")
        logger.info("테스트를 건너뜁니다. PDF 파일을 추가하려면:")
        logger.info(f"  경로: {raw_dir}")
        return
    
    logger.info(f"발견된 PDF 파일: {len(pdf_files)}개")
    
    # 첫 번째 PDF 파일 처리
    pdf_path = pdf_files[0]
    logger.info(f"처리 중: {pdf_path.name}")
    
    try:
        processor = DocumentProcessor(db_path=str(project_root / "data" / "test_documents.db"))
        file_hash = processor.process_pdf(str(pdf_path))
        
        if file_hash:
            logger.info(f"✓ PDF 처리 성공: {file_hash[:16]}...")
        else:
            logger.error("✗ PDF 처리 실패 (PyMuPDF 미설치 가능성)")
            
    except Exception as e:
        logger.error(f"✗ PDF 처리 중 오류: {e}")

# 실행
test_real_pdf_if_available()

2025-11-14 14:00:26 [I] __main__ - 발견된 PDF 파일: 100개
2025-11-14 14:00:26 [I] __main__ - 처리 중: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf
2025-11-14 14:00:26 [I] [DOCP] - DocumentProcessor 초기화 완료 (DB: /home/spai0438/codeit_ai_g2b_search/data/test_documents.db)
2025-11-14 14:00:26 [I] [DOCP] - PDF 처리 시작: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf
2025-11-14 14:00:26 [D] [DOCP] - 파일 해시: 5a28516e24903a44...


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-14 14:01:45 [I] [DOCP] - PDF 처리 완료: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf (96 페이지, 1675.0KB), 변환문자수=116,963
2025-11-14 14:01:45 [I] __main__ - ✓ PDF 처리 성공: 5a28516e24903a44...


## 전체 파일 로드해서 test_documents.db에 넣어보기

In [3]:
def test_real_pdf_if_available() -> None:
    """실제 PDF 파일이 있는 경우 테스트"""
    from pathlib import Path
    from tqdm import tqdm

    # data/raw 디렉토리에서 PDF 파일 검색
    raw_dir = project_root / "data" / "pdf_conv_3"
    pdf_files = list(raw_dir.glob("*.pdf")) if raw_dir.exists() else []
    
    if not pdf_files:
        logger.warning("⚠ data/raw 디렉토리에 PDF 파일이 없습니다.")
        logger.info("테스트를 건너뜁니다. PDF 파일을 추가하려면:")
        logger.info(f"  경로: {raw_dir}")
        return
    
    logger.info(f"발견된 PDF 파일: **{len(pdf_files)}**개")
    
    # DocumentProcessor 인스턴스를 루프 밖에서 한 번만 생성
    try:
        processor = DocumentProcessor(db_path=str(project_root / "data" / "test_documents_2.db"))
    except Exception as e:
        logger.error(f"✗ DocumentProcessor 초기화 중 오류: {e}")
        return

    count = 1 # 문서 처리 개수 세는 카운트
    # --- 모든 PDF 파일을 처리하는 반복문 구조 ---
    for pdf_path in pdf_files:
        logger.info(f"{len(pdf_files)}개 파일 중 {count}번째 파일 처리 중:  **{pdf_path.name}**")
        
        try:
            file_hash = processor.process_pdf(str(pdf_path))
            
            if file_hash:
                logger.info(f"✓ PDF 처리 성공: {file_hash[:16]}...")
            else:
                # process_pdf가 성공했지만 해시를 반환하지 않은 경우 (예: 파일이 비어 있음)
                logger.error(f"✗ PDF 처리 실패 (파일 해시 반환 안 됨): {pdf_path.name}")
                
        except Exception as e:
            # PyMuPDF 미설치 등 구체적인 오류를 로깅
            logger.error(f"✗ PDF 처리 중 오류 [{pdf_path.name}]: {e}")
        count += 1
            
    logger.info("모든 PDF 파일 처리가 완료되었습니다.")

# 실행
test_real_pdf_if_available()

2025-11-16 13:41:27 [I] __main__ - 발견된 PDF 파일: **100**개
2025-11-16 13:41:27 [I] [DOCDB] - 데이터베이스 버전 초기화: 1
2025-11-16 13:41:27 [I] [DOCP] - 마커 덤프 활성화: data/markers
2025-11-16 13:41:27 [D] [DOCP] - DB에 문서 없음
2025-11-16 13:41:27 [I] [DOCP] - DocumentProcessor 초기화 완료 (DB: /home/spai0438/codeit_ai_g2b_search/data/test_documents_2.db)
2025-11-16 13:41:27 [I] __main__ - 100개 파일 중 1번째 파일 처리 중:  **한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf**
2025-11-16 13:41:27 [I] [DOCP] - PDF 처리 시작: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf
2025-11-16 13:41:27 [D] [DOCP] - 파일 해시: 4343a16648873581...
2025-11-16 13:41:27 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 4343a1664887358147d0fd51982ca273ac5d500e966b2cfcb990e1ac2437bb0f)


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-16 13:42:33 [I] [DOCP] - PDF 처리 완료: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf (96 페이지, 1136.5KB), 변환문자수=148,690
2025-11-16 13:42:33 [I] __main__ - ✓ PDF 처리 성공: 4343a16648873581...
2025-11-16 13:42:33 [I] __main__ - 100개 파일 중 2번째 파일 처리 중:  **광주과학기술원_학사시스템 기능개선 사업.pdf**
2025-11-16 13:42:33 [I] [DOCP] - PDF 처리 시작: 광주과학기술원_학사시스템 기능개선 사업.pdf
2025-11-16 13:42:33 [D] [DOCP] - 파일 해시: ab7378a7405213f5...
2025-11-16 13:42:33 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: ab7378a7405213f53cf45a4f4ca4aabf22a38363c3331cadc9fddee266944e2f)


PDF to Markdown:   0%|          | 0/66 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/67 [00:00<?, ?page/s]

2025-11-16 13:44:00 [I] [DOCP] - PDF 처리 완료: 한국지식재산보호원_IP-NAVI  해외지식재산센터 사업관리 시스템 기능개.pdf (67 페이지, 3429.3KB), 변환문자수=120,096
2025-11-16 13:44:00 [I] __main__ - ✓ PDF 처리 성공: 414c85c8cdac884b...
2025-11-16 13:44:00 [I] __main__ - 100개 파일 중 4번째 파일 처리 중:  **경기도 평택시_2024년도 평택시 버스정보시스템(BIS) 구축사업.pdf**
2025-11-16 13:44:00 [I] [DOCP] - PDF 처리 시작: 경기도 평택시_2024년도 평택시 버스정보시스템(BIS) 구축사업.pdf
2025-11-16 13:44:00 [D] [DOCP] - 파일 해시: 7e8646aefc2387b1...
2025-11-16 13:44:00 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 7e8646aefc2387b142d2dfe6c0b57b2f4664dfd208608040023f4020fb33e812)


PDF to Markdown:   0%|          | 0/118 [00:00<?, ?page/s]

2025-11-16 13:47:08 [I] [DOCP] - PDF 처리 완료: 경기도 평택시_2024년도 평택시 버스정보시스템(BIS) 구축사업.pdf (118 페이지, 6994.4KB), 변환문자수=101,115
2025-11-16 13:47:08 [I] __main__ - ✓ PDF 처리 성공: 7e8646aefc2387b1...
2025-11-16 13:47:08 [I] __main__ - 100개 파일 중 5번째 파일 처리 중:  **경기도사회서비스원_2024년 통합사회정보시스템 운영지원.pdf**
2025-11-16 13:47:08 [I] [DOCP] - PDF 처리 시작: 경기도사회서비스원_2024년 통합사회정보시스템 운영지원.pdf
2025-11-16 13:47:08 [D] [DOCP] - 파일 해시: 201b4f3158dcb639...
2025-11-16 13:47:08 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 201b4f3158dcb6391574858827e2d7408a48c00429fd32a8d7b2234b0c8ac4f6)


PDF to Markdown:   0%|          | 0/113 [00:00<?, ?page/s]

2025-11-16 13:48:15 [I] [DOCP] - PDF 처리 완료: 경기도사회서비스원_2024년 통합사회정보시스템 운영지원.pdf (113 페이지, 1321.4KB), 변환문자수=100,996
2025-11-16 13:48:15 [I] __main__ - ✓ PDF 처리 성공: 201b4f3158dcb639...
2025-11-16 13:48:15 [I] __main__ - 100개 파일 중 6번째 파일 처리 중:  **(재)예술경영지원센터_통합 정보시스템 구축 사전 컨설팅.pdf**
2025-11-16 13:48:15 [I] [DOCP] - PDF 처리 시작: (재)예술경영지원센터_통합 정보시스템 구축 사전 컨설팅.pdf
2025-11-16 13:48:15 [D] [DOCP] - 파일 해시: 509a434dd401b200...
2025-11-16 13:48:15 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 509a434dd401b2007dd176a6055a2cb3f100fec9b2043116778287bff72e10e2)


PDF to Markdown:   0%|          | 0/58 [00:00<?, ?page/s]

2025-11-16 13:48:52 [I] [DOCP] - PDF 처리 완료: (재)예술경영지원센터_통합 정보시스템 구축 사전 컨설팅.pdf (58 페이지, 1067.1KB), 변환문자수=58,245
2025-11-16 13:48:52 [I] __main__ - ✓ PDF 처리 성공: 509a434dd401b200...
2025-11-16 13:48:52 [I] __main__ - 100개 파일 중 7번째 파일 처리 중:  **축산물품질평가원_꿀 품질평가 전산시스템 기능개선 사업.pdf**
2025-11-16 13:48:52 [I] [DOCP] - PDF 처리 시작: 축산물품질평가원_꿀 품질평가 전산시스템 기능개선 사업.pdf
2025-11-16 13:48:52 [D] [DOCP] - 파일 해시: 55d50cf0d9bb386c...
2025-11-16 13:48:52 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 55d50cf0d9bb386c5bbd34cf26019c186cf92e99000dab327485a2deed0b96cc)


PDF to Markdown:   0%|          | 0/87 [00:00<?, ?page/s]

2025-11-16 13:50:15 [I] [DOCP] - PDF 처리 완료: 축산물품질평가원_꿀 품질평가 전산시스템 기능개선 사업.pdf (87 페이지, 2484.4KB), 변환문자수=112,394
2025-11-16 13:50:15 [I] __main__ - ✓ PDF 처리 성공: 55d50cf0d9bb386c...
2025-11-16 13:50:15 [I] __main__ - 100개 파일 중 8번째 파일 처리 중:  **한국사회보장정보원_라오스 보건의료정보화 협력을 위한 사전타당성 조.pdf**
2025-11-16 13:50:15 [I] [DOCP] - PDF 처리 시작: 한국사회보장정보원_라오스 보건의료정보화 협력을 위한 사전타당성 조.pdf
2025-11-16 13:50:15 [D] [DOCP] - 파일 해시: 9ff7f72151e55c48...
2025-11-16 13:50:15 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 9ff7f72151e55c48fc4f8086c957b4cce5e72a3ca25e7d62e9cc334e87e2ff39)


PDF to Markdown:   0%|          | 0/74 [00:00<?, ?page/s]

2025-11-16 13:51:27 [I] [DOCP] - PDF 처리 완료: 한국사회보장정보원_라오스 보건의료정보화 협력을 위한 사전타당성 조.pdf (74 페이지, 1679.7KB), 변환문자수=51,276
2025-11-16 13:51:27 [I] __main__ - ✓ PDF 처리 성공: 9ff7f72151e55c48...
2025-11-16 13:51:27 [I] __main__ - 100개 파일 중 9번째 파일 처리 중:  **한국농어촌공사_아세안+3 식량안보정보시스템(AFSIS) 3단계 협력(캄보디아.pdf**
2025-11-16 13:51:27 [I] [DOCP] - PDF 처리 시작: 한국농어촌공사_아세안+3 식량안보정보시스템(AFSIS) 3단계 협력(캄보디아.pdf
2025-11-16 13:51:27 [D] [DOCP] - 파일 해시: 0a1956ac155f0c6a...
2025-11-16 13:51:27 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 0a1956ac155f0c6af3da4ffd97705387feae1aae484fe5708c91cc9aaf116996)


PDF to Markdown:   0%|          | 0/135 [00:00<?, ?page/s]

2025-11-16 13:54:52 [I] [DOCP] - PDF 처리 완료: 한국농어촌공사_아세안+3 식량안보정보시스템(AFSIS) 3단계 협력(캄보디아.pdf (135 페이지, 5233.3KB), 변환문자수=134,449
2025-11-16 13:54:52 [I] __main__ - ✓ PDF 처리 성공: 0a1956ac155f0c6a...
2025-11-16 13:54:52 [I] __main__ - 100개 파일 중 10번째 파일 처리 중:  **한국수자원공사_건설통합시스템(CMS) 고도화.pdf**
2025-11-16 13:54:52 [I] [DOCP] - PDF 처리 시작: 한국수자원공사_건설통합시스템(CMS) 고도화.pdf
2025-11-16 13:54:52 [D] [DOCP] - 파일 해시: bac8cbc59f150be9...
2025-11-16 13:54:52 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: bac8cbc59f150be9e02020283b55c40a915d81016c4a63d582240bab336b8101)


PDF to Markdown:   0%|          | 0/85 [00:00<?, ?page/s]

2025-11-16 13:56:19 [I] [DOCP] - PDF 처리 완료: 한국수자원공사_건설통합시스템(CMS) 고도화.pdf (85 페이지, 2386.8KB), 변환문자수=62,612
2025-11-16 13:56:19 [I] __main__ - ✓ PDF 처리 성공: bac8cbc59f150be9...
2025-11-16 13:56:19 [I] __main__ - 100개 파일 중 11번째 파일 처리 중:  **국방과학연구소_기록관리시스템 통합 활용 및 보안 환경 구축.pdf**
2025-11-16 13:56:19 [I] [DOCP] - PDF 처리 시작: 국방과학연구소_기록관리시스템 통합 활용 및 보안 환경 구축.pdf
2025-11-16 13:56:19 [D] [DOCP] - 파일 해시: 02823fbb43906e41...
2025-11-16 13:56:19 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 02823fbb43906e4170150a2d0e8872068191307e10c8c82917707abeb275b044)


PDF to Markdown:   0%|          | 0/69 [00:00<?, ?page/s]

2025-11-16 13:57:04 [I] [DOCP] - PDF 처리 완료: 국방과학연구소_기록관리시스템 통합 활용 및 보안 환경 구축.pdf (69 페이지, 1319.6KB), 변환문자수=76,326
2025-11-16 13:57:04 [I] __main__ - ✓ PDF 처리 성공: 02823fbb43906e41...
2025-11-16 13:57:04 [I] __main__ - 100개 파일 중 12번째 파일 처리 중:  **한국농어촌공사_네팔 수자원관리 정보화사업-Pilot 시스템 구축용역.pdf**
2025-11-16 13:57:04 [I] [DOCP] - PDF 처리 시작: 한국농어촌공사_네팔 수자원관리 정보화사업-Pilot 시스템 구축용역.pdf
2025-11-16 13:57:04 [D] [DOCP] - 파일 해시: 10236846fdb05251...
2025-11-16 13:57:04 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 10236846fdb0525199e58af6d915099420fe1aba4d7f648b76449e73647632b6)


PDF to Markdown:   0%|          | 0/116 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/106 [00:00<?, ?page/s]

2025-11-16 14:02:55 [I] [DOCP] - PDF 처리 완료: 한국철도공사 (용역)_예약발매시스템 개량 ISMP 용역.pdf (106 페이지, 3724.6KB), 변환문자수=94,804
2025-11-16 14:02:55 [I] __main__ - ✓ PDF 처리 성공: 44a7b178a143ae90...
2025-11-16 14:02:55 [I] __main__ - 100개 파일 중 14번째 파일 처리 중:  **기초과학연구원_2025년도 중이온가속기용 극저온시스템 운전 용역.pdf**
2025-11-16 14:02:55 [I] [DOCP] - PDF 처리 시작: 기초과학연구원_2025년도 중이온가속기용 극저온시스템 운전 용역.pdf
2025-11-16 14:02:55 [D] [DOCP] - 파일 해시: 56e5a8ae813dbddf...
2025-11-16 14:02:55 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 56e5a8ae813dbddfe5d46b5e5b6c0ea55ba121950217d0ef0aa8a0821f80bcce)


PDF to Markdown:   0%|          | 0/49 [00:00<?, ?page/s]

2025-11-16 14:03:56 [I] [DOCP] - PDF 처리 완료: 기초과학연구원_2025년도 중이온가속기용 극저온시스템 운전 용역.pdf (49 페이지, 627.1KB), 변환문자수=67,441
2025-11-16 14:03:56 [I] __main__ - ✓ PDF 처리 성공: 56e5a8ae813dbddf...
2025-11-16 14:03:56 [I] __main__ - 100개 파일 중 15번째 파일 처리 중:  **국가철도공단_철도인프라 디지털트윈 정보화전략계획(ISP) 수립 용역(변.pdf**
2025-11-16 14:03:56 [I] [DOCP] - PDF 처리 시작: 국가철도공단_철도인프라 디지털트윈 정보화전략계획(ISP) 수립 용역(변.pdf
2025-11-16 14:03:56 [D] [DOCP] - 파일 해시: 0a67bcddc24c721c...
2025-11-16 14:03:56 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 0a67bcddc24c721c052bcc80a9a07e7ff795bb31e09becf552569a3bfd18d13d)


PDF to Markdown:   0%|          | 0/95 [00:00<?, ?page/s]

2025-11-16 14:05:05 [I] [DOCP] - PDF 처리 완료: 국가철도공단_철도인프라 디지털트윈 정보화전략계획(ISP) 수립 용역(변.pdf (95 페이지, 2669.5KB), 변환문자수=67,166
2025-11-16 14:05:05 [I] __main__ - ✓ PDF 처리 성공: 0a67bcddc24c721c...
2025-11-16 14:05:05 [I] __main__ - 100개 파일 중 16번째 파일 처리 중:  **남서울대학교_[혁신-국고] 남서울대학교 스마트 정보시스템 활성화(학사.pdf**
2025-11-16 14:05:05 [I] [DOCP] - PDF 처리 시작: 남서울대학교_[혁신-국고] 남서울대학교 스마트 정보시스템 활성화(학사.pdf
2025-11-16 14:05:05 [D] [DOCP] - 파일 해시: 7c80d89112f13504...
2025-11-16 14:05:05 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 7c80d89112f135045145d20715bb33621203ddc9372e0c50b46e7cc82dfc0ecc)


PDF to Markdown:   0%|          | 0/92 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/128 [00:00<?, ?page/s]

2025-11-16 14:08:10 [I] [DOCP] - PDF 처리 완료: 한국사학진흥재단_대학재정정보시스템(기본재산 및 기채 사후관리) 고.pdf (128 페이지, 3150.2KB), 변환문자수=158,873
2025-11-16 14:08:10 [I] __main__ - ✓ PDF 처리 성공: aa71134212e511b0...
2025-11-16 14:08:10 [I] __main__ - 100개 파일 중 18번째 파일 처리 중:  **한국수출입은행_(긴급) 모잠비크 마푸토 지능형교통시스템(ITS) 구축사업.pdf**
2025-11-16 14:08:10 [I] [DOCP] - PDF 처리 시작: 한국수출입은행_(긴급) 모잠비크 마푸토 지능형교통시스템(ITS) 구축사업.pdf
2025-11-16 14:08:10 [D] [DOCP] - 파일 해시: 644c0aaf697b098b...
2025-11-16 14:08:10 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 644c0aaf697b098be68d3c90469c4b0db65cf1f26003274d107d91c9d20fe7f8)


PDF to Markdown:   0%|          | 0/90 [00:00<?, ?page/s]

2025-11-16 14:10:22 [I] [DOCP] - PDF 처리 완료: 한국수출입은행_(긴급) 모잠비크 마푸토 지능형교통시스템(ITS) 구축사업.pdf (90 페이지, 2781.0KB), 변환문자수=72,759
2025-11-16 14:10:22 [I] __main__ - ✓ PDF 처리 성공: 644c0aaf697b098b...
2025-11-16 14:10:22 [I] __main__ - 100개 파일 중 19번째 파일 처리 중:  **한국철도공사 (용역)_모바일오피스 시스템 고도화 용역(총체 및 1차).pdf**
2025-11-16 14:10:22 [I] [DOCP] - PDF 처리 시작: 한국철도공사 (용역)_모바일오피스 시스템 고도화 용역(총체 및 1차).pdf
2025-11-16 14:10:22 [D] [DOCP] - 파일 해시: 48329b2a62ce8c01...
2025-11-16 14:10:22 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 48329b2a62ce8c0195cec11fead365afeb54f889513ebbd9a733f3a5426adfb4)


PDF to Markdown:   0%|          | 0/181 [00:00<?, ?page/s]

2025-11-16 14:14:54 [I] [DOCP] - PDF 처리 완료: 한국철도공사 (용역)_모바일오피스 시스템 고도화 용역(총체 및 1차).pdf (181 페이지, 6828.0KB), 변환문자수=176,798
2025-11-16 14:14:54 [I] __main__ - ✓ PDF 처리 성공: 48329b2a62ce8c01...
2025-11-16 14:14:54 [I] __main__ - 100개 파일 중 20번째 파일 처리 중:  **부산관광공사_경영정보시스템 기능개선.pdf**
2025-11-16 14:14:54 [I] [DOCP] - PDF 처리 시작: 부산관광공사_경영정보시스템 기능개선.pdf
2025-11-16 14:14:54 [D] [DOCP] - 파일 해시: 8744a5de8ee12593...
2025-11-16 14:14:54 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 8744a5de8ee125931f7e26ec6979f82d8bdc66792066e5578e35050ea095264f)


PDF to Markdown:   0%|          | 0/102 [00:00<?, ?page/s]

2025-11-16 14:15:53 [I] [DOCP] - PDF 처리 완료: 부산관광공사_경영정보시스템 기능개선.pdf (102 페이지, 1642.2KB), 변환문자수=96,199
2025-11-16 14:15:53 [I] __main__ - ✓ PDF 처리 성공: 8744a5de8ee12593...
2025-11-16 14:15:53 [I] __main__ - 100개 파일 중 21번째 파일 처리 중:  **고양도시관리공사_관산근린공원 다목적구장 홈페이지 및 회원 통합운영.pdf**
2025-11-16 14:15:53 [I] [DOCP] - PDF 처리 시작: 고양도시관리공사_관산근린공원 다목적구장 홈페이지 및 회원 통합운영.pdf
2025-11-16 14:15:53 [D] [DOCP] - 파일 해시: c9347ae127848bfd...
2025-11-16 14:15:53 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: c9347ae127848bfdc78a61f6eaccd9717257d68c9ef51c276e2e46efbb71be89)


PDF to Markdown:   0%|          | 0/95 [00:00<?, ?page/s]

2025-11-16 14:17:05 [I] [DOCP] - PDF 처리 완료: 고양도시관리공사_관산근린공원 다목적구장 홈페이지 및 회원 통합운영.pdf (95 페이지, 1621.7KB), 변환문자수=94,203
2025-11-16 14:17:05 [I] __main__ - ✓ PDF 처리 성공: c9347ae127848bfd...
2025-11-16 14:17:05 [I] __main__ - 100개 파일 중 22번째 파일 처리 중:  **한국수자원공사_용인 첨단 시스템반도체 국가산단 용수공급사업 타당성.pdf**
2025-11-16 14:17:05 [I] [DOCP] - PDF 처리 시작: 한국수자원공사_용인 첨단 시스템반도체 국가산단 용수공급사업 타당성.pdf
2025-11-16 14:17:05 [D] [DOCP] - 파일 해시: 70b3cd619d41c88b...
2025-11-16 14:17:05 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 70b3cd619d41c88b70e41beb1a250530b838d7e3881cdfb871bcc162dfc8c22d)


PDF to Markdown:   0%|          | 0/55 [00:00<?, ?page/s]

2025-11-16 14:17:27 [I] [DOCP] - PDF 처리 완료: 한국수자원공사_용인 첨단 시스템반도체 국가산단 용수공급사업 타당성.pdf (55 페이지, 484.2KB), 변환문자수=53,011
2025-11-16 14:17:27 [I] __main__ - ✓ PDF 처리 성공: 70b3cd619d41c88b...
2025-11-16 14:17:27 [I] __main__ - 100개 파일 중 23번째 파일 처리 중:  **서영대학교 산학협력단_전문대학 혁신지원사업 서영대학교 차세대 교육.pdf**
2025-11-16 14:17:27 [I] [DOCP] - PDF 처리 시작: 서영대학교 산학협력단_전문대학 혁신지원사업 서영대학교 차세대 교육.pdf
2025-11-16 14:17:27 [D] [DOCP] - 파일 해시: 667d652a88e4a33b...
2025-11-16 14:17:27 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 667d652a88e4a33beee63c310f6bc22f1a557f93a36e19411b33417379ba7997)


PDF to Markdown:   0%|          | 0/118 [00:00<?, ?page/s]

2025-11-16 14:18:52 [I] [DOCP] - PDF 처리 완료: 서영대학교 산학협력단_전문대학 혁신지원사업 서영대학교 차세대 교육.pdf (118 페이지, 1554.1KB), 변환문자수=124,432
2025-11-16 14:18:52 [I] __main__ - ✓ PDF 처리 성공: 667d652a88e4a33b...
2025-11-16 14:18:52 [I] __main__ - 100개 파일 중 24번째 파일 처리 중:  **대전대학교_대전대학교 2024학년도 다층적 융합 학습경험 플랫폼(MILE) 전.pdf**
2025-11-16 14:18:52 [I] [DOCP] - PDF 처리 시작: 대전대학교_대전대학교 2024학년도 다층적 융합 학습경험 플랫폼(MILE) 전.pdf
2025-11-16 14:18:52 [D] [DOCP] - 파일 해시: c65cfcfd4c0ffb9c...
2025-11-16 14:18:52 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: c65cfcfd4c0ffb9c0636ac74432f4bdd98cc7ae2c1a1ce23b3a38db2fe305bbc)


PDF to Markdown:   0%|          | 0/72 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/88 [00:00<?, ?page/s]

2025-11-16 14:20:36 [I] [DOCP] - PDF 처리 완료: 재단법인 광주광역시 광주문화재단_2024년 광주문화예술통합플랫폼 시스.pdf (88 페이지, 941.4KB), 변환문자수=117,957
2025-11-16 14:20:36 [I] __main__ - ✓ PDF 처리 성공: 44f555ac73c7b284...
2025-11-16 14:20:36 [I] __main__ - 100개 파일 중 26번째 파일 처리 중:  **재단법인스포츠윤리센터_스포츠윤리센터 LMS(학습지원시스템) 기능개선.pdf**
2025-11-16 14:20:36 [I] [DOCP] - PDF 처리 시작: 재단법인스포츠윤리센터_스포츠윤리센터 LMS(학습지원시스템) 기능개선.pdf
2025-11-16 14:20:36 [D] [DOCP] - 파일 해시: 0fee887b05ab66e3...
2025-11-16 14:20:36 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 0fee887b05ab66e3a1b60dad2603422060c9008fa1def8f2f8fa5f81d4d22aaf)


PDF to Markdown:   0%|          | 0/102 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/85 [00:00<?, ?page/s]

2025-11-16 14:22:48 [I] [DOCP] - PDF 처리 완료: 인천광역시_인천일자리플랫폼 정보시스템 구축 ISP 수립용역.pdf (85 페이지, 2961.2KB), 변환문자수=120,212
2025-11-16 14:22:48 [I] __main__ - ✓ PDF 처리 성공: bf843e4e3157925a...
2025-11-16 14:22:48 [I] __main__ - 100개 파일 중 28번째 파일 처리 중:  **한국어촌어항공단_한국어촌어항공단 경영관리시스템(ERP·GW) 기능 고도.pdf**
2025-11-16 14:22:48 [I] [DOCP] - PDF 처리 시작: 한국어촌어항공단_한국어촌어항공단 경영관리시스템(ERP·GW) 기능 고도.pdf
2025-11-16 14:22:48 [D] [DOCP] - 파일 해시: 4c351d8528ae6d8a...
2025-11-16 14:22:48 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 4c351d8528ae6d8a9ba7514eefaa837764e7d666caac8184b59dc3c659de13f8)


PDF to Markdown:   0%|          | 0/107 [00:00<?, ?page/s]

2025-11-16 14:24:20 [I] [DOCP] - PDF 처리 완료: 한국어촌어항공단_한국어촌어항공단 경영관리시스템(ERP·GW) 기능 고도.pdf (107 페이지, 2920.1KB), 변환문자수=137,988
2025-11-16 14:24:20 [I] __main__ - ✓ PDF 처리 성공: 4c351d8528ae6d8a...
2025-11-16 14:24:20 [I] __main__ - 100개 파일 중 29번째 파일 처리 중:  **BioIN_의료기기산업 종합정보시스템(정보관리기관) 기능개선 사업(2차).pdf**
2025-11-16 14:24:20 [I] [DOCP] - PDF 처리 시작: BioIN_의료기기산업 종합정보시스템(정보관리기관) 기능개선 사업(2차).pdf
2025-11-16 14:24:20 [D] [DOCP] - 파일 해시: 072e0165e5d55f26...
2025-11-16 14:24:20 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 072e0165e5d55f266ab4a8f9b781d0f55bb6ee10c7b04584bf36a96884cc0292)


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-16 14:25:47 [I] [DOCP] - PDF 처리 완료: BioIN_의료기기산업 종합정보시스템(정보관리기관) 기능개선 사업(2차).pdf (96 페이지, 3418.8KB), 변환문자수=83,167
2025-11-16 14:25:47 [I] __main__ - ✓ PDF 처리 성공: 072e0165e5d55f26...
2025-11-16 14:25:47 [I] __main__ - 100개 파일 중 30번째 파일 처리 중:  **한국수자원공사_수도사업장 통합 사고분석솔루션 시범구축 용역.pdf**
2025-11-16 14:25:47 [I] [DOCP] - PDF 처리 시작: 한국수자원공사_수도사업장 통합 사고분석솔루션 시범구축 용역.pdf
2025-11-16 14:25:47 [D] [DOCP] - 파일 해시: 9e96f0974d55a841...
2025-11-16 14:25:47 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 9e96f0974d55a841de6dbbfc97b7cb0d9b7d66e49f7c1c4e661c716769a7c09d)


PDF to Markdown:   0%|          | 0/71 [00:00<?, ?page/s]

2025-11-16 14:27:04 [I] [DOCP] - PDF 처리 완료: 한국수자원공사_수도사업장 통합 사고분석솔루션 시범구축 용역.pdf (71 페이지, 4062.5KB), 변환문자수=55,506
2025-11-16 14:27:04 [I] __main__ - ✓ PDF 처리 성공: 9e96f0974d55a841...
2025-11-16 14:27:04 [I] __main__ - 100개 파일 중 31번째 파일 처리 중:  **한국철도공사 (용역)_[재공고][긴급][협상형]운행정보기록 자동분석시스.pdf**
2025-11-16 14:27:04 [I] [DOCP] - PDF 처리 시작: 한국철도공사 (용역)_[재공고][긴급][협상형]운행정보기록 자동분석시스.pdf
2025-11-16 14:27:04 [D] [DOCP] - 파일 해시: 680ae6a93ee05164...
2025-11-16 14:27:04 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 680ae6a93ee0516461a488224229557de20b581a1d86348226a9c38416790eeb)


PDF to Markdown:   0%|          | 0/151 [00:00<?, ?page/s]

2025-11-16 14:30:17 [I] [DOCP] - PDF 처리 완료: 한국철도공사 (용역)_[재공고][긴급][협상형]운행정보기록 자동분석시스.pdf (151 페이지, 6527.1KB), 변환문자수=133,983
2025-11-16 14:30:17 [I] __main__ - ✓ PDF 처리 성공: 680ae6a93ee05164...
2025-11-16 14:30:17 [I] __main__ - 100개 파일 중 32번째 파일 처리 중:  **조선대학교_(재공고)2024 조선대학교 SW중심대학 사업관리시스템(WeHub) 구.pdf**
2025-11-16 14:30:17 [I] [DOCP] - PDF 처리 시작: 조선대학교_(재공고)2024 조선대학교 SW중심대학 사업관리시스템(WeHub) 구.pdf
2025-11-16 14:30:17 [D] [DOCP] - 파일 해시: 4ebcc77a6709553b...
2025-11-16 14:30:17 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 4ebcc77a6709553be3b34586374d7cde3fe9d754a2315b76eace70119c3fe8b2)


PDF to Markdown:   0%|          | 0/52 [00:00<?, ?page/s]

2025-11-16 14:30:43 [I] [DOCP] - PDF 처리 완료: 조선대학교_(재공고)2024 조선대학교 SW중심대학 사업관리시스템(WeHub) 구.pdf (52 페이지, 722.4KB), 변환문자수=49,933
2025-11-16 14:30:43 [I] __main__ - ✓ PDF 처리 성공: 4ebcc77a6709553b...
2025-11-16 14:30:43 [I] __main__ - 100개 파일 중 33번째 파일 처리 중:  **한국재정정보원_e나라도움 업무시스템 웹 접근성 컨설팅.pdf**
2025-11-16 14:30:43 [I] [DOCP] - PDF 처리 시작: 한국재정정보원_e나라도움 업무시스템 웹 접근성 컨설팅.pdf
2025-11-16 14:30:43 [D] [DOCP] - 파일 해시: 6bbbc3e34a4436c9...
2025-11-16 14:30:43 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 6bbbc3e34a4436c91246f307ae42c21c5dca1fa7f6f5c7a75967c00c622e29e6)


PDF to Markdown:   0%|          | 0/97 [00:00<?, ?page/s]

2025-11-16 14:32:56 [I] [DOCP] - PDF 처리 완료: 한국재정정보원_e나라도움 업무시스템 웹 접근성 컨설팅.pdf (97 페이지, 7170.9KB), 변환문자수=88,137
2025-11-16 14:32:56 [I] __main__ - ✓ PDF 처리 성공: 6bbbc3e34a4436c9...
2025-11-16 14:32:56 [I] __main__ - 100개 파일 중 34번째 파일 처리 중:  **(사）한국대학스포츠협의회_KUSF 체육특기자 경기기록 관리시스템 개발.pdf**
2025-11-16 14:32:56 [I] [DOCP] - PDF 처리 시작: (사）한국대학스포츠협의회_KUSF 체육특기자 경기기록 관리시스템 개발.pdf
2025-11-16 14:32:56 [D] [DOCP] - 파일 해시: 4c820d89387034e3...
2025-11-16 14:32:56 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 4c820d89387034e33ae353a0bc19b4c49f1fed8d7649bd5f304e56101f195d57)


PDF to Markdown:   0%|          | 0/80 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/67 [00:00<?, ?page/s]

2025-11-16 14:36:30 [I] [DOCP] - PDF 처리 완료: 수협중앙회_강릉어선안전조업국 상황관제시스템 구축.pdf (67 페이지, 1870.3KB), 변환문자수=77,640
2025-11-16 14:36:30 [I] __main__ - ✓ PDF 처리 성공: d78b35690bb2203b...
2025-11-16 14:36:30 [I] __main__ - 100개 파일 중 36번째 파일 처리 중:  **국민연금공단_사업장 사회보험료 지원 고시 개정에 따른 정보시스템 보.pdf**
2025-11-16 14:36:30 [I] [DOCP] - PDF 처리 시작: 국민연금공단_사업장 사회보험료 지원 고시 개정에 따른 정보시스템 보.pdf
2025-11-16 14:36:30 [D] [DOCP] - 파일 해시: 6fd869c72adbcb8e...
2025-11-16 14:36:30 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 6fd869c72adbcb8ef4f6e517e2c141499cc1826a4bd34ac95d5ae6d9fc3cd004)


PDF to Markdown:   0%|          | 0/79 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/126 [00:00<?, ?page/s]

2025-11-16 14:40:25 [I] [DOCP] - PDF 처리 완료: 한국산업단지공단_산단 안전정보시스템 1차 구축 용역.pdf (126 페이지, 8236.2KB), 변환문자수=136,270
2025-11-16 14:40:25 [I] __main__ - ✓ PDF 처리 성공: 2d5a1bb503057928...
2025-11-16 14:40:25 [I] __main__ - 100개 파일 중 38번째 파일 처리 중:  **경희대학교_[입찰공고] 산학협력단 정보시스템 운영 용역업체 선정.pdf**
2025-11-16 14:40:25 [I] [DOCP] - PDF 처리 시작: 경희대학교_[입찰공고] 산학협력단 정보시스템 운영 용역업체 선정.pdf
2025-11-16 14:40:25 [D] [DOCP] - 파일 해시: 870893c7350b0e22...
2025-11-16 14:40:25 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 870893c7350b0e228afcea3baa263f8966508e48d8e239fb62b32cd6f6a28682)


PDF to Markdown:   0%|          | 0/48 [00:00<?, ?page/s]

2025-11-16 14:40:44 [I] [DOCP] - PDF 처리 완료: 경희대학교_[입찰공고] 산학협력단 정보시스템 운영 용역업체 선정.pdf (48 페이지, 406.1KB), 변환문자수=56,766
2025-11-16 14:40:44 [I] __main__ - ✓ PDF 처리 성공: 870893c7350b0e22...
2025-11-16 14:40:44 [I] __main__ - 100개 파일 중 39번째 파일 처리 중:  **한국산업인력공단_RFID기반 국가자격 시험 결과물 스마트 관리시스템 도.pdf**
2025-11-16 14:40:44 [I] [DOCP] - PDF 처리 시작: 한국산업인력공단_RFID기반 국가자격 시험 결과물 스마트 관리시스템 도.pdf
2025-11-16 14:40:44 [D] [DOCP] - 파일 해시: ac277011812e790e...
2025-11-16 14:40:44 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: ac277011812e790eec63cb674d08d676a4b963589a9063ab5a8662d273a8f904)


PDF to Markdown:   0%|          | 0/57 [00:00<?, ?page/s]

2025-11-16 14:41:18 [I] [DOCP] - PDF 처리 완료: 한국산업인력공단_RFID기반 국가자격 시험 결과물 스마트 관리시스템 도.pdf (57 페이지, 1176.8KB), 변환문자수=58,800
2025-11-16 14:41:18 [I] __main__ - ✓ PDF 처리 성공: ac277011812e790e...
2025-11-16 14:41:18 [I] __main__ - 100개 파일 중 40번째 파일 처리 중:  **인천공항운영서비스(주)_인천공항운영서비스㈜ 차세대 ERP시스템 구축 .pdf**
2025-11-16 14:41:18 [I] [DOCP] - PDF 처리 시작: 인천공항운영서비스(주)_인천공항운영서비스㈜ 차세대 ERP시스템 구축 .pdf
2025-11-16 14:41:18 [D] [DOCP] - 파일 해시: 5074ecd7f5c0c08f...
2025-11-16 14:41:18 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 5074ecd7f5c0c08f9885af48556a988763a36e66f8ad5bb22bcf91f1defa0e12)


PDF to Markdown:   0%|          | 0/68 [00:00<?, ?page/s]

2025-11-16 14:41:59 [D] [DOCP] - 마커 덤프 저장: data/markers/인천공항운영서비스(주)_인천공항운영서비스㈜ 차세대 ERP시스템 구축 .md
2025-11-16 14:41:59 [I] [DOCP] - 마커 덤프 생성: 인천공항운영서비스(주)_인천공항운영서비스㈜ 차세대 ERP시스템 구축 .md
2025-11-16 14:41:59 [I] [DOCP] - PDF 처리 완료: 인천공항운영서비스(주)_인천공항운영서비스㈜ 차세대 ERP시스템 구축 .pdf (68 페이지, 637.2KB), 변환문자수=72,769
2025-11-16 14:41:59 [I] __main__ - ✓ PDF 처리 성공: 5074ecd7f5c0c08f...
2025-11-16 14:41:59 [I] __main__ - 100개 파일 중 41번째 파일 처리 중:  **수협중앙회_수협중앙회 수산물사이버직매장 시스템 재구축 ISMP 수립 입.pdf**
2025-11-16 14:41:59 [I] [DOCP] - PDF 처리 시작: 수협중앙회_수협중앙회 수산물사이버직매장 시스템 재구축 ISMP 수립 입.pdf
2025-11-16 14:41:59 [D] [DOCP] - 파일 해시: 2dda41072185ffc0...
2025-11-16 14:41:59 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 2dda41072185ffc0d6f2a84096e13c05d5b939cd09b032825d72b2dbf66acbb3)


PDF to Markdown:   0%|          | 0/89 [00:00<?, ?page/s]

2025-11-16 14:43:00 [I] [DOCP] - PDF 처리 완료: 수협중앙회_수협중앙회 수산물사이버직매장 시스템 재구축 ISMP 수립 입.pdf (89 페이지, 2103.8KB), 변환문자수=87,312
2025-11-16 14:43:00 [I] __main__ - ✓ PDF 처리 성공: 2dda41072185ffc0...
2025-11-16 14:43:00 [I] __main__ - 100개 파일 중 42번째 파일 처리 중:  **한국교육과정평가원_국가교육과정정보센터(NCIC) 시스템 운영 및 개선.pdf**
2025-11-16 14:43:00 [I] [DOCP] - PDF 처리 시작: 한국교육과정평가원_국가교육과정정보센터(NCIC) 시스템 운영 및 개선.pdf
2025-11-16 14:43:00 [D] [DOCP] - 파일 해시: 0b836995f9eda2f5...
2025-11-16 14:43:00 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 0b836995f9eda2f51ea480c813d9c33d93293332ee287c6053092506964ee791)


PDF to Markdown:   0%|          | 0/63 [00:00<?, ?page/s]

2025-11-16 14:43:36 [I] [DOCP] - PDF 처리 완료: 한국교육과정평가원_국가교육과정정보센터(NCIC) 시스템 운영 및 개선.pdf (63 페이지, 1475.1KB), 변환문자수=62,430
2025-11-16 14:43:36 [I] __main__ - ✓ PDF 처리 성공: 0b836995f9eda2f5...
2025-11-16 14:43:36 [I] __main__ - 100개 파일 중 43번째 파일 처리 중:  **2025 구미 아시아육상경기선수권대회 조직위원회_2025 구미아시아육상경.pdf**
2025-11-16 14:43:36 [I] [DOCP] - PDF 처리 시작: 2025 구미 아시아육상경기선수권대회 조직위원회_2025 구미아시아육상경.pdf
2025-11-16 14:43:36 [D] [DOCP] - 파일 해시: 5588489491defa48...
2025-11-16 14:43:36 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 5588489491defa48253616130d2c3fc414dfc85b7f8047677a3958f59a17480f)


PDF to Markdown:   0%|          | 0/63 [00:00<?, ?page/s]

2025-11-16 14:44:21 [I] [DOCP] - PDF 처리 완료: 2025 구미 아시아육상경기선수권대회 조직위원회_2025 구미아시아육상경.pdf (63 페이지, 2042.4KB), 변환문자수=109,762
2025-11-16 14:44:21 [I] __main__ - ✓ PDF 처리 성공: 5588489491defa48...
2025-11-16 14:44:21 [I] __main__ - 100개 파일 중 44번째 파일 처리 중:  **국가과학기술지식정보서비스_통합정보시스템 고도화 용역.pdf**
2025-11-16 14:44:21 [I] [DOCP] - PDF 처리 시작: 국가과학기술지식정보서비스_통합정보시스템 고도화 용역.pdf
2025-11-16 14:44:21 [D] [DOCP] - 파일 해시: 85e4fc5428449471...
2025-11-16 14:44:21 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 85e4fc542844947191a6cc720f53ff453e999b17820803fb622ec2026e7f37b3)


PDF to Markdown:   0%|          | 0/83 [00:00<?, ?page/s]

2025-11-16 14:45:48 [I] [DOCP] - PDF 처리 완료: 국가과학기술지식정보서비스_통합정보시스템 고도화 용역.pdf (83 페이지, 4153.8KB), 변환문자수=77,389
2025-11-16 14:45:48 [I] __main__ - ✓ PDF 처리 성공: 85e4fc5428449471...
2025-11-16 14:45:48 [I] __main__ - 100개 파일 중 45번째 파일 처리 중:  **대한장애인체육회_2025년 전국장애인체육대회 전산 및 시스템, 홈페이지 .pdf**
2025-11-16 14:45:48 [I] [DOCP] - PDF 처리 시작: 대한장애인체육회_2025년 전국장애인체육대회 전산 및 시스템, 홈페이지 .pdf
2025-11-16 14:45:48 [D] [DOCP] - 파일 해시: 6141e028f836143f...
2025-11-16 14:45:48 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 6141e028f836143fccddc24f4fa68eefb4d7e94ec966314d42ccd9f7cb1231e0)


PDF to Markdown:   0%|          | 0/66 [00:00<?, ?page/s]

2025-11-16 14:46:37 [D] [DOCP] - 마커 덤프 저장: data/markers/대한장애인체육회_2025년 전국장애인체육대회 전산 및 시스템, 홈페이지 .md
2025-11-16 14:46:37 [I] [DOCP] - 마커 덤프 생성: 대한장애인체육회_2025년 전국장애인체육대회 전산 및 시스템, 홈페이지 .md
2025-11-16 14:46:37 [I] [DOCP] - PDF 처리 완료: 대한장애인체육회_2025년 전국장애인체육대회 전산 및 시스템, 홈페이지 .pdf (66 페이지, 1819.4KB), 변환문자수=65,683
2025-11-16 14:46:37 [I] __main__ - ✓ PDF 처리 성공: 6141e028f836143f...
2025-11-16 14:46:37 [I] __main__ - 100개 파일 중 46번째 파일 처리 중:  **문화체육관광부 국립민속박물관_2024년 국립민속박물관 민속아카이브 자.pdf**
2025-11-16 14:46:37 [I] [DOCP] - PDF 처리 시작: 문화체육관광부 국립민속박물관_2024년 국립민속박물관 민속아카이브 자.pdf
2025-11-16 14:46:37 [D] [DOCP] - 파일 해시: 24d3d17dda4faf97...
2025-11-16 14:46:37 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 24d3d17dda4faf978d8e402541d4504d0e03448fdb7eb7569af9637cbb26509e)


PDF to Markdown:   0%|          | 0/83 [00:00<?, ?page/s]

2025-11-16 14:47:35 [I] [DOCP] - PDF 처리 완료: 문화체육관광부 국립민속박물관_2024년 국립민속박물관 민속아카이브 자.pdf (83 페이지, 1785.9KB), 변환문자수=97,948
2025-11-16 14:47:35 [I] __main__ - ✓ PDF 처리 성공: 24d3d17dda4faf97...
2025-11-16 14:47:35 [I] __main__ - 100개 파일 중 47번째 파일 처리 중:  **전북대학교_JST 공유대학(원) xAPI기반 LRS시스템 구축.pdf**
2025-11-16 14:47:35 [I] [DOCP] - PDF 처리 시작: 전북대학교_JST 공유대학(원) xAPI기반 LRS시스템 구축.pdf
2025-11-16 14:47:35 [D] [DOCP] - 파일 해시: f6775a681fac3de4...
2025-11-16 14:47:35 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: f6775a681fac3de43c12e936419054113ce504869025900e2dd027bdf515740c)


PDF to Markdown:   0%|          | 0/80 [00:00<?, ?page/s]

2025-11-16 14:48:16 [I] [DOCP] - PDF 처리 완료: 전북대학교_JST 공유대학(원) xAPI기반 LRS시스템 구축.pdf (80 페이지, 996.2KB), 변환문자수=184,460
2025-11-16 14:48:16 [I] __main__ - ✓ PDF 처리 성공: f6775a681fac3de4...
2025-11-16 14:48:16 [I] __main__ - 100개 파일 중 48번째 파일 처리 중:  **그랜드코리아레저(주)_2024년도 GKL  그룹웨어 시스템 구축 용역.pdf**
2025-11-16 14:48:16 [I] [DOCP] - PDF 처리 시작: 그랜드코리아레저(주)_2024년도 GKL  그룹웨어 시스템 구축 용역.pdf
2025-11-16 14:48:16 [D] [DOCP] - 파일 해시: 1dbd24f4417cf04f...
2025-11-16 14:48:16 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 1dbd24f4417cf04fef7149ec15644e885da88731cad1c4bafdb7abfb7e745c48)


PDF to Markdown:   0%|          | 0/181 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/68 [00:00<?, ?page/s]

2025-11-16 14:51:58 [I] [DOCP] - PDF 처리 완료: 나노종합기술원_스마트 팹 서비스 활용체계 구축관련 설비온라인 시스.pdf (68 페이지, 1178.4KB), 변환문자수=97,438
2025-11-16 14:51:58 [I] __main__ - ✓ PDF 처리 성공: 4a48265d1bd2b599...
2025-11-16 14:51:58 [I] __main__ - 100개 파일 중 50번째 파일 처리 중:  **고려대학교_차세대 포털·학사 정보시스템 구축사업.pdf**
2025-11-16 14:51:58 [I] [DOCP] - PDF 처리 시작: 고려대학교_차세대 포털·학사 정보시스템 구축사업.pdf
2025-11-16 14:51:58 [D] [DOCP] - 파일 해시: 65c9785a157c8f55...
2025-11-16 14:51:58 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 65c9785a157c8f554795a39912bac9b7e32d3431810d560ca0847d4ccdecc2ea)


PDF to Markdown:   0%|          | 0/297 [00:00<?, ?page/s]

2025-11-16 15:02:53 [I] [DOCP] - PDF 처리 완료: 고려대학교_차세대 포털·학사 정보시스템 구축사업.pdf (297 페이지, 7089.9KB), 변환문자수=273,661
2025-11-16 15:02:53 [I] __main__ - ✓ PDF 처리 성공: 65c9785a157c8f55...
2025-11-16 15:02:53 [I] __main__ - 100개 파일 중 51번째 파일 처리 중:  **사단법인아시아물위원회사무국_우즈벡-키르기즈스탄 기후변화대응 스.pdf**
2025-11-16 15:02:53 [I] [DOCP] - PDF 처리 시작: 사단법인아시아물위원회사무국_우즈벡-키르기즈스탄 기후변화대응 스.pdf
2025-11-16 15:02:53 [D] [DOCP] - 파일 해시: ae90b7d98ef7a27a...
2025-11-16 15:02:53 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: ae90b7d98ef7a27af4d2665b60080a331cde22cdd40692cd819ba8387b76ebd6)


PDF to Markdown:   0%|          | 0/77 [00:00<?, ?page/s]

2025-11-16 15:03:55 [I] [DOCP] - PDF 처리 완료: 사단법인아시아물위원회사무국_우즈벡-키르기즈스탄 기후변화대응 스.pdf (77 페이지, 2770.4KB), 변환문자수=46,739
2025-11-16 15:03:55 [I] __main__ - ✓ PDF 처리 성공: ae90b7d98ef7a27a...
2025-11-16 15:03:55 [I] __main__ - 100개 파일 중 52번째 파일 처리 중:  **서울시립대학교_[사전공개] 학업성취도 다차원 종단분석 통합시스템 1차.pdf**
2025-11-16 15:03:55 [I] [DOCP] - PDF 처리 시작: 서울시립대학교_[사전공개] 학업성취도 다차원 종단분석 통합시스템 1차.pdf
2025-11-16 15:03:55 [D] [DOCP] - 파일 해시: cd81e943ce28db81...
2025-11-16 15:03:55 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: cd81e943ce28db811cbad55454b5fd406b27d0660dbb2bcfe521cc05fc7b7576)


PDF to Markdown:   0%|          | 0/149 [00:00<?, ?page/s]

2025-11-16 15:06:27 [I] [DOCP] - PDF 처리 완료: 서울시립대학교_[사전공개] 학업성취도 다차원 종단분석 통합시스템 1차.pdf (149 페이지, 2199.5KB), 변환문자수=157,931
2025-11-16 15:06:27 [I] __main__ - ✓ PDF 처리 성공: cd81e943ce28db81...
2025-11-16 15:06:27 [I] __main__ - 100개 파일 중 53번째 파일 처리 중:  **서울특별시교육청_서울특별시교육청 지능정보화전략계획(ISP) 수립(2차) .pdf**
2025-11-16 15:06:27 [I] [DOCP] - PDF 처리 시작: 서울특별시교육청_서울특별시교육청 지능정보화전략계획(ISP) 수립(2차) .pdf
2025-11-16 15:06:27 [D] [DOCP] - 파일 해시: cd82a7c0f3c4b9e6...
2025-11-16 15:06:27 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: cd82a7c0f3c4b9e660072364d5ee3130bdca5bbe6307f2045aacc1274a5d9f9d)


PDF to Markdown:   0%|          | 0/75 [00:00<?, ?page/s]

2025-11-16 15:08:02 [D] [DOCP] - 마커 덤프 저장: data/markers/서울특별시교육청_서울특별시교육청 지능정보화전략계획(ISP) 수립(2차) .md
2025-11-16 15:08:02 [I] [DOCP] - 마커 덤프 생성: 서울특별시교육청_서울특별시교육청 지능정보화전략계획(ISP) 수립(2차) .md
2025-11-16 15:08:02 [I] [DOCP] - PDF 처리 완료: 서울특별시교육청_서울특별시교육청 지능정보화전략계획(ISP) 수립(2차) .pdf (75 페이지, 2903.5KB), 변환문자수=75,792
2025-11-16 15:08:02 [I] __main__ - ✓ PDF 처리 성공: cd82a7c0f3c4b9e6...
2025-11-16 15:08:02 [I] __main__ - 100개 파일 중 54번째 파일 처리 중:  **국민연금공단_2024년 이러닝시스템 운영 용역.pdf**
2025-11-16 15:08:02 [I] [DOCP] - PDF 처리 시작: 국민연금공단_2024년 이러닝시스템 운영 용역.pdf
2025-11-16 15:08:02 [D] [DOCP] - 파일 해시: 4ac2520d3e294681...
2025-11-16 15:08:02 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 4ac2520d3e294681c6d8fb7991d4ebef750ae28ab67c0e5c01ef9a862cb423a9)


PDF to Markdown:   0%|          | 0/68 [00:00<?, ?page/s]

2025-11-16 15:09:16 [I] [DOCP] - PDF 처리 완료: 국민연금공단_2024년 이러닝시스템 운영 용역.pdf (68 페이지, 2095.3KB), 변환문자수=81,079
2025-11-16 15:09:16 [I] __main__ - ✓ PDF 처리 성공: 4ac2520d3e294681...
2025-11-16 15:09:16 [I] __main__ - 100개 파일 중 55번째 파일 처리 중:  **한국원자력연구원_한국원자력연구원 선량평가시스템 고도화.pdf**
2025-11-16 15:09:16 [I] [DOCP] - PDF 처리 시작: 한국원자력연구원_한국원자력연구원 선량평가시스템 고도화.pdf
2025-11-16 15:09:16 [D] [DOCP] - 파일 해시: 01ae9633c2c83830...
2025-11-16 15:09:16 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 01ae9633c2c83830cf7e77271f5deb3076179c38473d86c0049d15c2bba36197)


PDF to Markdown:   0%|          | 0/69 [00:00<?, ?page/s]

2025-11-16 15:09:40 [I] [DOCP] - PDF 처리 완료: 한국원자력연구원_한국원자력연구원 선량평가시스템 고도화.pdf (69 페이지, 874.2KB), 변환문자수=54,383
2025-11-16 15:09:40 [I] __main__ - ✓ PDF 처리 성공: 01ae9633c2c83830...
2025-11-16 15:09:40 [I] __main__ - 100개 파일 중 56번째 파일 처리 중:  **한국발명진흥회 입찰공고_2024년 건설기술에 관한 특허·실용신안 활용실.pdf**
2025-11-16 15:09:40 [I] [DOCP] - PDF 처리 시작: 한국발명진흥회 입찰공고_2024년 건설기술에 관한 특허·실용신안 활용실.pdf
2025-11-16 15:09:40 [D] [DOCP] - 파일 해시: b72e631575b80afd...
2025-11-16 15:09:40 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: b72e631575b80afdb8b90e8b6c322b830d704a0155538e4f71db695911c80264)


PDF to Markdown:   0%|          | 0/86 [00:00<?, ?page/s]

2025-11-16 15:10:58 [I] [DOCP] - PDF 처리 완료: 한국발명진흥회 입찰공고_2024년 건설기술에 관한 특허·실용신안 활용실.pdf (86 페이지, 2466.3KB), 변환문자수=78,138
2025-11-16 15:10:58 [I] __main__ - ✓ PDF 처리 성공: b72e631575b80afd...
2025-11-16 15:10:58 [I] __main__ - 100개 파일 중 57번째 파일 처리 중:  **(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf**
2025-11-16 15:10:58 [I] [DOCP] - PDF 처리 시작: (사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf
2025-11-16 15:10:58 [D] [DOCP] - 파일 해시: 95d7c585aea01d50...
2025-11-16 15:10:58 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 95d7c585aea01d509a5994152506ebe5c4ff342c78edd9e71974f5a3b8cdd232)


PDF to Markdown:   0%|          | 0/131 [00:00<?, ?page/s]

2025-11-16 15:12:49 [D] [DOCP] - 마커 덤프 저장: data/markers/(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .md
2025-11-16 15:12:49 [I] [DOCP] - 마커 덤프 생성: (사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .md
2025-11-16 15:12:49 [I] [DOCP] - PDF 처리 완료: (사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf (131 페이지, 2208.9KB), 변환문자수=140,489
2025-11-16 15:12:49 [I] __main__ - ✓ PDF 처리 성공: 95d7c585aea01d50...
2025-11-16 15:12:49 [I] __main__ - 100개 파일 중 58번째 파일 처리 중:  **국립중앙의료원_(긴급)「2024년도 차세대 응급의료 상황관리시스템 구축.pdf**
2025-11-16 15:12:49 [I] [DOCP] - PDF 처리 시작: 국립중앙의료원_(긴급)「2024년도 차세대 응급의료 상황관리시스템 구축.pdf
2025-11-16 15:12:49 [D] [DOCP] - 파일 해시: 0cbc2bce32ad13b3...
2025-11-16 15:12:49 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 0cbc2bce32ad13b33cc7db088f12f1e5d4a8615209bc49a51d0f463df1d91330)


PDF to Markdown:   0%|          | 0/125 [00:00<?, ?page/s]

2025-11-16 15:14:29 [I] [DOCP] - PDF 처리 완료: 국립중앙의료원_(긴급)「2024년도 차세대 응급의료 상황관리시스템 구축.pdf (125 페이지, 2809.7KB), 변환문자수=144,773
2025-11-16 15:14:29 [I] __main__ - ✓ PDF 처리 성공: 0cbc2bce32ad13b3...
2025-11-16 15:14:29 [I] __main__ - 100개 파일 중 59번째 파일 처리 중:  **한국로봇산업진흥원_한국로봇산업진흥원 사업관리시스템 온라인평가 .pdf**
2025-11-16 15:14:29 [I] [DOCP] - PDF 처리 시작: 한국로봇산업진흥원_한국로봇산업진흥원 사업관리시스템 온라인평가 .pdf
2025-11-16 15:14:29 [D] [DOCP] - 파일 해시: f0e78e9001fa8c26...
2025-11-16 15:14:29 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: f0e78e9001fa8c267fa6ca3c921ded5c296ee7f80ac5c68fba0e60ad46e29695)


PDF to Markdown:   0%|          | 0/77 [00:00<?, ?page/s]

2025-11-16 15:15:02 [D] [DOCP] - 마커 덤프 저장: data/markers/한국로봇산업진흥원_한국로봇산업진흥원 사업관리시스템 온라인평가 .md
2025-11-16 15:15:02 [I] [DOCP] - 마커 덤프 생성: 한국로봇산업진흥원_한국로봇산업진흥원 사업관리시스템 온라인평가 .md
2025-11-16 15:15:02 [I] [DOCP] - PDF 처리 완료: 한국로봇산업진흥원_한국로봇산업진흥원 사업관리시스템 온라인평가 .pdf (77 페이지, 1138.9KB), 변환문자수=70,715
2025-11-16 15:15:02 [I] __main__ - ✓ PDF 처리 성공: f0e78e9001fa8c26...
2025-11-16 15:15:02 [I] __main__ - 100개 파일 중 60번째 파일 처리 중:  **한국한의학연구원_통합정보시스템 고도화 용역.pdf**
2025-11-16 15:15:02 [I] [DOCP] - PDF 처리 시작: 한국한의학연구원_통합정보시스템 고도화 용역.pdf
2025-11-16 15:15:02 [D] [DOCP] - 파일 해시: 80a4b35e441223b1...
2025-11-16 15:15:02 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 80a4b35e441223b10dc89584b540ef2ab34c7f34fff0dd17aaa60dd9ea625e3e)


PDF to Markdown:   0%|          | 0/83 [00:00<?, ?page/s]

2025-11-16 15:16:30 [I] [DOCP] - PDF 처리 완료: 한국한의학연구원_통합정보시스템 고도화 용역.pdf (83 페이지, 4153.8KB), 변환문자수=77,389
2025-11-16 15:16:30 [I] __main__ - ✓ PDF 처리 성공: 80a4b35e441223b1...
2025-11-16 15:16:30 [I] __main__ - 100개 파일 중 61번째 파일 처리 중:  **경기도 안양시_호계체육관 배드민턴장 및 탁구장 예약시스템 구축 용역.pdf**
2025-11-16 15:16:30 [I] [DOCP] - PDF 처리 시작: 경기도 안양시_호계체육관 배드민턴장 및 탁구장 예약시스템 구축 용역.pdf
2025-11-16 15:16:30 [D] [DOCP] - 파일 해시: 4689e946d72e4160...
2025-11-16 15:16:30 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 4689e946d72e416085879ee8e24fc193b343cd0ba67c9acbac058f59ece3e621)


PDF to Markdown:   0%|          | 0/91 [00:00<?, ?page/s]

2025-11-16 15:18:04 [I] [DOCP] - PDF 처리 완료: 경기도 안양시_호계체육관 배드민턴장 및 탁구장 예약시스템 구축 용역.pdf (91 페이지, 3028.0KB), 변환문자수=84,055
2025-11-16 15:18:04 [I] __main__ - ✓ PDF 처리 성공: 4689e946d72e4160...
2025-11-16 15:18:04 [I] __main__ - 100개 파일 중 62번째 파일 처리 중:  **한국생산기술연구원_2세대 전자조달시스템  기반구축사업.pdf**
2025-11-16 15:18:04 [I] [DOCP] - PDF 처리 시작: 한국생산기술연구원_2세대 전자조달시스템  기반구축사업.pdf
2025-11-16 15:18:04 [D] [DOCP] - 파일 해시: bcc57f577f7f5157...
2025-11-16 15:18:04 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: bcc57f577f7f51576a7182978a9b1c89dabee8c55085c21c58b1d77699edcddd)


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-16 15:19:10 [I] [DOCP] - PDF 처리 완료: 한국생산기술연구원_2세대 전자조달시스템  기반구축사업.pdf (96 페이지, 1953.3KB), 변환문자수=84,739
2025-11-16 15:19:10 [I] __main__ - ✓ PDF 처리 성공: bcc57f577f7f5157...
2025-11-16 15:19:10 [I] __main__ - 100개 파일 중 63번째 파일 처리 중:  **서울특별시_2024년 지도정보 플랫폼 및 전문활용 연계 시스템 고도화 용.pdf**
2025-11-16 15:19:10 [I] [DOCP] - PDF 처리 시작: 서울특별시_2024년 지도정보 플랫폼 및 전문활용 연계 시스템 고도화 용.pdf
2025-11-16 15:19:10 [D] [DOCP] - 파일 해시: a6f6691e69197b5f...
2025-11-16 15:19:10 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: a6f6691e69197b5f7cdfbc3947fad8f6158dfde29d2a82d6d6429386ffab1999)


PDF to Markdown:   0%|          | 0/75 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/94 [00:00<?, ?page/s]

2025-11-16 15:23:01 [I] [DOCP] - PDF 처리 완료: 한국해양조사협회_2024년 항해용 간행물 품질관리 업무보조 시스템 구축.pdf (94 페이지, 4275.9KB), 변환문자수=64,459
2025-11-16 15:23:01 [I] __main__ - ✓ PDF 처리 성공: 1b15e862691054d5...
2025-11-16 15:23:01 [I] __main__ - 100개 파일 중 65번째 파일 처리 중:  **대검찰청_아태 사이버범죄 역량강화 허브(APC-HUB) 홈페이지 및 온라인 교.pdf**
2025-11-16 15:23:01 [I] [DOCP] - PDF 처리 시작: 대검찰청_아태 사이버범죄 역량강화 허브(APC-HUB) 홈페이지 및 온라인 교.pdf
2025-11-16 15:23:01 [D] [DOCP] - 파일 해시: 53358edfef1e4e11...
2025-11-16 15:23:01 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 53358edfef1e4e112563fefb3379831b427d7e00f71f4f0a235983b5cef95ea6)


PDF to Markdown:   0%|          | 0/76 [00:00<?, ?page/s]

2025-11-16 15:24:49 [I] [DOCP] - PDF 처리 완료: 대검찰청_아태 사이버범죄 역량강화 허브(APC-HUB) 홈페이지 및 온라인 교.pdf (76 페이지, 6179.8KB), 변환문자수=64,258
2025-11-16 15:24:49 [I] __main__ - ✓ PDF 처리 성공: 53358edfef1e4e11...
2025-11-16 15:24:49 [I] __main__ - 100개 파일 중 66번째 파일 처리 중:  **한국보건산업진흥원_의료기기산업 종합정보시스템(정보관리기관) 기능.pdf**
2025-11-16 15:24:49 [I] [DOCP] - PDF 처리 시작: 한국보건산업진흥원_의료기기산업 종합정보시스템(정보관리기관) 기능.pdf
2025-11-16 15:24:49 [D] [DOCP] - 파일 해시: 528f0aab39be4e47...
2025-11-16 15:24:49 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 528f0aab39be4e47a0cd8f8a88d59a17b19c251772b48b3933e551c0c09dddc1)


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-16 15:26:17 [I] [DOCP] - PDF 처리 완료: 한국보건산업진흥원_의료기기산업 종합정보시스템(정보관리기관) 기능.pdf (96 페이지, 3418.8KB), 변환문자수=83,167
2025-11-16 15:26:17 [I] __main__ - ✓ PDF 처리 성공: 528f0aab39be4e47...
2025-11-16 15:26:17 [I] __main__ - 100개 파일 중 67번째 파일 처리 중:  **대한적십자사 의료원_적십자병원 병원정보 재해복구시스템 구축 용역 .pdf**
2025-11-16 15:26:17 [I] [DOCP] - PDF 처리 시작: 대한적십자사 의료원_적십자병원 병원정보 재해복구시스템 구축 용역 .pdf
2025-11-16 15:26:17 [D] [DOCP] - 파일 해시: aa941eec871c93a6...
2025-11-16 15:26:17 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: aa941eec871c93a6e99ac9018d593357e819d0fba354c5ede495551552b9655a)


PDF to Markdown:   0%|          | 0/71 [00:00<?, ?page/s]

2025-11-16 15:27:55 [D] [DOCP] - 마커 덤프 저장: data/markers/대한적십자사 의료원_적십자병원 병원정보 재해복구시스템 구축 용역 .md
2025-11-16 15:27:55 [I] [DOCP] - 마커 덤프 생성: 대한적십자사 의료원_적십자병원 병원정보 재해복구시스템 구축 용역 .md
2025-11-16 15:27:55 [I] [DOCP] - PDF 처리 완료: 대한적십자사 의료원_적십자병원 병원정보 재해복구시스템 구축 용역 .pdf (71 페이지, 7280.2KB), 변환문자수=56,856
2025-11-16 15:27:55 [I] __main__ - ✓ PDF 처리 성공: aa941eec871c93a6...
2025-11-16 15:27:55 [I] __main__ - 100개 파일 중 68번째 파일 처리 중:  **광주과학기술원_실시간통합연구비관리시스템(RCMS)  연계 모듈 변경 사업.pdf**
2025-11-16 15:27:55 [I] [DOCP] - PDF 처리 시작: 광주과학기술원_실시간통합연구비관리시스템(RCMS)  연계 모듈 변경 사업.pdf
2025-11-16 15:27:55 [D] [DOCP] - 파일 해시: aa54d70e4ab8c76f...
2025-11-16 15:27:55 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: aa54d70e4ab8c76f0749ed801700e370cbacf460e6f5079dd9db1ee042373289)


PDF to Markdown:   0%|          | 0/81 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/74 [00:00<?, ?page/s]

2025-11-16 15:29:38 [I] [DOCP] - PDF 처리 완료: 국립인천해양박물관_국립인천해양박물관 해양자료관리시스템 구축 용.pdf (74 페이지, 1947.8KB), 변환문자수=79,002
2025-11-16 15:29:38 [I] __main__ - ✓ PDF 처리 성공: 857e8c98d21921f8...
2025-11-16 15:29:38 [I] __main__ - 100개 파일 중 70번째 파일 처리 중:  **국방과학연구소_대용량 자료전송시스템 고도화.pdf**
2025-11-16 15:29:38 [I] [DOCP] - PDF 처리 시작: 국방과학연구소_대용량 자료전송시스템 고도화.pdf
2025-11-16 15:29:38 [D] [DOCP] - 파일 해시: 0543a6ddba328d45...
2025-11-16 15:29:38 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 0543a6ddba328d457061fe6de09924fa82376a24a29b3ca691b360ae3120e97a)


PDF to Markdown:   0%|          | 0/88 [00:00<?, ?page/s]

2025-11-16 15:30:48 [I] [DOCP] - PDF 처리 완료: 국방과학연구소_대용량 자료전송시스템 고도화.pdf (88 페이지, 3553.9KB), 변환문자수=73,110
2025-11-16 15:30:48 [I] __main__ - ✓ PDF 처리 성공: 0543a6ddba328d45...
2025-11-16 15:30:48 [I] __main__ - 100개 파일 중 71번째 파일 처리 중:  **재단법인충북연구원_GIS통계 기반 재난안전데이터 분석ㆍ관리 시스템 구.pdf**
2025-11-16 15:30:48 [I] [DOCP] - PDF 처리 시작: 재단법인충북연구원_GIS통계 기반 재난안전데이터 분석ㆍ관리 시스템 구.pdf
2025-11-16 15:30:48 [D] [DOCP] - 파일 해시: e6d1af2ae17cc59a...
2025-11-16 15:30:48 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: e6d1af2ae17cc59a89ef060fa2b8bacf61ffc140b28090932d0937b328ee5e91)


PDF to Markdown:   0%|          | 0/64 [00:00<?, ?page/s]

2025-11-16 15:31:32 [I] [DOCP] - PDF 처리 완료: 재단법인충북연구원_GIS통계 기반 재난안전데이터 분석ㆍ관리 시스템 구.pdf (64 페이지, 1603.0KB), 변환문자수=60,747
2025-11-16 15:31:32 [I] __main__ - ✓ PDF 처리 성공: e6d1af2ae17cc59a...
2025-11-16 15:31:32 [I] __main__ - 100개 파일 중 72번째 파일 처리 중:  **서민금융진흥원_서민금융진흥원 서민금융 채팅 상담시스템 구축.pdf**
2025-11-16 15:31:32 [I] [DOCP] - PDF 처리 시작: 서민금융진흥원_서민금융진흥원 서민금융 채팅 상담시스템 구축.pdf
2025-11-16 15:31:32 [D] [DOCP] - 파일 해시: 6d6d04435169e4d1...
2025-11-16 15:31:32 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 6d6d04435169e4d1bf0b6035c6b69d981e903ad0a6f8ad53c998e2d10801d5aa)


PDF to Markdown:   0%|          | 0/100 [00:00<?, ?page/s]

2025-11-16 15:32:42 [I] [DOCP] - PDF 처리 완료: 서민금융진흥원_서민금융진흥원 서민금융 채팅 상담시스템 구축.pdf (100 페이지, 1130.9KB), 변환문자수=130,095
2025-11-16 15:32:42 [I] __main__ - ✓ PDF 처리 성공: 6d6d04435169e4d1...
2025-11-16 15:32:42 [I] __main__ - 100개 파일 중 73번째 파일 처리 중:  **대한상공회의소_기업 재생에너지 지원센터 홈페이지 개편 및 시스템 고.pdf**
2025-11-16 15:32:42 [I] [DOCP] - PDF 처리 시작: 대한상공회의소_기업 재생에너지 지원센터 홈페이지 개편 및 시스템 고.pdf
2025-11-16 15:32:42 [D] [DOCP] - 파일 해시: 0f5d1c1617647a4e...
2025-11-16 15:32:42 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 0f5d1c1617647a4ebb5c21d4cfb7db5eadff2ad1b378d3fef8504e894f1868f4)


PDF to Markdown:   0%|          | 0/74 [00:00<?, ?page/s]

2025-11-16 15:33:40 [I] [DOCP] - PDF 처리 완료: 대한상공회의소_기업 재생에너지 지원센터 홈페이지 개편 및 시스템 고.pdf (74 페이지, 2099.2KB), 변환문자수=77,177
2025-11-16 15:33:40 [I] __main__ - ✓ PDF 처리 성공: 0f5d1c1617647a4e...
2025-11-16 15:33:40 [I] __main__ - 100개 파일 중 74번째 파일 처리 중:  **전북특별자치도 정읍시_정읍체육트레이닝센터 통합운영관리시스템 구.pdf**
2025-11-16 15:33:40 [I] [DOCP] - PDF 처리 시작: 전북특별자치도 정읍시_정읍체육트레이닝센터 통합운영관리시스템 구.pdf
2025-11-16 15:33:40 [D] [DOCP] - 파일 해시: e8d2b5cfda5d58f9...
2025-11-16 15:33:40 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: e8d2b5cfda5d58f9ffc3d600ab2f11e3d6abfc59b4b80a8c9c812bc32083415a)


PDF to Markdown:   0%|          | 0/131 [00:00<?, ?page/s]

2025-11-16 15:35:39 [I] [DOCP] - PDF 처리 완료: 전북특별자치도 정읍시_정읍체육트레이닝센터 통합운영관리시스템 구.pdf (131 페이지, 2789.1KB), 변환문자수=132,815
2025-11-16 15:35:39 [I] __main__ - ✓ PDF 처리 성공: e8d2b5cfda5d58f9...
2025-11-16 15:35:39 [I] __main__ - 100개 파일 중 75번째 파일 처리 중:  **KOICA 전자조달_[긴급] [지문] [국제] 우즈베키스탄 열린 의정활동 상하원 .pdf**
2025-11-16 15:35:39 [I] [DOCP] - PDF 처리 시작: KOICA 전자조달_[긴급] [지문] [국제] 우즈베키스탄 열린 의정활동 상하원 .pdf
2025-11-16 15:35:39 [D] [DOCP] - 파일 해시: 686b8ab117208637...
2025-11-16 15:35:39 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 686b8ab117208637c5f6dfc92fa85d296149739e4ba12f70d8c02c5da3592b0b)


PDF to Markdown:   0%|          | 0/154 [00:00<?, ?page/s]

2025-11-16 15:39:15 [D] [DOCP] - 마커 덤프 저장: data/markers/KOICA 전자조달_[긴급] [지문] [국제] 우즈베키스탄 열린 의정활동 상하원 .md
2025-11-16 15:39:15 [I] [DOCP] - 마커 덤프 생성: KOICA 전자조달_[긴급] [지문] [국제] 우즈베키스탄 열린 의정활동 상하원 .md
2025-11-16 15:39:15 [I] [DOCP] - PDF 처리 완료: KOICA 전자조달_[긴급] [지문] [국제] 우즈베키스탄 열린 의정활동 상하원 .pdf (154 페이지, 4016.3KB), 변환문자수=188,363
2025-11-16 15:39:15 [I] __main__ - ✓ PDF 처리 성공: 686b8ab117208637...
2025-11-16 15:39:15 [I] __main__ - 100개 파일 중 76번째 파일 처리 중:  **한국연구재단_2024년 기초학문자료센터 시스템 운영 및 연구성과물 DB구.pdf**
2025-11-16 15:39:15 [I] [DOCP] - PDF 처리 시작: 한국연구재단_2024년 기초학문자료센터 시스템 운영 및 연구성과물 DB구.pdf
2025-11-16 15:39:15 [D] [DOCP] - 파일 해시: dcf1d60bfbd28d5c...
2025-11-16 15:39:15 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: dcf1d60bfbd28d5c466bb75d79971af553c4e6ce24b29c1e87d9a4253138d742)


PDF to Markdown:   0%|          | 0/90 [00:00<?, ?page/s]

2025-11-16 15:41:13 [I] [DOCP] - PDF 처리 완료: 한국연구재단_2024년 기초학문자료센터 시스템 운영 및 연구성과물 DB구.pdf (90 페이지, 7291.5KB), 변환문자수=74,621
2025-11-16 15:41:13 [I] __main__ - ✓ PDF 처리 성공: dcf1d60bfbd28d5c...
2025-11-16 15:41:13 [I] __main__ - 100개 파일 중 77번째 파일 처리 중:  **경상북도 봉화군_봉화군 재난통합관리시스템 고도화 사업(협상)(긴급).pdf**
2025-11-16 15:41:13 [I] [DOCP] - PDF 처리 시작: 경상북도 봉화군_봉화군 재난통합관리시스템 고도화 사업(협상)(긴급).pdf
2025-11-16 15:41:13 [D] [DOCP] - 파일 해시: a32dcec4c91fab98...
2025-11-16 15:41:13 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: a32dcec4c91fab98868b776312f5b363953e8a9c10c467fcb463068d2ac58b93)


PDF to Markdown:   0%|          | 0/86 [00:00<?, ?page/s]

2025-11-16 15:43:57 [I] [DOCP] - PDF 처리 완료: 경상북도 봉화군_봉화군 재난통합관리시스템 고도화 사업(협상)(긴급).pdf (86 페이지, 9895.5KB), 변환문자수=94,164
2025-11-16 15:43:57 [I] __main__ - ✓ PDF 처리 성공: a32dcec4c91fab98...
2025-11-16 15:43:57 [I] __main__ - 100개 파일 중 78번째 파일 처리 중:  **인천광역시 동구_수도국산달동네박물관 전시해설 시스템 구축(협상에 .pdf**
2025-11-16 15:43:57 [I] [DOCP] - PDF 처리 시작: 인천광역시 동구_수도국산달동네박물관 전시해설 시스템 구축(협상에 .pdf
2025-11-16 15:43:57 [D] [DOCP] - 파일 해시: ce3d79979f46264a...
2025-11-16 15:43:57 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: ce3d79979f46264a6193a09df7fe3b82d9b8ad42ce2665442130a50a4c8bd290)


PDF to Markdown:   0%|          | 0/95 [00:00<?, ?page/s]

2025-11-16 15:44:56 [D] [DOCP] - 마커 덤프 저장: data/markers/인천광역시 동구_수도국산달동네박물관 전시해설 시스템 구축(협상에 .md
2025-11-16 15:44:56 [I] [DOCP] - 마커 덤프 생성: 인천광역시 동구_수도국산달동네박물관 전시해설 시스템 구축(협상에 .md
2025-11-16 15:44:56 [I] [DOCP] - PDF 처리 완료: 인천광역시 동구_수도국산달동네박물관 전시해설 시스템 구축(협상에 .pdf (95 페이지, 1332.8KB), 변환문자수=99,493
2025-11-16 15:44:56 [I] __main__ - ✓ PDF 처리 성공: ce3d79979f46264a...
2025-11-16 15:44:56 [I] __main__ - 100개 파일 중 79번째 파일 처리 중:  **을지대학교_을지대학교 비교과시스템 개발.pdf**
2025-11-16 15:44:56 [I] [DOCP] - PDF 처리 시작: 을지대학교_을지대학교 비교과시스템 개발.pdf
2025-11-16 15:44:56 [D] [DOCP] - 파일 해시: 746de8b78ddc2942...
2025-11-16 15:44:56 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 746de8b78ddc2942cef2128f3ad11554623a7307e0cb9d2e13c7b51e13b54ab5)


PDF to Markdown:   0%|          | 0/105 [00:00<?, ?page/s]

2025-11-16 15:46:03 [I] [DOCP] - PDF 처리 완료: 을지대학교_을지대학교 비교과시스템 개발.pdf (105 페이지, 1649.6KB), 변환문자수=104,724
2025-11-16 15:46:03 [I] __main__ - ✓ PDF 처리 성공: 746de8b78ddc2942...
2025-11-16 15:46:03 [I] __main__ - 100개 파일 중 80번째 파일 처리 중:  **한영대학_한영대학교 특성화 맞춤형 교육환경 구축 - 트랙운영 학사정보.pdf**
2025-11-16 15:46:03 [I] [DOCP] - PDF 처리 시작: 한영대학_한영대학교 특성화 맞춤형 교육환경 구축 - 트랙운영 학사정보.pdf
2025-11-16 15:46:03 [D] [DOCP] - 파일 해시: 6cd4bfc86aa746bc...
2025-11-16 15:46:03 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 6cd4bfc86aa746bcd3556fbb4f28ee8cf18444d9af57cf5ee00756fb7f98bec1)


PDF to Markdown:   0%|          | 0/61 [00:00<?, ?page/s]

2025-11-16 15:46:34 [I] [DOCP] - PDF 처리 완료: 한영대학_한영대학교 특성화 맞춤형 교육환경 구축 - 트랙운영 학사정보.pdf (61 페이지, 827.0KB), 변환문자수=60,005
2025-11-16 15:46:34 [I] __main__ - ✓ PDF 처리 성공: 6cd4bfc86aa746bc...
2025-11-16 15:46:34 [I] __main__ - 100개 파일 중 81번째 파일 처리 중:  **(사)부산국제영화제_2024년 BIFF & ACFM 온라인서비스 재개발 및 행사지원시.pdf**
2025-11-16 15:46:34 [I] [DOCP] - PDF 처리 시작: (사)부산국제영화제_2024년 BIFF & ACFM 온라인서비스 재개발 및 행사지원시.pdf
2025-11-16 15:46:34 [D] [DOCP] - 파일 해시: 3460bdbb199b0150...
2025-11-16 15:46:34 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 3460bdbb199b0150d0f52e35dc1dcf45bedafdc7e889803ac9ccec14fa8a0e35)


PDF to Markdown:   0%|          | 0/63 [00:00<?, ?page/s]

2025-11-16 15:47:04 [I] [DOCP] - PDF 처리 완료: (사)부산국제영화제_2024년 BIFF & ACFM 온라인서비스 재개발 및 행사지원시.pdf (63 페이지, 517.0KB), 변환문자수=75,775
2025-11-16 15:47:04 [I] __main__ - ✓ PDF 처리 성공: 3460bdbb199b0150...
2025-11-16 15:47:04 [I] __main__ - 100개 파일 중 82번째 파일 처리 중:  **중앙선거관리위원회_2025년도 행정정보시스템 위탁운영사업.pdf**
2025-11-16 15:47:04 [I] [DOCP] - PDF 처리 시작: 중앙선거관리위원회_2025년도 행정정보시스템 위탁운영사업.pdf
2025-11-16 15:47:04 [D] [DOCP] - 파일 해시: 320bfd46f0f2c52c...
2025-11-16 15:47:04 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 320bfd46f0f2c52cef27f14484c06cb53a123c503391846c3358f9af1650fe96)


PDF to Markdown:   0%|          | 0/105 [00:00<?, ?page/s]

2025-11-16 15:48:45 [I] [DOCP] - PDF 처리 완료: 중앙선거관리위원회_2025년도 행정정보시스템 위탁운영사업.pdf (105 페이지, 2573.5KB), 변환문자수=141,168
2025-11-16 15:48:45 [I] __main__ - ✓ PDF 처리 성공: 320bfd46f0f2c52c...
2025-11-16 15:48:45 [I] __main__ - 100개 파일 중 83번째 파일 처리 중:  **케빈랩 주식회사_평택시 강소형 스마트시티 AI 기반의 영상감시 시스템 .pdf**
2025-11-16 15:48:45 [I] [DOCP] - PDF 처리 시작: 케빈랩 주식회사_평택시 강소형 스마트시티 AI 기반의 영상감시 시스템 .pdf
2025-11-16 15:48:45 [D] [DOCP] - 파일 해시: 2c78a39ea1c857de...
2025-11-16 15:48:45 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 2c78a39ea1c857de71d09c4f413f03f1070d382d5401d28dd899019ff9e14872)


PDF to Markdown:   0%|          | 0/88 [00:00<?, ?page/s]

2025-11-16 15:49:15 [D] [DOCP] - 마커 덤프 저장: data/markers/케빈랩 주식회사_평택시 강소형 스마트시티 AI 기반의 영상감시 시스템 .md
2025-11-16 15:49:15 [I] [DOCP] - 마커 덤프 생성: 케빈랩 주식회사_평택시 강소형 스마트시티 AI 기반의 영상감시 시스템 .md
2025-11-16 15:49:15 [I] [DOCP] - PDF 처리 완료: 케빈랩 주식회사_평택시 강소형 스마트시티 AI 기반의 영상감시 시스템 .pdf (88 페이지, 721.7KB), 변환문자수=70,166
2025-11-16 15:49:15 [I] __main__ - ✓ PDF 처리 성공: 2c78a39ea1c857de...
2025-11-16 15:49:15 [I] __main__ - 100개 파일 중 84번째 파일 처리 중:  **인천광역시_도시계획위원회 통합관리시스템 구축용역.pdf**
2025-11-16 15:49:15 [I] [DOCP] - PDF 처리 시작: 인천광역시_도시계획위원회 통합관리시스템 구축용역.pdf
2025-11-16 15:49:15 [D] [DOCP] - 파일 해시: 353ac11b9241d790...
2025-11-16 15:49:15 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 353ac11b9241d790ccd1128e9386ffd780acbe320c6a3909ff09125eb372707c)


PDF to Markdown:   0%|          | 0/88 [00:00<?, ?page/s]

2025-11-16 15:51:24 [I] [DOCP] - PDF 처리 완료: 인천광역시_도시계획위원회 통합관리시스템 구축용역.pdf (88 페이지, 8669.9KB), 변환문자수=87,127
2025-11-16 15:51:24 [I] __main__ - ✓ PDF 처리 성공: 353ac11b9241d790...
2025-11-16 15:51:24 [I] __main__ - 100개 파일 중 85번째 파일 처리 중:  **축산물품질평가원_축산물이력관리시스템 개선(정보화 사업).pdf**
2025-11-16 15:51:24 [I] [DOCP] - PDF 처리 시작: 축산물품질평가원_축산물이력관리시스템 개선(정보화 사업).pdf
2025-11-16 15:51:24 [D] [DOCP] - 파일 해시: 98170b4ee33aaada...
2025-11-16 15:51:24 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 98170b4ee33aaada01e9ae3751d60dc231fb230a2725ed0b0f3b13bea57a959c)


PDF to Markdown:   0%|          | 0/86 [00:00<?, ?page/s]

2025-11-16 15:52:50 [I] [DOCP] - PDF 처리 완료: 축산물품질평가원_축산물이력관리시스템 개선(정보화 사업).pdf (86 페이지, 2433.6KB), 변환문자수=103,461
2025-11-16 15:52:50 [I] __main__ - ✓ PDF 처리 성공: 98170b4ee33aaada...
2025-11-16 15:52:50 [I] __main__ - 100개 파일 중 86번째 파일 처리 중:  **사단법인 보험개발원_실손보험 청구 전산화 시스템 구축 사업.pdf**
2025-11-16 15:52:50 [I] [DOCP] - PDF 처리 시작: 사단법인 보험개발원_실손보험 청구 전산화 시스템 구축 사업.pdf
2025-11-16 15:52:50 [D] [DOCP] - 파일 해시: 8687e579e77f3d7e...
2025-11-16 15:52:50 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 8687e579e77f3d7e6e1486224fef935f85bde14096f086178cd399cb1ad1658a)


PDF to Markdown:   0%|          | 0/118 [00:00<?, ?page/s]

2025-11-16 15:54:00 [I] [DOCP] - PDF 처리 완료: 사단법인 보험개발원_실손보험 청구 전산화 시스템 구축 사업.pdf (118 페이지, 1740.8KB), 변환문자수=108,197
2025-11-16 15:54:00 [I] __main__ - ✓ PDF 처리 성공: 8687e579e77f3d7e...
2025-11-16 15:54:00 [I] __main__ - 100개 파일 중 87번째 파일 처리 중:  **한국농수산식품유통공사_농산물가격안정기금 정부예산회계연계시스템 .pdf**
2025-11-16 15:54:00 [I] [DOCP] - PDF 처리 시작: 한국농수산식품유통공사_농산물가격안정기금 정부예산회계연계시스템 .pdf
2025-11-16 15:54:00 [D] [DOCP] - 파일 해시: 0fa3f3993fd51a9a...
2025-11-16 15:54:00 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 0fa3f3993fd51a9a944c938cee31becacf28a79ee37ebf0df49c7eec5d102eee)


PDF to Markdown:   0%|          | 0/87 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/100 [00:00<?, ?page/s]

2025-11-16 15:56:56 [I] [DOCP] - PDF 처리 완료: 한국연구재단_2024년 대학산학협력활동 실태조사 시스템(UICC) 기능개선.pdf (100 페이지, 5412.1KB), 변환문자수=93,044
2025-11-16 15:56:56 [I] __main__ - ✓ PDF 처리 성공: dfca4359567f3940...
2025-11-16 15:56:56 [I] __main__ - 100개 파일 중 89번째 파일 처리 중:  **한국수자원조사기술원_수문자료정보관리시스템(HDIMS) 재구축 용역(3단계.pdf**
2025-11-16 15:56:56 [I] [DOCP] - PDF 처리 시작: 한국수자원조사기술원_수문자료정보관리시스템(HDIMS) 재구축 용역(3단계.pdf
2025-11-16 15:56:56 [D] [DOCP] - 파일 해시: d9fa425f1cd981e6...
2025-11-16 15:56:56 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: d9fa425f1cd981e6cc0bf6a67982d6010abf5d2483a600b3a79b5aba2d4cc322)


PDF to Markdown:   0%|          | 0/92 [00:00<?, ?page/s]

2025-11-16 15:58:30 [I] [DOCP] - PDF 처리 완료: 한국수자원조사기술원_수문자료정보관리시스템(HDIMS) 재구축 용역(3단계.pdf (92 페이지, 2884.0KB), 변환문자수=93,104
2025-11-16 15:58:30 [I] __main__ - ✓ PDF 처리 성공: d9fa425f1cd981e6...
2025-11-16 15:58:30 [I] __main__ - 100개 파일 중 90번째 파일 처리 중:  **울산광역시_2024년 버스정보시스템 확대 구축 및 기능개선 용역.pdf**
2025-11-16 15:58:30 [I] [DOCP] - PDF 처리 시작: 울산광역시_2024년 버스정보시스템 확대 구축 및 기능개선 용역.pdf
2025-11-16 15:58:30 [D] [DOCP] - 파일 해시: d08e6187ab8814fa...
2025-11-16 15:58:30 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: d08e6187ab8814fa7480470f672ed5bcbdee5a2d55e1baef22575157b85d9229)


PDF to Markdown:   0%|          | 0/129 [00:00<?, ?page/s]

2025-11-16 16:00:22 [I] [DOCP] - PDF 처리 완료: 울산광역시_2024년 버스정보시스템 확대 구축 및 기능개선 용역.pdf (129 페이지, 1777.6KB), 변환문자수=154,002
2025-11-16 16:00:22 [I] __main__ - ✓ PDF 처리 성공: d08e6187ab8814fa...
2025-11-16 16:00:22 [I] __main__ - 100개 파일 중 91번째 파일 처리 중:  **세종테크노파크_세종테크노파크 인사정보 전산시스템 구축 용역 입찰공.pdf**
2025-11-16 16:00:22 [I] [DOCP] - PDF 처리 시작: 세종테크노파크_세종테크노파크 인사정보 전산시스템 구축 용역 입찰공.pdf
2025-11-16 16:00:22 [D] [DOCP] - 파일 해시: 6871e013f0e81c64...
2025-11-16 16:00:22 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 6871e013f0e81c64eb8369d1deb6551506d76beedf78ea35d68f5fb0490217e6)


PDF to Markdown:   0%|          | 0/99 [00:00<?, ?page/s]

2025-11-16 16:01:26 [I] [DOCP] - PDF 처리 완료: 세종테크노파크_세종테크노파크 인사정보 전산시스템 구축 용역 입찰공.pdf (99 페이지, 1404.1KB), 변환문자수=90,049
2025-11-16 16:01:26 [I] __main__ - ✓ PDF 처리 성공: 6871e013f0e81c64...
2025-11-16 16:01:26 [I] __main__ - 100개 파일 중 92번째 파일 처리 중:  **한국생산기술연구원_EIP3.0 고압가스 안전관리 시스템 구축 용역.pdf**
2025-11-16 16:01:26 [I] [DOCP] - PDF 처리 시작: 한국생산기술연구원_EIP3.0 고압가스 안전관리 시스템 구축 용역.pdf
2025-11-16 16:01:26 [D] [DOCP] - 파일 해시: 8cb58e2087959d60...
2025-11-16 16:01:26 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 8cb58e2087959d60251258f2196e51ee6a7ff123449d777137c6c04714188a38)


PDF to Markdown:   0%|          | 0/144 [00:00<?, ?page/s]

2025-11-16 16:03:37 [I] [DOCP] - PDF 처리 완료: 한국생산기술연구원_EIP3.0 고압가스 안전관리 시스템 구축 용역.pdf (144 페이지, 1610.8KB), 변환문자수=157,017
2025-11-16 16:03:37 [I] __main__ - ✓ PDF 처리 성공: 8cb58e2087959d60...
2025-11-16 16:03:37 [I] __main__ - 100개 파일 중 93번째 파일 처리 중:  **재단법인 광주연구원_광주정책연구아카이브(GPA) 시스템 개발.pdf**
2025-11-16 16:03:37 [I] [DOCP] - PDF 처리 시작: 재단법인 광주연구원_광주정책연구아카이브(GPA) 시스템 개발.pdf
2025-11-16 16:03:37 [D] [DOCP] - 파일 해시: 8f719618d233032d...
2025-11-16 16:03:37 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 8f719618d233032d1e01d93243a41e7cd9935ed7d3abe5c21b12c09abb42d16e)


PDF to Markdown:   0%|          | 0/100 [00:00<?, ?page/s]

2025-11-16 16:04:52 [I] [DOCP] - PDF 처리 완료: 재단법인 광주연구원_광주정책연구아카이브(GPA) 시스템 개발.pdf (100 페이지, 1685.9KB), 변환문자수=105,025
2025-11-16 16:04:52 [I] __main__ - ✓ PDF 처리 성공: 8f719618d233032d...
2025-11-16 16:04:52 [I] __main__ - 100개 파일 중 94번째 파일 처리 중:  **한국건강가정진흥원_2025년 아이돌봄인력 인적성 검사 정보시스템 운영.pdf**
2025-11-16 16:04:52 [I] [DOCP] - PDF 처리 시작: 한국건강가정진흥원_2025년 아이돌봄인력 인적성 검사 정보시스템 운영.pdf
2025-11-16 16:04:52 [D] [DOCP] - 파일 해시: 48f22da40dbfb32c...
2025-11-16 16:04:52 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 48f22da40dbfb32cda0de90104d9b80308eab5468889a2c7d58fb0e0da5702f2)


PDF to Markdown:   0%|          | 0/84 [00:00<?, ?page/s]

2025-11-16 16:05:40 [I] [DOCP] - PDF 처리 완료: 한국건강가정진흥원_2025년 아이돌봄인력 인적성 검사 정보시스템 운영.pdf (84 페이지, 1440.0KB), 변환문자수=82,093
2025-11-16 16:05:40 [I] __main__ - ✓ PDF 처리 성공: 48f22da40dbfb32c...
2025-11-16 16:05:40 [I] __main__ - 100개 파일 중 95번째 파일 처리 중:  **재단법인 한국장애인문화예술원_2024년 장애인문화예술정보시스템 이음.pdf**
2025-11-16 16:05:40 [I] [DOCP] - PDF 처리 시작: 재단법인 한국장애인문화예술원_2024년 장애인문화예술정보시스템 이음.pdf
2025-11-16 16:05:40 [D] [DOCP] - 파일 해시: 83c6253a1c324a49...
2025-11-16 16:05:40 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 83c6253a1c324a49e57ff699105d968a83e7ca4347310a1e77db6087c214303b)


PDF to Markdown:   0%|          | 0/66 [00:00<?, ?page/s]

2025-11-16 16:06:39 [I] [DOCP] - PDF 처리 완료: 재단법인 한국장애인문화예술원_2024년 장애인문화예술정보시스템 이음.pdf (66 페이지, 2381.1KB), 변환문자수=61,316
2025-11-16 16:06:39 [I] __main__ - ✓ PDF 처리 성공: 83c6253a1c324a49...
2025-11-16 16:06:39 [I] __main__ - 100개 파일 중 96번째 파일 처리 중:  **파주도시관광공사_종량제봉투 판매관리 전산시스템 개선사업.pdf**
2025-11-16 16:06:39 [I] [DOCP] - PDF 처리 시작: 파주도시관광공사_종량제봉투 판매관리 전산시스템 개선사업.pdf
2025-11-16 16:06:39 [D] [DOCP] - 파일 해시: e3c90758446b14d1...
2025-11-16 16:06:39 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: e3c90758446b14d19c6116d7c1561289bb5c1c53ab3b7de3b174ec12f458ad2c)


PDF to Markdown:   0%|          | 0/114 [00:00<?, ?page/s]

2025-11-16 16:07:48 [I] [DOCP] - PDF 처리 완료: 파주도시관광공사_종량제봉투 판매관리 전산시스템 개선사업.pdf (114 페이지, 1385.2KB), 변환문자수=124,021
2025-11-16 16:07:48 [I] __main__ - ✓ PDF 처리 성공: e3c90758446b14d1...
2025-11-16 16:07:48 [I] __main__ - 100개 파일 중 97번째 파일 처리 중:  **한국보육진흥원_연차별 자율 품질관리 시스템 기능개선.pdf**
2025-11-16 16:07:48 [I] [DOCP] - PDF 처리 시작: 한국보육진흥원_연차별 자율 품질관리 시스템 기능개선.pdf
2025-11-16 16:07:48 [D] [DOCP] - 파일 해시: dad102fbde12b6f3...
2025-11-16 16:07:48 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: dad102fbde12b6f3b1af47f9c371de18d9ede05eddfe0d5dbecd063e5ea1b5a3)


PDF to Markdown:   0%|          | 0/78 [00:00<?, ?page/s]

2025-11-16 16:08:46 [I] [DOCP] - PDF 처리 완료: 한국보육진흥원_연차별 자율 품질관리 시스템 기능개선.pdf (78 페이지, 1705.6KB), 변환문자수=82,558
2025-11-16 16:08:46 [I] __main__ - ✓ PDF 처리 성공: dad102fbde12b6f3...
2025-11-16 16:08:46 [I] __main__ - 100개 파일 중 98번째 파일 처리 중:  **서울특별시 여성가족재단_(재공고, 협상) 서울 디지털성범죄 안심지원센.pdf**
2025-11-16 16:08:46 [I] [DOCP] - PDF 처리 시작: 서울특별시 여성가족재단_(재공고, 협상) 서울 디지털성범죄 안심지원센.pdf
2025-11-16 16:08:46 [D] [DOCP] - 파일 해시: 24eb9a94d17e678c...
2025-11-16 16:08:46 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: 24eb9a94d17e678cc040d3e8c5d59eebb361f232568ceb3eacc6fdb013f5184e)


PDF to Markdown:   0%|          | 0/140 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/137 [00:00<?, ?page/s]

2025-11-16 16:12:40 [I] [DOCP] - PDF 처리 완료: 재단법인경기도일자리재단_2025년 통합접수시스템 운영.pdf (137 페이지, 1265.9KB), 변환문자수=132,995
2025-11-16 16:12:40 [I] __main__ - ✓ PDF 처리 성공: 861bfd25152d39f2...
2025-11-16 16:12:40 [I] __main__ - 100개 파일 중 100번째 파일 처리 중:  **한국전기안전공사_전기안전 관제시스템 보안 모듈 개발 용역.pdf**
2025-11-16 16:12:40 [I] [DOCP] - PDF 처리 시작: 한국전기안전공사_전기안전 관제시스템 보안 모듈 개발 용역.pdf
2025-11-16 16:12:40 [D] [DOCP] - 파일 해시: a47caca5184d9eca...
2025-11-16 16:12:40 [D] [DOCDB] - 검색 완료: 0건 (hash 모드, 검색어: a47caca5184d9ecaf7bd6099cac61a2961f75ece3f7f9540a6bdabca2dbd5363)


PDF to Markdown:   0%|          | 0/74 [00:00<?, ?page/s]

2025-11-16 16:13:36 [I] [DOCP] - PDF 처리 완료: 한국전기안전공사_전기안전 관제시스템 보안 모듈 개발 용역.pdf (74 페이지, 1626.8KB), 변환문자수=62,029
2025-11-16 16:13:36 [I] __main__ - ✓ PDF 처리 성공: a47caca5184d9eca...
2025-11-16 16:13:36 [I] __main__ - 모든 PDF 파일 처리가 완료되었습니다.


## 5. 실제 PDF 파일 테스트 (선택사항)

In [12]:
def verify_database_content() -> None:
    """DB 내용 확인 및 검증"""
    import sqlite3
    
    test_db_path = project_root / "data" / "test_documents.db"
    
    with sqlite3.connect(test_db_path) as conn:
        conn.row_factory = sqlite3.Row
        cursor = conn.cursor()
        
        # 1. 파일 정보 조회
        # 모든 테이블 이름 조회 쿼리
        cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
        logger.info(f"모든 테이블 이름 조회 쿼리 {cursor.fetchall()}")
        files = cursor.fetchall()
        logger.info(f"\n=== 파일 정보 ({len(files)}건) ===")
        for row in files:
            logger.info(f"  - {row['file_name']}: {row['total_pages']}페이지, {row['total_tokens']}토큰")
        
        # 2. 페이지 데이터 조회
        # cursor.execute("""
        #     SELECT file_hash, page_number, is_empty 
        #     FROM page_data 
        #     ORDER BY file_hash, page_number
        # """)
        pages = cursor.fetchall()
        logger.info(f"\n=== 페이지 데이터 ({len(pages)}건) ===")
        
        # 파일별로 그룹화
        from collections import defaultdict
        pages_by_file = defaultdict(list)
        for row in pages:
            pages_by_file[row['file_hash']].append(row)
        
        for file_hash, file_pages in pages_by_file.items():
            logger.info(f"  파일: {file_hash[:16]}...")
            for page in file_pages:
                status = "빈페이지" if page['is_empty'] else "정상"
                logger.info(f"    - 페이지 {page['page_number']}: {page['token_count']}토큰 ({status})")
        
        # 3. 통계 조회
        db = DocumentsDB(str(test_db_path))
        stats = db.get_document_stats()
        logger.info(f"\n=== 전체 통계 ===")
        logger.info(f"  총 파일: {stats['total_files']}개")
        logger.info(f"  총 페이지: {stats['total_pages']}개")
        # logger.info(f"  총 토큰: {stats['total_tokens']:,}개")
        logger.info(f"  총 크기: {stats['total_size_mb']}MB")
        
        logger.info("\n✓ DB 검증 완료")

# 실행
verify_database_content()

2025-11-14 14:20:49 [I] __main__ - 모든 테이블 이름 조회 쿼리 [<sqlite3.Row object at 0x7a2692c3f6a0>]
2025-11-14 14:20:49 [I] __main__ - 
=== 파일 정보 (0건) ===
2025-11-14 14:20:49 [I] __main__ - 
=== 페이지 데이터 (0건) ===
2025-11-14 14:20:49 [I] __main__ - 
=== 전체 통계 ===
2025-11-14 14:20:49 [I] __main__ -   총 파일: 1개
2025-11-14 14:20:49 [I] __main__ -   총 페이지: 96개
2025-11-14 14:20:49 [I] __main__ -   총 크기: 1.64MB
2025-11-14 14:20:49 [I] __main__ - 
✓ DB 검증 완료


## 4. DB 조회 및 검증

In [9]:
def test_pdf_processing_simulation() -> None:
    """PDF 처리 로직 시뮬레이션 (PyMuPDF 없이)"""
    
    # 실제 PDF 대신 더미 데이터로 로직 테스트
    test_db_path = project_root / "data" / "test_documents.db"
    processor = DocumentProcessor(db_path=str(test_db_path))
    
    # PDF 페이지 시뮬레이션
    dummy_pages = [
        "# 제목 페이지\n\n이것은 첫 번째 페이지입니다.",
        "# 본문 1\n\n두 번째 페이지 내용입니다.",
        "",  # 빈 페이지
        "# 결론\n\n마지막 페이지입니다."
    ]
    
    # 파일 정보 시뮬레이션
    dummy_hash = "dummy_pdf_hash_67890"
    dummy_filename = "test_dummy.pdf"
    
    logger.info(f"PDF 처리 시뮬레이션: {dummy_filename}")
    
    # 페이지별 처리
    all_content = []
    for page_num, page_text in enumerate(dummy_pages, start=1):
        is_empty = len(page_text.strip()) < 10
        
        if is_empty:
            page_content = "[빈 페이지]"
        else:
            page_content = f"--- 페이지 {page_num} ---\n\n{page_text}"
        
        all_content.append(page_content)
        
        # DB 저장
        token_count = processor.count_tokens(page_content)
        processor.docs_db.insert_page_data(
            file_hash=dummy_hash,
            page_number=page_num,
            markdown_content=page_content,
            token_count=token_count,
            is_empty=is_empty
        )
        logger.info(f"페이지 {page_num}: {token_count} 토큰, 빈페이지={is_empty}")
    
    # 전체 콘텐츠
    full_content = "\n\n".join(all_content)
    total_tokens = processor.count_tokens(full_content)
    
    # 파일 정보 저장
    processor.docs_db.insert_file_info(
        file_hash=dummy_hash,
        file_name=dummy_filename,
        total_pages=len(dummy_pages),
        file_size=len(full_content.encode('utf-8')),
        total_chars=len(full_content),
        total_tokens=total_tokens
    )
    
    logger.info(f"✓ PDF 시뮬레이션 완료: {len(dummy_pages)}페이지, {total_tokens}토큰")

# 테스트 실행
test_pdf_processing_simulation()

2025-11-08 22:36:33 [I] src.processors.document_processor - DocumentProcessor 초기화 완료 (DB: d:\GoogleDrive\codeit_ai_g2b_search\data\test_documents.db)
2025-11-08 22:36:33 [I] __main__ - PDF 처리 시뮬레이션: test_dummy.pdf
2025-11-08 22:36:33 [I] __main__ - PDF 처리 시뮬레이션: test_dummy.pdf
2025-11-08 22:36:33 [I] __main__ - 페이지 1: 22 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 2: 22 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 1: 22 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 2: 22 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 3: 6 토큰, 빈페이지=True
2025-11-08 22:36:33 [I] __main__ - 페이지 4: 19 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 3: 6 토큰, 빈페이지=True
2025-11-08 22:36:33 [I] __main__ - 페이지 4: 19 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - ✓ PDF 시뮬레이션 완료: 4페이지, 69토큰
2025-11-08 22:36:33 [I] __main__ - ✓ PDF 시뮬레이션 완료: 4페이지, 69토큰


## 3. PDF 처리 테스트 (PyMuPDF 없이 시뮬레이션)

In [8]:
def test_document_processor_utils() -> None:
    """DocumentProcessor 유틸리티 함수 테스트"""
    import tempfile
    
    # DocumentProcessor 초기화
    test_db_path = project_root / "data" / "test_documents.db"
    processor = DocumentProcessor(db_path=str(test_db_path))
    
    # 1. 임시 파일 생성
    with tempfile.NamedTemporaryFile(mode='w', suffix='.txt', delete=False, encoding='utf-8') as tf:
        test_content = "This is a test document for hash calculation."
        tf.write(test_content)
        temp_file_path = Path(tf.name)
    
    try:
        # 2. 파일 해시 계산
        file_hash = processor.calculate_file_hash(temp_file_path)
        logger.info(f"파일 해시: {file_hash[:16]}...")
        assert len(file_hash) == 64, "SHA-256 해시 길이 오류"
        
        # 3. 토큰 카운트
        token_count = processor.count_tokens(test_content)
        logger.info(f"토큰 수: {token_count}")
        assert token_count > 0, "토큰 카운트 오류"
        
        logger.info("✓ 유틸리티 함수 테스트 성공")
        
    finally:
        # 임시 파일 삭제
        if temp_file_path.exists():
            temp_file_path.unlink()

# 테스트 실행
test_document_processor_utils()

2025-11-08 22:36:26 [I] src.processors.document_processor - DocumentProcessor 초기화 완료 (DB: d:\GoogleDrive\codeit_ai_g2b_search\data\test_documents.db)
2025-11-08 22:36:26 [I] __main__ - 파일 해시: 258983484b09a700...
2025-11-08 22:36:26 [I] __main__ - 토큰 수: 9
2025-11-08 22:36:26 [I] __main__ - ✓ 유틸리티 함수 테스트 성공
2025-11-08 22:36:26 [I] __main__ - 파일 해시: 258983484b09a700...
2025-11-08 22:36:26 [I] __main__ - 토큰 수: 9
2025-11-08 22:36:26 [I] __main__ - ✓ 유틸리티 함수 테스트 성공


## 2. DocumentProcessor 해시 계산 및 토큰 카운트 테스트

In [7]:
def test_documents_db_crud() -> None:
    """DocumentsDB CRUD 테스트"""
    from datetime import datetime
    import sqlite3
    
    # 테스트용 DB 경로
    test_db_path = project_root / "data" / "test_documents.db"
    test_db_path.parent.mkdir(parents=True, exist_ok=True)
    
    # DB 초기화
    db = DocumentsDB(str(test_db_path))
    
    # 기존 테스트 데이터 삭제 (파일 삭제 대신)
    with sqlite3.connect(test_db_path) as conn:
        conn.execute("DELETE FROM page_data")
        conn.execute("DELETE FROM file_info")
        conn.commit()
    
    logger.info(f"테스트 DB 초기화: {test_db_path}")
    
    # 1. 파일 정보 삽입 (Create)
    test_hash = "test_hash_12345"
    success = db.insert_file_info(
        file_hash=test_hash,
        file_name="test_document.pdf",
        total_pages=3,
        file_size=1024 * 50,  # 50KB
        total_chars=5000,
        total_tokens=1200
    )
    logger.info(f"파일 정보 삽입: {success}")
    
    # 2. 페이지 데이터 삽입
    for page_num in range(1, 4):
        content = f"# 페이지 {page_num}\n\n테스트 콘텐츠입니다."
        db.insert_page_data(
            file_hash=test_hash,
            page_number=page_num,
            markdown_content=content,
            token_count=100 + page_num * 10,
            is_empty=False
        )
    logger.info("페이지 데이터 삽입 완료")
    
    # 3. 통계 조회 (Read)
    stats = db.get_document_stats()
    logger.info(f"문서 통계: {stats}")
    
    # 4. 데이터 확인
    assert stats['total_files'] >= 1, "파일 개수 불일치"
    assert stats['total_pages'] >= 3, "페이지 개수 불일치"
    
    logger.info("✓ CRUD 테스트 성공")
    return db, test_hash

# 테스트 실행
db, test_hash = test_documents_db_crud()

2025-11-08 22:36:20 [I] __main__ - 테스트 DB 초기화: d:\GoogleDrive\codeit_ai_g2b_search\data\test_documents.db
2025-11-08 22:36:20 [I] __main__ - 파일 정보 삽입: True
2025-11-08 22:36:20 [I] __main__ - 파일 정보 삽입: True
2025-11-08 22:36:20 [I] __main__ - 페이지 데이터 삽입 완료
2025-11-08 22:36:20 [I] __main__ - 문서 통계: {'total_files': 1, 'total_pages': 3, 'total_tokens': 1200, 'total_size_bytes': 51200, 'total_size_mb': 0.05}
2025-11-08 22:36:20 [I] __main__ - ✓ CRUD 테스트 성공
2025-11-08 22:36:20 [I] __main__ - 페이지 데이터 삽입 완료
2025-11-08 22:36:20 [I] __main__ - 문서 통계: {'total_files': 1, 'total_pages': 3, 'total_tokens': 1200, 'total_size_bytes': 51200, 'total_size_mb': 0.05}
2025-11-08 22:36:20 [I] __main__ - ✓ CRUD 테스트 성공


## 1. DocumentsDB 기본 CRUD 테스트

## 테스트 요약

위의 테스트들을 통해 다음을 확인했습니다:

1. **DocumentsDB CRUD**: 파일 정보/페이지 데이터 삽입 및 조회 정상 동작
2. **DocumentProcessor 유틸리티**: 파일 해시 계산, 토큰 카운트 정상
3. **PDF 처리 시뮬레이션**: 페이지별 콘텐츠 처리 로직 검증
4. **DB 검증**: 전체 통계 및 데이터 무결성 확인
5. **실제 PDF 처리**: PyMuPDF 사용 가능 시 자동 처리

**추가 테스트 방법**:
- `data/raw/` 디렉토리에 PDF 파일을 추가하면 실제 PDF 처리 테스트 자동 실행됩니다.
- HWP 파일 처리는 현재 `document_processor.py`에 구현되지 않았으므로 향후 추가 필요합니다.