In [1]:
%pip install tiktoken pymupdf -q

Note: you may need to restart the kernel to use updated packages.


# 필수 패키지 설치

#### src.processors.document_processor.py
HWP를 PDF로 변환하여 처리하는 코드 추가
- LibreOffice + unoconv(pyuno) 변환을 위한 환경 설정 필요

In [None]:
# -*- coding: utf-8 -*-
import hashlib
import subprocess
import tempfile
import shutil
from pathlib import Path
from typing import Optional, Dict, Any, List, Tuple
import tiktoken
import re 

try:
    import pymupdf
    import pymupdf4llm
    PYMUPDF_AVAILABLE = True
except ImportError:
    PYMUPDF_AVAILABLE = False

from src.db import DocumentsDB
from src.config import get_config
from src.utils.logging_config import get_logger
from tqdm.notebook import tqdm

class DocumentProcessor:
    """
    문서 처리 클래스 (PDF 및 HWP 지원) - 처리 흐름에 따라 함수 재배치

    주요 기능:
    - PDF 파일을 읽어 Markdown으로 변환
    - HWP 파일을 unoconv를 통해 PDF로 변환 후, PDF 처리 로직 재사용
    - 파일 해시 계산 및 토큰 수 계산
    """

    # --- 1. 초기화 및 기본 유틸리티 ---

    def __init__(self, db_path: Optional[str] = None, config=None, progress_callback=None):
        """DocumentProcessor 초기화"""
        self.config = config or get_config()
        self.logger = get_logger(__name__)
        
        if db_path is None:
            db_path = self.config.DOCUMENTS_DB

        self.docs_db = DocumentsDB(db_path)
        self.tokenizer = tiktoken.encoding_for_model(self.config.OPENAI_TOKENIZER_MODEL)
        self.progress_callback = progress_callback

        self.logger.info(f"DocumentProcessor 초기화 완료 (DB: {db_path})")
        if not PYMUPDF_AVAILABLE:
            self.logger.warning("PyMuPDF 라이브러리(pymupdf, pymupdf4llm)가 없어 PDF 및 HWP 처리가 비활성화됩니다.")

    def calculate_file_hash(self, file_path: str) -> str:
        """파일의 SHA-256 해시를 계산합니다."""
        with open(file_path, 'rb') as f:
            return hashlib.sha256(f.read()).hexdigest()

    def count_tokens(self, text: str) -> int:
        """주어진 텍스트의 토큰 수를 계산합니다."""
        return len(self.tokenizer.encode(text))
        
    def clean_markdown_text(self, text: str) -> str:
        """Markdown 텍스트 전처리 (공백, 줄바꿈 정리)"""
        text = re.sub(r'[ \t]+', ' ', text)
        text = re.sub(r'\n{3,}', '\n\n', text)
        lines = [line.strip() for line in text.split('\n')]
        text = '\n'.join(lines)
        return text.strip()

    # --- 2. HWP 변환 헬퍼 (HWP 전용) ---

    def _convert_hwp_to_pdf(self, hwp_path: str) -> Tuple[Optional[str], Optional[str]]:
        """unoconv를 사용하여 HWP를 PDF로 변환합니다."""
        temp_dir = tempfile.mkdtemp()
        pdf_path = Path(temp_dir) / (Path(hwp_path).stem + ".pdf")
        
        cmd = ["unoconv", "-f", "pdf", "-o", str(pdf_path), str(hwp_path)]
        
        try:
            self.logger.debug(f"unoconv 실행, pdf 변환 중: {' '.join(cmd)}")
            subprocess.run(cmd, capture_output=True, text=True, check=True, timeout=60)
            self.logger.info(f"unoconv 변환 성공: {hwp_path} -> {pdf_path}")
            return str(pdf_path), temp_dir

        except FileNotFoundError:
            self.logger.error("unoconv 명령어를 찾을 수 없습니다.")
            shutil.rmtree(temp_dir)
            return None, None
        except subprocess.CalledProcessError as e:
            self.logger.error(f"unoconv 변환 실패: {e.stderr}")
            shutil.rmtree(temp_dir)
            return None, None
        except subprocess.TimeoutExpired:
            self.logger.error("unoconv 변환 시간 초과 (60초).")
            shutil.rmtree(temp_dir)
            return None, None 

    # --- 3. PDF 파싱 및 Markdown 변환 (핵심 기능) ---

    def _markdown_with_progress(self, pdf_path: str, display_file_name: Optional[str] = None) -> List[Dict]:
        """PDF를 페이지별로 Markdown 변환 (진행 상황 표시)"""
        file_name = display_file_name or Path(pdf_path).name
        
        try:
            with pymupdf.open(pdf_path) as doc:
                total_pages = len(doc)
        except Exception as e:
            self.logger.error(f"PDF 파일 열기/페이지 수 확인 실패: {pdf_path}, 오류: {e}")
            return []

        pages_data = []
        with tqdm(total=total_pages, desc="PDF to Markdown", unit="page") as pbar:
            for page_num in range(total_pages):
                pbar_msg = ""
                try:
                    markdown = pymupdf4llm.to_markdown(doc=pdf_path, pages=[page_num])
                    markdown = self.clean_markdown_text(markdown)
                    
                    status = 'processing'
                    if not markdown.strip():
                        status = 'empty'
                        markdown = self.config.EMPTY_PAGE_MARKER
                        pbar_msg = f"빈 페이지: {page_num + 1}"
                    else:
                        pbar_msg = f"페이지 {page_num + 1} len={len(markdown)}"
                    
                    pages_data.append({'page_num': page_num + 1, 'content': markdown})
                    
                    if self.progress_callback:
                        self.progress_callback({
                            'file_name': file_name, 'current_page': page_num + 1,
                            'total_pages': total_pages, 'page_content_length': len(markdown),
                            'status': status, 'error': ""
                        })

                except Exception as e:
                    # 변환 실패 처리
                    pbar_msg = f"페이지 {page_num + 1} 실패: {e}"
                    self.logger.warning(pbar_msg)
                    pages_data.append({'page_num': page_num + 1, 'content': "[변환 실패]"})
                    if self.progress_callback:
                        self.progress_callback({
                            'file_name': file_name, 'current_page': page_num + 1,
                            'total_pages': total_pages, 'page_content_length': 0,
                            'status': 'failed', 'error': str(e)
                        })
                finally:
                    pbar.set_postfix_str(pbar_msg)
                    pbar.update(1)
        return pages_data

    # --- 4. DB 저장 및 통계 계산 (통합 로직) ---

    def _save_processed_data_to_db(self, original_file_path: str, file_hash: str, pages_data: List[Dict], is_hwp_conversion: bool = False) -> bool:
        """변환된 페이지 데이터를 DB에 저장하고 파일 정보를 업데이트합니다."""
        file = Path(original_file_path)
        all_content = []

        # 1. 페이지별 데이터 DB 저장
        for page_data in pages_data:
            page_num = page_data['page_num']
            content = page_data['content']

            is_empty = content == self.config.EMPTY_PAGE_MARKER
            
            if not is_empty and content != "[변환 실패]":
                page_content = f"{self.config.PAGE_MARKER_FORMAT.format(page_num=page_num)}\n\n{content}"
            else:
                page_content = content
            
            all_content.append(page_content)

            token_count = self.count_tokens(page_content)
            self.docs_db.insert_page_data(
                file_hash=file_hash, page_number=page_num, markdown_content=page_content,
                token_count=token_count, is_empty=is_empty
            )

        # 2. 전체 파일 정보 계산 및 DB 저장
        full_content = "\n\n".join(all_content)
        full_content = self.clean_markdown_text(full_content)
        total_tokens = self.count_tokens(full_content)
        total_pages = len(pages_data)

        self.docs_db.insert_file_info(
            file_hash=file_hash, file_name=file.name, total_pages=total_pages, 
            file_size=file.stat().st_size, total_chars=len(full_content), 
            total_tokens=total_tokens
        )
        
        file_type_log = "HWP(PDF 변환)" if is_hwp_conversion else "PDF"
        self.logger.info(
            f"{file_type_log} 처리 완료: {file.name} "
            f"({total_pages} 페이지, {total_tokens:,} 토큰, {file.stat().st_size / 1024:.1f}KB)"
        )
        return True

    # --- 5. 메인 프로세스 (흐름 제어) ---
    
    def _process_pdf(self, pdf_path: str, original_file_path: Optional[str] = None) -> Optional[str]:
        """PDF 파일을 파싱하고 DB에 저장합니다. (HWP 처리에서 재사용됨)"""
        
        original_path = original_file_path or pdf_path
        original_file = Path(original_path)
        
        if not original_file.exists():
            self.logger.error(f"원본 파일 없음: {original_path}")
            return None
        
        file_hash = self.calculate_file_hash(original_path)
        self.logger.debug(f"파일 해시: {file_hash[:16]}...")
        
        self.logger.info(f"PDF 파싱 시작: {Path(pdf_path).name} (원본: {original_file.name})")

        # 3단계: PDF 파싱 실행
        pages_data = self._markdown_with_progress(pdf_path, display_file_name=original_file.name)
        
        # 4단계: DB 저장 실행
        is_hwp = pdf_path != original_path
        success = self._save_processed_data_to_db(
            original_file_path=original_path, 
            file_hash=file_hash, 
            pages_data=pages_data,
            is_hwp_conversion=is_hwp
        )
        
        return file_hash if success else None

    def _process_hwp_as_pdf(self, hwp_path: str) -> Optional[str]:
        """HWP를 PDF로 변환 후, _process_pdf를 사용하여 처리합니다."""
        hwp_file = Path(hwp_path)
        self.logger.info(f"HWP(PDF변환) 처리 시작: {hwp_file.name}")

        temp_dir = None
        file_hash = None
        try:
            # 2단계: HWP -> PDF 변환
            pdf_path, temp_dir = self._convert_hwp_to_pdf(hwp_path)
            
            if not pdf_path:
                if self.progress_callback:
                    self.progress_callback({'file_name': hwp_file.name, 'status': 'failed', 'error': "unoconv 변환 실패"})
                return None

            # 5단계: PDF 파싱 및 DB 저장 로직 재사용
            file_hash = self._process_pdf(pdf_path=pdf_path, original_file_path=hwp_path)
            return file_hash

        except Exception as e:
            self.logger.error(f"HWP 처리 중 예외 발생: {hwp_file.name}, 오류: {e}")
            if self.progress_callback:
                self.progress_callback({'file_name': hwp_file.name, 'status': 'failed', 'error': str(e)})
            return None
        finally:
            # 임시 디렉토리 정리
            if temp_dir:
                try:
                    shutil.rmtree(temp_dir)
                    self.logger.debug(f"임시 디렉토리 삭제: {temp_dir}")
                except Exception as e:
                    self.logger.error(f"임시 디렉토리 삭제 실패: {temp_dir}, 오류: {e}")


    # --- 6. 공통 진입점 ---

    def process_document(self, file_path: str) -> Optional[str]:
        """[공통 진입점] 문서를 처리하고 DB에 저장합니다."""
        file = Path(file_path)
        if not file.exists():
            self.logger.error(f"파일 없음: {file_path}")
            return None

        extension = file.suffix.lower()

        if extension == ".pdf":
            if not PYMUPDF_AVAILABLE:
                self.logger.error("PDF 처리를 위해 'pymupdf'와 'pymupdf4llm' 라이브러리가 필요합니다.")
                return None
            return self._process_pdf(file_path)
        
        elif extension == ".hwp":
            if not PYMUPDF_AVAILABLE: 
                self.logger.error("HWP 처리를 위해 'pymupdf'와 'pymupdf4llm' (및 unoconv)가 필요합니다.")
                return None
            return self._process_hwp_as_pdf(file_path)
        
        else:
            self.logger.warning(f"지원하지 않는 파일 형식: {extension} ({file.name})")
            return None

# document_processer 테스트

In [2]:
# 환경 설정 및 모듈 임포트
import sys
from pathlib import Path

# 프로젝트 루트를 sys.path에 추가
project_root = Path.cwd().parent.parent
if str(project_root) not in sys.path:
    sys.path.insert(0, str(project_root))

from src.processors.document_processor import DocumentProcessor
from src.db.documents_db import DocumentsDB
from src.utils.logging_config import get_logger

logger = get_logger(__name__)
logger.info("테스트 환경 설정 완료")

Consider using the pymupdf_layout package for a greatly improved page layout analysis.
⚠ 설정 검증 실패:
  - MARKDOWN_REMOVE_ELEMENTS에 잘못된 값: {'blockquotes', 'lists'}. 허용: {'html', 'images', 'headers', 'emphasis', 'links'}
2025-11-14 13:50:12 [I] [DOCDB] - DocumentsDB 모듈이 로드되었습니다.
2025-11-14 13:50:12 [I] [DOCDB] - DocumentsDB 모듈이 로드되었습니다.
2025-11-14 13:50:13 [I] [DOCDB] - DocumentsDB 모듈이 로드되었습니다.
2025-11-14 13:50:13 [I] __main__ - 테스트 환경 설정 완료


In [6]:
def test_real_pdf_if_available() -> None:
    """실제 PDF 파일이 있는 경우 테스트"""
    from pathlib import Path
    
    # data/raw 디렉토리에서 PDF 파일 검색
    raw_dir = project_root / "data" / "raw"
    pdf_files = list(raw_dir.glob("*.pdf")) if raw_dir.exists() else []
    
    if not pdf_files:
        logger.warning("⚠ data/raw 디렉토리에 PDF 파일이 없습니다.")
        logger.info("테스트를 건너뜁니다. PDF 파일을 추가하려면:")
        logger.info(f"  경로: {raw_dir}")
        return
    
    logger.info(f"발견된 PDF 파일: {len(pdf_files)}개")
    
    # 첫 번째 PDF 파일 처리
    pdf_path = pdf_files[0]
    logger.info(f"처리 중: {pdf_path.name}")
    
    try:
        processor = DocumentProcessor(db_path=str(project_root / "data" / "test_documents.db"))
        file_hash = processor.process_pdf(str(pdf_path))
        
        if file_hash:
            logger.info(f"✓ PDF 처리 성공: {file_hash[:16]}...")
        else:
            logger.error("✗ PDF 처리 실패 (PyMuPDF 미설치 가능성)")
            
    except Exception as e:
        logger.error(f"✗ PDF 처리 중 오류: {e}")

# 실행
test_real_pdf_if_available()

2025-11-14 14:00:26 [I] __main__ - 발견된 PDF 파일: 100개
2025-11-14 14:00:26 [I] __main__ - 처리 중: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf
2025-11-14 14:00:26 [I] [DOCP] - DocumentProcessor 초기화 완료 (DB: /home/spai0438/codeit_ai_g2b_search/data/test_documents.db)
2025-11-14 14:00:26 [I] [DOCP] - PDF 처리 시작: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf
2025-11-14 14:00:26 [D] [DOCP] - 파일 해시: 5a28516e24903a44...


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-14 14:01:45 [I] [DOCP] - PDF 처리 완료: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf (96 페이지, 1675.0KB), 변환문자수=116,963
2025-11-14 14:01:45 [I] __main__ - ✓ PDF 처리 성공: 5a28516e24903a44...


## 전체 파일 로드해서 test_documents.db에 넣어보기

In [14]:
def test_real_pdf_if_available() -> None:
    """실제 PDF 파일이 있는 경우 테스트"""
    from pathlib import Path
    from tqdm import tqdm

    # data/raw 디렉토리에서 PDF 파일 검색
    raw_dir = project_root / "data" / "raw"
    pdf_files = list(raw_dir.glob("*.pdf")) if raw_dir.exists() else []
    
    if not pdf_files:
        logger.warning("⚠ data/raw 디렉토리에 PDF 파일이 없습니다.")
        logger.info("테스트를 건너뜁니다. PDF 파일을 추가하려면:")
        logger.info(f"  경로: {raw_dir}")
        return
    
    logger.info(f"발견된 PDF 파일: **{len(pdf_files)}**개")
    
    # DocumentProcessor 인스턴스를 루프 밖에서 한 번만 생성
    try:
        processor = DocumentProcessor(db_path=str(project_root / "data" / "test_documents.db"))
    except Exception as e:
        logger.error(f"✗ DocumentProcessor 초기화 중 오류: {e}")
        return

    # --- 모든 PDF 파일을 처리하는 반복문 구조 ---
    for pdf_path in pdf_files:
        logger.info(f"처리 중: **{pdf_path.name}**")
        
        try:
            file_hash = processor.process_pdf(str(pdf_path))
            
            if file_hash:
                logger.info(f"✓ PDF 처리 성공: {file_hash[:16]}...")
            else:
                # process_pdf가 성공했지만 해시를 반환하지 않은 경우 (예: 파일이 비어 있음)
                logger.error(f"✗ PDF 처리 실패 (파일 해시 반환 안 됨): {pdf_path.name}")
                
        except Exception as e:
            # PyMuPDF 미설치 등 구체적인 오류를 로깅
            logger.error(f"✗ PDF 처리 중 오류 [{pdf_path.name}]: {e}")
            
    logger.info("모든 PDF 파일 처리가 완료되었습니다.")

# 실행
test_real_pdf_if_available()

2025-11-14 14:43:17 [I] __main__ - 발견된 PDF 파일: **100**개
2025-11-14 14:43:17 [I] [DOCP] - DocumentProcessor 초기화 완료 (DB: /home/spai0438/codeit_ai_g2b_search/data/test_documents.db)
2025-11-14 14:43:17 [I] __main__ - 처리 중: **한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf**
2025-11-14 14:43:17 [I] [DOCP] - PDF 처리 시작: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf
2025-11-14 14:43:17 [D] [DOCP] - 파일 해시: 5a28516e24903a44...


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-14 14:44:36 [I] [DOCP] - PDF 처리 완료: 한국가스공사_[재공고]차세대 통합정보시스템(ERP) 구축.pdf (96 페이지, 1675.0KB), 변환문자수=116,963
2025-11-14 14:44:36 [I] __main__ - ✓ PDF 처리 성공: 5a28516e24903a44...
2025-11-14 14:44:36 [I] __main__ - 처리 중: **광주과학기술원_학사시스템 기능개선 사업.pdf**
2025-11-14 14:44:36 [I] [DOCP] - PDF 처리 시작: 광주과학기술원_학사시스템 기능개선 사업.pdf
2025-11-14 14:44:36 [D] [DOCP] - 파일 해시: 503e8c94230c54f4...


PDF to Markdown:   0%|          | 0/66 [00:00<?, ?page/s]

2025-11-14 14:45:06 [I] [DOCP] - PDF 처리 완료: 광주과학기술원_학사시스템 기능개선 사업.pdf (66 페이지, 1217.7KB), 변환문자수=75,125
2025-11-14 14:45:06 [I] __main__ - ✓ PDF 처리 성공: 503e8c94230c54f4...
2025-11-14 14:45:06 [I] __main__ - 처리 중: **한국지식재산보호원_IP-NAVI  해외지식재산센터 사업관리 시스템 기능개.pdf**
2025-11-14 14:45:06 [I] [DOCP] - PDF 처리 시작: 한국지식재산보호원_IP-NAVI  해외지식재산센터 사업관리 시스템 기능개.pdf
2025-11-14 14:45:06 [D] [DOCP] - 파일 해시: b9cab07e470a3d15...


PDF to Markdown:   0%|          | 0/67 [00:00<?, ?page/s]

2025-11-14 14:45:46 [I] [DOCP] - PDF 처리 완료: 한국지식재산보호원_IP-NAVI  해외지식재산센터 사업관리 시스템 기능개.pdf (67 페이지, 1392.7KB), 변환문자수=106,270
2025-11-14 14:45:46 [I] __main__ - ✓ PDF 처리 성공: b9cab07e470a3d15...
2025-11-14 14:45:46 [I] __main__ - 처리 중: **경기도 평택시_2024년도 평택시 버스정보시스템(BIS) 구축사업.pdf**
2025-11-14 14:45:46 [I] [DOCP] - PDF 처리 시작: 경기도 평택시_2024년도 평택시 버스정보시스템(BIS) 구축사업.pdf
2025-11-14 14:45:46 [D] [DOCP] - 파일 해시: a2bd4f497efd48ed...


PDF to Markdown:   0%|          | 0/118 [00:00<?, ?page/s]

2025-11-14 14:47:00 [I] [DOCP] - PDF 처리 완료: 경기도 평택시_2024년도 평택시 버스정보시스템(BIS) 구축사업.pdf (118 페이지, 3220.2KB), 변환문자수=104,805
2025-11-14 14:47:00 [I] __main__ - ✓ PDF 처리 성공: a2bd4f497efd48ed...
2025-11-14 14:47:00 [I] __main__ - 처리 중: **경기도사회서비스원_2024년 통합사회정보시스템 운영지원.pdf**
2025-11-14 14:47:00 [I] [DOCP] - PDF 처리 시작: 경기도사회서비스원_2024년 통합사회정보시스템 운영지원.pdf
2025-11-14 14:47:00 [D] [DOCP] - 파일 해시: 0082e10f994649d2...


PDF to Markdown:   0%|          | 0/113 [00:00<?, ?page/s]

2025-11-14 14:48:08 [I] [DOCP] - PDF 처리 완료: 경기도사회서비스원_2024년 통합사회정보시스템 운영지원.pdf (113 페이지, 1812.6KB), 변환문자수=90,271
2025-11-14 14:48:08 [I] __main__ - ✓ PDF 처리 성공: 0082e10f994649d2...
2025-11-14 14:48:08 [I] __main__ - 처리 중: **(재)예술경영지원센터_통합 정보시스템 구축 사전 컨설팅.pdf**
2025-11-14 14:48:08 [I] [DOCP] - PDF 처리 시작: (재)예술경영지원센터_통합 정보시스템 구축 사전 컨설팅.pdf
2025-11-14 14:48:08 [D] [DOCP] - 파일 해시: 95971f5e34bb7ea4...


PDF to Markdown:   0%|          | 0/58 [00:00<?, ?page/s]

2025-11-14 14:48:37 [I] [DOCP] - PDF 처리 완료: (재)예술경영지원센터_통합 정보시스템 구축 사전 컨설팅.pdf (58 페이지, 1425.2KB), 변환문자수=51,426
2025-11-14 14:48:37 [I] __main__ - ✓ PDF 처리 성공: 95971f5e34bb7ea4...
2025-11-14 14:48:37 [I] __main__ - 처리 중: **축산물품질평가원_꿀 품질평가 전산시스템 기능개선 사업.pdf**
2025-11-14 14:48:37 [I] [DOCP] - PDF 처리 시작: 축산물품질평가원_꿀 품질평가 전산시스템 기능개선 사업.pdf
2025-11-14 14:48:37 [D] [DOCP] - 파일 해시: 73cce21ab46982fb...


PDF to Markdown:   0%|          | 0/87 [00:00<?, ?page/s]

2025-11-14 14:49:37 [I] [DOCP] - PDF 처리 완료: 축산물품질평가원_꿀 품질평가 전산시스템 기능개선 사업.pdf (87 페이지, 1963.0KB), 변환문자수=104,544
2025-11-14 14:49:37 [I] __main__ - ✓ PDF 처리 성공: 73cce21ab46982fb...
2025-11-14 14:49:37 [I] __main__ - 처리 중: **한국사회보장정보원_라오스 보건의료정보화 협력을 위한 사전타당성 조.pdf**
2025-11-14 14:49:37 [I] [DOCP] - PDF 처리 시작: 한국사회보장정보원_라오스 보건의료정보화 협력을 위한 사전타당성 조.pdf
2025-11-14 14:49:37 [D] [DOCP] - 파일 해시: cc6ecdb1d0489c27...


PDF to Markdown:   0%|          | 0/75 [00:00<?, ?page/s]

2025-11-14 14:50:08 [I] [DOCP] - PDF 처리 완료: 한국사회보장정보원_라오스 보건의료정보화 협력을 위한 사전타당성 조.pdf (75 페이지, 1185.7KB), 변환문자수=52,700
2025-11-14 14:50:08 [I] __main__ - ✓ PDF 처리 성공: cc6ecdb1d0489c27...
2025-11-14 14:50:08 [I] __main__ - 처리 중: **한국농어촌공사_아세안+3 식량안보정보시스템(AFSIS) 3단계 협력(캄보디아.pdf**
2025-11-14 14:50:08 [I] [DOCP] - PDF 처리 시작: 한국농어촌공사_아세안+3 식량안보정보시스템(AFSIS) 3단계 협력(캄보디아.pdf
2025-11-14 14:50:08 [D] [DOCP] - 파일 해시: 3cecebf9a5dc87e9...


PDF to Markdown:   0%|          | 0/135 [00:00<?, ?page/s]

2025-11-14 14:51:58 [I] [DOCP] - PDF 처리 완료: 한국농어촌공사_아세안+3 식량안보정보시스템(AFSIS) 3단계 협력(캄보디아.pdf (135 페이지, 2748.3KB), 변환문자수=135,632
2025-11-14 14:51:58 [I] __main__ - ✓ PDF 처리 성공: 3cecebf9a5dc87e9...
2025-11-14 14:51:58 [I] __main__ - 처리 중: **한국수자원공사_건설통합시스템(CMS) 고도화.pdf**
2025-11-14 14:51:58 [I] [DOCP] - PDF 처리 시작: 한국수자원공사_건설통합시스템(CMS) 고도화.pdf
2025-11-14 14:51:58 [D] [DOCP] - 파일 해시: 4affb5c2e85ed75b...


PDF to Markdown:   0%|          | 0/87 [00:00<?, ?page/s]

2025-11-14 14:52:56 [I] [DOCP] - PDF 처리 완료: 한국수자원공사_건설통합시스템(CMS) 고도화.pdf (87 페이지, 1993.2KB), 변환문자수=69,640
2025-11-14 14:52:56 [I] __main__ - ✓ PDF 처리 성공: 4affb5c2e85ed75b...
2025-11-14 14:52:56 [I] __main__ - 처리 중: **국방과학연구소_기록관리시스템 통합 활용 및 보안 환경 구축.pdf**
2025-11-14 14:52:56 [I] [DOCP] - PDF 처리 시작: 국방과학연구소_기록관리시스템 통합 활용 및 보안 환경 구축.pdf
2025-11-14 14:52:56 [D] [DOCP] - 파일 해시: a400b61132d1b2d3...


PDF to Markdown:   0%|          | 0/69 [00:00<?, ?page/s]

2025-11-14 14:53:37 [I] [DOCP] - PDF 처리 완료: 국방과학연구소_기록관리시스템 통합 활용 및 보안 환경 구축.pdf (69 페이지, 2101.3KB), 변환문자수=69,011
2025-11-14 14:53:37 [I] __main__ - ✓ PDF 처리 성공: a400b61132d1b2d3...
2025-11-14 14:53:37 [I] __main__ - 처리 중: **한국농어촌공사_네팔 수자원관리 정보화사업-Pilot 시스템 구축용역.pdf**
2025-11-14 14:53:37 [I] [DOCP] - PDF 처리 시작: 한국농어촌공사_네팔 수자원관리 정보화사업-Pilot 시스템 구축용역.pdf
2025-11-14 14:53:37 [D] [DOCP] - 파일 해시: 23ba22be10ec6b51...


PDF to Markdown:   0%|          | 0/116 [00:00<?, ?page/s]

2025-11-14 14:54:56 [I] [DOCP] - PDF 처리 완료: 한국농어촌공사_네팔 수자원관리 정보화사업-Pilot 시스템 구축용역.pdf (116 페이지, 5623.3KB), 변환문자수=87,331
2025-11-14 14:54:56 [I] __main__ - ✓ PDF 처리 성공: 23ba22be10ec6b51...
2025-11-14 14:54:56 [I] __main__ - 처리 중: **한국철도공사 (용역)_예약발매시스템 개량 ISMP 용역.pdf**
2025-11-14 14:54:56 [I] [DOCP] - PDF 처리 시작: 한국철도공사 (용역)_예약발매시스템 개량 ISMP 용역.pdf
2025-11-14 14:54:56 [D] [DOCP] - 파일 해시: 2bb8dee535238459...


PDF to Markdown:   0%|          | 0/106 [00:00<?, ?page/s]

2025-11-14 14:55:59 [I] [DOCP] - PDF 처리 완료: 한국철도공사 (용역)_예약발매시스템 개량 ISMP 용역.pdf (106 페이지, 2114.9KB), 변환문자수=91,630
2025-11-14 14:55:59 [I] __main__ - ✓ PDF 처리 성공: 2bb8dee535238459...
2025-11-14 14:55:59 [I] __main__ - 처리 중: **기초과학연구원_2025년도 중이온가속기용 극저온시스템 운전 용역.pdf**
2025-11-14 14:55:59 [I] [DOCP] - PDF 처리 시작: 기초과학연구원_2025년도 중이온가속기용 극저온시스템 운전 용역.pdf
2025-11-14 14:55:59 [D] [DOCP] - 파일 해시: 56e5a8ae813dbddf...


PDF to Markdown:   0%|          | 0/49 [00:00<?, ?page/s]

2025-11-14 14:56:56 [I] [DOCP] - PDF 처리 완료: 기초과학연구원_2025년도 중이온가속기용 극저온시스템 운전 용역.pdf (49 페이지, 627.1KB), 변환문자수=67,441
2025-11-14 14:56:56 [I] __main__ - ✓ PDF 처리 성공: 56e5a8ae813dbddf...
2025-11-14 14:56:56 [I] __main__ - 처리 중: **국가철도공단_철도인프라 디지털트윈 정보화전략계획(ISP) 수립 용역(변.pdf**
2025-11-14 14:56:56 [I] [DOCP] - PDF 처리 시작: 국가철도공단_철도인프라 디지털트윈 정보화전략계획(ISP) 수립 용역(변.pdf
2025-11-14 14:56:57 [D] [DOCP] - 파일 해시: d36ac72b9cc78bbb...


PDF to Markdown:   0%|          | 0/95 [00:00<?, ?page/s]

2025-11-14 14:57:42 [I] [DOCP] - PDF 처리 완료: 국가철도공단_철도인프라 디지털트윈 정보화전략계획(ISP) 수립 용역(변.pdf (95 페이지, 1477.2KB), 변환문자수=64,911
2025-11-14 14:57:42 [I] __main__ - ✓ PDF 처리 성공: d36ac72b9cc78bbb...
2025-11-14 14:57:42 [I] __main__ - 처리 중: **남서울대학교_[혁신-국고] 남서울대학교 스마트 정보시스템 활성화(학사.pdf**
2025-11-14 14:57:42 [I] [DOCP] - PDF 처리 시작: 남서울대학교_[혁신-국고] 남서울대학교 스마트 정보시스템 활성화(학사.pdf
2025-11-14 14:57:42 [D] [DOCP] - 파일 해시: 1fd3d7e22b8b065c...


PDF to Markdown:   0%|          | 0/93 [00:00<?, ?page/s]

2025-11-14 14:58:34 [I] [DOCP] - PDF 처리 완료: 남서울대학교_[혁신-국고] 남서울대학교 스마트 정보시스템 활성화(학사.pdf (93 페이지, 1537.8KB), 변환문자수=97,626
2025-11-14 14:58:34 [I] __main__ - ✓ PDF 처리 성공: 1fd3d7e22b8b065c...
2025-11-14 14:58:34 [I] __main__ - 처리 중: **한국사학진흥재단_대학재정정보시스템(기본재산 및 기채 사후관리) 고.pdf**
2025-11-14 14:58:34 [I] [DOCP] - PDF 처리 시작: 한국사학진흥재단_대학재정정보시스템(기본재산 및 기채 사후관리) 고.pdf
2025-11-14 14:58:34 [D] [DOCP] - 파일 해시: 34f42ba5e6e35c81...


PDF to Markdown:   0%|          | 0/129 [00:00<?, ?page/s]

2025-11-14 15:00:12 [I] [DOCP] - PDF 처리 완료: 한국사학진흥재단_대학재정정보시스템(기본재산 및 기채 사후관리) 고.pdf (129 페이지, 2623.4KB), 변환문자수=152,365
2025-11-14 15:00:12 [I] __main__ - ✓ PDF 처리 성공: 34f42ba5e6e35c81...
2025-11-14 15:00:12 [I] __main__ - 처리 중: **한국수출입은행_(긴급) 모잠비크 마푸토 지능형교통시스템(ITS) 구축사업.pdf**
2025-11-14 15:00:12 [I] [DOCP] - PDF 처리 시작: 한국수출입은행_(긴급) 모잠비크 마푸토 지능형교통시스템(ITS) 구축사업.pdf
2025-11-14 15:00:12 [D] [DOCP] - 파일 해시: 1c8f43e0e65bec50...


PDF to Markdown:   0%|          | 0/90 [00:00<?, ?page/s]

2025-11-14 15:01:04 [I] [DOCP] - PDF 처리 완료: 한국수출입은행_(긴급) 모잠비크 마푸토 지능형교통시스템(ITS) 구축사업.pdf (90 페이지, 1658.9KB), 변환문자수=77,891
2025-11-14 15:01:04 [I] __main__ - ✓ PDF 처리 성공: 1c8f43e0e65bec50...
2025-11-14 15:01:04 [I] __main__ - 처리 중: **한국철도공사 (용역)_모바일오피스 시스템 고도화 용역(총체 및 1차).pdf**
2025-11-14 15:01:04 [I] [DOCP] - PDF 처리 시작: 한국철도공사 (용역)_모바일오피스 시스템 고도화 용역(총체 및 1차).pdf
2025-11-14 15:01:04 [D] [DOCP] - 파일 해시: 9c785613405a2d7e...


PDF to Markdown:   0%|          | 0/182 [00:00<?, ?page/s]

2025-11-14 15:03:42 [I] [DOCP] - PDF 처리 완료: 한국철도공사 (용역)_모바일오피스 시스템 고도화 용역(총체 및 1차).pdf (182 페이지, 5464.0KB), 변환문자수=157,096
2025-11-14 15:03:42 [I] __main__ - ✓ PDF 처리 성공: 9c785613405a2d7e...
2025-11-14 15:03:42 [I] __main__ - 처리 중: **부산관광공사_경영정보시스템 기능개선.pdf**
2025-11-14 15:03:42 [I] [DOCP] - PDF 처리 시작: 부산관광공사_경영정보시스템 기능개선.pdf
2025-11-14 15:03:42 [D] [DOCP] - 파일 해시: c512efb707b3e7e9...


PDF to Markdown:   0%|          | 0/102 [00:00<?, ?page/s]

2025-11-14 15:04:43 [I] [DOCP] - PDF 처리 완료: 부산관광공사_경영정보시스템 기능개선.pdf (102 페이지, 6509.0KB), 변환문자수=87,046
2025-11-14 15:04:43 [I] __main__ - ✓ PDF 처리 성공: c512efb707b3e7e9...
2025-11-14 15:04:43 [I] __main__ - 처리 중: **고양도시관리공사_관산근린공원 다목적구장 홈페이지 및 회원 통합운영.pdf**
2025-11-14 15:04:43 [I] [DOCP] - PDF 처리 시작: 고양도시관리공사_관산근린공원 다목적구장 홈페이지 및 회원 통합운영.pdf
2025-11-14 15:04:43 [D] [DOCP] - 파일 해시: 1962dbea1c7f8ff5...


PDF to Markdown:   0%|          | 0/95 [00:00<?, ?page/s]

2025-11-14 15:05:41 [I] [DOCP] - PDF 처리 완료: 고양도시관리공사_관산근린공원 다목적구장 홈페이지 및 회원 통합운영.pdf (95 페이지, 1625.9KB), 변환문자수=79,419
2025-11-14 15:05:41 [I] __main__ - ✓ PDF 처리 성공: 1962dbea1c7f8ff5...
2025-11-14 15:05:41 [I] __main__ - 처리 중: **한국수자원공사_용인 첨단 시스템반도체 국가산단 용수공급사업 타당성.pdf**
2025-11-14 15:05:41 [I] [DOCP] - PDF 처리 시작: 한국수자원공사_용인 첨단 시스템반도체 국가산단 용수공급사업 타당성.pdf
2025-11-14 15:05:41 [D] [DOCP] - 파일 해시: 43b05d0915dcd788...


PDF to Markdown:   0%|          | 0/55 [00:00<?, ?page/s]

2025-11-14 15:05:58 [I] [DOCP] - PDF 처리 완료: 한국수자원공사_용인 첨단 시스템반도체 국가산단 용수공급사업 타당성.pdf (55 페이지, 646.0KB), 변환문자수=44,482
2025-11-14 15:05:58 [I] __main__ - ✓ PDF 처리 성공: 43b05d0915dcd788...
2025-11-14 15:05:58 [I] __main__ - 처리 중: **서영대학교 산학협력단_전문대학 혁신지원사업 서영대학교 차세대 교육.pdf**
2025-11-14 15:05:58 [I] [DOCP] - PDF 처리 시작: 서영대학교 산학협력단_전문대학 혁신지원사업 서영대학교 차세대 교육.pdf
2025-11-14 15:05:58 [D] [DOCP] - 파일 해시: 94df0daa0b358660...


PDF to Markdown:   0%|          | 0/119 [00:00<?, ?page/s]

2025-11-14 15:07:23 [I] [DOCP] - PDF 처리 완료: 서영대학교 산학협력단_전문대학 혁신지원사업 서영대학교 차세대 교육.pdf (119 페이지, 2292.5KB), 변환문자수=111,772
2025-11-14 15:07:23 [I] __main__ - ✓ PDF 처리 성공: 94df0daa0b358660...
2025-11-14 15:07:23 [I] __main__ - 처리 중: **대전대학교_대전대학교 2024학년도 다층적 융합 학습경험 플랫폼(MILE) 전.pdf**
2025-11-14 15:07:23 [I] [DOCP] - PDF 처리 시작: 대전대학교_대전대학교 2024학년도 다층적 융합 학습경험 플랫폼(MILE) 전.pdf
2025-11-14 15:07:23 [D] [DOCP] - 파일 해시: 81228ea89e788158...


PDF to Markdown:   0%|          | 0/73 [00:00<?, ?page/s]

2025-11-14 15:08:06 [I] [DOCP] - PDF 처리 완료: 대전대학교_대전대학교 2024학년도 다층적 융합 학습경험 플랫폼(MILE) 전.pdf (73 페이지, 1567.4KB), 변환문자수=69,761
2025-11-14 15:08:06 [I] __main__ - ✓ PDF 처리 성공: 81228ea89e788158...
2025-11-14 15:08:06 [I] __main__ - 처리 중: **재단법인 광주광역시 광주문화재단_2024년 광주문화예술통합플랫폼 시스.pdf**
2025-11-14 15:08:06 [I] [DOCP] - PDF 처리 시작: 재단법인 광주광역시 광주문화재단_2024년 광주문화예술통합플랫폼 시스.pdf
2025-11-14 15:08:06 [D] [DOCP] - 파일 해시: 520d070f022bdf32...


PDF to Markdown:   0%|          | 0/90 [00:00<?, ?page/s]

2025-11-14 15:08:50 [I] [DOCP] - PDF 처리 완료: 재단법인 광주광역시 광주문화재단_2024년 광주문화예술통합플랫폼 시스.pdf (90 페이지, 1264.7KB), 변환문자수=106,218
2025-11-14 15:08:50 [I] __main__ - ✓ PDF 처리 성공: 520d070f022bdf32...
2025-11-14 15:08:50 [I] __main__ - 처리 중: **재단법인스포츠윤리센터_스포츠윤리센터 LMS(학습지원시스템) 기능개선.pdf**
2025-11-14 15:08:50 [I] [DOCP] - PDF 처리 시작: 재단법인스포츠윤리센터_스포츠윤리센터 LMS(학습지원시스템) 기능개선.pdf
2025-11-14 15:08:50 [D] [DOCP] - 파일 해시: 2557d92753bd2460...


PDF to Markdown:   0%|          | 0/102 [00:00<?, ?page/s]

2025-11-14 15:09:57 [I] [DOCP] - PDF 처리 완료: 재단법인스포츠윤리센터_스포츠윤리센터 LMS(학습지원시스템) 기능개선.pdf (102 페이지, 2112.1KB), 변환문자수=98,341
2025-11-14 15:09:57 [I] __main__ - ✓ PDF 처리 성공: 2557d92753bd2460...
2025-11-14 15:09:57 [I] __main__ - 처리 중: **인천광역시_인천일자리플랫폼 정보시스템 구축 ISP 수립용역.pdf**
2025-11-14 15:09:57 [I] [DOCP] - PDF 처리 시작: 인천광역시_인천일자리플랫폼 정보시스템 구축 ISP 수립용역.pdf
2025-11-14 15:09:57 [D] [DOCP] - 파일 해시: 5950f21189ee2033...


PDF to Markdown:   0%|          | 0/85 [00:00<?, ?page/s]

2025-11-14 15:10:42 [I] [DOCP] - PDF 처리 완료: 인천광역시_인천일자리플랫폼 정보시스템 구축 ISP 수립용역.pdf (85 페이지, 2219.4KB), 변환문자수=112,075
2025-11-14 15:10:42 [I] __main__ - ✓ PDF 처리 성공: 5950f21189ee2033...
2025-11-14 15:10:42 [I] __main__ - 처리 중: **한국어촌어항공단_한국어촌어항공단 경영관리시스템(ERP·GW) 기능 고도.pdf**
2025-11-14 15:10:42 [I] [DOCP] - PDF 처리 시작: 한국어촌어항공단_한국어촌어항공단 경영관리시스템(ERP·GW) 기능 고도.pdf
2025-11-14 15:10:42 [D] [DOCP] - 파일 해시: 09c550eb6fbb2d4c...


PDF to Markdown:   0%|          | 0/108 [00:00<?, ?page/s]

2025-11-14 15:11:55 [I] [DOCP] - PDF 처리 완료: 한국어촌어항공단_한국어촌어항공단 경영관리시스템(ERP·GW) 기능 고도.pdf (108 페이지, 2237.1KB), 변환문자수=126,093
2025-11-14 15:11:55 [I] __main__ - ✓ PDF 처리 성공: 09c550eb6fbb2d4c...
2025-11-14 15:11:55 [I] __main__ - 처리 중: **BioIN_의료기기산업 종합정보시스템(정보관리기관) 기능개선 사업(2차).pdf**
2025-11-14 15:11:55 [I] [DOCP] - PDF 처리 시작: BioIN_의료기기산업 종합정보시스템(정보관리기관) 기능개선 사업(2차).pdf
2025-11-14 15:11:55 [D] [DOCP] - 파일 해시: d3014f43215408ff...


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-14 15:12:55 [I] [DOCP] - PDF 처리 완료: BioIN_의료기기산업 종합정보시스템(정보관리기관) 기능개선 사업(2차).pdf (96 페이지, 1971.2KB), 변환문자수=80,079
2025-11-14 15:12:55 [I] __main__ - ✓ PDF 처리 성공: d3014f43215408ff...
2025-11-14 15:12:55 [I] __main__ - 처리 중: **한국수자원공사_수도사업장 통합 사고분석솔루션 시범구축 용역.pdf**
2025-11-14 15:12:55 [I] [DOCP] - PDF 처리 시작: 한국수자원공사_수도사업장 통합 사고분석솔루션 시범구축 용역.pdf
2025-11-14 15:12:55 [D] [DOCP] - 파일 해시: 234a1df13e9f3afc...


PDF to Markdown:   0%|          | 0/71 [00:00<?, ?page/s]

2025-11-14 15:13:35 [I] [DOCP] - PDF 처리 완료: 한국수자원공사_수도사업장 통합 사고분석솔루션 시범구축 용역.pdf (71 페이지, 2477.1KB), 변환문자수=60,100
2025-11-14 15:13:35 [I] __main__ - ✓ PDF 처리 성공: 234a1df13e9f3afc...
2025-11-14 15:13:35 [I] __main__ - 처리 중: **한국철도공사 (용역)_[재공고][긴급][협상형]운행정보기록 자동분석시스.pdf**
2025-11-14 15:13:35 [I] [DOCP] - PDF 처리 시작: 한국철도공사 (용역)_[재공고][긴급][협상형]운행정보기록 자동분석시스.pdf
2025-11-14 15:13:35 [D] [DOCP] - 파일 해시: 7d90b0e68a6ce250...


PDF to Markdown:   0%|          | 0/152 [00:00<?, ?page/s]

2025-11-14 15:15:18 [I] [DOCP] - PDF 처리 완료: 한국철도공사 (용역)_[재공고][긴급][협상형]운행정보기록 자동분석시스.pdf (152 페이지, 2777.1KB), 변환문자수=128,189
2025-11-14 15:15:18 [I] __main__ - ✓ PDF 처리 성공: 7d90b0e68a6ce250...
2025-11-14 15:15:18 [I] __main__ - 처리 중: **조선대학교_(재공고)2024 조선대학교 SW중심대학 사업관리시스템(WeHub) 구.pdf**
2025-11-14 15:15:18 [I] [DOCP] - PDF 처리 시작: 조선대학교_(재공고)2024 조선대학교 SW중심대학 사업관리시스템(WeHub) 구.pdf
2025-11-14 15:15:18 [D] [DOCP] - 파일 해시: 751fa99fc802a752...


PDF to Markdown:   0%|          | 0/52 [00:00<?, ?page/s]

2025-11-14 15:15:41 [I] [DOCP] - PDF 처리 완료: 조선대학교_(재공고)2024 조선대학교 SW중심대학 사업관리시스템(WeHub) 구.pdf (52 페이지, 815.1KB), 변환문자수=43,303
2025-11-14 15:15:41 [I] __main__ - ✓ PDF 처리 성공: 751fa99fc802a752...
2025-11-14 15:15:41 [I] __main__ - 처리 중: **한국재정정보원_e나라도움 업무시스템 웹 접근성 컨설팅.pdf**
2025-11-14 15:15:41 [I] [DOCP] - PDF 처리 시작: 한국재정정보원_e나라도움 업무시스템 웹 접근성 컨설팅.pdf
2025-11-14 15:15:41 [D] [DOCP] - 파일 해시: 482504f7c33c793b...


PDF to Markdown:   0%|          | 0/97 [00:00<?, ?page/s]

2025-11-14 15:16:42 [I] [DOCP] - PDF 처리 완료: 한국재정정보원_e나라도움 업무시스템 웹 접근성 컨설팅.pdf (97 페이지, 1783.4KB), 변환문자수=91,263
2025-11-14 15:16:42 [I] __main__ - ✓ PDF 처리 성공: 482504f7c33c793b...
2025-11-14 15:16:42 [I] __main__ - 처리 중: **(사）한국대학스포츠협의회_KUSF 체육특기자 경기기록 관리시스템 개발.pdf**
2025-11-14 15:16:42 [I] [DOCP] - PDF 처리 시작: (사）한국대학스포츠협의회_KUSF 체육특기자 경기기록 관리시스템 개발.pdf
2025-11-14 15:16:42 [D] [DOCP] - 파일 해시: 92931aa7830e2c70...


PDF to Markdown:   0%|          | 0/80 [00:00<?, ?page/s]

2025-11-14 15:17:41 [I] [DOCP] - PDF 처리 완료: (사）한국대학스포츠협의회_KUSF 체육특기자 경기기록 관리시스템 개발.pdf (80 페이지, 1924.2KB), 변환문자수=84,768
2025-11-14 15:17:41 [I] __main__ - ✓ PDF 처리 성공: 92931aa7830e2c70...
2025-11-14 15:17:41 [I] __main__ - 처리 중: **수협중앙회_강릉어선안전조업국 상황관제시스템 구축.pdf**
2025-11-14 15:17:41 [I] [DOCP] - PDF 처리 시작: 수협중앙회_강릉어선안전조업국 상황관제시스템 구축.pdf
2025-11-14 15:17:41 [D] [DOCP] - 파일 해시: 8a2445020c604900...


PDF to Markdown:   0%|          | 0/67 [00:00<?, ?page/s]

2025-11-14 15:18:21 [I] [DOCP] - PDF 처리 완료: 수협중앙회_강릉어선안전조업국 상황관제시스템 구축.pdf (67 페이지, 1533.0KB), 변환문자수=75,643
2025-11-14 15:18:21 [I] __main__ - ✓ PDF 처리 성공: 8a2445020c604900...
2025-11-14 15:18:21 [I] __main__ - 처리 중: **국민연금공단_사업장 사회보험료 지원 고시 개정에 따른 정보시스템 보.pdf**
2025-11-14 15:18:21 [I] [DOCP] - PDF 처리 시작: 국민연금공단_사업장 사회보험료 지원 고시 개정에 따른 정보시스템 보.pdf
2025-11-14 15:18:21 [D] [DOCP] - 파일 해시: cfa2276b8aaf2c34...


PDF to Markdown:   0%|          | 0/79 [00:00<?, ?page/s]

2025-11-14 15:19:08 [I] [DOCP] - PDF 처리 완료: 국민연금공단_사업장 사회보험료 지원 고시 개정에 따른 정보시스템 보.pdf (79 페이지, 2147.2KB), 변환문자수=73,165
2025-11-14 15:19:08 [I] __main__ - ✓ PDF 처리 성공: cfa2276b8aaf2c34...
2025-11-14 15:19:08 [I] __main__ - 처리 중: **한국산업단지공단_산단 안전정보시스템 1차 구축 용역.pdf**
2025-11-14 15:19:08 [I] [DOCP] - PDF 처리 시작: 한국산업단지공단_산단 안전정보시스템 1차 구축 용역.pdf
2025-11-14 15:19:08 [D] [DOCP] - 파일 해시: 9914e887828d836b...


PDF to Markdown:   0%|          | 0/126 [00:00<?, ?page/s]

2025-11-14 15:20:46 [I] [DOCP] - PDF 처리 완료: 한국산업단지공단_산단 안전정보시스템 1차 구축 용역.pdf (126 페이지, 3090.3KB), 변환문자수=128,702
2025-11-14 15:20:46 [I] __main__ - ✓ PDF 처리 성공: 9914e887828d836b...
2025-11-14 15:20:46 [I] __main__ - 처리 중: **경희대학교_[입찰공고] 산학협력단 정보시스템 운영 용역업체 선정.pdf**
2025-11-14 15:20:46 [I] [DOCP] - PDF 처리 시작: 경희대학교_[입찰공고] 산학협력단 정보시스템 운영 용역업체 선정.pdf
2025-11-14 15:20:46 [D] [DOCP] - 파일 해시: 80574a293d7a2bbb...


PDF to Markdown:   0%|          | 0/48 [00:00<?, ?page/s]

2025-11-14 15:21:08 [I] [DOCP] - PDF 처리 완료: 경희대학교_[입찰공고] 산학협력단 정보시스템 운영 용역업체 선정.pdf (48 페이지, 1848.6KB), 변환문자수=50,028
2025-11-14 15:21:08 [I] __main__ - ✓ PDF 처리 성공: 80574a293d7a2bbb...
2025-11-14 15:21:08 [I] __main__ - 처리 중: **한국산업인력공단_RFID기반 국가자격 시험 결과물 스마트 관리시스템 도.pdf**
2025-11-14 15:21:08 [I] [DOCP] - PDF 처리 시작: 한국산업인력공단_RFID기반 국가자격 시험 결과물 스마트 관리시스템 도.pdf
2025-11-14 15:21:08 [D] [DOCP] - 파일 해시: 5e8a1d979449e1e6...


PDF to Markdown:   0%|          | 0/57 [00:00<?, ?page/s]

2025-11-14 15:21:39 [I] [DOCP] - PDF 처리 완료: 한국산업인력공단_RFID기반 국가자격 시험 결과물 스마트 관리시스템 도.pdf (57 페이지, 1293.1KB), 변환문자수=53,454
2025-11-14 15:21:39 [I] __main__ - ✓ PDF 처리 성공: 5e8a1d979449e1e6...
2025-11-14 15:21:39 [I] __main__ - 처리 중: **인천공항운영서비스(주)_인천공항운영서비스㈜ 차세대 ERP시스템 구축 .pdf**
2025-11-14 15:21:39 [I] [DOCP] - PDF 처리 시작: 인천공항운영서비스(주)_인천공항운영서비스㈜ 차세대 ERP시스템 구축 .pdf
2025-11-14 15:21:39 [D] [DOCP] - 파일 해시: 999b399a28c26834...


PDF to Markdown:   0%|          | 0/68 [00:00<?, ?page/s]

2025-11-14 15:22:17 [I] [DOCP] - PDF 처리 완료: 인천공항운영서비스(주)_인천공항운영서비스㈜ 차세대 ERP시스템 구축 .pdf (68 페이지, 1304.5KB), 변환문자수=64,310
2025-11-14 15:22:17 [I] __main__ - ✓ PDF 처리 성공: 999b399a28c26834...
2025-11-14 15:22:17 [I] __main__ - 처리 중: **수협중앙회_수협중앙회 수산물사이버직매장 시스템 재구축 ISMP 수립 입.pdf**
2025-11-14 15:22:17 [I] [DOCP] - PDF 처리 시작: 수협중앙회_수협중앙회 수산물사이버직매장 시스템 재구축 ISMP 수립 입.pdf
2025-11-14 15:22:17 [D] [DOCP] - 파일 해시: 3efb4fc5469475c7...


PDF to Markdown:   0%|          | 0/89 [00:00<?, ?page/s]

2025-11-14 15:23:06 [I] [DOCP] - PDF 처리 완료: 수협중앙회_수협중앙회 수산물사이버직매장 시스템 재구축 ISMP 수립 입.pdf (89 페이지, 1805.4KB), 변환문자수=74,871
2025-11-14 15:23:06 [I] __main__ - ✓ PDF 처리 성공: 3efb4fc5469475c7...
2025-11-14 15:23:06 [I] __main__ - 처리 중: **한국교육과정평가원_국가교육과정정보센터(NCIC) 시스템 운영 및 개선.pdf**
2025-11-14 15:23:06 [I] [DOCP] - PDF 처리 시작: 한국교육과정평가원_국가교육과정정보센터(NCIC) 시스템 운영 및 개선.pdf
2025-11-14 15:23:06 [D] [DOCP] - 파일 해시: a3e4166d75bb5ceb...


PDF to Markdown:   0%|          | 0/63 [00:00<?, ?page/s]

2025-11-14 15:23:36 [I] [DOCP] - PDF 처리 완료: 한국교육과정평가원_국가교육과정정보센터(NCIC) 시스템 운영 및 개선.pdf (63 페이지, 1396.9KB), 변환문자수=55,713
2025-11-14 15:23:36 [I] __main__ - ✓ PDF 처리 성공: a3e4166d75bb5ceb...
2025-11-14 15:23:36 [I] __main__ - 처리 중: **2025 구미 아시아육상경기선수권대회 조직위원회_2025 구미아시아육상경.pdf**
2025-11-14 15:23:36 [I] [DOCP] - PDF 처리 시작: 2025 구미 아시아육상경기선수권대회 조직위원회_2025 구미아시아육상경.pdf
2025-11-14 15:23:36 [D] [DOCP] - 파일 해시: d427b7eaf0b3d550...


PDF to Markdown:   0%|          | 0/63 [00:00<?, ?page/s]

2025-11-14 15:24:07 [I] [DOCP] - PDF 처리 완료: 2025 구미 아시아육상경기선수권대회 조직위원회_2025 구미아시아육상경.pdf (63 페이지, 1221.1KB), 변환문자수=100,564
2025-11-14 15:24:07 [I] __main__ - ✓ PDF 처리 성공: d427b7eaf0b3d550...
2025-11-14 15:24:07 [I] __main__ - 처리 중: **국가과학기술지식정보서비스_통합정보시스템 고도화 용역.pdf**
2025-11-14 15:24:07 [I] [DOCP] - PDF 처리 시작: 국가과학기술지식정보서비스_통합정보시스템 고도화 용역.pdf
2025-11-14 15:24:07 [D] [DOCP] - 파일 해시: 8799fb3684981c08...


PDF to Markdown:   0%|          | 0/83 [00:00<?, ?page/s]

2025-11-14 15:24:56 [I] [DOCP] - PDF 처리 완료: 국가과학기술지식정보서비스_통합정보시스템 고도화 용역.pdf (83 페이지, 2282.9KB), 변환문자수=75,375
2025-11-14 15:24:56 [I] __main__ - ✓ PDF 처리 성공: 8799fb3684981c08...
2025-11-14 15:24:56 [I] __main__ - 처리 중: **대한장애인체육회_2025년 전국장애인체육대회 전산 및 시스템, 홈페이지 .pdf**
2025-11-14 15:24:56 [I] [DOCP] - PDF 처리 시작: 대한장애인체육회_2025년 전국장애인체육대회 전산 및 시스템, 홈페이지 .pdf
2025-11-14 15:24:56 [D] [DOCP] - 파일 해시: 8e6dc21457048c45...


PDF to Markdown:   0%|          | 0/66 [00:00<?, ?page/s]

2025-11-14 15:25:31 [I] [DOCP] - PDF 처리 완료: 대한장애인체육회_2025년 전국장애인체육대회 전산 및 시스템, 홈페이지 .pdf (66 페이지, 1461.6KB), 변환문자수=60,074
2025-11-14 15:25:31 [I] __main__ - ✓ PDF 처리 성공: 8e6dc21457048c45...
2025-11-14 15:25:31 [I] __main__ - 처리 중: **문화체육관광부 국립민속박물관_2024년 국립민속박물관 민속아카이브 자.pdf**
2025-11-14 15:25:31 [I] [DOCP] - PDF 처리 시작: 문화체육관광부 국립민속박물관_2024년 국립민속박물관 민속아카이브 자.pdf
2025-11-14 15:25:31 [D] [DOCP] - 파일 해시: 4071858c84f1209e...


PDF to Markdown:   0%|          | 0/82 [00:00<?, ?page/s]

2025-11-14 15:26:24 [I] [DOCP] - PDF 처리 완료: 문화체육관광부 국립민속박물관_2024년 국립민속박물관 민속아카이브 자.pdf (82 페이지, 1786.7KB), 변환문자수=93,027
2025-11-14 15:26:24 [I] __main__ - ✓ PDF 처리 성공: 4071858c84f1209e...
2025-11-14 15:26:24 [I] __main__ - 처리 중: **전북대학교_JST 공유대학(원) xAPI기반 LRS시스템 구축.pdf**
2025-11-14 15:26:24 [I] [DOCP] - PDF 처리 시작: 전북대학교_JST 공유대학(원) xAPI기반 LRS시스템 구축.pdf
2025-11-14 15:26:24 [D] [DOCP] - 파일 해시: 5abc644c5cf622ca...


PDF to Markdown:   0%|          | 0/80 [00:00<?, ?page/s]

2025-11-14 15:27:11 [I] [DOCP] - PDF 처리 완료: 전북대학교_JST 공유대학(원) xAPI기반 LRS시스템 구축.pdf (80 페이지, 1662.6KB), 변환문자수=163,518
2025-11-14 15:27:11 [I] __main__ - ✓ PDF 처리 성공: 5abc644c5cf622ca...
2025-11-14 15:27:11 [I] __main__ - 처리 중: **그랜드코리아레저(주)_2024년도 GKL  그룹웨어 시스템 구축 용역.pdf**
2025-11-14 15:27:11 [I] [DOCP] - PDF 처리 시작: 그랜드코리아레저(주)_2024년도 GKL  그룹웨어 시스템 구축 용역.pdf
2025-11-14 15:27:11 [D] [DOCP] - 파일 해시: ed816909e484d538...


PDF to Markdown:   0%|          | 0/181 [00:00<?, ?page/s]

2025-11-14 15:30:13 [I] [DOCP] - PDF 처리 완료: 그랜드코리아레저(주)_2024년도 GKL  그룹웨어 시스템 구축 용역.pdf (181 페이지, 3066.9KB), 변환문자수=179,080
2025-11-14 15:30:13 [I] __main__ - ✓ PDF 처리 성공: ed816909e484d538...
2025-11-14 15:30:13 [I] __main__ - 처리 중: **나노종합기술원_스마트 팹 서비스 활용체계 구축관련 설비온라인 시스.pdf**
2025-11-14 15:30:13 [I] [DOCP] - PDF 처리 시작: 나노종합기술원_스마트 팹 서비스 활용체계 구축관련 설비온라인 시스.pdf
2025-11-14 15:30:13 [D] [DOCP] - 파일 해시: 5ccfd8f92d637baa...


PDF to Markdown:   0%|          | 0/68 [00:00<?, ?page/s]

2025-11-14 15:31:13 [I] [DOCP] - PDF 처리 완료: 나노종합기술원_스마트 팹 서비스 활용체계 구축관련 설비온라인 시스.pdf (68 페이지, 1939.1KB), 변환문자수=82,235
2025-11-14 15:31:13 [I] __main__ - ✓ PDF 처리 성공: 5ccfd8f92d637baa...
2025-11-14 15:31:13 [I] __main__ - 처리 중: **고려대학교_차세대 포털·학사 정보시스템 구축사업.pdf**
2025-11-14 15:31:13 [I] [DOCP] - PDF 처리 시작: 고려대학교_차세대 포털·학사 정보시스템 구축사업.pdf
2025-11-14 15:31:13 [D] [DOCP] - 파일 해시: 65c9785a157c8f55...


PDF to Markdown:   0%|          | 0/297 [00:00<?, ?page/s]

2025-11-14 15:41:29 [I] [DOCP] - PDF 처리 완료: 고려대학교_차세대 포털·학사 정보시스템 구축사업.pdf (297 페이지, 7089.9KB), 변환문자수=273,661
2025-11-14 15:41:29 [I] __main__ - ✓ PDF 처리 성공: 65c9785a157c8f55...
2025-11-14 15:41:29 [I] __main__ - 처리 중: **사단법인아시아물위원회사무국_우즈벡-키르기즈스탄 기후변화대응 스.pdf**
2025-11-14 15:41:29 [I] [DOCP] - PDF 처리 시작: 사단법인아시아물위원회사무국_우즈벡-키르기즈스탄 기후변화대응 스.pdf
2025-11-14 15:41:29 [D] [DOCP] - 파일 해시: 9425bb4981f3b4d4...


PDF to Markdown:   0%|          | 0/77 [00:00<?, ?page/s]

2025-11-14 15:42:08 [I] [DOCP] - PDF 처리 완료: 사단법인아시아물위원회사무국_우즈벡-키르기즈스탄 기후변화대응 스.pdf (77 페이지, 1866.5KB), 변환문자수=66,507
2025-11-14 15:42:08 [I] __main__ - ✓ PDF 처리 성공: 9425bb4981f3b4d4...
2025-11-14 15:42:08 [I] __main__ - 처리 중: **서울시립대학교_[사전공개] 학업성취도 다차원 종단분석 통합시스템 1차.pdf**
2025-11-14 15:42:08 [I] [DOCP] - PDF 처리 시작: 서울시립대학교_[사전공개] 학업성취도 다차원 종단분석 통합시스템 1차.pdf
2025-11-14 15:42:08 [D] [DOCP] - 파일 해시: cd81e943ce28db81...


PDF to Markdown:   0%|          | 0/149 [00:00<?, ?page/s]

2025-11-14 15:44:34 [I] [DOCP] - PDF 처리 완료: 서울시립대학교_[사전공개] 학업성취도 다차원 종단분석 통합시스템 1차.pdf (149 페이지, 2199.5KB), 변환문자수=157,931
2025-11-14 15:44:34 [I] __main__ - ✓ PDF 처리 성공: cd81e943ce28db81...
2025-11-14 15:44:34 [I] __main__ - 처리 중: **서울특별시교육청_서울특별시교육청 지능정보화전략계획(ISP) 수립(2차) .pdf**
2025-11-14 15:44:34 [I] [DOCP] - PDF 처리 시작: 서울특별시교육청_서울특별시교육청 지능정보화전략계획(ISP) 수립(2차) .pdf
2025-11-14 15:44:34 [D] [DOCP] - 파일 해시: 886bb082aaa4fe79...


PDF to Markdown:   0%|          | 0/75 [00:00<?, ?page/s]

2025-11-14 15:45:16 [I] [DOCP] - PDF 처리 완료: 서울특별시교육청_서울특별시교육청 지능정보화전략계획(ISP) 수립(2차) .pdf (75 페이지, 1535.7KB), 변환문자수=94,467
2025-11-14 15:45:16 [I] __main__ - ✓ PDF 처리 성공: 886bb082aaa4fe79...
2025-11-14 15:45:16 [I] __main__ - 처리 중: **국민연금공단_2024년 이러닝시스템 운영 용역.pdf**
2025-11-14 15:45:16 [I] [DOCP] - PDF 처리 시작: 국민연금공단_2024년 이러닝시스템 운영 용역.pdf
2025-11-14 15:45:16 [D] [DOCP] - 파일 해시: 3683782d1928b369...


PDF to Markdown:   0%|          | 0/68 [00:00<?, ?page/s]

2025-11-14 15:45:56 [I] [DOCP] - PDF 처리 완료: 국민연금공단_2024년 이러닝시스템 운영 용역.pdf (68 페이지, 2035.4KB), 변환문자수=76,801
2025-11-14 15:45:56 [I] __main__ - ✓ PDF 처리 성공: 3683782d1928b369...
2025-11-14 15:45:56 [I] __main__ - 처리 중: **한국원자력연구원_한국원자력연구원 선량평가시스템 고도화.pdf**
2025-11-14 15:45:56 [I] [DOCP] - PDF 처리 시작: 한국원자력연구원_한국원자력연구원 선량평가시스템 고도화.pdf
2025-11-14 15:45:56 [D] [DOCP] - 파일 해시: d70c2df7c750e786...


PDF to Markdown:   0%|          | 0/69 [00:00<?, ?page/s]

2025-11-14 15:46:23 [I] [DOCP] - PDF 처리 완료: 한국원자력연구원_한국원자력연구원 선량평가시스템 고도화.pdf (69 페이지, 1220.8KB), 변환문자수=51,021
2025-11-14 15:46:23 [I] __main__ - ✓ PDF 처리 성공: d70c2df7c750e786...
2025-11-14 15:46:23 [I] __main__ - 처리 중: **한국발명진흥회 입찰공고_2024년 건설기술에 관한 특허·실용신안 활용실.pdf**
2025-11-14 15:46:23 [I] [DOCP] - PDF 처리 시작: 한국발명진흥회 입찰공고_2024년 건설기술에 관한 특허·실용신안 활용실.pdf
2025-11-14 15:46:23 [D] [DOCP] - 파일 해시: a1a9d87fa36d8c72...


PDF to Markdown:   0%|          | 0/86 [00:00<?, ?page/s]

2025-11-14 15:47:13 [I] [DOCP] - PDF 처리 완료: 한국발명진흥회 입찰공고_2024년 건설기술에 관한 특허·실용신안 활용실.pdf (86 페이지, 1882.1KB), 변환문자수=70,269
2025-11-14 15:47:13 [I] __main__ - ✓ PDF 처리 성공: a1a9d87fa36d8c72...
2025-11-14 15:47:13 [I] __main__ - 처리 중: **(사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf**
2025-11-14 15:47:13 [I] [DOCP] - PDF 처리 시작: (사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf
2025-11-14 15:47:13 [D] [DOCP] - 파일 해시: 8e00a0deddd59be8...


PDF to Markdown:   0%|          | 0/131 [00:00<?, ?page/s]

2025-11-14 15:48:59 [I] [DOCP] - PDF 처리 완료: (사)벤처기업협회_2024년 벤처확인종합관리시스템 기능 고도화 용역사업 .pdf (131 페이지, 2713.9KB), 변환문자수=123,682
2025-11-14 15:48:59 [I] __main__ - ✓ PDF 처리 성공: 8e00a0deddd59be8...
2025-11-14 15:48:59 [I] __main__ - 처리 중: **국립중앙의료원_(긴급)「2024년도 차세대 응급의료 상황관리시스템 구축.pdf**
2025-11-14 15:48:59 [I] [DOCP] - PDF 처리 시작: 국립중앙의료원_(긴급)「2024년도 차세대 응급의료 상황관리시스템 구축.pdf
2025-11-14 15:48:59 [D] [DOCP] - 파일 해시: 53a0e058e304bd7b...


PDF to Markdown:   0%|          | 0/126 [00:00<?, ?page/s]

2025-11-14 15:50:41 [I] [DOCP] - PDF 처리 완료: 국립중앙의료원_(긴급)「2024년도 차세대 응급의료 상황관리시스템 구축.pdf (126 페이지, 2626.3KB), 변환문자수=125,835
2025-11-14 15:50:41 [I] __main__ - ✓ PDF 처리 성공: 53a0e058e304bd7b...
2025-11-14 15:50:41 [I] __main__ - 처리 중: **한국로봇산업진흥원_한국로봇산업진흥원 사업관리시스템 온라인평가 .pdf**
2025-11-14 15:50:41 [I] [DOCP] - PDF 처리 시작: 한국로봇산업진흥원_한국로봇산업진흥원 사업관리시스템 온라인평가 .pdf
2025-11-14 15:50:41 [D] [DOCP] - 파일 해시: b0e37fa3ae2df975...


PDF to Markdown:   0%|          | 0/77 [00:00<?, ?page/s]

2025-11-14 15:51:18 [I] [DOCP] - PDF 처리 완료: 한국로봇산업진흥원_한국로봇산업진흥원 사업관리시스템 온라인평가 .pdf (77 페이지, 1990.5KB), 변환문자수=59,862
2025-11-14 15:51:18 [I] __main__ - ✓ PDF 처리 성공: b0e37fa3ae2df975...
2025-11-14 15:51:18 [I] __main__ - 처리 중: **한국한의학연구원_통합정보시스템 고도화 용역.pdf**
2025-11-14 15:51:18 [I] [DOCP] - PDF 처리 시작: 한국한의학연구원_통합정보시스템 고도화 용역.pdf
2025-11-14 15:51:18 [D] [DOCP] - 파일 해시: e7d55ebf56e13bb4...


PDF to Markdown:   0%|          | 0/83 [00:00<?, ?page/s]

2025-11-14 15:52:08 [I] [DOCP] - PDF 처리 완료: 한국한의학연구원_통합정보시스템 고도화 용역.pdf (83 페이지, 2282.9KB), 변환문자수=75,375
2025-11-14 15:52:08 [I] __main__ - ✓ PDF 처리 성공: e7d55ebf56e13bb4...
2025-11-14 15:52:08 [I] __main__ - 처리 중: **경기도 안양시_호계체육관 배드민턴장 및 탁구장 예약시스템 구축 용역.pdf**
2025-11-14 15:52:08 [I] [DOCP] - PDF 처리 시작: 경기도 안양시_호계체육관 배드민턴장 및 탁구장 예약시스템 구축 용역.pdf
2025-11-14 15:52:08 [D] [DOCP] - 파일 해시: 002a81027fd0a5c4...


PDF to Markdown:   0%|          | 0/93 [00:00<?, ?page/s]

2025-11-14 15:52:57 [I] [DOCP] - PDF 처리 완료: 경기도 안양시_호계체육관 배드민턴장 및 탁구장 예약시스템 구축 용역.pdf (93 페이지, 1588.3KB), 변환문자수=79,530
2025-11-14 15:52:57 [I] __main__ - ✓ PDF 처리 성공: 002a81027fd0a5c4...
2025-11-14 15:52:57 [I] __main__ - 처리 중: **한국생산기술연구원_2세대 전자조달시스템  기반구축사업.pdf**
2025-11-14 15:52:57 [I] [DOCP] - PDF 처리 시작: 한국생산기술연구원_2세대 전자조달시스템  기반구축사업.pdf
2025-11-14 15:52:57 [D] [DOCP] - 파일 해시: 5888d162b5fac856...


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-14 15:53:50 [I] [DOCP] - PDF 처리 완료: 한국생산기술연구원_2세대 전자조달시스템  기반구축사업.pdf (96 페이지, 1980.1KB), 변환문자수=78,974
2025-11-14 15:53:50 [I] __main__ - ✓ PDF 처리 성공: 5888d162b5fac856...
2025-11-14 15:53:50 [I] __main__ - 처리 중: **서울특별시_2024년 지도정보 플랫폼 및 전문활용 연계 시스템 고도화 용.pdf**
2025-11-14 15:53:50 [I] [DOCP] - PDF 처리 시작: 서울특별시_2024년 지도정보 플랫폼 및 전문활용 연계 시스템 고도화 용.pdf
2025-11-14 15:53:50 [D] [DOCP] - 파일 해시: a6f6691e69197b5f...


PDF to Markdown:   0%|          | 0/75 [00:00<?, ?page/s]

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key i

PDF to Markdown:   0%|          | 0/94 [00:00<?, ?page/s]

2025-11-14 15:56:41 [I] [DOCP] - PDF 처리 완료: 한국해양조사협회_2024년 항해용 간행물 품질관리 업무보조 시스템 구축.pdf (94 페이지, 1833.6KB), 변환문자수=66,470
2025-11-14 15:56:41 [I] __main__ - ✓ PDF 처리 성공: bec035a7f2802088...
2025-11-14 15:56:41 [I] __main__ - 처리 중: **대검찰청_아태 사이버범죄 역량강화 허브(APC-HUB) 홈페이지 및 온라인 교.pdf**
2025-11-14 15:56:41 [I] [DOCP] - PDF 처리 시작: 대검찰청_아태 사이버범죄 역량강화 허브(APC-HUB) 홈페이지 및 온라인 교.pdf
2025-11-14 15:56:41 [D] [DOCP] - 파일 해시: ed759e8998326302...


PDF to Markdown:   0%|          | 0/78 [00:00<?, ?page/s]

2025-11-14 15:57:25 [I] [DOCP] - PDF 처리 완료: 대검찰청_아태 사이버범죄 역량강화 허브(APC-HUB) 홈페이지 및 온라인 교.pdf (78 페이지, 2395.1KB), 변환문자수=66,227
2025-11-14 15:57:25 [I] __main__ - ✓ PDF 처리 성공: ed759e8998326302...
2025-11-14 15:57:25 [I] __main__ - 처리 중: **한국보건산업진흥원_의료기기산업 종합정보시스템(정보관리기관) 기능.pdf**
2025-11-14 15:57:25 [I] [DOCP] - PDF 처리 시작: 한국보건산업진흥원_의료기기산업 종합정보시스템(정보관리기관) 기능.pdf
2025-11-14 15:57:25 [D] [DOCP] - 파일 해시: d5b5c99d510e7e27...


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-14 15:58:25 [I] [DOCP] - PDF 처리 완료: 한국보건산업진흥원_의료기기산업 종합정보시스템(정보관리기관) 기능.pdf (96 페이지, 1971.2KB), 변환문자수=80,079
2025-11-14 15:58:25 [I] __main__ - ✓ PDF 처리 성공: d5b5c99d510e7e27...
2025-11-14 15:58:25 [I] __main__ - 처리 중: **대한적십자사 의료원_적십자병원 병원정보 재해복구시스템 구축 용역 .pdf**
2025-11-14 15:58:25 [I] [DOCP] - PDF 처리 시작: 대한적십자사 의료원_적십자병원 병원정보 재해복구시스템 구축 용역 .pdf
2025-11-14 15:58:25 [D] [DOCP] - 파일 해시: 3e692d2f90987c53...


PDF to Markdown:   0%|          | 0/71 [00:00<?, ?page/s]

2025-11-14 15:59:04 [I] [DOCP] - PDF 처리 완료: 대한적십자사 의료원_적십자병원 병원정보 재해복구시스템 구축 용역 .pdf (71 페이지, 2259.2KB), 변환문자수=60,020
2025-11-14 15:59:04 [I] __main__ - ✓ PDF 처리 성공: 3e692d2f90987c53...
2025-11-14 15:59:04 [I] __main__ - 처리 중: **광주과학기술원_실시간통합연구비관리시스템(RCMS)  연계 모듈 변경 사업.pdf**
2025-11-14 15:59:04 [I] [DOCP] - PDF 처리 시작: 광주과학기술원_실시간통합연구비관리시스템(RCMS)  연계 모듈 변경 사업.pdf
2025-11-14 15:59:04 [D] [DOCP] - 파일 해시: 382e99fffa2923a6...


PDF to Markdown:   0%|          | 0/81 [00:00<?, ?page/s]

2025-11-14 15:59:46 [I] [DOCP] - PDF 처리 완료: 광주과학기술원_실시간통합연구비관리시스템(RCMS)  연계 모듈 변경 사업.pdf (81 페이지, 1471.0KB), 변환문자수=88,592
2025-11-14 15:59:46 [I] __main__ - ✓ PDF 처리 성공: 382e99fffa2923a6...
2025-11-14 15:59:46 [I] __main__ - 처리 중: **국립인천해양박물관_국립인천해양박물관 해양자료관리시스템 구축 용.pdf**
2025-11-14 15:59:46 [I] [DOCP] - PDF 처리 시작: 국립인천해양박물관_국립인천해양박물관 해양자료관리시스템 구축 용.pdf
2025-11-14 15:59:46 [D] [DOCP] - 파일 해시: 5615da635e189783...


PDF to Markdown:   0%|          | 0/74 [00:00<?, ?page/s]

2025-11-14 16:00:32 [I] [DOCP] - PDF 처리 완료: 국립인천해양박물관_국립인천해양박물관 해양자료관리시스템 구축 용.pdf (74 페이지, 1686.8KB), 변환문자수=71,001
2025-11-14 16:00:32 [I] __main__ - ✓ PDF 처리 성공: 5615da635e189783...
2025-11-14 16:00:32 [I] __main__ - 처리 중: **국방과학연구소_대용량 자료전송시스템 고도화.pdf**
2025-11-14 16:00:32 [I] [DOCP] - PDF 처리 시작: 국방과학연구소_대용량 자료전송시스템 고도화.pdf
2025-11-14 16:00:32 [D] [DOCP] - 파일 해시: 00e40e4c953ac92f...


PDF to Markdown:   0%|          | 0/89 [00:00<?, ?page/s]

2025-11-14 16:01:21 [I] [DOCP] - PDF 처리 완료: 국방과학연구소_대용량 자료전송시스템 고도화.pdf (89 페이지, 2192.7KB), 변환문자수=69,231
2025-11-14 16:01:21 [I] __main__ - ✓ PDF 처리 성공: 00e40e4c953ac92f...
2025-11-14 16:01:21 [I] __main__ - 처리 중: **재단법인충북연구원_GIS통계 기반 재난안전데이터 분석ㆍ관리 시스템 구.pdf**
2025-11-14 16:01:21 [I] [DOCP] - PDF 처리 시작: 재단법인충북연구원_GIS통계 기반 재난안전데이터 분석ㆍ관리 시스템 구.pdf
2025-11-14 16:01:21 [D] [DOCP] - 파일 해시: 9a6012953ff15ffe...


PDF to Markdown:   0%|          | 0/64 [00:00<?, ?page/s]

2025-11-14 16:01:50 [I] [DOCP] - PDF 처리 완료: 재단법인충북연구원_GIS통계 기반 재난안전데이터 분석ㆍ관리 시스템 구.pdf (64 페이지, 1221.5KB), 변환문자수=56,248
2025-11-14 16:01:50 [I] __main__ - ✓ PDF 처리 성공: 9a6012953ff15ffe...
2025-11-14 16:01:50 [I] __main__ - 처리 중: **서민금융진흥원_서민금융진흥원 서민금융 채팅 상담시스템 구축.pdf**
2025-11-14 16:01:50 [I] [DOCP] - PDF 처리 시작: 서민금융진흥원_서민금융진흥원 서민금융 채팅 상담시스템 구축.pdf
2025-11-14 16:01:50 [D] [DOCP] - 파일 해시: 34ebea180655d3b6...


PDF to Markdown:   0%|          | 0/100 [00:00<?, ?page/s]

2025-11-14 16:02:55 [I] [DOCP] - PDF 처리 완료: 서민금융진흥원_서민금융진흥원 서민금융 채팅 상담시스템 구축.pdf (100 페이지, 1561.8KB), 변환문자수=114,433
2025-11-14 16:02:55 [I] __main__ - ✓ PDF 처리 성공: 34ebea180655d3b6...
2025-11-14 16:02:55 [I] __main__ - 처리 중: **대한상공회의소_기업 재생에너지 지원센터 홈페이지 개편 및 시스템 고.pdf**
2025-11-14 16:02:55 [I] [DOCP] - PDF 처리 시작: 대한상공회의소_기업 재생에너지 지원센터 홈페이지 개편 및 시스템 고.pdf
2025-11-14 16:02:55 [D] [DOCP] - 파일 해시: adcaf5deec7a273e...


PDF to Markdown:   0%|          | 0/74 [00:00<?, ?page/s]

2025-11-14 16:03:40 [I] [DOCP] - PDF 처리 완료: 대한상공회의소_기업 재생에너지 지원센터 홈페이지 개편 및 시스템 고.pdf (74 페이지, 1553.4KB), 변환문자수=68,339
2025-11-14 16:03:40 [I] __main__ - ✓ PDF 처리 성공: adcaf5deec7a273e...
2025-11-14 16:03:40 [I] __main__ - 처리 중: **전북특별자치도 정읍시_정읍체육트레이닝센터 통합운영관리시스템 구.pdf**
2025-11-14 16:03:40 [I] [DOCP] - PDF 처리 시작: 전북특별자치도 정읍시_정읍체육트레이닝센터 통합운영관리시스템 구.pdf
2025-11-14 16:03:40 [D] [DOCP] - 파일 해시: 843944b6b5648f69...


PDF to Markdown:   0%|          | 0/131 [00:00<?, ?page/s]

2025-11-14 16:05:12 [I] [DOCP] - PDF 처리 완료: 전북특별자치도 정읍시_정읍체육트레이닝센터 통합운영관리시스템 구.pdf (131 페이지, 2095.9KB), 변환문자수=116,614
2025-11-14 16:05:12 [I] __main__ - ✓ PDF 처리 성공: 843944b6b5648f69...
2025-11-14 16:05:12 [I] __main__ - 처리 중: **KOICA 전자조달_[긴급] [지문] [국제] 우즈베키스탄 열린 의정활동 상하원 .pdf**
2025-11-14 16:05:12 [I] [DOCP] - PDF 처리 시작: KOICA 전자조달_[긴급] [지문] [국제] 우즈베키스탄 열린 의정활동 상하원 .pdf
2025-11-14 16:05:12 [D] [DOCP] - 파일 해시: db0fbc95b730bb67...


PDF to Markdown:   0%|          | 0/154 [00:00<?, ?page/s]

2025-11-14 16:07:39 [I] [DOCP] - PDF 처리 완료: KOICA 전자조달_[긴급] [지문] [국제] 우즈베키스탄 열린 의정활동 상하원 .pdf (154 페이지, 4125.8KB), 변환문자수=182,800
2025-11-14 16:07:39 [I] __main__ - ✓ PDF 처리 성공: db0fbc95b730bb67...
2025-11-14 16:07:39 [I] __main__ - 처리 중: **한국연구재단_2024년 기초학문자료센터 시스템 운영 및 연구성과물 DB구.pdf**
2025-11-14 16:07:39 [I] [DOCP] - PDF 처리 시작: 한국연구재단_2024년 기초학문자료센터 시스템 운영 및 연구성과물 DB구.pdf
2025-11-14 16:07:39 [D] [DOCP] - 파일 해시: b84a2a7c948cffcd...


PDF to Markdown:   0%|          | 0/90 [00:00<?, ?page/s]

2025-11-14 16:08:27 [I] [DOCP] - PDF 처리 완료: 한국연구재단_2024년 기초학문자료센터 시스템 운영 및 연구성과물 DB구.pdf (90 페이지, 2842.1KB), 변환문자수=75,544
2025-11-14 16:08:27 [I] __main__ - ✓ PDF 처리 성공: b84a2a7c948cffcd...
2025-11-14 16:08:27 [I] __main__ - 처리 중: **경상북도 봉화군_봉화군 재난통합관리시스템 고도화 사업(협상)(긴급).pdf**
2025-11-14 16:08:27 [I] [DOCP] - PDF 처리 시작: 경상북도 봉화군_봉화군 재난통합관리시스템 고도화 사업(협상)(긴급).pdf
2025-11-14 16:08:27 [D] [DOCP] - 파일 해시: 2edef5b661342692...


PDF to Markdown:   0%|          | 0/86 [00:00<?, ?page/s]

2025-11-14 16:09:13 [I] [DOCP] - PDF 처리 완료: 경상북도 봉화군_봉화군 재난통합관리시스템 고도화 사업(협상)(긴급).pdf (86 페이지, 1462.8KB), 변환문자수=104,143
2025-11-14 16:09:13 [I] __main__ - ✓ PDF 처리 성공: 2edef5b661342692...
2025-11-14 16:09:13 [I] __main__ - 처리 중: **인천광역시 동구_수도국산달동네박물관 전시해설 시스템 구축(협상에 .pdf**
2025-11-14 16:09:13 [I] [DOCP] - PDF 처리 시작: 인천광역시 동구_수도국산달동네박물관 전시해설 시스템 구축(협상에 .pdf
2025-11-14 16:09:13 [D] [DOCP] - 파일 해시: f5b1ed4aeb266d38...


PDF to Markdown:   0%|          | 0/96 [00:00<?, ?page/s]

2025-11-14 16:10:14 [I] [DOCP] - PDF 처리 완료: 인천광역시 동구_수도국산달동네박물관 전시해설 시스템 구축(협상에 .pdf (96 페이지, 1745.0KB), 변환문자수=87,407
2025-11-14 16:10:14 [I] __main__ - ✓ PDF 처리 성공: f5b1ed4aeb266d38...
2025-11-14 16:10:14 [I] __main__ - 처리 중: **을지대학교_을지대학교 비교과시스템 개발.pdf**
2025-11-14 16:10:14 [I] [DOCP] - PDF 처리 시작: 을지대학교_을지대학교 비교과시스템 개발.pdf
2025-11-14 16:10:14 [D] [DOCP] - 파일 해시: f30ee3c60da8e6fb...


PDF to Markdown:   0%|          | 0/105 [00:00<?, ?page/s]

2025-11-14 16:11:15 [I] [DOCP] - PDF 처리 완료: 을지대학교_을지대학교 비교과시스템 개발.pdf (105 페이지, 2034.6KB), 변환문자수=90,723
2025-11-14 16:11:15 [I] __main__ - ✓ PDF 처리 성공: f30ee3c60da8e6fb...
2025-11-14 16:11:15 [I] __main__ - 처리 중: **한영대학_한영대학교 특성화 맞춤형 교육환경 구축 - 트랙운영 학사정보.pdf**
2025-11-14 16:11:15 [I] [DOCP] - PDF 처리 시작: 한영대학_한영대학교 특성화 맞춤형 교육환경 구축 - 트랙운영 학사정보.pdf
2025-11-14 16:11:15 [D] [DOCP] - 파일 해시: e6e89773d3246971...


PDF to Markdown:   0%|          | 0/61 [00:00<?, ?page/s]

2025-11-14 16:11:44 [I] [DOCP] - PDF 처리 완료: 한영대학_한영대학교 특성화 맞춤형 교육환경 구축 - 트랙운영 학사정보.pdf (61 페이지, 1645.4KB), 변환문자수=49,045
2025-11-14 16:11:44 [I] __main__ - ✓ PDF 처리 성공: e6e89773d3246971...
2025-11-14 16:11:44 [I] __main__ - 처리 중: **(사)부산국제영화제_2024년 BIFF & ACFM 온라인서비스 재개발 및 행사지원시.pdf**
2025-11-14 16:11:44 [I] [DOCP] - PDF 처리 시작: (사)부산국제영화제_2024년 BIFF & ACFM 온라인서비스 재개발 및 행사지원시.pdf
2025-11-14 16:11:44 [D] [DOCP] - 파일 해시: 83100ea55f69bc0f...


PDF to Markdown:   0%|          | 0/63 [00:00<?, ?page/s]

2025-11-14 16:12:18 [I] [DOCP] - PDF 처리 완료: (사)부산국제영화제_2024년 BIFF & ACFM 온라인서비스 재개발 및 행사지원시.pdf (63 페이지, 1257.6KB), 변환문자수=62,968
2025-11-14 16:12:18 [I] __main__ - ✓ PDF 처리 성공: 83100ea55f69bc0f...
2025-11-14 16:12:18 [I] __main__ - 처리 중: **중앙선거관리위원회_2025년도 행정정보시스템 위탁운영사업.pdf**
2025-11-14 16:12:18 [I] [DOCP] - PDF 처리 시작: 중앙선거관리위원회_2025년도 행정정보시스템 위탁운영사업.pdf
2025-11-14 16:12:18 [D] [DOCP] - 파일 해시: fd8eb60d7cc09b39...


PDF to Markdown:   0%|          | 0/105 [00:00<?, ?page/s]

2025-11-14 16:13:30 [I] [DOCP] - PDF 처리 완료: 중앙선거관리위원회_2025년도 행정정보시스템 위탁운영사업.pdf (105 페이지, 2039.4KB), 변환문자수=127,659
2025-11-14 16:13:30 [I] __main__ - ✓ PDF 처리 성공: fd8eb60d7cc09b39...
2025-11-14 16:13:30 [I] __main__ - 처리 중: **케빈랩 주식회사_평택시 강소형 스마트시티 AI 기반의 영상감시 시스템 .pdf**
2025-11-14 16:13:30 [I] [DOCP] - PDF 처리 시작: 케빈랩 주식회사_평택시 강소형 스마트시티 AI 기반의 영상감시 시스템 .pdf
2025-11-14 16:13:30 [D] [DOCP] - 파일 해시: 67028915214a9a6f...


PDF to Markdown:   0%|          | 0/88 [00:00<?, ?page/s]

2025-11-14 16:14:10 [I] [DOCP] - PDF 처리 완료: 케빈랩 주식회사_평택시 강소형 스마트시티 AI 기반의 영상감시 시스템 .pdf (88 페이지, 1654.7KB), 변환문자수=62,341
2025-11-14 16:14:10 [I] __main__ - ✓ PDF 처리 성공: 67028915214a9a6f...
2025-11-14 16:14:10 [I] __main__ - 처리 중: **인천광역시_도시계획위원회 통합관리시스템 구축용역.pdf**
2025-11-14 16:14:10 [I] [DOCP] - PDF 처리 시작: 인천광역시_도시계획위원회 통합관리시스템 구축용역.pdf
2025-11-14 16:14:10 [D] [DOCP] - 파일 해시: 682af740c6bd4e91...


PDF to Markdown:   0%|          | 0/90 [00:00<?, ?page/s]

2025-11-14 16:15:04 [I] [DOCP] - PDF 처리 완료: 인천광역시_도시계획위원회 통합관리시스템 구축용역.pdf (90 페이지, 2034.0KB), 변환문자수=84,338
2025-11-14 16:15:04 [I] __main__ - ✓ PDF 처리 성공: 682af740c6bd4e91...
2025-11-14 16:15:04 [I] __main__ - 처리 중: **축산물품질평가원_축산물이력관리시스템 개선(정보화 사업).pdf**
2025-11-14 16:15:04 [I] [DOCP] - PDF 처리 시작: 축산물품질평가원_축산물이력관리시스템 개선(정보화 사업).pdf
2025-11-14 16:15:04 [D] [DOCP] - 파일 해시: 1044b9f9bbabe655...


PDF to Markdown:   0%|          | 0/86 [00:00<?, ?page/s]

2025-11-14 16:16:10 [I] [DOCP] - PDF 처리 완료: 축산물품질평가원_축산물이력관리시스템 개선(정보화 사업).pdf (86 페이지, 2084.2KB), 변환문자수=97,668
2025-11-14 16:16:10 [I] __main__ - ✓ PDF 처리 성공: 1044b9f9bbabe655...
2025-11-14 16:16:10 [I] __main__ - 처리 중: **사단법인 보험개발원_실손보험 청구 전산화 시스템 구축 사업.pdf**
2025-11-14 16:16:10 [I] [DOCP] - PDF 처리 시작: 사단법인 보험개발원_실손보험 청구 전산화 시스템 구축 사업.pdf
2025-11-14 16:16:10 [D] [DOCP] - 파일 해시: 2bef0e64e440bc70...


PDF to Markdown:   0%|          | 0/118 [00:00<?, ?page/s]

2025-11-14 16:17:31 [I] [DOCP] - PDF 처리 완료: 사단법인 보험개발원_실손보험 청구 전산화 시스템 구축 사업.pdf (118 페이지, 2462.9KB), 변환문자수=98,851
2025-11-14 16:17:31 [I] __main__ - ✓ PDF 처리 성공: 2bef0e64e440bc70...
2025-11-14 16:17:31 [I] __main__ - 처리 중: **한국농수산식품유통공사_농산물가격안정기금 정부예산회계연계시스템 .pdf**
2025-11-14 16:17:31 [I] [DOCP] - PDF 처리 시작: 한국농수산식품유통공사_농산물가격안정기금 정부예산회계연계시스템 .pdf
2025-11-14 16:17:31 [D] [DOCP] - 파일 해시: f989e3b58c8ee381...


PDF to Markdown:   0%|          | 0/87 [00:00<?, ?page/s]

2025-11-14 16:18:24 [I] [DOCP] - PDF 처리 완료: 한국농수산식품유통공사_농산물가격안정기금 정부예산회계연계시스템 .pdf (87 페이지, 1900.3KB), 변환문자수=80,659
2025-11-14 16:18:24 [I] __main__ - ✓ PDF 처리 성공: f989e3b58c8ee381...
2025-11-14 16:18:24 [I] __main__ - 처리 중: **한국연구재단_2024년 대학산학협력활동 실태조사 시스템(UICC) 기능개선.pdf**
2025-11-14 16:18:24 [I] [DOCP] - PDF 처리 시작: 한국연구재단_2024년 대학산학협력활동 실태조사 시스템(UICC) 기능개선.pdf
2025-11-14 16:18:24 [D] [DOCP] - 파일 해시: 6412dfd33858bd9c...


PDF to Markdown:   0%|          | 0/100 [00:00<?, ?page/s]

2025-11-14 16:19:25 [I] [DOCP] - PDF 처리 완료: 한국연구재단_2024년 대학산학협력활동 실태조사 시스템(UICC) 기능개선.pdf (100 페이지, 3511.3KB), 변환문자수=97,159
2025-11-14 16:19:25 [I] __main__ - ✓ PDF 처리 성공: 6412dfd33858bd9c...
2025-11-14 16:19:25 [I] __main__ - 처리 중: **한국수자원조사기술원_수문자료정보관리시스템(HDIMS) 재구축 용역(3단계.pdf**
2025-11-14 16:19:25 [I] [DOCP] - PDF 처리 시작: 한국수자원조사기술원_수문자료정보관리시스템(HDIMS) 재구축 용역(3단계.pdf
2025-11-14 16:19:25 [D] [DOCP] - 파일 해시: a149126fcaf9c016...


PDF to Markdown:   0%|          | 0/92 [00:00<?, ?page/s]

2025-11-14 16:20:31 [I] [DOCP] - PDF 처리 완료: 한국수자원조사기술원_수문자료정보관리시스템(HDIMS) 재구축 용역(3단계.pdf (92 페이지, 3332.2KB), 변환문자수=91,193
2025-11-14 16:20:31 [I] __main__ - ✓ PDF 처리 성공: a149126fcaf9c016...
2025-11-14 16:20:31 [I] __main__ - 처리 중: **울산광역시_2024년 버스정보시스템 확대 구축 및 기능개선 용역.pdf**
2025-11-14 16:20:31 [I] [DOCP] - PDF 처리 시작: 울산광역시_2024년 버스정보시스템 확대 구축 및 기능개선 용역.pdf
2025-11-14 16:20:31 [D] [DOCP] - 파일 해시: 2a7006a1fa5c631f...


PDF to Markdown:   0%|          | 0/129 [00:00<?, ?page/s]

2025-11-14 16:22:21 [I] [DOCP] - PDF 처리 완료: 울산광역시_2024년 버스정보시스템 확대 구축 및 기능개선 용역.pdf (129 페이지, 2397.9KB), 변환문자수=143,506
2025-11-14 16:22:21 [I] __main__ - ✓ PDF 처리 성공: 2a7006a1fa5c631f...
2025-11-14 16:22:21 [I] __main__ - 처리 중: **세종테크노파크_세종테크노파크 인사정보 전산시스템 구축 용역 입찰공.pdf**
2025-11-14 16:22:21 [I] [DOCP] - PDF 처리 시작: 세종테크노파크_세종테크노파크 인사정보 전산시스템 구축 용역 입찰공.pdf
2025-11-14 16:22:21 [D] [DOCP] - 파일 해시: 6f4162c772e3e045...


PDF to Markdown:   0%|          | 0/99 [00:00<?, ?page/s]

2025-11-14 16:23:12 [I] [DOCP] - PDF 처리 완료: 세종테크노파크_세종테크노파크 인사정보 전산시스템 구축 용역 입찰공.pdf (99 페이지, 1609.6KB), 변환문자수=76,791
2025-11-14 16:23:12 [I] __main__ - ✓ PDF 처리 성공: 6f4162c772e3e045...
2025-11-14 16:23:12 [I] __main__ - 처리 중: **한국생산기술연구원_EIP3.0 고압가스 안전관리 시스템 구축 용역.pdf**
2025-11-14 16:23:12 [I] [DOCP] - PDF 처리 시작: 한국생산기술연구원_EIP3.0 고압가스 안전관리 시스템 구축 용역.pdf
2025-11-14 16:23:12 [D] [DOCP] - 파일 해시: c0b77b98dc4f44a7...


PDF to Markdown:   0%|          | 0/145 [00:00<?, ?page/s]

2025-11-14 16:24:52 [I] [DOCP] - PDF 처리 완료: 한국생산기술연구원_EIP3.0 고압가스 안전관리 시스템 구축 용역.pdf (145 페이지, 2541.5KB), 변환문자수=146,563
2025-11-14 16:24:52 [I] __main__ - ✓ PDF 처리 성공: c0b77b98dc4f44a7...
2025-11-14 16:24:52 [I] __main__ - 처리 중: **재단법인 광주연구원_광주정책연구아카이브(GPA) 시스템 개발.pdf**
2025-11-14 16:24:52 [I] [DOCP] - PDF 처리 시작: 재단법인 광주연구원_광주정책연구아카이브(GPA) 시스템 개발.pdf
2025-11-14 16:24:52 [D] [DOCP] - 파일 해시: 4335487aa608011f...


PDF to Markdown:   0%|          | 0/100 [00:00<?, ?page/s]

2025-11-14 16:25:54 [I] [DOCP] - PDF 처리 완료: 재단법인 광주연구원_광주정책연구아카이브(GPA) 시스템 개발.pdf (100 페이지, 1990.4KB), 변환문자수=92,302
2025-11-14 16:25:54 [I] __main__ - ✓ PDF 처리 성공: 4335487aa608011f...
2025-11-14 16:25:54 [I] __main__ - 처리 중: **한국건강가정진흥원_2025년 아이돌봄인력 인적성 검사 정보시스템 운영.pdf**
2025-11-14 16:25:54 [I] [DOCP] - PDF 처리 시작: 한국건강가정진흥원_2025년 아이돌봄인력 인적성 검사 정보시스템 운영.pdf
2025-11-14 16:25:54 [D] [DOCP] - 파일 해시: c642340b7ea4b60f...


PDF to Markdown:   0%|          | 0/84 [00:00<?, ?page/s]

2025-11-14 16:26:40 [I] [DOCP] - PDF 처리 완료: 한국건강가정진흥원_2025년 아이돌봄인력 인적성 검사 정보시스템 운영.pdf (84 페이지, 1595.0KB), 변환문자수=71,911
2025-11-14 16:26:40 [I] __main__ - ✓ PDF 처리 성공: c642340b7ea4b60f...
2025-11-14 16:26:40 [I] __main__ - 처리 중: **재단법인 한국장애인문화예술원_2024년 장애인문화예술정보시스템 이음.pdf**
2025-11-14 16:26:40 [I] [DOCP] - PDF 처리 시작: 재단법인 한국장애인문화예술원_2024년 장애인문화예술정보시스템 이음.pdf
2025-11-14 16:26:40 [D] [DOCP] - 파일 해시: 38091ab77e6cd32d...


PDF to Markdown:   0%|          | 0/66 [00:00<?, ?page/s]

2025-11-14 16:27:13 [I] [DOCP] - PDF 처리 완료: 재단법인 한국장애인문화예술원_2024년 장애인문화예술정보시스템 이음.pdf (66 페이지, 1205.5KB), 변환문자수=56,826
2025-11-14 16:27:13 [I] __main__ - ✓ PDF 처리 성공: 38091ab77e6cd32d...
2025-11-14 16:27:13 [I] __main__ - 처리 중: **파주도시관광공사_종량제봉투 판매관리 전산시스템 개선사업.pdf**
2025-11-14 16:27:13 [I] [DOCP] - PDF 처리 시작: 파주도시관광공사_종량제봉투 판매관리 전산시스템 개선사업.pdf
2025-11-14 16:27:13 [D] [DOCP] - 파일 해시: a6ea31fd1abd2761...


PDF to Markdown:   0%|          | 0/114 [00:00<?, ?page/s]

2025-11-14 16:28:36 [I] [DOCP] - PDF 처리 완료: 파주도시관광공사_종량제봉투 판매관리 전산시스템 개선사업.pdf (114 페이지, 2044.4KB), 변환문자수=113,203
2025-11-14 16:28:36 [I] __main__ - ✓ PDF 처리 성공: a6ea31fd1abd2761...
2025-11-14 16:28:36 [I] __main__ - 처리 중: **한국보육진흥원_연차별 자율 품질관리 시스템 기능개선.pdf**
2025-11-14 16:28:36 [I] [DOCP] - PDF 처리 시작: 한국보육진흥원_연차별 자율 품질관리 시스템 기능개선.pdf
2025-11-14 16:28:36 [D] [DOCP] - 파일 해시: a12aa765fdf8e3d8...


PDF to Markdown:   0%|          | 0/80 [00:00<?, ?page/s]

2025-11-14 16:29:30 [I] [DOCP] - PDF 처리 완료: 한국보육진흥원_연차별 자율 품질관리 시스템 기능개선.pdf (80 페이지, 1962.8KB), 변환문자수=75,148
2025-11-14 16:29:30 [I] __main__ - ✓ PDF 처리 성공: a12aa765fdf8e3d8...
2025-11-14 16:29:30 [I] __main__ - 처리 중: **서울특별시 여성가족재단_(재공고, 협상) 서울 디지털성범죄 안심지원센.pdf**
2025-11-14 16:29:30 [I] [DOCP] - PDF 처리 시작: 서울특별시 여성가족재단_(재공고, 협상) 서울 디지털성범죄 안심지원센.pdf
2025-11-14 16:29:30 [D] [DOCP] - 파일 해시: 15b18199a85b44a0...


PDF to Markdown:   0%|          | 0/141 [00:00<?, ?page/s]

2025-11-14 16:31:26 [I] [DOCP] - PDF 처리 완료: 서울특별시 여성가족재단_(재공고, 협상) 서울 디지털성범죄 안심지원센.pdf (141 페이지, 2619.9KB), 변환문자수=145,387
2025-11-14 16:31:26 [I] __main__ - ✓ PDF 처리 성공: 15b18199a85b44a0...
2025-11-14 16:31:26 [I] __main__ - 처리 중: **재단법인경기도일자리재단_2025년 통합접수시스템 운영.pdf**
2025-11-14 16:31:26 [I] [DOCP] - PDF 처리 시작: 재단법인경기도일자리재단_2025년 통합접수시스템 운영.pdf
2025-11-14 16:31:26 [D] [DOCP] - 파일 해시: bb60a1a2e26b8e28...


PDF to Markdown:   0%|          | 0/137 [00:00<?, ?page/s]

2025-11-14 16:33:05 [I] [DOCP] - PDF 처리 완료: 재단법인경기도일자리재단_2025년 통합접수시스템 운영.pdf (137 페이지, 2034.2KB), 변환문자수=118,153
2025-11-14 16:33:05 [I] __main__ - ✓ PDF 처리 성공: bb60a1a2e26b8e28...
2025-11-14 16:33:05 [I] __main__ - 처리 중: **한국전기안전공사_전기안전 관제시스템 보안 모듈 개발 용역.pdf**
2025-11-14 16:33:05 [I] [DOCP] - PDF 처리 시작: 한국전기안전공사_전기안전 관제시스템 보안 모듈 개발 용역.pdf
2025-11-14 16:33:05 [D] [DOCP] - 파일 해시: 41e3b5ed9763d68c...


PDF to Markdown:   0%|          | 0/74 [00:00<?, ?page/s]

2025-11-14 16:33:43 [I] [DOCP] - PDF 처리 완료: 한국전기안전공사_전기안전 관제시스템 보안 모듈 개발 용역.pdf (74 페이지, 1698.9KB), 변환문자수=61,202
2025-11-14 16:33:43 [I] __main__ - ✓ PDF 처리 성공: 41e3b5ed9763d68c...
2025-11-14 16:33:43 [I] __main__ - 모든 PDF 파일 처리가 완료되었습니다.


## 5. 실제 PDF 파일 테스트 (선택사항)

In [12]:
def verify_database_content() -> None:
    """DB 내용 확인 및 검증"""
    import sqlite3
    
    test_db_path = project_root / "data" / "test_documents.db"
    
    with sqlite3.connect(test_db_path) as conn:
        conn.row_factory = sqlite3.Row
        cursor = conn.cursor()
        
        # 1. 파일 정보 조회
        # 모든 테이블 이름 조회 쿼리
        cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
        logger.info(f"모든 테이블 이름 조회 쿼리 {cursor.fetchall()}")
        files = cursor.fetchall()
        logger.info(f"\n=== 파일 정보 ({len(files)}건) ===")
        for row in files:
            logger.info(f"  - {row['file_name']}: {row['total_pages']}페이지, {row['total_tokens']}토큰")
        
        # 2. 페이지 데이터 조회
        # cursor.execute("""
        #     SELECT file_hash, page_number, is_empty 
        #     FROM page_data 
        #     ORDER BY file_hash, page_number
        # """)
        pages = cursor.fetchall()
        logger.info(f"\n=== 페이지 데이터 ({len(pages)}건) ===")
        
        # 파일별로 그룹화
        from collections import defaultdict
        pages_by_file = defaultdict(list)
        for row in pages:
            pages_by_file[row['file_hash']].append(row)
        
        for file_hash, file_pages in pages_by_file.items():
            logger.info(f"  파일: {file_hash[:16]}...")
            for page in file_pages:
                status = "빈페이지" if page['is_empty'] else "정상"
                logger.info(f"    - 페이지 {page['page_number']}: {page['token_count']}토큰 ({status})")
        
        # 3. 통계 조회
        db = DocumentsDB(str(test_db_path))
        stats = db.get_document_stats()
        logger.info(f"\n=== 전체 통계 ===")
        logger.info(f"  총 파일: {stats['total_files']}개")
        logger.info(f"  총 페이지: {stats['total_pages']}개")
        # logger.info(f"  총 토큰: {stats['total_tokens']:,}개")
        logger.info(f"  총 크기: {stats['total_size_mb']}MB")
        
        logger.info("\n✓ DB 검증 완료")

# 실행
verify_database_content()

2025-11-14 14:20:49 [I] __main__ - 모든 테이블 이름 조회 쿼리 [<sqlite3.Row object at 0x7a2692c3f6a0>]
2025-11-14 14:20:49 [I] __main__ - 
=== 파일 정보 (0건) ===
2025-11-14 14:20:49 [I] __main__ - 
=== 페이지 데이터 (0건) ===
2025-11-14 14:20:49 [I] __main__ - 
=== 전체 통계 ===
2025-11-14 14:20:49 [I] __main__ -   총 파일: 1개
2025-11-14 14:20:49 [I] __main__ -   총 페이지: 96개
2025-11-14 14:20:49 [I] __main__ -   총 크기: 1.64MB
2025-11-14 14:20:49 [I] __main__ - 
✓ DB 검증 완료


## 4. DB 조회 및 검증

In [9]:
def test_pdf_processing_simulation() -> None:
    """PDF 처리 로직 시뮬레이션 (PyMuPDF 없이)"""
    
    # 실제 PDF 대신 더미 데이터로 로직 테스트
    test_db_path = project_root / "data" / "test_documents.db"
    processor = DocumentProcessor(db_path=str(test_db_path))
    
    # PDF 페이지 시뮬레이션
    dummy_pages = [
        "# 제목 페이지\n\n이것은 첫 번째 페이지입니다.",
        "# 본문 1\n\n두 번째 페이지 내용입니다.",
        "",  # 빈 페이지
        "# 결론\n\n마지막 페이지입니다."
    ]
    
    # 파일 정보 시뮬레이션
    dummy_hash = "dummy_pdf_hash_67890"
    dummy_filename = "test_dummy.pdf"
    
    logger.info(f"PDF 처리 시뮬레이션: {dummy_filename}")
    
    # 페이지별 처리
    all_content = []
    for page_num, page_text in enumerate(dummy_pages, start=1):
        is_empty = len(page_text.strip()) < 10
        
        if is_empty:
            page_content = "[빈 페이지]"
        else:
            page_content = f"--- 페이지 {page_num} ---\n\n{page_text}"
        
        all_content.append(page_content)
        
        # DB 저장
        token_count = processor.count_tokens(page_content)
        processor.docs_db.insert_page_data(
            file_hash=dummy_hash,
            page_number=page_num,
            markdown_content=page_content,
            token_count=token_count,
            is_empty=is_empty
        )
        logger.info(f"페이지 {page_num}: {token_count} 토큰, 빈페이지={is_empty}")
    
    # 전체 콘텐츠
    full_content = "\n\n".join(all_content)
    total_tokens = processor.count_tokens(full_content)
    
    # 파일 정보 저장
    processor.docs_db.insert_file_info(
        file_hash=dummy_hash,
        file_name=dummy_filename,
        total_pages=len(dummy_pages),
        file_size=len(full_content.encode('utf-8')),
        total_chars=len(full_content),
        total_tokens=total_tokens
    )
    
    logger.info(f"✓ PDF 시뮬레이션 완료: {len(dummy_pages)}페이지, {total_tokens}토큰")

# 테스트 실행
test_pdf_processing_simulation()

2025-11-08 22:36:33 [I] src.processors.document_processor - DocumentProcessor 초기화 완료 (DB: d:\GoogleDrive\codeit_ai_g2b_search\data\test_documents.db)
2025-11-08 22:36:33 [I] __main__ - PDF 처리 시뮬레이션: test_dummy.pdf
2025-11-08 22:36:33 [I] __main__ - PDF 처리 시뮬레이션: test_dummy.pdf
2025-11-08 22:36:33 [I] __main__ - 페이지 1: 22 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 2: 22 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 1: 22 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 2: 22 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 3: 6 토큰, 빈페이지=True
2025-11-08 22:36:33 [I] __main__ - 페이지 4: 19 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - 페이지 3: 6 토큰, 빈페이지=True
2025-11-08 22:36:33 [I] __main__ - 페이지 4: 19 토큰, 빈페이지=False
2025-11-08 22:36:33 [I] __main__ - ✓ PDF 시뮬레이션 완료: 4페이지, 69토큰
2025-11-08 22:36:33 [I] __main__ - ✓ PDF 시뮬레이션 완료: 4페이지, 69토큰


## 3. PDF 처리 테스트 (PyMuPDF 없이 시뮬레이션)

In [8]:
def test_document_processor_utils() -> None:
    """DocumentProcessor 유틸리티 함수 테스트"""
    import tempfile
    
    # DocumentProcessor 초기화
    test_db_path = project_root / "data" / "test_documents.db"
    processor = DocumentProcessor(db_path=str(test_db_path))
    
    # 1. 임시 파일 생성
    with tempfile.NamedTemporaryFile(mode='w', suffix='.txt', delete=False, encoding='utf-8') as tf:
        test_content = "This is a test document for hash calculation."
        tf.write(test_content)
        temp_file_path = Path(tf.name)
    
    try:
        # 2. 파일 해시 계산
        file_hash = processor.calculate_file_hash(temp_file_path)
        logger.info(f"파일 해시: {file_hash[:16]}...")
        assert len(file_hash) == 64, "SHA-256 해시 길이 오류"
        
        # 3. 토큰 카운트
        token_count = processor.count_tokens(test_content)
        logger.info(f"토큰 수: {token_count}")
        assert token_count > 0, "토큰 카운트 오류"
        
        logger.info("✓ 유틸리티 함수 테스트 성공")
        
    finally:
        # 임시 파일 삭제
        if temp_file_path.exists():
            temp_file_path.unlink()

# 테스트 실행
test_document_processor_utils()

2025-11-08 22:36:26 [I] src.processors.document_processor - DocumentProcessor 초기화 완료 (DB: d:\GoogleDrive\codeit_ai_g2b_search\data\test_documents.db)
2025-11-08 22:36:26 [I] __main__ - 파일 해시: 258983484b09a700...
2025-11-08 22:36:26 [I] __main__ - 토큰 수: 9
2025-11-08 22:36:26 [I] __main__ - ✓ 유틸리티 함수 테스트 성공
2025-11-08 22:36:26 [I] __main__ - 파일 해시: 258983484b09a700...
2025-11-08 22:36:26 [I] __main__ - 토큰 수: 9
2025-11-08 22:36:26 [I] __main__ - ✓ 유틸리티 함수 테스트 성공


## 2. DocumentProcessor 해시 계산 및 토큰 카운트 테스트

In [7]:
def test_documents_db_crud() -> None:
    """DocumentsDB CRUD 테스트"""
    from datetime import datetime
    import sqlite3
    
    # 테스트용 DB 경로
    test_db_path = project_root / "data" / "test_documents.db"
    test_db_path.parent.mkdir(parents=True, exist_ok=True)
    
    # DB 초기화
    db = DocumentsDB(str(test_db_path))
    
    # 기존 테스트 데이터 삭제 (파일 삭제 대신)
    with sqlite3.connect(test_db_path) as conn:
        conn.execute("DELETE FROM page_data")
        conn.execute("DELETE FROM file_info")
        conn.commit()
    
    logger.info(f"테스트 DB 초기화: {test_db_path}")
    
    # 1. 파일 정보 삽입 (Create)
    test_hash = "test_hash_12345"
    success = db.insert_file_info(
        file_hash=test_hash,
        file_name="test_document.pdf",
        total_pages=3,
        file_size=1024 * 50,  # 50KB
        total_chars=5000,
        total_tokens=1200
    )
    logger.info(f"파일 정보 삽입: {success}")
    
    # 2. 페이지 데이터 삽입
    for page_num in range(1, 4):
        content = f"# 페이지 {page_num}\n\n테스트 콘텐츠입니다."
        db.insert_page_data(
            file_hash=test_hash,
            page_number=page_num,
            markdown_content=content,
            token_count=100 + page_num * 10,
            is_empty=False
        )
    logger.info("페이지 데이터 삽입 완료")
    
    # 3. 통계 조회 (Read)
    stats = db.get_document_stats()
    logger.info(f"문서 통계: {stats}")
    
    # 4. 데이터 확인
    assert stats['total_files'] >= 1, "파일 개수 불일치"
    assert stats['total_pages'] >= 3, "페이지 개수 불일치"
    
    logger.info("✓ CRUD 테스트 성공")
    return db, test_hash

# 테스트 실행
db, test_hash = test_documents_db_crud()

2025-11-08 22:36:20 [I] __main__ - 테스트 DB 초기화: d:\GoogleDrive\codeit_ai_g2b_search\data\test_documents.db
2025-11-08 22:36:20 [I] __main__ - 파일 정보 삽입: True
2025-11-08 22:36:20 [I] __main__ - 파일 정보 삽입: True
2025-11-08 22:36:20 [I] __main__ - 페이지 데이터 삽입 완료
2025-11-08 22:36:20 [I] __main__ - 문서 통계: {'total_files': 1, 'total_pages': 3, 'total_tokens': 1200, 'total_size_bytes': 51200, 'total_size_mb': 0.05}
2025-11-08 22:36:20 [I] __main__ - ✓ CRUD 테스트 성공
2025-11-08 22:36:20 [I] __main__ - 페이지 데이터 삽입 완료
2025-11-08 22:36:20 [I] __main__ - 문서 통계: {'total_files': 1, 'total_pages': 3, 'total_tokens': 1200, 'total_size_bytes': 51200, 'total_size_mb': 0.05}
2025-11-08 22:36:20 [I] __main__ - ✓ CRUD 테스트 성공


## 1. DocumentsDB 기본 CRUD 테스트

## 테스트 요약

위의 테스트들을 통해 다음을 확인했습니다:

1. **DocumentsDB CRUD**: 파일 정보/페이지 데이터 삽입 및 조회 정상 동작
2. **DocumentProcessor 유틸리티**: 파일 해시 계산, 토큰 카운트 정상
3. **PDF 처리 시뮬레이션**: 페이지별 콘텐츠 처리 로직 검증
4. **DB 검증**: 전체 통계 및 데이터 무결성 확인
5. **실제 PDF 처리**: PyMuPDF 사용 가능 시 자동 처리

**추가 테스트 방법**:
- `data/raw/` 디렉토리에 PDF 파일을 추가하면 실제 PDF 처리 테스트 자동 실행됩니다.
- HWP 파일 처리는 현재 `document_processor.py`에 구현되지 않았으므로 향후 추가 필요합니다.