Skip to content

chore: restore Pinecone indexing pipeline and index manifest#45

Merged
youneedpython merged 2 commits into
devfrom
feat/indexing-pipeline-restore
Jan 22, 2026
Merged

chore: restore Pinecone indexing pipeline and index manifest#45
youneedpython merged 2 commits into
devfrom
feat/indexing-pipeline-restore

Conversation

@youneedpython
Copy link
Copy Markdown
Owner

Pinecone VectorDB 기반 RAG 시스템 운영을 위해,
기존에 누락되었던 인덱싱 파이프라인과 인덱스 상태 관리 파일을 복구합니다.

변경 내용

  • scripts/indexing 디렉토리 복구
    • 문서 로딩, 전처리, 청킹, 임베딩, Pinecone 업서트 로직 포함
    • vector id 생성 규칙 및 중복 인덱싱 방지 로직 복원
    • 인덱싱 파이프라인의 기준 코드 재확립
  • index_manifest.json 파일 추가
    • 현재 Pinecone 인덱스에 반영된 문서 및 chunk 상태 스냅샷 관리
    • 문서 단위 인덱싱 이력 및 재인덱싱 판단 기준 제공

변경 목적

  • Pinecone VectorDB 인덱싱 및 관리 로직의 소스 오브 트루스 복구
  • RAG 파이프라인 운영 시 문서/벡터 정합성 확보
  • 향후 메타데이터 보강(조항·조문 단위 출처 표시) 및 재인덱싱 작업을 위한 기반 마련

영향 범위

  • 인덱싱 및 운영용 배치 스크립트
  • runtime API 및 서비스 동작에는 직접적인 영향 없음

@youneedpython youneedpython self-assigned this Jan 22, 2026
@youneedpython youneedpython merged commit 4880bf6 into dev Jan 22, 2026
3 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant