In [None]:
import os
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_teddynote.document_loaders import HWPLoader
import json
from pathlib import Path
from langchain_text_splitters import RecursiveCharacterTextSplitter
import textwrap

In [33]:
pdf_files = []
hwp_files = []

# 파일 절대 경로
data_dir = "/home/daeseok/AI-Engineer/data"

for filename in os.listdir(data_dir):
    if filename.endswith(".pdf"):
        pdf_files.append(filename)
    elif filename.endswith(".hwp"):
        hwp_files.append(filename)    
        
print(f"총 파일 수: {len(os.listdir(data_dir))}")
print(f"PDF 파일 수: {len(pdf_files)}")
print(f"HWP 파일 수: {len(hwp_files)}")

총 파일 수: 101
PDF 파일 수: 4
HWP 파일 수: 96


In [34]:
# 경로 설정
dummy_dir = os.path.join(data_dir, "dummy")
os.makedirs(dummy_dir, exist_ok=True)

# 파일 목록 분류
pdf_files = [f for f in os.listdir(data_dir) if f.endswith(".pdf")][:4]
hwp_files = [f for f in os.listdir(data_dir) if f.endswith(".hwp")][:4]

# 청킹 세팅
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    #separators=["\n\n", "\n", " ", ""]
)

# 공통 처리 함수
def process_and_save(file_path, loader_class):
    loader = loader_class(file_path)
    docs = loader.load()
    chunks = text_splitter.split_documents(docs)

    result = []
    for i, chunk in enumerate(chunks):
        result.append({
            "chunk_id": i,
            "text": chunk.page_content
        })

    # 기존 파일 이름에서 확장자 제거
    filename_without_ext = os.path.splitext(os.path.basename(file_path))[0]
    output_path = os.path.join(dummy_dir, f"{filename_without_ext}.json")

    with open(output_path, "w", encoding="utf-8") as f:
        json.dump(result, f, ensure_ascii=False, indent=2)

# PDF 처리
for filename in pdf_files:
    path = os.path.join(data_dir, filename)
    process_and_save(path, PyMuPDFLoader)

# HWP 처리
for filename in hwp_files:
    path = os.path.join(data_dir, filename)
    process_and_save(path, HWPLoader)

MuPDF error: syntax error: invalid key in dict

MuPDF error: syntax error: invalid key in dict



In [None]:
dummy_dir = "/home/daeseok/AI-Engineer/data/dummy"  # 여기에 실제 경로 넣기

for filename in sorted(os.listdir(dummy_dir)):
    if filename.endswith(".json"):
        path = os.path.join(dummy_dir, filename)
        try:
            with open(path, "r", encoding="utf-8") as f:
                data = json.load(f)

                print(f"\n📄 {filename}")
                print(f" - 청크 수: {len(data)}")
                if data:
                    print(f" - 첫 번째 청크 미리보기:\n{textwrap.shorten(data[0]['text'], width=200)}")
                else:
                    print(" - 내용 없음 (empty list)")
        except Exception as e:
            print(f"\n❌ 오류 발생 - {filename}: {e}")

In [None]:
# 확인할 파일명과 청크 인덱스 지정
filename = "고려대학교_차세대 포털·학사 정보시스템 구축사업.json"
chunk_index = 5  # 🔍 확인하고 싶은 청크 번호

# 경로 지정
dummy_dir = "/home/daeseok/AI-Engineer/data/dummy"
file_path = os.path.join(dummy_dir, filename)

# 파일 로드
with open(file_path, "r", encoding="utf-8") as f:
    chunks = json.load(f)

# 청크 범위 확인
if 0 <= chunk_index < len(chunks):
    print(f"\n🧩 Chunk {chunk_index} / 총 {len(chunks)}개")
    print("=" * 60)
    print(chunks[chunk_index]["text"])
    print("=" * 60)
else:
    print(f"❌ 청크 번호 {chunk_index}는 범위를 벗어났습니다. (0 ~ {len(chunks)-1})")


🧩 Chunk 15 / 총 326개
-13- 
 
 
 
 
 
데이터연계(API)시스템 
 
○ 정보개발팀 
통합메세징시스템(UMS) 
 
○ 디지털전략팀 
웹메일시스템 
 
 
정보인프라팀 
증명발급시스템 
 
△ 학생처 
모바일통합(호잇)앱 
Spring boot,  
Java, Kotlin, Swift 
○ 디지털전략팀 
모바일신분증 
Java, Spring 
 
학생처 
고려대 교통(셔틀/약자)시스템 
node.js 
○ 디지털전략팀


In [49]:
# 확인할 파일명과 청크 인덱스 지정
filename = "재단법인 광주연구원_광주정책연구아카이브(GPA) 시스템 개발.json"
chunk_index = 1  # 🔍 확인하고 싶은 청크 번호

# 경로 지정
dummy_dir = "/home/daeseok/AI-Engineer/data/dummy"
file_path = os.path.join(dummy_dir, filename)

# 파일 로드
with open(file_path, "r", encoding="utf-8") as f:
    chunks = json.load(f)

# 청크 범위 확인
if 0 <= chunk_index < len(chunks):
    print(f"\n🧩 Chunk {chunk_index} / 총 {len(chunks)}개")
    print("=" * 60)
    print(chunks[chunk_index]["text"])
    print("=" * 60)
else:
    print(f"❌ 청크 번호 {chunk_index}는 범위를 벗어났습니다. (0 ~ {len(chunks)-1})")


🧩 Chunk 1 / 총 87개
증명서ȃ 73 15. 사업 참여인력 명단ȃ 74 16. 투입 인력계획ȃ 75 17. 경영실태 확인서ȃ 76 18. 행정 처분 확인서ȃ 77 19. 사회적 책임 확인서ȃ 78 20. 기술제안서 표지ȃ 79 21. 가격제안서ȃ 80 22. 제안서 확인(접수)증ȃ 81 【붙임】 1. 용역사업 보안위규 처리기준ȃ82 2. 보안 위약금 부과기준ȃ84 3. 누출금지 대상정보ȃ85 4. 소프트웨어 보안약점 기준ȃ86 5. 기술적용계획표ȃ89 6. 소프트웨어 개발사업의 적정 사업기간 종합 산정서⽎ȃ96 7. 소프트웨어사업 영향평가 검토결과서䷆ȃ97䵴Ⅰ 사업 개요1. 사업개요  가. 사 업 명 : 광주정책연구아카이브(GPA) 시스템 개발   나. 사업기간 : 착수일로부터 5개월  다. 사업예산 : 금43,000,000원 이내 (부가가치세 포함)  라. 수요기관 : (재)광주연구원  마. 입찰방식 및 낙찰자 결정방식    1) 입찰방식 : 제한경쟁입찰, 지역제한(광주광역시)    2) 낙찰자 결정방식 : 협상에 의한 계약       ①「지방자치단체를 당사자로 하는 계약에 관한 법률 시행령」제43조          (협상에 의한 계약체결)       ②「지방자치단체 입찰시 낙찰자 결정기준」제7장 협상에 의한 계약 체결 기준2. 추진배경 및 필요성  ❍ 광주정책연구회 정책정보 공유체계 구축 필요  ❍ 광주시 출자출연기관의 정책연구자료(자체 보고서 및 위수탁 보고서 포함)를 하나의 사이트로 집적하여 공유하는 플랫폼 운영  ❍ 각 기관별로 발주했던 수탁과제 보고서를 한 곳에 모으고 광주시 정책연구결과를 집대성하는 결과 기대 3. 사업범위□ 운영 방식  ❍ 광주연구원 : 허브사이트 개발 및 서비스 운영  ❍ 회원 기관 : Open API 기반의 프로그램 개발 구현  ❍ 아카이빙 방법 : 회원 기관별로 완성된 보고서를 Open API 형식으로 제공받아 홈페이지에 자동업로드 되도록 서비스 제공  ❍ 나비스와 포인트 등 기존 정책연구 아카이브 사이트는 배너로