In [None]:
import fitz  # PyMuPDF 라이브러리
import re

def extract_text_from_pdf(pdf_path):
    """PDF 파일에서 전체 텍스트를 추출합니다."""
    try:
        doc = fitz.open(pdf_path)
        full_text = ""
        for page in doc:
            full_text += page.get_text()
        doc.close()
        print(f"✅ '{pdf_path}' 파일에서 텍스트 추출을 완료했습니다.")
        return full_text
    except Exception as e:
        print(f"🚨 PDF 파일을 읽는 중 오류가 발생했습니다: {e}")
        return None

def split_text_by_chapter(text):
    """
    추출된 전체 텍스트를 '제n장'을 기준으로 분리하여 리스트로 반환합니다.
    """
    if not text:
        return []
    
    # ★★★★★ 핵심 변경 사항 ★★★★★
    # '제n장 제목' 패턴을 기준으로 텍스트를 분할합니다.
    # 예: "제1장 총칙", "제2장 정보보호산업의 활성화"
    pattern = r'(제\d+장\s+.*)' # <--- 이 부분이 변경되었습니다.
    
    # re.split은 패턴과 일치하는 부분을 포함하여 리스트를 생성합니다.
    split_text = re.split(pattern, text)
    
    chapters = []
    # 분할된 리스트를 (제목, 내용) 쌍으로 묶어 다시 합칩니다.
    for i in range(1, len(split_text), 2):
        title = split_text[i].strip()
        content = split_text[i+1].strip()
        full_chapter_text = title + "\n" + content
        chapters.append(full_chapter_text)
        
    print(f"✅ 텍스트를 총 {len(chapters)}개의 장(Chapter)으로 분리했습니다.")
    return chapters

# --- 메인 실행 로직 ---
if __name__ == "__main__":
    # 🚨 여기에 분석하고 싶은 PDF 파일의 경로를 입력하세요.
    pdf_file_path = "/workspace/2025-AI-Challeng-finance/data/개인정보 보호법(법률)(제19234호)(20250313).pdf"

    # 1. PDF에서 텍스트 전체 추출
    raw_text = extract_text_from_pdf(pdf_file_path)

    if raw_text:
        # 2. 추출된 텍스트를 장(Chapter)별로 분리
        chapter_chunks = split_text_by_chapter(raw_text)

        # --- 결과 확인 ---
        print("\n--- 분리된 장(Chapter) 목록 ---")
        for i, chapter in enumerate(chapter_chunks):
            # 각 챕터의 앞 300자만 출력하여 확인
            print(f"\n----- CHUNK {i+1} (제{i+1}장) -----")
            print(chapter[:300] + "...")

✅ '/workspace/2025-AI-Challeng-finance/data/개인정보 보호법(법률)(제19234호)(20250313).pdf' 파일에서 텍스트 추출을 완료했습니다.
✅ 텍스트를 총 10개의 장(Chapter)으로 분리했습니다.

--- 분리된 장(Chapter) 목록 ---

----- CHUNK 1 (제1장) -----
제1장 총칙
제1조(목적) 이 법은 개인정보의 처리 및 보호에 관한 사항을 정함으로써 개인의 자유와 권리를 보호하고, 나아가 개인
의 존엄과 가치를 구현함을 목적으로 한다. <개정 2014. 3. 24.>
 
제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2014. 3. 24., 2020. 2. 4., 2023. 3. 14.>
1. “개인정보”란 살아 있는 개인에 관한 정보로서 다음 각 목의 어느 하나에 해당하는 정보를 말한다.
가. 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보
나. 해...

----- CHUNK 2 (제2장) -----
제2장 개인정보 보호정책의 수립 등
법제처                                                            3                                                       국가법령정보센터
개인정보 보호법
제7조(개인정보 보호위원회) ① 개인정보 보호에 관한 사무를 독립적으로 수행하기 위하여 국무총리 소속으로 개인정
보 보호위원회(이하 “보호위원회”라 한다)를 둔다. <개정 2020. 2. 4.>
② 보호위원회는 「정부조직법」 제2조에 따른 중앙행정기관으로 ...

----- CHUNK 3 (제3장) -----
제3장 개인정보의 처리
제1절 개인정보의 수집, 이용, 제공 등
 
제15조(개인정보의 수집ㆍ이용) ① 개인정보처리자는 다음 각 호의 어느 하나에 해당하는 경우에는 개인정보를 수집할
수 있으며 그 수집 목적의 범위에서 이용할 수 있다.

: 

⏳ 모델과 토크나이저를 로딩합니다...


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

⏳ '/workspace/2025-AI-Challeng-finance/midm-lora-adapter-combined-laws/checkpoint-22'에서 LoRA 어댑터를 로딩하여 모델에 적용합니다...
⏳ LoRA 가중치를 기본 모델에 병합합니다...


Device set to use cuda:0


✅ 모델 로딩 및 설정이 완료되었습니다.
⏳ 기존 벡터 DB를 './faiss_index_laws'에서 로드합니다...
✅ 벡터 DB 로드 완료.

🚀 지정된 질문에 대한 추론을 시작합니다...

✅ 질문 ID: TEST_131
   질문 내용: 금융회사가 정보보호 예산을 관리할 때, 전자금융감독규정상 정보기술부문 인력 및 예산의 기준 비율은 얼마인가요?
------------------------------------------------------------
   🤖 생성된 답변:
   제공된 문서에서는 전자금융감독규정상 정보기술부문 인력 및 예산의 기준 비율에 대한 직접적인 정보를 찾을 수 없습니다. 

다만 제공된 문서들을 살펴보면 정보보호산업의 진흥에 관한 법률에서는 정보보호시스템 구축 계약과 구매수요정보 제공 등에 관한 내용을 다루고 있으며, 전자금융거래법에서는 전자금융거래의 정의와 관련 용어들을 규정하고 있습니다.

금융회사의 정보보호 예산 관리에 관한 구체적인 기준 비율은 일반적으로 금융감독원의 전자금융감독규정에서 명시하고 있으나, 제공된 문서에는 해당 내용이 포함되어 있지 않습니다. 정확한 정보를 위해서는 전자금융감독규정의 관련 조항을 직접 확인하시는 것이 필요합니다.

✅ 질문 ID: TEST_507
   질문 내용: 전자금융데이터 보안에서 암호화 방식을 선택할 때 고려해야 할 주요 기준은 무엇인가요?
------------------------------------------------------------
   🤖 생성된 답변:
   제공된 전자금융거래법 문서에서는 전자금융데이터 보안의 암호화 방식 선택에 대한 구체적인 기준을 직접적으로 언급하고 있지 않습니다.

그러나 전자금융거래법의 목적이 전자금융거래의 안전성과 신뢰성을 확보하는 것임을 고려할 때, 암호화 방식 선택 시 다음과 같은 기준들을 중요하게 고려해야 할 것으로 판단됩니다:

1. **보안성**: 데이터 기밀성과 무결성을 보장할 수 있는 강력한 암호화 알고리즘 사용
2. **성