# 1. 초기 설정 및 데이터 로드

In [None]:
def load_articles_from_pdf(pdf_path: str) -> Dict[str, str]:
    # 1. PDF 파일 로드 및 전체 텍스트 준비
    loader = PyPDFLoader(pdf_path)
    pages = loader.load()
    full_text = "\n".join(page.page_content for page in pages)

    # 2. '제 N조' 형태의 조항 패턴 정의 (정규식)
    article_pattern = r'(제\s*\d+\s*조(?:의\s*\d+)?(?:\s*\(.*?\))?)'

    # 3. 전체 텍스트에서 조항 패턴 위치 모두 찾기
    matches = list(re.finditer(article_pattern, full_text))

    # 4. 찾은 조항 위치를 기준으로 각 조항 텍스트 추출 및 저장
    articles = {}
    for i in range(len(matches)):
        current_match = matches[i]
        article_id = re.sub(r'\s+', '', current_match.group(1)).strip() # 예: "제1조"

        # 현재 조항 시작부터 다음 조항 시작까지 텍스트 슬라이싱
        start_pos = current_match.start()
        end_pos = matches[i+1].start() if i < len(matches)-1 else len(full_text)
        article_text = full_text[start_pos:end_pos].strip()

        # 결과 딕셔너리에 { "조항ID": "조항 내용" } 형태로 저장
        articles[article_id] = article_text

    # 5. 조항 딕셔너리 반환
    return articles

In [None]:
def load_precedents_from_json(precedent_dir: str, sample_size: Optional[int] = 1000) -> List[Dict[str, Any]]:
    precedents = []
    # 법조항 찾기 위한 정규식 패턴
    rule_pattern = re.compile(r'제\s*\d+\s*조(?:의\s*\d+)?(?:\s*\(.*?\))?')

    # 1. 지정된 디렉토리에서 JSON 파일 목록 가져오기
    json_files = [f for f in os.listdir(precedent_dir) if f.endswith(".json")]

    # 2. 각 JSON 파일을 열어서 판례 정보 처리
    for filename in json_files: 
        filepath = os.path.join(precedent_dir, filename)
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)

            # 2a. JSON에서 기본 정보(ID, 요약, 원본 키워드/참조 정보) 추출
            precedent_info = {
                "case_id": data.get("info", {}).get("caseNoID", filename.replace(".json", "")),
                "judgment_summary": data.get("jdgmn", ""),
                "full_summary": " ".join([s.get("summ_contxt", "") for s in data.get("Summary", [])]).strip(),
                "keywords": [kw.get("keyword") for kw in data.get("keyword_tagg", []) if kw.get("keyword")],
                "referenced_rules_raw": data.get("Reference_info", {}).get("reference_rules", ""),
                "referenced_cases_raw": data.get("Reference_info", {}).get("reference_court_case", ""),
            }
            # 2b. 추출된 정보 '정제 및 강화' 
            # - 키워드 누락 시 요약에서 자동 추출 (extract_simple_keywords 사용)
            if not precedent_info["keywords"] and precedent_info["full_summary"]:
                 # extract_simple_keywords(...) 함수 호출
                 precedent_info["keywords"] = ["추출된", "키워드", "..."] # 결과 예시로 대체
                
            # - 참조 법조항: 원본 목록 + 요약/판결 본문에서 추가 추출 및 정제
            #   ... 상세 추출 로직 ...
            precedent_info["referenced_rules"] = ["제123조", "제456조의2"] # 결과 예시로 대체

            # - 참조 판례: 원본 목록에서 판례 번호 등 정보 추출 및 정제
            #   ... 상세 추출 로직 ...
            precedent_info["referenced_cases"] = [{"full_reference": "대법원 2020다12345", "case_id": "2020다12345"}] # 결과 예시로 대체

            # 2c. 분석/임베딩에 사용할 텍스트 준비 및 유효한 판례만 결과에 추가
            precedent_info["text_for_embedding"] = precedent_info["full_summary"] or precedent_info["judgment_summary"]
            if precedent_info["text_for_embedding"]:
                precedents.append(precedent_info)

    # 3. 정제된 판례 데이터 리스트 반환
    return precedents

# 2. 그래프 데이터베이스 구축

In [None]:
def setup_neo4j_constraints_and_indexes(driver: Driver, dimension: int):
    try:
        # 1. Neo4j 데이터베이스 연결 세션 시작
        with driver.session(database="neo4j") as session:

            # 2. 데이터 무결성을 위한 '제약조건' 설정 (Unique 값 보장 등)
            #    - Node 종류별 주요 속성에 대해 설정
            print("- Setting up constraints...")
            # 예시: session.run("CREATE CONSTRAINT ...")
            print("  Constraints done.")


            # 3. 특정 속성으로 빠른 검색을 위한 '일반 인덱스' 설정
            #    - Node ID나 Keyword 텍스트 등에 대해 설정
            #    (세부 인덱스 구문은 발표에서 생략)
            print("- Setting up regular indexes...")
            # 예시: session.run("CREATE INDEX ...")
            print("  Regular indexes done.")


            # 4. === RAG 핵심: '벡터 검색'을 위한 '벡터 인덱스' 설정 ===
            #    - 텍스트 임베딩 벡터가 저장된 속성('embedding')에 대해 설정
            #    - 벡터 차원(dimension)과 유사도 함수(cosine) 지정 중요!
            print("- Setting up VECTOR indexes for embeddings...")

            # Article 노드의 embedding 속성에 벡터 인덱스 생성 Cypher 명령어
            article_vector_index_cmd = (
                f"CREATE VECTOR INDEX article_embedding IF NOT EXISTS "
                f"FOR (a:Article) ON (a.embedding) "
                f"OPTIONS {{indexConfig: {{`vector.dimensions`: {dimension}, `vector.similarity_function`: 'cosine'}}}}"
            )
            session.run(article_vector_index_cmd) # 명령어 실행
            print(f"  'article_embedding' vector index created/verified (Dim: {dimension}).")

            # Precedent 노드의 embedding 속성에 벡터 인덱스 생성 Cypher 명령어
            precedent_vector_index_cmd = (
                 f"CREATE VECTOR INDEX precedent_embedding IF NOT EXISTS "
                 f"FOR (p:Precedent) ON (p.embedding) "
                 f"OPTIONS {{indexConfig: {{`vector.dimensions`: {dimension}, `vector.similarity_function`: 'cosine'}}}}"
             )
            session.run(precedent_vector_index_cmd) # 명령어 실행
            print(f"  'precedent_embedding' vector index created/verified (Dim: {dimension}).")


            # 5. 설정된 인덱스가 사용 가능해질 때까지 대기 (발표에서 설명으로 대체 가능)
            # print("- Waiting for indexes to be online...")
            # session.run("CALL db.awaitIndexes(30000)") # 30초 대기 예시
            # print("  Indexes online.")

        print("Neo4j setup finished.")