# # 1. PDf Loader & 텍스트 전처리

In [16]:
from langchain.document_loaders import PyMuPDFLoader

def load_pdf_langchain(file_path):
    loader = PyMuPDFLoader(file_path)
    documents = loader.load()
    return documents

file_path = "file/도로 교통법/도로교통법(법률)(제20155호)(20241025).pdf"
documents = load_pdf_langchain(file_path)
for doc in documents:
    print(doc.page_content)

법제처                                                            1                                                       국가법령정보센터
도로교통법
 
도로교통법
[시행 2024. 10. 25.] [법률 제20155호, 2024. 1. 30., 일부개정]
경찰청 (교통기획계(법제총괄, 안전표지, 보호구역)) 02-3150-2251
경찰청 (교통안전계(안전, 단속, 어린이통학버스)) 02-3150-2252
경찰청 (운전면허계(운전면허)) 02-3150-2253
경찰청 (첨단교통계(신호, 무인단속장비)) 02-3150-2851
경찰청 (교통조사계(교통사고조사)) 02-3150-2552
       제1장 총칙
 
제1조(목적) 이 법은 도로에서 일어나는 교통상의 모든 위험과 장해를 방지하고 제거하여 안전하고 원활한 교통을 확보
함을 목적으로 한다.
 
제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2012. 3. 21., 2013. 3. 23., 2014. 1. 28., 2014. 11. 19.,
2017. 3. 21., 2017. 7. 26., 2017. 10. 24., 2018. 3. 27., 2020. 5. 26., 2020. 6. 9., 2020. 12. 22., 2021. 10. 19., 2022. 1.
11., 2023. 4. 18., 2023. 10. 24.>
1. “도로”란 다음 각 목에 해당하는 곳을 말한다.
가. 「도로법」에 따른 도로
나. 「유료도로법」에 따른 유료도로
다. 「농어촌도로 정비법」에 따른 농어촌도로
라. 그 밖에 현실적으로 불특정 다수의 사람 또는 차마(車馬)가 통행할 수 있도록 공개된 장소로서 안전하고 원활
한 교통을 확보할 필요가 있는 장소
2. “자동차전용도로”란 자동차만 다닐 수 있도록 설치된 도로를 말한다.
3. “고속도로”란 자동차의 고속 운행에만 사용하기 위하여 지정된 도로를 말한다.
4. “차도”(車道)란

In [None]:
import re

def clean_legal_text(text):
    # Remove page headers/footers
    text = re.sub(r'^\s*법제처.*국가법령정보센터\s*$|^\s*\d+\s*$', '', text, flags=re.MULTILINE)
    
    # Remove contact information and department names
    text = re.sub(r'\(.*?\)\s*\d{2,3}-\d{3,4}-\d{4}', '', text)
    
    # Remove excessive newlines and spaces
    text = re.sub(r'(\n\s*){2,}', '\n', text)  # Collapse multiple newlines
    text = re.sub(r'\s{2,}', ' ', text)        # Collapse multiple spaces
    
    # Remove metadata like [시행 2024.10.20.]
    text = re.sub(r'^\s*\[.*?\]$', '', text, flags=re.MULTILINE)
    
    # Trim leading and trailing whitespace
    return text.strip()

# Example usage
with open('example_legal_text.txt', 'r', encoding='utf-8') as f:
    raw_text = f.read()

cleaned_text = clean_legal_text(raw_text)
with open('cleaned_legal_text.txt', 'w', encoding='utf-8') as f:
    f.write(cleaned_text)

In [17]:
import re
from langchain.document_loaders import PyMuPDFLoader

def clean_legal_text(text):
    """
    Clean legal text by removing unwanted headers, footers, and other repetitive patterns.
    """
    # Remove page headers/footers (e.g., 법제처, 국가법령정보센터, page numbers)
    text = re.sub(r'^\s*법제처.*국가법령정보센터\s*$|^\s*\d+\s*$', '', text, flags=re.MULTILINE)
    
    # Remove contact information and department names
    text = re.sub(r'\(.*?\)\s*\d{2,3}-\d{3,4}-\d{4}', '', text)
    
    # Remove excessive newlines and spaces
    text = re.sub(r'(\n\s*){2,}', '\n', text)  # Collapse multiple newlines
    text = re.sub(r'\s{2,}', ' ', text)        # Collapse multiple spaces
    
    # Remove metadata like [시행 2024.10.20.]
    text = re.sub(r'^\s*\[.*?\]$', '', text, flags=re.MULTILINE)
    
    # Trim leading and trailing whitespace
    return text.strip()

def process_pdf(file_path):
    """
    Load and process a PDF file, returning original and cleaned text.
    """
    # Load the PDF using PyMuPDFLoader
    loader = PyMuPDFLoader(file_path)
    documents = loader.load()

    # Extract and clean text from the documents
    original_texts = []
    cleaned_texts = []
    for doc in documents:
        original_texts.append(doc.page_content)
        cleaned_texts.append(clean_legal_text(doc.page_content))
    
    return '\n'.join(original_texts), '\n'.join(cleaned_texts)

# Example usage
file_path = "file/도로 교통법/도로교통법 시행규칙(행정안전부령)(제00431호)(20241020).pdf"  # Replace with your file path
original_text, cleaned_text = process_pdf(file_path)

# Display first 500 characters of both original and cleaned text
print("=== Original Text (First 500 Characters) ===")
print(original_text[:500])
print("\n=== Cleaned Text (First 500 Characters) ===")
print(cleaned_text[:500])

=== Original Text (First 500 Characters) ===
법제처                                                            1                                                       국가법령정보센터
도로교통법 시행규칙
 
도로교통법 시행규칙
[시행 2024. 10. 20.] [행정안전부령 제431호, 2023. 10. 19., 일부개정]
경찰청 (교통기획계(법제총괄, 안전표지, 보호구역)) 02-3150-2251
경찰청 (교통안전계(안전, 단속, 어린이통학버스)) 02-3150-2252
경찰청 (운전면허계(운전면허)) 02-3150-2253
경찰청 (첨단교통계(신호, 무인단속장비)) 02-3150-2851
경찰청 (교통조사계(교통사고조사)) 02-3150-2552
       제1장 총칙
 
제1조(목적) 이 규칙은 「도로교통법」 및 동법 시행령에서 위임된 사항과 그 시행에 관하여 필요한 사항을 규정함을 목
적으로 한다.
 
제2조(차마에서 제외하는 기

=== Cleaned Text (First 500 Characters) ===
도로교통법 시행규칙
도로교통법 시행규칙

경찰청 경찰청 경찰청 경찰청 경찰청 제1장 총칙
제1조(목적) 이 규칙은 「도로교통법」 및 동법 시행령에서 위임된 사항과 그 시행에 관하여 필요한 사항을 규정함을 목
적으로 한다.
제2조(차마에서 제외하는 기구ㆍ장치) ① 「도로교통법」(이하 “법”이라 한다) 제2조제10호에서 “유모차, 보행보조용 의
자차, 노약자용 보행기 등 행정안전부령으로 정하는 기구ㆍ장치”란 너비 1미터 이하인 것으로서 다음 각 호의 기구
ㆍ장치를 말한다. <개정 2023. 10. 19.>
1. 유모차
2. 보행보조용 의자차(「의료기기법」 제19조에 따라 식품의약품안전처장이 정하는 의료기기의 기준규격에 따른 수
동휠체어, 전동휠체어 및 의료용 스쿠터를 말한다)
3. 노약자용 보행기
4. 법 제11조제3항에 따른

# 2. Text Splitter

In [19]:
import re

def keyword_based_splitter(text, pattern=r'제\s*\d+\s*조\s*\(.*?\)'):
    """
    Split text based on a keyword pattern like '제 몇 조 (블라 블라)'.
    
    Args:
        text (str): Input text to split.
        pattern (str): Regex pattern for the splitting keyword.
    
    Returns:
        list: List of text segments split by the pattern.
    """
    # Find all matches for the pattern
    matches = re.finditer(pattern, text)

    # Extract start positions of each match
    split_positions = [match.start() for match in matches]

    # Add the end of the text as the last position
    split_positions.append(len(text))

    # Split the text based on the positions
    segments = []
    for i in range(len(split_positions) - 1):
        start = split_positions[i]
        end = split_positions[i + 1]
        segments.append(text[start:end].strip())
    
    return segments

# Example usage
text = """
제1조 (목적)
이 법은 도로에서 일어나는 교통상의 모든 위험과 장해를 방지하고 제거하여 안전하고 원활한 교통을 확보함을 목적으로 한다.

제2조 (정의)
이 법에서 사용하는 용어의 뜻은 다음과 같다.

제3조 (적용범위)
이 법은 대한민국의 모든 도로에 적용된다.
"""

segments = keyword_based_splitter(cleaned_text)

# Display results
for i, segment in enumerate(segments):
    print(f"Segment {i + 1}:\n{segment}\n")

Segment 1:
제1조(목적) 이 규칙은 「도로교통법」 및 동법 시행령에서 위임된 사항과 그 시행에 관하여 필요한 사항을 규정함을 목
적으로 한다.

Segment 2:
제2조(차마에서 제외하는 기구ㆍ장치) ① 「도로교통법」(이하 “법”이라 한다) 제2조제10호에서 “유모차, 보행보조용 의
자차, 노약자용 보행기 등 행정안전부령으로 정하는 기구ㆍ장치”란 너비 1미터 이하인 것으로서 다음 각 호의 기구
ㆍ장치를 말한다. <개정 2023. 10. 19.>
1. 유모차
2. 보행보조용 의자차(「의료기기법」 제19조에 따라 식품의약품안전처장이 정하는 의료기기의 기준규격에 따른 수
동휠체어, 전동휠체어 및 의료용 스쿠터를 말한다)
3. 노약자용 보행기
4. 법 제11조제3항에 따른 놀이기구(어린이가 이용하는 것에 한정한다)
5. 동력이 없는 손수레
6. 이륜자동차, 원동기장치자전거 또는 자전거로서 운전자가 내려서 끌거나 들고 통행하는 것
7. 도로의 보수ㆍ유지, 도로상의 공사 등 작업에 사용되는 기구ㆍ장치(사람이 타거나 화물을 운송하지 않는 것에 한
정한다)
② 법 제2조제17호가목5)에서 “유모차, 보행보조용 의자차, 노약자용 보행기, 제21호의3에 따른 실외이동로봇 등 행
정안전부령으로 정하는 기구ㆍ장치”란 다음 각 호의 기구ㆍ장치를 말한다.<신설 2023. 10. 19.>
1. 제1항 각 호의 어느 하나에 해당하는 기구ㆍ장치
2. 실외이동로봇

제2조의2(자율주행시스템의 종류) 법 제2조제18호의2 후단에 따른 자율주행시스템의 종류에 관하여는 「자동차 및 자
동차부품의 성능과 기준에 관한 규칙」 제111조를 준용한다.


제2조의3(개인형 이동장치의 기준) 법 제2조제19호의2에서 “행정안전부령으로 정하는 것”이란 다음 각 호의 어느 하나
에 해당하는 것으로서 「전기용품 및 생활용품 안전관리법」 제15조제1항에 따라 안전확인의 신고가 된 것을 말한다.
1. 전동킥보드
2. 전동이륜평행차
3. 전동기의 동력만으로 움직일 수 있는 자전거


제2조의4(실외이동로봇