In [1]:
import os
import json
import re
from langchain.document_loaders import PyPDFLoader

# 폴더 경로 설정
DATA_PATH = "./data"  # PDF 파일 폴더
OUTPUT_JSON = "./cleaned/cleaned_data.json"

# 텍스트 정제 함수
def clean_text(text):
    text = re.sub(r"페이지\s*\d+\s*/\s*\d+", "", text)
    text = re.sub(r"※.*", "", text)
    text = re.sub(r"\s{2,}", " ", text)
    return text.strip()

# PDF 로드 및 정제 -> JSON 저장
def extract_cleaned_data():
    cleaned_docs = []
    os.makedirs(os.path.dirname(OUTPUT_JSON), exist_ok=True)

    for root, _, files in os.walk(DATA_PATH):
        for file in files:
            if file.endswith(".pdf"):
                pdf_path = os.path.join(root, file)
                print(f"📄 로딩 중: {pdf_path}")
                loader = PyPDFLoader(pdf_path)

                try:
                    docs = loader.load()
                    for doc in docs:
                        cleaned = clean_text(doc.page_content)
                        if cleaned:
                            cleaned_docs.append({
                                "source": pdf_path,
                                "content": cleaned
                            })
                except Exception as e:
                    print(f"❌ 실패: {file} → {e}")

    with open(OUTPUT_JSON, "w", encoding="utf-8") as f:
        json.dump(cleaned_docs, f, ensure_ascii=False, indent=2)

    print(f"✅ 총 {len(cleaned_docs)}개 페이지 저장 완료 → {OUTPUT_JSON}")

# 실행
extract_cleaned_data()


📄 로딩 중: ./data\data\hana\고정금리 전세자금대출.pdf
📄 로딩 중: ./data\data\hana\군간부월세자금대출.pdf
📄 로딩 중: ./data\data\hana\군간부전세자금대출(기본).pdf
📄 로딩 중: ./data\data\hana\군간부전세자금대출(추가).pdf
📄 로딩 중: ./data\data\hana\다둥이전세론.pdf
📄 로딩 중: ./data\data\hana\목돈 안드는 행복전세.pdf
📄 로딩 중: ./data\data\hana\복지지킴이전세론.pdf
📄 로딩 중: ./data\data\hana\서울특별시 신혼부부 임차보증금대출.pdf
📄 로딩 중: ./data\data\hana\서울특별시 청년 임차보증금대출.pdf
📄 로딩 중: ./data\data\hana\세종시 청년 임차보증금대출.pdf
📄 로딩 중: ./data\data\hana\신혼부부전세론.pdf
📄 로딩 중: ./data\data\hana\우량주택전세론.pdf
📄 로딩 중: ./data\data\hana\주택신보 전세자금대출.pdf
📄 로딩 중: ./data\data\hana\충청남도 청년 임차보증금대출.pdf
📄 로딩 중: ./data\data\hana\하나 부분분할상환 전세론.pdf
📄 로딩 중: ./data\data\hana\하나 전세금안심대출.pdf
📄 로딩 중: ./data\data\hana\하나 청년월세론.pdf
📄 로딩 중: ./data\data\hana\하나 청년전세론.pdf
📄 로딩 중: ./data\data\hana\한사랑전세론.pdf
📄 로딩 중: ./data\data\kookmin\전세자금대출_ KB 군 간부 전세자금대출(기본).pdf
📄 로딩 중: ./data\data\kookmin\전세자금대출_KB WELCOME PLUS 전세자금대출.pdf
📄 로딩 중: ./data\data\kookmin\전세자금대출_KB 군 간부 전세자금대출(추가).pdf
📄 로딩 중: ./data\data\kookmin\전세자금대출_KB 다둥이 전세자금대

In [4]:
import os
import re
import json
from langchain.document_loaders import PyPDFLoader

def clean_text_ui_only(text):
    text = re.sub(r"(인쇄\s*취소|프린트하기|확대,\s*축소|상담예약|Home>.*)", "", text, flags=re.IGNORECASE)
    text = re.sub(r"\n{2,}", "\n", text)
    text = re.sub(r"\s{2,}", " ", text)
    return text.strip()


In [5]:
DATA_PATH = "./data"
OUTPUT_JSON = "./cleaned/cleaned_data.json"
os.makedirs(os.path.dirname(OUTPUT_JSON), exist_ok=True)

cleaned_docs = []

for root, _, files in os.walk(DATA_PATH):
    for file in files:
        if file.endswith(".pdf"):
            pdf_path = os.path.join(root, file)
            print(f"📄 로딩 중: {pdf_path}")
            loader = PyPDFLoader(pdf_path)

            try:
                docs = loader.load()
                for doc in docs:
                    cleaned = clean_text_ui_only(doc.page_content)
                    if cleaned:
                        cleaned_docs.append({
                            "source": pdf_path,
                            "content": cleaned
                        })
            except Exception as e:
                print(f"❌ 실패: {file} → {e}")

# 저장
with open(OUTPUT_JSON, "w", encoding="utf-8") as f:
    json.dump(cleaned_docs, f, ensure_ascii=False, indent=2)

print(f"✅ 총 {len(cleaned_docs)}개 페이지 저장 완료 → {OUTPUT_JSON}")


📄 로딩 중: ./data\data\hana\고정금리 전세자금대출.pdf
📄 로딩 중: ./data\data\hana\군간부월세자금대출.pdf
📄 로딩 중: ./data\data\hana\군간부전세자금대출(기본).pdf
📄 로딩 중: ./data\data\hana\군간부전세자금대출(추가).pdf
📄 로딩 중: ./data\data\hana\다둥이전세론.pdf
📄 로딩 중: ./data\data\hana\목돈 안드는 행복전세.pdf
📄 로딩 중: ./data\data\hana\복지지킴이전세론.pdf
📄 로딩 중: ./data\data\hana\서울특별시 신혼부부 임차보증금대출.pdf
📄 로딩 중: ./data\data\hana\서울특별시 청년 임차보증금대출.pdf
📄 로딩 중: ./data\data\hana\세종시 청년 임차보증금대출.pdf
📄 로딩 중: ./data\data\hana\신혼부부전세론.pdf
📄 로딩 중: ./data\data\hana\우량주택전세론.pdf
📄 로딩 중: ./data\data\hana\주택신보 전세자금대출.pdf
📄 로딩 중: ./data\data\hana\충청남도 청년 임차보증금대출.pdf
📄 로딩 중: ./data\data\hana\하나 부분분할상환 전세론.pdf
📄 로딩 중: ./data\data\hana\하나 전세금안심대출.pdf
📄 로딩 중: ./data\data\hana\하나 청년월세론.pdf
📄 로딩 중: ./data\data\hana\하나 청년전세론.pdf
📄 로딩 중: ./data\data\hana\한사랑전세론.pdf
📄 로딩 중: ./data\data\kookmin\전세자금대출_ KB 군 간부 전세자금대출(기본).pdf
📄 로딩 중: ./data\data\kookmin\전세자금대출_KB WELCOME PLUS 전세자금대출.pdf
📄 로딩 중: ./data\data\kookmin\전세자금대출_KB 군 간부 전세자금대출(추가).pdf
📄 로딩 중: ./data\data\kookmin\전세자금대출_KB 다둥이 전세자금대