In [5]:
import os
from langchain.schema import Document
from pdfminer.high_level import extract_text as pdfminer_extract_text
import pdfplumber
import pypdfium2
import fitz  # PyMuPDF
from PyPDF2 import PdfReader

# 현재 디렉터리에서 PDF 파일 리스트 확인
pdf_dir = "./"  # PDF가 저장된 경로
pdf_files = [f for f in os.listdir(pdf_dir) if f.endswith(".pdf")]

# PDF 파일이 없으면 종료
if not pdf_files:
    print("❌ PDF 파일이 없습니다. PDF를 추가한 후 다시 실행하세요.")
    exit()

# 결과 저장용 딕셔너리
pdf_results = {}

# 📌 1. PDFMiner 이용
def load_with_pdfminer(pdf_path):
    try:
        text = pdfminer_extract_text(pdf_path)
        return Document(page_content=text, metadata={"source": pdf_path, "method": "PDFMiner"})
    except Exception as e:
        return f"❌ PDFMiner 오류: {e}"

# 📌 2. PDFPlumber 이용
def load_with_pdfplumber(pdf_path):
    try:
        with pdfplumber.open(pdf_path) as pdf:
            text = "\n".join([page.extract_text() for page in pdf.pages if page.extract_text()])
        return Document(page_content=text, metadata={"source": pdf_path, "method": "PDFPlumber"})
    except Exception as e:
        return f"❌ PDFPlumber 오류: {e}"

# 📌 3. PyPDFium2 이용
def load_with_pypdfium2(pdf_path):
    try:
        pdf = pypdfium2.PdfDocument(pdf_path)
        text = "\n".join([pdf.get_page(i).get_textpage().get_text() for i in range(len(pdf))])
        return Document(page_content=text, metadata={"source": pdf_path, "method": "PyPDFium2"})
    except Exception as e:
        return f"❌ PyPDFium2 오류: {e}"

# 📌 4. PyMuPDF 이용
def load_with_pymupdf(pdf_path):
    try:
        doc = fitz.open(pdf_path)
        text = "\n".join([page.get_text() for page in doc])
        return Document(page_content=text, metadata={"source": pdf_path, "method": "PyMuPDF"})
    except Exception as e:
        return f"❌ PyMuPDF 오류: {e}"

# 📌 5. PyPDF2 이용
def load_with_pypdf2(pdf_path):
    try:
        reader = PdfReader(pdf_path)
        text = "\n".join([page.extract_text() for page in reader.pages if page.extract_text()])
        return Document(page_content=text, metadata={"source": pdf_path, "method": "PyPDF2"})
    except Exception as e:
        return f"❌ PyPDF2 오류: {e}"



In [8]:
# 📌 PDF 파일 처리
for pdf_file in pdf_files[:10]:
    pdf_path = os.path.join(pdf_dir, pdf_file)
    pdf_results[pdf_file] = {
        "PDFMiner": load_with_pdfminer(pdf_path),
        "PDFPlumber": load_with_pdfplumber(pdf_path),
        "PyPDFium2": load_with_pypdfium2(pdf_path),
        "PyMuPDF": load_with_pymupdf(pdf_path),
        "PyPDF2": load_with_pypdf2(pdf_path),
    }

# 📌 결과 출력 및 TXT 파일 저장
output_dir = "./results"
os.makedirs(output_dir, exist_ok=True)
for pdf_file, methods in pdf_results.items():
    print(f"\n📂 PDF 파일: {pdf_file}")
    for method, result in methods.items():
        print(f"\n🔹 {method} 결과:")
        output_text = ""
        
        if isinstance(result, Document):
            output_text = result.page_content
            print(output_text)
        else:
            output_text = result  # 오류 메시지 저장
            print(output_text)
        
        # 결과를 TXT 파일로 저장
        output_filename = f"{os.path.splitext(pdf_file)[0]}_{method}.txt"
        output_path = os.path.join(output_dir, output_filename)
        
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(output_text)

        print(f"✅ 저장 완료: {output_path}")



📂 PDF 파일: 가공송전선로 철탑 심형기초공사 안전보건작업 지침.pdf

🔹 PDFMiner 결과:
KOSHA GUIDE

C - 54 - 2012

가공송전선로 철탑 심형기초공사

안전보건작업 지침

2012.

8.

한 국 산 업 안 전 보 건 공 단

안전보건기술지침의 개요

○ 작성자 : 최  순  주

○ 제․개정 경과

    - 2006년 11월 건설안전분야 제정위원회 심의

- 2006년 12월 총괄제정위원회 심의

- 2012년 7월 건설안전분야 제정위원회 심의(개정)

○ 관련 법규․규칙․고시 등

- 산업안전보건법

- 가공송전선로(철탑)공사의 안전(한국산업안전보건공단)

- 765kV 송전선로 일반 시방서(한국전력공사 전력계통 건설처)

- 765kV 송전선로 특기 시방서(한국전력공사 전력계통 건설처)

- 유해․위험방지계획서(765kV 울진-신태백 가공송전선로 ○○건설현장 등)

○ 기술지침의 적용 및 문의

이 기술지침에 대한 의견 또는 문의는 한국산업안전보건공단 홈 페이지 안전보건

기술지침 소관 분야별 문의처 안내를 참고하시기 바랍니다.

○ 공표일자  :  2012년    8월  27일

○ 제 정 자 : 한국산업안전보건공단 이사장

KOSHA GUIDE

C - 54 - 2012

가공송전선로 철탑 심형기초공사 안전보건작업 지침

1. 목적

이 지침은 「산업안전보건기준에 관한 규칙」(이하 “안전보건규칙”이라 한다) 제2편 제4

장 제2절(굴착작업 등의 위험 방지) 제1관(노천굴착작업) 의 규정에 의거하여 가공송

전선로 철탑의 심형기초공사 작업 과정에서의 안전작업을 도모하고 재해방지에 필요한

지침을 정함을 목적으로 한다.

2. 적용범위

이 지침은 가공송전선로 철탑공사에서 심형기초 공법을 적용한 기초공사에 대하여 적용한다.

3. 용어의 정의

(1) 이 지침에서 사용하는 용어의 정의는 다음과 같다

(가) “심형기초”라 함은 가공송전선로 철탑 기초공사에서 주로 사용되는 기초공법의

일종으로 <그림 1>과 같이 