# PDF 파일 읽기 테스트

한국어 PDF 파일을 깨지지 않고 읽기 위한 여러 라이브러리 비교

## 테스트할 라이브러리
1. **PyPDF2** - 기본적인 PDF 텍스트 추출
2. **pdfplumber** - 테이블과 텍스트 추출에 강함
3. **PyMuPDF (fitz)** - 빠르고 강력한 텍스트 추출
4. **pdfminer.six** - 상세한 레이아웃 분석

## 필요한 라이브러리 설치

먼저 아래 명령어로 필요한 라이브러리들을 설치하세요:

In [None]:
# 필요한 경우 아래 주석을 해제하여 설치
# !pip install PyPDF2
# !pip install pdfplumber
# !pip install PyMuPDF
# !pip install pdfminer.six

## 1. PyPDF2 사용하기

In [None]:
import PyPDF2

# PDF 파일 경로 (data 폴더는 현재 디렉토리 기준)
pdf_path = "data/1. 2023년01회_정보처리기사필기기출문제.pdf"

def read_pdf_pypdf2(file_path):
    """PyPDF2를 사용하여 PDF 읽기"""
    try:
        with open(file_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            print(f"총 페이지 수: {len(pdf_reader.pages)}")
            
            # 첫 페이지 읽기
            first_page = pdf_reader.pages[0]
            text = first_page.extract_text()
            print("\n=== 첫 페이지 내용 (PyPDF2) ===")
            print(text[:500])  # 처음 500자만 출력
            return text
    except Exception as e:
        print(f"오류 발생: {e}")
        return None

text_pypdf2 = read_pdf_pypdf2(pdf_path)

## 2. pdfplumber 사용하기

pdfplumber는 테이블 추출과 한국어 지원이 우수합니다.

In [None]:
import pdfplumber

def read_pdf_pdfplumber(file_path):
    """pdfplumber를 사용하여 PDF 읽기"""
    try:
        with pdfplumber.open(file_path) as pdf:
            print(f"총 페이지 수: {len(pdf.pages)}")
            
            # 첫 페이지 읽기
            first_page = pdf.pages[0]
            text = first_page.extract_text()
            print("\n=== 첫 페이지 내용 (pdfplumber) ===")
            print(text[:500])
            
            # 테이블이 있는 경우 추출
            tables = first_page.extract_tables()
            if tables:
                print(f"\n테이블 개수: {len(tables)}")
            
            return text
    except Exception as e:
        print(f"오류 발생: {e}")
        return None

text_pdfplumber = read_pdf_pdfplumber(pdf_path)

## 3. PyMuPDF (fitz) 사용하기

PyMuPDF는 속도가 빠르고 한국어 처리가 잘 됩니다.

In [None]:
import fitz  # PyMuPDF

def read_pdf_pymupdf(file_path):
    """PyMuPDF를 사용하여 PDF 읽기"""
    try:
        doc = fitz.open(file_path)
        print(f"총 페이지 수: {len(doc)}")
        
        # 첫 페이지 읽기
        first_page = doc[0]
        text = first_page.get_text()
        print("\n=== 첫 페이지 내용 (PyMuPDF) ===")
        print(text[:500])
        
        doc.close()
        return text
    except Exception as e:
        print(f"오류 발생: {e}")
        return None

text_pymupdf = read_pdf_pymupdf(pdf_path)

## 4. pdfminer.six 사용하기

pdfminer.six는 레이아웃을 상세히 분석합니다.

In [None]:
from pdfminer.high_level import extract_text
from pdfminer.layout import LAParams

def read_pdf_pdfminer(file_path):
    """pdfminer.six를 사용하여 PDF 읽기"""
    try:
        # LAParams로 레이아웃 분석 파라미터 설정
        laparams = LAParams()
        text = extract_text(file_path, laparams=laparams, page_numbers=[0])
        
        print("\n=== 첫 페이지 내용 (pdfminer.six) ===")
        print(text[:500])
        return text
    except Exception as e:
        print(f"오류 발생: {e}")
        return None

text_pdfminer = read_pdf_pdfminer(pdf_path)

## 전체 PDF 파일 읽기 예제

가장 적합한 라이브러리로 전체 파일을 읽는 예제

In [None]:
import os
import pdfplumber  # 또는 fitz (PyMuPDF)

# data 폴더의 모든 PDF 파일 처리
data_folder = "data"
pdf_files = [f for f in os.listdir(data_folder) if f.endswith('.pdf')]

print(f"발견된 PDF 파일: {len(pdf_files)}개")
for pdf_file in pdf_files:
    print(f"- {pdf_file}")

# 특정 파일 전체 읽기
def read_full_pdf(file_path):
    """PDF 파일 전체 내용 읽기"""
    all_text = []
    
    with pdfplumber.open(file_path) as pdf:
        for page_num, page in enumerate(pdf.pages, 1):
            text = page.extract_text()
            if text:
                all_text.append(f"\n--- 페이지 {page_num} ---\n")
                all_text.append(text)
    
    return '\n'.join(all_text)

# 예시: 첫 번째 PDF 파일 읽기
if pdf_files:
    first_pdf = os.path.join(data_folder, pdf_files[0])
    full_text = read_full_pdf(first_pdf)
    print(f"\n총 텍스트 길이: {len(full_text)} 문자")
    print("\n처음 1000자:")
    print(full_text[:1000])

## 추천 사항

### 한국어 PDF 읽기에 가장 적합한 라이브러리:

1. **pdfplumber** (가장 추천)
   - 장점: 한국어 지원 우수, 테이블 추출 가능, 사용 간편
   - 단점: 대용량 파일에서 느릴 수 있음

2. **PyMuPDF (fitz)** (두 번째 추천)
   - 장점: 매우 빠름, 한국어 잘 처리, 이미지 추출 가능
   - 단점: API가 조금 복잡

3. **PyPDF2**
   - 장점: 설치 쉬움, 기본 기능 충분
   - 단점: 복잡한 레이아웃에서 텍스트 순서가 섞일 수 있음

4. **pdfminer.six**
   - 장점: 레이아웃 분석 상세
   - 단점: 느리고 설정이 복잡

### 용도별 추천:
- **시험 문제 PDF**: pdfplumber (테이블과 텍스트 모두 잘 추출)
- **대용량 PDF**: PyMuPDF (속도가 중요할 때)
- **간단한 텍스트**: PyPDF2
- **정확한 레이아웃**: pdfminer.six

## 문자 인코딩 확인

한국어가 깨지는 경우 확인용

In [None]:
# 텍스트 인코딩 확인
if text_pdfplumber:
    # 한글이 포함되어 있는지 확인
    korean_chars = [c for c in text_pdfplumber if '가' <= c <= '힣']
    print(f"한글 문자 개수: {len(korean_chars)}")
    print(f"전체 문자 개수: {len(text_pdfplumber)}")
    print(f"한글 비율: {len(korean_chars)/len(text_pdfplumber)*100:.2f}%" if text_pdfplumber else "N/A")