In [1]:
# PyPDF2 활용하여 pdf 파일 컨트롤
import PyPDF2
from pathlib import Path

In [2]:
p1 = Path.cwd() / 'attachments'
p2 = Path.cwd() / 'result_attachments' / 'walnut2'

In [3]:
# pdf파일을 이진 읽기 형식으로 오픈
pdfFileObj = open(p1 / 'meetingminutes.pdf', mode='rb')
# 이진 형식의 파일객체를 PdfFileReader객체로 추가 오픈
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

In [4]:
# 해당 pdf파일의 전체 페이지 수를 확인 → 순환문 등에서 활용 가능
pdfReader.numPages

19

In [5]:
# getPage() 메서드 이용하여 pdf파일의 첫 페이지를 페이지 객체로 불러오기
pageObj = pdfReader.getPage(0)
# extractText() 메서드 활용하여 텍스트 추출 → 완벽한 텍스트 추출은 아니지만 활용 가능
pageObj.extractText()

'OOFFFFIICCIIAALL  BBOOAARRDD  MMIINNUUTTEESS  \n \nMeeting of March 7 , 2014  \n \n \n \n  \n \n  \n \n   \nThe Board of Elementary and Secondary Education shall provide leadership and \ncreate policies for education that expand opportunities for children, empower \nfamilies and communities, and advance Louisiana in an increasingly \ncompetitive glob al market.  BOARD  \nof \nELEMENTARY  \nand  \nSECONDARY  \nEDUCATION  \n '

In [6]:
pdfFileObj = open(p1 / 'encrypted.pdf', mode='rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# pdf읽기 객체에 암호가 있는지 확인
pdfReader.isEncrypted

True

In [7]:
# decrypt() 메서드 통해 암호를 입력
# PdfFileWriter에서는 encrypt() 메서드를 통해 암호 설정도 가능
pdfReader.decrypt('rosebud')
pageObj = pdfReader.getPage(0)
pageObj.extractText()

'OOFFFFIICCIIAALL  BBOOAARRDD  MMIINNUUTTEESS  \n \nMeeting of March 7 , 2014  \n \n \n \n  \n \n  \n \n   \nThe Board of Elementary and Secondary Education shall provide leadership and \ncreate policies for education that expand opportunities for children, empower \nfamilies and communities, and advance Louisiana in an increasingly \ncompetitive glob al market.  BOARD  \nof \nELEMENTARY  \nand  \nSECONDARY  \nEDUCATION  \n '

In [8]:
# PdfFileWriter의 경우 직접 편집은 불가능 → 새로운 PDF를 만들고 기존 문서에서 내용을 복사해야
# 단, PyPDF2의 쓰기 기능으로 페이지 복사, 회전, 덮어쓰기, 파일 암호화는 가능
pdf1File = open(p1 / 'meetingminutes.pdf', mode='rb')
pdf2File = open(p1 / 'meetingminutes2.pdf', mode='rb')
pdf1Reader = PyPDF2.PdfFileReader(pdf1File)
pdf2Reader = PyPDF2.PdfFileReader(pdf2File)
# PdfFileWriter 객체 생성 → 괄호 안에는 빈칸으로
pdfWriter = PyPDF2.PdfFileWriter()


In [9]:
for page in range(pdf1Reader.numPages):
    pageObj = pdf1Reader.getPage(page)
    # addPage() 메서드 활용하여 추출한 page객체 추가
    pdfWriter.addPage(pageObj)
for page in range(pdf2Reader.numPages):
    pageObj = pdf2Reader.getPage(page)
    # addPage() 메서드는 제일 끝 부분에 페이지를 추가
    pdfWriter.addPage(pageObj)

In [10]:
# 이진 쓰기 전용으로 파일 객체 생성
pdfOutputFile = open(p2 / 'combineminutes.pdf', mode='wb')
# PdfFileWriter의 write() 메서드 활용하여 쓰기 전용 파일에 삽입
pdfWriter.write(pdfOutputFile)
pdfOutputFile.close()
pdf1File.close()
pdf2File.close()

In [11]:
fileObj = open(p1 / 'meetingminutes.pdf', mode='rb')
pdfReader = PyPDF2.PdfFileReader(fileObj)
pdfWriter = PyPDF2.PdfFileWriter()

for pageNum in range(pdfReader.numPages):
    pageObj = pdfReader.getPage(pageNum)
    # rotateClockwise() 메서드를 통해 페이지 회전(괄호 안 숫자는 회전 각)
    # 반시계방향 회전은 rotateCounterClosewise() 활용
    # rotateClockwise를 활용하면 그 자체로 pageObj가 변한다는 것 확인(ex. 파이썬의 sort() 메서드 등)
    pageObj.rotateClockwise(90)
    pdfWriter.addPage(pageObj)

outputFileObj = open(p2 / 'rotateminutes.pdf', mode='wb')
pdfWriter.write(outputFileObj)

fileObj.close()
outputFileObj.close()

In [12]:
fileObj1 = open(p1 / 'meetingminutes.pdf', mode='rb')
fileObj2 = open(p1 / 'watermark.pdf', mode='rb')
pdfReader1 = PyPDF2.PdfFileReader(fileObj1)
pdfReader2 = PyPDF2.PdfFileReader(fileObj2)
pdfWriter = PyPDF2.PdfFileWriter()

for pageNum in range(pdfReader1.numPages):
    pageObj = pdfReader1.getPage(pageNum)
    # mergePage 메서드를 통해 페이지 내용 위 덧입히기 가능 → 로고, 타임스탬프, 워터마크 등 추가 시 용이
    # mergePage를 활용하면 그 자체로 pageObj가 변한다는 것 확인(ex. 파이썬의 sort() 메서드 등)
    pageObj.mergePage(pdfReader2.getPage(0))
    pdfWriter.addPage(pageObj)

outputFileObj = open(p2 / 'watermarkcombined.pdf', mode='wb')
pdfWriter.write(outputFileObj)

fileObj1.close()
fileObj2.close()
outputFileObj.close()