Skip to content

Latest commit

 

History

History
35 lines (23 loc) · 982 Bytes

read-pdf.md

File metadata and controls

35 lines (23 loc) · 982 Bytes

PDF에서 Text 추출

Extract Text from a PDF를 참조하여 아래와 같이 pdf파일에서 Text 추출합니다.

from pypdf import PdfReader

reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())

# extract only text oriented up
print(page.extract_text(0))

# extract text oriented up and turned left
print(page.extract_text((0, 90)))

pypdf2에 따라 아래와 같이 S3로부터 pdf 파일을 읽을 수 있습니다.

from io import BytesIO
import boto3
from PyPDF2 import PdfReader
s3 = boto3.client("s3")
obj = s3.get_object(Body=csv_buffer.getvalue(), Bucket="my-bucket", Key="my/doc.pdf")
reader = PdfReader(BytesIO(obj["Body"].read()))

Reference

How to read PDF from S3 on Lambda trigger