Extract Text from a PDF를 참조하여 아래와 같이 pdf파일에서 Text 추출합니다.
from pypdf import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
# extract only text oriented up
print(page.extract_text(0))
# extract text oriented up and turned left
print(page.extract_text((0, 90)))
pypdf2에 따라 아래와 같이 S3로부터 pdf 파일을 읽을 수 있습니다.
from io import BytesIO
import boto3
from PyPDF2 import PdfReader
s3 = boto3.client("s3")
obj = s3.get_object(Body=csv_buffer.getvalue(), Bucket="my-bucket", Key="my/doc.pdf")
reader = PdfReader(BytesIO(obj["Body"].read()))