Simplify pdfminer by upgrading to pdfminer.six.

andrewferrier · Aug 19, 2020 · bfe3e4b · bfe3e4b
1 parent 835c636
commit bfe3e4b
Show file tree

Hide file tree

Showing 2 changed files with 5 additions and 17 deletions.
diff --git a/requirements_hacking.txt b/requirements_hacking.txt
@@ -1,6 +1,6 @@
 flake8
 freezegun
 nose
-pdfminer3k
+pdfminer.six
 reportlab
 requests
diff --git a/tests/BaseTestClasses.py b/tests/BaseTestClasses.py
@@ -8,10 +8,6 @@
 from email.mime.multipart import MIMEMultipart
 from email.mime.text import MIMEText
 from email.utils import formatdate
-from pdfminer.converter import TextConverter
-from pdfminer.layout import LAParams
-from pdfminer.pdfinterp import PDFResourceManager, process_pdf
-from pdfminer.pdftypes import PSException
 from reportlab.pdfgen import canvas
 from requests.exceptions import RequestException
 from subprocess import Popen, PIPE
@@ -22,6 +18,7 @@
 import inspect
 import os
 import os.path
+import pdfminer.high_level
 import requests
 import shutil
 import sys
@@ -370,18 +367,9 @@ def getMetadataField(self, pdf_filename, field_name):
                 return None
 
     def getPDFText(self, filename):
-        try:
-            with io.StringIO() as retstr:
-                with open(filename, 'rb') as filehandle:
-                    rsrcmgr = PDFResourceManager()
-                    device = TextConverter(rsrcmgr, retstr, laparams=LAParams())
-                    pagenos = set()
-                    process_pdf(rsrcmgr, device, filehandle, pagenos, maxpages=0, password="", caching=True, check_extractable=True)
-                    device.close()
-                    string = retstr.getvalue()
-                    return string
-        except PSException:
-            return None
+        text = pdfminer.high_level.extract_text(filename)
+        text = text.replace("\t", " ")
+        return text
 
     def touch(self, fname):
         open(fname, 'w').close()