In [2]:
import io

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.pdfpage import PDFPage

def pdfparser(data):
    rsrcmgr = PDFResourceManager()
    retstr = io.StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()

    with open(data, 'rb') as fp:
        for page in PDFPage.get_pages(fp,
                                      pagenos, 
                                      maxpages=maxpages,
                                      password=password,
                                      caching=caching,
                                      check_extractable=False):
            interpreter.process_page(page)

    # As pointed out in another answer, this goes outside the loop
    text = retstr.getvalue()

    device.close()
    retstr.close()
    return text


In [5]:
pdf = "stuglandet_en_guide_till_fri.pdf"
text = pdfparser(pdf)

The PDF <_io.BufferedReader name='stuglandet_en_guide_till_fri.pdf'> contains a metadata field indicating that it should not allow text extraction. Ignoring this field and proceeding. Use the check_extractable if you want to raise an error in this case


In [6]:
text

'Runt om i Sverige finns öppna stugor, \n\nRunt om i Sverige finns öppna stugor, \n\n”Den här boken är årets \n\n”Den här boken är årets \n\ndär vem som helst får övernatta utan \n\ndär vem som helst får övernatta utan \n\natt betala. Det kan vara gamla soldat-\n\natt betala. Det kan vara gamla soldat-\n\ntorp, flottarkojor eller nybyggda \n\ntorp, flottarkojor eller nybyggda \n\ntimmerstugor. \n\ntimmerstugor. \n\nmåste för skog- och \n\nmåste för skog- och \n\nmarkälskare. Det finns \n\nmarkälskare. Det finns \n\nen uppsjö av böcker om \n\nen uppsjö av böcker om \n\nnatur, vandringsleder och \n\nnatur, vandringsleder och \n\ndylikt – men den här är \n\ndylikt – men den här är \n\nspeciell, den här boken är \n\nspeciell, den här boken är \n\ntrollbindande.”\n\ntrollbindande.”\n\nStugorna ger alla som vill en chans att \n\nStugorna ger alla som vill en chans att \n\nkomma nära naturen, utan att punga \n\nkomma nära naturen, utan att punga \n\nDalarnas Tidningar\n\nDalarnas Tidningar\n\