In [1]:
import requests

import pdfminer.pdfinterp
import pdfminer.converter
import pdfminer.layout
import pdfminer.pdfpage

import csv
import re
import urllib.parse
import io
import os.path
import os
import random
random.seed(853915)

In [2]:
def downloadIfNeeded(targetURL, outputFile, **openkwargs):
    if not os.path.isfile(outputFile):
        outputDir = os.path.dirname(outputFile)
        #This function is a more general os.mkdir()
        if len(outputDir) > 0:
            os.makedirs(outputDir, exist_ok = True)
        r = requests.get(targetURL, stream=True)
        #Using a closure like this is generally better than having to
        #remember to close the file. There are ways to make this function
        #work as a closure too
        with open(outputFile, 'wb') as f:
            f.write(r.content)
    return open(outputFile, **openkwargs)

In [3]:
def readPDF(pdfFile):
    #Based on code from http://stackoverflow.com/a/20905381/4955164
    #Using utf-8, if there are a bunch of random symbols try changing this
    codec = 'utf-8'
    rsrcmgr = pdfminer.pdfinterp.PDFResourceManager()
    retstr = io.StringIO()
    layoutParams = pdfminer.layout.LAParams()
    device = pdfminer.converter.TextConverter(rsrcmgr, retstr, laparams = layoutParams) #, codec = codec)
    #We need a device and an interpreter
    interpreter = pdfminer.pdfinterp.PDFPageInterpreter(rsrcmgr, device)
    password = ''
    maxpages = 0
    caching = True
    pagenos=set()
    for page in pdfminer.pdfpage.PDFPage.get_pages(pdfFile, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    device.close()
    returnedString = retstr.getvalue()
    retstr.close()
    return returnedString

In [4]:
url_filenames = ['mensaje-2019-01-vizcarra.pdf',
                 'mensaje-2018-4.pdf',
                 'mensaje-2017-ppk.pdf',
                 'mensaje-2016-ppk.pdf',
                 'mensaje-2015-oh.pdf',
                 'mensaje-2014-oh.pdf',
                 'mensaje-2013-oh.pdf',
                 'mensaje-2012-oh.pdf',
                 'mensaje-2011-oh.pdf',
                 'mensaje-2010-ag.pdf',
                 'mensaje-2009-ag.pdf',
                 'mensaje-2008-ag.pdf',
                 'mensaje-2007-ag.pdf',
                 'mensaje-2006-ag.pdf',
                 'mensaje-2005-at.pdf',
                 'mensaje-2004-at.pdf',
                 'mensaje-2003-at.pdf',
                 'mensaje-2002-at.pdf',
                 'mensaje-2001-at.pdf']

In [5]:
url_filenames2 = ['mensaje-2000-af.pdf',
                 'mensaje-1999-af.pdf',
                 'mensaje-1998-af.pdf',
                 'mensaje-1997-af.pdf',
                 'mensaje-1996-af.pdf',
                 'mensaje-1995-af.pdf',
                 'mensaje-1994-af.pdf',
                 'mensaje-1993-af.pdf',
                 'mensaje-1992-af.pdf',
                 'mensaje-1991-af.pdf',
                 'mensaje-1990-af.pdf',
                 'mensaje-1989-ag.pdf',
                 'mensaje-1988-ag.pdf',
                 'mensaje-1987-ag.pdf',
                 'mensaje-1986-ag.pdf',
                 'mensaje-1985-ag.pdf',
                 'mensaje-1984-fbt.pdf',
                 'mensaje-1983-fbt.pdf',
                 'mensaje-1982-fbt.pdf',
                 'mensaje-1981-fbt.pdf',
                 'mensaje-1980-fbt.pdf',]

In [6]:
url_prefix = 'http://www.congreso.gob.pe/Docs/participacion/museo/congreso/files/mensajes/2001-2020/files/'
file_prefix_pdf = '../data/presidentialSpeechPeru/pdf/'
file_prefix_txt = '../data/presidentialSpeechPeru/txt/'

for speech_file in url_filenames:
    file = downloadIfNeeded(url_prefix + speech_file, file_prefix_pdf + speech_file, mode = 'rb')
    speech = readPDF(file)
    name = re.sub('.pdf', '', speech_file)
    with open(file_prefix_txt + name + '.txt', 'w') as text_file:
        text_file.write(speech)

In [7]:
url_prefix = 'http://www.congreso.gob.pe/Docs/participacion/museo/congreso/files/mensajes/1981-2000/files/'

for speech_file in url_filenames2:
    file = downloadIfNeeded(url_prefix + speech_file, file_prefix_pdf + speech_file, mode = 'rb')
    speech = readPDF(file)
    name = re.sub('.pdf', '', speech_file)
    with open(file_prefix_txt + name + '.txt', 'w') as text_file:
        text_file.write(speech)