# Trabajar con archivos PDF

Bienvenido de nuevo Agente. A menudo tendrá que lidiar con archivos PDF. Hay [muchas bibliotecas en Python para trabajar con archivos PDF](https://www.binpress.com/tutorial/manipulating-pdfs-with-python/167), cada una con sus pros y sus contras, siendo la más común ** PyPDF2**. Puede instalarlo con (tenga en cuenta la distinción entre mayúsculas y minúsculas, debe asegurarse de que su capitalizaciónmatches):

    pip install PyPDF2
    
Tenga en cuenta que no todos los archivos PDF se pueden leer con esta biblioteca. Los archivos PDF que estén demasiado borrosos, que tengan una codificación especial, que estén cifrados o que simplemente se hayan creado con un programa en particular que no funcione bien con PyPDF2 no se podrán leer. Si se encuentra en esta situación, intente usar las bibliotecas vinculadas anteriormente, pero tenga en cuenta que es posible que tampoco funcionen. La razón de esto es debido a los muchos parámetros diferentes para un PDF y cuán no estándar pueden ser las configuraciones, el texto podría mostrarse como una imagen en lugar de una codificación utf-8. Hay muchos parámetros a considerar en este aspecto.

En lo que respecta a PyPDF2, solo puede leer el texto de un documento PDF, no podrá capturar imágenes u otros archivos multimedia de un PDF.
___

## Trabajando con PyPDF2

Vamos a mostrar los conceptos básicos de la biblioteca PyPDF2.

In [1]:
# nota las mayusculas
import PyPDF2

## Leer archivos PDF

Similar a la biblioteca csv, abrimos un pdf, luego creamos un objeto lector para él. Observe cómo usamos el método binario de lectura, 'rb', en lugar de solo 'r'.

In [2]:
# Tenga en cuenta que la leemos como un binario con 'rb'
f = open('trabajar_propuesta_negocio.pdf','rb')

In [3]:
pdf_lector = PyPDF2.PdfFileReader(f)

In [4]:
pdf_lector.numPages

5

In [5]:
pagina_uno = pdf_lector.getPage(0)

Luego podemos extraer el texto:

In [6]:
texto_pagina_uno = pagina_uno.extractText()

In [7]:
texto_pagina_uno

'Business Proposal\n The Revolution is Coming\n Leverage agile frameworks to provide a robust synopsis for high level \noverviews. Iterative approaches to corporate strategy foster collaborative \nthinking to further the overall value proposition. Organically grow the \nholistic world view of disruptive innovation via workplace diversity and \nempowerment. \nBring to the table win-win survival strategies to ensure proactive \ndomination. At the end of the day, going forward, a new normal that has \nevolved from generation X is on the runway heading towards a streamlined \ncloud solution. User generated content in real-time will have multiple \ntouchpoints for offshoring. \nCapitalize on low hanging fruit to identify a ballpark value added activity to \nbeta test. Override the digital divide with additional clickthroughs from \nDevOps. Nanotechnology immersion along the information highway will \nclose the loop on focusing solely on the bottom line. Podcasting operational change managem

In [8]:
f.close()

### Agregar a archivos PDF

No podemos escribir en archivos PDF usando Python debido a las diferencias entre el tipo de cadena única de Python y la variedad de fuentes, ubicaciones y otros parámetros que podría tener un PDF.

Lo que podemos hacer es copiar páginas y agregar páginas al final.

In [9]:
f = open('trabajar_propuesta_negocio.pdf','rb')
pdf_lector = PyPDF2.PdfFileReader(f)

In [10]:
primera_pagina = pdf_lector.getPage(0)

In [11]:
pdf_escritor = PyPDF2.PdfFileWriter()

In [12]:
pdf_escritor.addPage(primera_pagina)

In [13]:
pdf_salida = open("algun_nuevo_doc.pdf","wb")

In [14]:
pdf_escritor.write(pdf_salida)

In [15]:
f.close()

¡Ahora hemos copiado una página y la hemos agregado a otro documento nuevo!

___

## Ejemplo sencillo

Intentemos tomar todo el texto de este archivo PDF:

In [16]:
f = open('trabajar_propuesta_negocio.pdf','rb')

# Lista del texto de cada página.
# El índice corresponderá al número de página.

pdf_texto = []

pdf_lector = PyPDF2.PdfFileReader(f)

for p in range(pdf_lector.numPages):
    
    pagina = pdf_lector.getPage(p)
    
    pdf_texto.append(pagina.extractText())
    

In [17]:
pdf_texto

['Business Proposal\n The Revolution is Coming\n Leverage agile frameworks to provide a robust synopsis for high level \noverviews. Iterative approaches to corporate strategy foster collaborative \nthinking to further the overall value proposition. Organically grow the \nholistic world view of disruptive innovation via workplace diversity and \nempowerment. \nBring to the table win-win survival strategies to ensure proactive \ndomination. At the end of the day, going forward, a new normal that has \nevolved from generation X is on the runway heading towards a streamlined \ncloud solution. User generated content in real-time will have multiple \ntouchpoints for offshoring. \nCapitalize on low hanging fruit to identify a ballpark value added activity to \nbeta test. Override the digital divide with additional clickthroughs from \nDevOps. Nanotechnology immersion along the information highway will \nclose the loop on focusing solely on the bottom line. Podcasting operational change manage

In [18]:
print(pdf_texto[3])

competencies. Dramatically mesh low-risk high-yield alignments before 
transparent e-tailers. 
Appropriately empower dynamic leadership skills after business portals. 
Globally myocardinate interactive supply chains with distinctive quality 
vectors. Globally revolutionize global sources through interoperable 
services. Enthusiastically mesh long-term high-impact infrastructures vis-a-vis 
efÞcient customer service. Professionally fashion wireless leadership rather 
than prospective experiences. Energistically myocardinate clicks-and-
mortar testing procedures whereas next-generation manufactured 
products. 
Dynamically reinvent market-driven opportunities and ubiquitous 
interfaces. Energistically fabricate an expanded array of niche markets 
through robust products. Appropriately implement visionary e-services vis-
a-vis strategic web-readiness. 
Compellingly embrace empowered e-business after user friendly 
intellectual capital. Interactively actualize front-end processes with 
effe

¡Excelente trabajo! Eso es todo para PyPDF2 por ahora, recuerde que esto no funcionará con todos los archivos PDF y está limitado en su alcance solo al texto de los PDF.