<span style="color:lightgreen; font-size:30px">**PG003 - Librerías de automatización**</span>
***
<span style="color:gold; font-size:30px">**Procesando PDFs en Python**</span>
***

<span style="font-size:20px"> **Autor: Kevin Alexander Gómez** </span>

<span style="font-size:16px"> **Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)** </span>
***

Bienvenido al curso PG003 - Librerías de automatización!!!

Vamos a revisar librerías interesantes usadas para automatizar y procesar información a través de <span style="color:gold">ejemplos en Geología</span>.\
Es necesario que tengas un conocimiento previo en la sintáxis de Python.

<span style="color:lightgreen"> Este notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología. </span>

En el siguiente índice, encontrarás los temas que componen este notebook:

<span style="font-size:20px"> **Índice** </span>
***
- [¿Qué es PyPDF?](#parte-1)
- [Leer el contenido de un PDF](#parte-2)
- [Copiar un PDF a otro](#parte-3)
- [Unir varios PDFs en uno solo](#parte-4)

***

Antes de empezar tu camino en programación geológica...\
Recuerda que puedes ejecutar un bloque de código usando `Shift` + `Enter`:

In [None]:
2 + 2

Si por error haces doble clic sobre un bloque de texto (como el que estás leyendo ahora mismo), puedes arreglarlo usando también `Shift` + `Enter`.
***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es PyPDF?**</span>

***
`PyPDF` es una biblioteca de código abierto para Python que permite leer, dividir, combinar y realizar diversas operaciones con archivos PDF.

Con esta librería, puedes extraer texto e imágenes de un archivo PDF, combinar varios archivos en uno solo, agregar páginas, rotar páginas, y más.

Las principales ventajas de usar esta herramienta son:

- **Manipulación de PDFs:** \
PyPDF permite una amplia gama de operaciones en archivos PDF, como la extracción de texto, imágenes y metadatos, la fusión de múltiples archivos, la división de archivos en páginas individuales, la rotación de páginas y la superposición de contenido en páginas existentes.

- **Extracción de texto:** \
PyPDF facilita la extracción de texto de archivos PDF, lo que es útil para realizar análisis de texto, búsqueda de palabras clave y procesamiento de información textual.

- **Interfaz simple:** \
La librería proporciona una interfaz simple y fácil de usar, lo que la hace adecuada tanto para principiantes como para usuarios con experiencia en Python.

- **Multiplataforma:** \
Al igual que Python, PyPDF2 es compatible con múltiples plataformas, lo que permite su uso en sistemas operativos como Windows, macOS y Linux.

- **No se necesitan dependencias externas:** \
PyPDF no tiene dependencias externas fuera de las bibliotecas estándar de Python, lo que facilita su instalación y uso.

- **Documentación y comunidad activas:** \
La librería cuenta con una [documentación sólida y una comunidad activa de usuarios](https://pypdf.readthedocs.io/en/latest/), lo que significa que puedes encontrar recursos, tutoriales y ejemplos para ayudarte a utilizar la biblioteca de manera efectiva.
***

<a id="parte-2"></a>

### <span style="color:lightgreen">**Leer el contenido de un PDF**</span>
***

Para leer un PDF en Python, usaremos el módulo `pypdf` y un archivo llamado `zealandia.pdf`, ubicado en la carpeta `files`:

In [None]:
from pypdf import PdfReader

file = "files/zealandia.pdf"

Crearemos un lector de PDF usando la función `PdfReader` y usaremos el atributo `pages` para obtener el total de páginas:

In [None]:
# Crear un objeto PDFReader
reader = PdfReader(file)

# Obtener el número total de páginas del PDF
total_pages = len(reader.pages)

print(f"El archivo {file} contiene {total_pages} páginas.")

Para ver el contenido de la primera página, volvemos a usar el atributo `pages` y el método `extract_text`:

In [None]:
# Muestra el contenido de la primera página
page = reader.pages[0]
text = page.extract_text()
print(text)

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**Copiar un PDF a otro**</span>
***

Para copiar un PDF a otro, debemos usar la función `PdfWriter`, que escribe información sobre archivos PDF.

In [None]:
from pypdf import PdfReader, PdfWriter

file = "files/zealandia.pdf"
new_file = "files/zealandia_copia.pdf"

# Crear un objeto PDFReader
reader = PdfReader(file)
    
# Crear un nuevo archivo PDF de destino en modo escritura binaria
writer = PdfWriter()

Y ahora, usaremos un bucle para escribir cada página del original en la copia con el método `add_page`:

In [None]:
# Obtener el número total de páginas del PDF
total_pages = len(reader.pages)

# Copiar cada página del PDF de origen al PDF de destino
for page_num in range(total_pages):
    page = reader.pages[page_num]
    writer.add_page(page)

Para guardar el archivo creado, usaremos el método `write`:

In [None]:
# Guardar los cambios en el nuevo PDF
writer.write(new_file)

Una vez hecho esto, tendremos un nuevo archivo llamado `zealandia_copia.pdf` en la carpeta `files`.
***

<a id="parte-4"></a>

### <span style="color:lightgreen">**Unir varios PDFs en uno solo**</span>
***

Para unir varios archivos PDF en uno solo, volveremos a usar las funciones `PdfReader` para leer los archivos y `PdfWriter` para escribir sobre el nuevo.

Usaremos el método `add_blank_page` para crear 2 archivos de una sola hoja en blanco, que se agregarán al inicio y al final del archivo `zealandia.pdf`:

In [None]:
from pypdf import PdfReader, PdfWriter

# Crear un nuevo PDF de una hoja
def create_pdf(filename):
    pdf = PdfWriter()
    # Cambia el tamaño de la página según tus necesidades
    page = pdf.add_blank_page(width=400, height=600)
    pdf.write(filename)

In [None]:
# Crearemos 2 pdfs de una sola hoja
create_pdf("files/hoja_portada.pdf")
create_pdf("files/hoja_final.pdf")

Ahora, uniremos estos 3 archivos:

In [None]:
# Lista de nombres de archivos PDF que se desean unir
files = ["files/hoja_portada.pdf",
         "files/zealandia.pdf",
         "files/hoja_final.pdf"
        ]
new_file = "files/zealandia_nuevo.pdf"

# Crear un nuevo archivo PDF de destino en modo escritura binaria
writer = PdfWriter()

# Iterar sobre cada archivo y copiar sus páginas al PDF de destino
for f in files:
    # Crear un objeto PDFReader
    reader = PdfReader(f)
    # Obtener el número total de páginas del PDF
    total_pages = len(reader.pages)    
    # Copiar cada página del PDF de origen al PDF de destino
    for page_num in range(total_pages):
        page = reader.pages[page_num]
        writer.add_page(page)

# Guardar los cambios en el nuevo PDF
writer.write(new_file)

Si ubicamos el archivo `zealandia_nuevo.pdf` en la carpeta `files`, veremos que ahora tiene una hoja en blanco al inicio y al final.
***