<div align="center">
    <span style="font-size:30px">
        <strong>
            <!-- Símbolo de Python -->
            <img
                src="https://cdn3.emoji.gg/emojis/1887_python.png"
                style="margin-bottom:-5px"
                width="30px" 
                height="30px"
            >
            <!-- Título -->
            Python para Geólogos
            <!-- Versión -->
            <img 
                src="https://img.shields.io/github/release/kevinalexandr19/manual-python-geologia.svg?style=flat&label=&color=blue"
                style="margin-bottom:-2px" 
                width="40px"
            >
        </strong>
    </span>
    <br>
    <span>
        <!-- Github del proyecto -->
        <a href="https://github.com/kevinalexandr19/manual-python-geologia" target="_blank">
            <img src="https://img.shields.io/github/stars/kevinalexandr19/manual-python-geologia.svg?style=social&label=Github Repo">
        </a>
        &nbsp;&nbsp;
        <!-- Licencia -->
        <img src="https://img.shields.io/github/license/kevinalexandr19/manual-python-geologia.svg?color=forestgreen">
        &nbsp;&nbsp;
        <!-- Release date -->
        <img src="https://img.shields.io/github/release-date/kevinalexandr19/manual-python-geologia?color=gold">
    </span>
    <br>
    <span>
        <!-- Perfil de LinkedIn -->
        <a target="_blank" href="https://www.linkedin.com/in/kevin-alexander-gomez/">
            <img src="https://img.shields.io/badge/-Kevin Alexander Gomez-5eba00?style=social&logo=linkedin">
        </a>
        &nbsp;&nbsp;
        <!-- Perfil de Github -->
        <a target="_blank" href="https://github.com/kevinalexandr19">
            <img src="https://img.shields.io/github/followers/kevinalexandr19.svg?style=social&label=kevinalexandr19&maxAge=2592000">
        </a>
    </span>
    <br>
</div>

***

<span style="color:lightgreen; font-size:25px">**PG003 - Librerías de automatización**</span>

Bienvenido al curso!!!

Vamos a explorar algunas librerías utilizadas para automatizar y procesar información, a través de <span style="color:gold">ejemplos en Geología</span>.


<span style="color:gold; font-size:20px">**Procesando PDFs en Python**</span>

***
- [¿Qué es PyPDF?](#parte-1)
- [Leer el contenido de un PDF](#parte-2)
- [Copiar un PDF a otro](#parte-3)
- [Unir varios PDFs en uno solo](#parte-4)

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es PyPDF?** </span>

***
<span style="color:#43c6ac">PyPDF</span> es una biblioteca de código abierto para Python que permite leer, dividir, combinar y realizar diversas operaciones con archivos PDF.

Con esta librería, puedes extraer texto e imágenes de un archivo PDF, combinar varios archivos en uno solo, agregar páginas, rotar páginas, y más.

Las principales ventajas de usar esta herramienta son:

- <span style="color:lightgreen">**Manipulación de PDFs:** </span> <br>
PyPDF permite una amplia gama de operaciones en archivos PDF, como la extracción de texto, imágenes y metadatos, la fusión de múltiples archivos, la división de archivos en páginas individuales, la rotación de páginas y la superposición de contenido en páginas existentes.

- <span style="color:lightgreen">**Extracción de texto:** </span> <br>
PyPDF facilita la extracción de texto de archivos PDF, lo que es útil para realizar análisis de texto, búsqueda de palabras clave y procesamiento de información textual.

- <span style="color:lightgreen">**Interfaz simple:** </span> <br>
La librería proporciona una interfaz simple y fácil de usar, lo que la hace adecuada tanto para principiantes como para usuarios con experiencia en Python.

- <span style="color:lightgreen">**Multiplataforma:** </span> <br>
Al igual que Python, PyPDF2 es compatible con múltiples plataformas, lo que permite su uso en sistemas operativos como Windows, macOS y Linux.

- <span style="color:lightgreen">**No se necesitan dependencias externas:** </span> <br>
PyPDF no tiene dependencias externas fuera de las bibliotecas estándar de Python, lo que facilita su instalación y uso.

- <span style="color:lightgreen">**Documentación y comunidad activas:** </span> <br>
La librería cuenta con una [documentación sólida y una comunidad activa de usuarios](https://pypdf.readthedocs.io/en/latest/), lo que significa que puedes encontrar recursos, tutoriales y ejemplos para ayudarte a utilizar la biblioteca de manera efectiva.
***

<a id="parte-2"></a>

### <span style="color:lightgreen">**Leer el contenido de un PDF**</span>
***

Para leer un PDF en Python, usaremos el módulo `pypdf` y un archivo llamado `zealandia.pdf`, ubicado en la carpeta `files`:

In [None]:
from pypdf import PdfReader

file = "files/zealandia.pdf"

Crearemos un lector de PDF usando la función `PdfReader` y usaremos el atributo `pages` para obtener el total de páginas:

In [None]:
# Crear un objeto PDFReader
reader = PdfReader(file)

# Obtener el número total de páginas del PDF
total_pages = len(reader.pages)

print(f"El archivo {file} contiene {total_pages} páginas.")

Para ver el contenido de la primera página, volvemos a usar el atributo `pages` y el método `extract_text`:

In [None]:
# Muestra el contenido de la primera página
page = reader.pages[0]
text = page.extract_text()
print(text)

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**Copiar un PDF a otro**</span>
***

Para copiar un PDF a otro, debemos usar la función `PdfWriter`, que escribe información sobre archivos PDF.

In [None]:
from pypdf import PdfReader, PdfWriter

file = "files/zealandia.pdf"
new_file = "files/zealandia_copia.pdf"

# Crear un objeto PDFReader
reader = PdfReader(file)
    
# Crear un nuevo archivo PDF de destino en modo escritura binaria
writer = PdfWriter()

Y ahora, usaremos un bucle para escribir cada página del original en la copia con el método `add_page`:

In [None]:
# Obtener el número total de páginas del PDF
total_pages = len(reader.pages)

# Copiar cada página del PDF de origen al PDF de destino
for page_num in range(total_pages):
    page = reader.pages[page_num]
    writer.add_page(page)

Para guardar el archivo creado, usaremos el método `write`:

In [None]:
# Guardar los cambios en el nuevo PDF
writer.write(new_file)

Una vez hecho esto, tendremos un nuevo archivo llamado `zealandia_copia.pdf` en la carpeta `files`.
***

<a id="parte-4"></a>

### <span style="color:lightgreen">**Unir varios PDFs en uno solo**</span>
***

Para unir varios archivos PDF en uno solo, volveremos a usar las funciones `PdfReader` para leer los archivos y `PdfWriter` para escribir sobre el nuevo.

Usaremos el método `add_blank_page` para crear 2 archivos de una sola hoja en blanco, que se agregarán al inicio y al final del archivo `zealandia.pdf`:

In [None]:
from pypdf import PdfReader, PdfWriter

# Crear un nuevo PDF de una hoja
def create_pdf(filename):
    pdf = PdfWriter()
    # Cambia el tamaño de la página según tus necesidades
    page = pdf.add_blank_page(width=400, height=600)
    pdf.write(filename)

In [None]:
# Crearemos 2 pdfs de una sola hoja
create_pdf("files/hoja_portada.pdf")
create_pdf("files/hoja_final.pdf")

Ahora, uniremos estos 3 archivos:

In [None]:
# Lista de nombres de archivos PDF que se desean unir
files = ["files/hoja_portada.pdf",
         "files/zealandia.pdf",
         "files/hoja_final.pdf"
        ]
new_file = "files/zealandia_nuevo.pdf"

# Crear un nuevo archivo PDF de destino en modo escritura binaria
writer = PdfWriter()

# Iterar sobre cada archivo y copiar sus páginas al PDF de destino
for f in files:
    # Crear un objeto PDFReader
    reader = PdfReader(f)
    # Obtener el número total de páginas del PDF
    total_pages = len(reader.pages)    
    # Copiar cada página del PDF de origen al PDF de destino
    for page_num in range(total_pages):
        page = reader.pages[page_num]
        writer.add_page(page)

# Guardar los cambios en el nuevo PDF
writer.write(new_file)

Si ubicamos el archivo `zealandia_nuevo.pdf` en la carpeta `files`, veremos que ahora tiene una hoja en blanco al inicio y al final.
***