<div align="center">
    <span style="font-size:30px">
        <strong>
            <!-- Símbolo de Python -->
            <img
                src="https://cdn3.emoji.gg/emojis/1887_python.png"
                style="margin-bottom:-5px"
                width="30px" 
                height="30px"
            >
            <!-- Título -->
            Python para Geólogos
            <!-- Versión -->
            <img 
                src="https://img.shields.io/github/release/kevinalexandr19/manual-python-geologia.svg?style=flat&label=&color=blue"
                style="margin-bottom:-2px" 
                width="40px"
            >
        </strong>
    </span>
    <br>
    <span>
        <!-- Github del proyecto -->
        <a href="https://github.com/kevinalexandr19/manual-python-geologia" target="_blank">
            <img src="https://img.shields.io/github/stars/kevinalexandr19/manual-python-geologia.svg?style=social&label=Github Repo">
        </a>
        &nbsp;&nbsp;
        <!-- Licencia -->
        <img src="https://img.shields.io/github/license/kevinalexandr19/manual-python-geologia.svg?color=forestgreen">
        &nbsp;&nbsp;
        <!-- Release date -->
        <img src="https://img.shields.io/github/release-date/kevinalexandr19/manual-python-geologia?color=gold">
    </span>
    <br>
    <span>
        <!-- Perfil de LinkedIn -->
        <a target="_blank" href="https://www.linkedin.com/in/kevin-alexander-gomez/">
            <img src="https://img.shields.io/badge/-Kevin Alexander Gomez-5eba00?style=social&logo=linkedin">
        </a>
        &nbsp;&nbsp;
        <!-- Perfil de Github -->
        <a target="_blank" href="https://github.com/kevinalexandr19">
            <img src="https://img.shields.io/github/followers/kevinalexandr19.svg?style=social&label=kevinalexandr19&maxAge=2592000">
        </a>
    </span>
    <br>
</div>

***

<span style="color:lightgreen; font-size:25px">**PG003 - Librerías de automatización**</span>

Bienvenido al curso!!!

Vamos a explorar algunas librerías utilizadas para automatizar y procesar información, a través de <span style="color:gold">ejemplos en Geología</span>.


<span style="color:gold; font-size:20px">**Automatización de reportes** </span>

***
- [Introducción](#parte-1)
- [Inspección de datos](#parte-2)
- [Automatización del proceso](#parte-3)
- [En conclusión](#parte-4)

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**Introducción** </span>
***

La automatización de reportes es un proceso que permite la generación automática y repetitiva de informes a partir de datos disponibles, <span style="color:#43c6ac">eliminando la necesidad de intervención manual</span>.

Este proceso es especialmente útil en entornos donde se necesita producir reportes regularmente, como en el análisis geológico de muestras de campo, de campañas de exploración, de producción en mina, etc.

Los pasos para implementar una automatización de reportes son:

1. <span style="color:lightgreen">**Adquisición de datos** </span> <br>
El primer paso consiste en recopilar los datos necesarios que se utilizarán para generar los reportes. Estos datos pueden provenir de diversas fuentes como bases de datos, archivos CSV, APIs, sensores, entre otros.

2. <span style="color:lightgreen">**Limpieza y procesamiento de datos** </span> <br>
Los datos recopilados suelen estar desordenados o contener errores. Este paso implica limpiar los datos eliminando errores, duplicados y valores faltantes, y procesarlos para asegurar que estén en el formato adecuado para el análisis.

3. <span style="color:lightgreen">**Análisis de datos** </span> <br>
Una vez que los datos están limpios, se procede al análisis de los mismos. Este paso incluye el cálculo de estadísticas descriptivas, la identificación de patrones y la aplicación de algoritmos de machine learning, si es necesario.

4. <span style="color:lightgreen">**Generación de gráficos y visualizaciones** </span> <br>
Los gráficos y las visualizaciones son esenciales para entender y comunicar los resultados del análisis de datos. Este paso implica la creación de gráficos, tablas y otras visualizaciones que serán incluidas en el reporte.

5. <span style="color:lightgreen">**Creación del reporte** </span> <br>
En este paso, se compilan los resultados del análisis y las visualizaciones en un documento estructurado. Los reportes pueden ser generados en diferentes formatos como PDF, HTML, Excel, entre otros.

6. <span style="color:lightgreen">**Automatización del proceso** </span> <br>
Finalmente, se automatiza todo el flujo de trabajo mediante scripts o programas que ejecuten todos los pasos anteriores de manera automática y periódica, según sea necesario.


Algunos beneficios de la automatización de reportes son:
- **Eficiencia:** reducción del tiempo y esfuerzo necesarios para producir reportes.
- **Consistencia:** garantía de que los reportes siguen un formato estándar y contienen información actualizada y precisa.
- **Escalabilidad:** capacidad de manejar grandes volúmenes de datos y generar reportes con mayor frecuencia.
- **Reducción de Errores:** minimización de errores humanos asociados con la generación manual de reportes.

***
**<span style="color:gold">Ejemplo de automatización de reportes** </span>

En este notebook, vamos a demostrar <span style="color:#43c6ac">cómo automatizar la generación de reportes utilizando Python y la biblioteca PyPDF</span>.

- Utilizaremos un archivo CSV que contiene datos geoquímicos de diferentes tipos de rocas volcánicas (basalto, andesita, dacita y riolita).

- A lo largo del notebook, realizaremos un análisis descriptivo de estos datos, generando estadísticas resumidas y visualizaciones relevantes, como un diagrama de barras y un histograma.

- Posteriormente, organizaremos el código necesario en funciones modulares que permitirán automatizar la creación de reportes completos.

Esta metodología es aplicable a una variedad de escenarios en geología, donde la automatización puede ahorrar tiempo y mejorar la precisión en la presentación de resultados.

<a id="parte-2"></a>

### <span style="color:lightgreen">**Inspección de datos** </span>
***

Empezaremos importando las librerías que utilizaremos en este notebook:

In [None]:
import pandas as pd              # Manipulación de datos tabulares
import matplotlib.pyplot as plt  # Visualización de datos
import seaborn as sns            # Gráficos de alta calidad

Vamos a cargar el archivo `rocas.csv` ubicado en la carpeta `files`:

In [None]:
data = pd.read_csv("files/rocas.csv")

Mostramos las primeras filas usando `head`:

In [None]:
data.head()

La tabla contiene concentraciones geoquímicas de varios elementos.

Además, incluye una columna categórica llamada `Nombre` que proporciona la clasificación de cada muestra:

In [None]:
print(data["Nombre"].unique())

Vamos a crear un diccionario con estas categorías y asignaremos un color a cada una:

In [None]:
# Mapa de colores
colores = {"basalt": "blue",
           "andesite": "green",
           "dacite": "orange",
           "rhyolite": "red"
          }

Vamos a inspeccionar la tabla y generar algunos gráficos.

Primero, seleccionaremos aleatoriamente 200 filas de la tabla utilizando el método `sample`:

In [None]:
# 200 filas al azar
sample = data.sample(200, random_state=42)

# Muestra el resultado
sample

Ahora, procederemos a desarrollar el código necesario para generar los gráficos que describirán las estadísticas de las muestras seleccionadas.

Utilizaremos Python para crear visualizaciones que incluyan un diagrama de barras y un histograma, proporcionando una representación clara y detallada de los datos geoquímicos de las rocas volcánicas. Estos gráficos nos permitirán analizar y comprender mejor las características y distribuciones de las diferentes muestras.

> Este código se utilizará posteriormente para elaborar el script de automatización de reportes.

***
<span style="color:gold">**Diagrama de barras** </span>

Empezaremos con un diagrama de barras que describa la cantidad de muestras por litología:

In [None]:
# Agrupamos las filas en base a la columna "Nombre" 
grupos = sample.groupby("Nombre")

# Cantidad de muestras por grupo
conteo = grupos.count()

# Mostramos el conteo
print(conteo)

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(7, 5))

# Diagrama de barras de las litologías presentes
barra = sns.barplot(data=conteo, x="Nombre", y="SiO2", hue="Nombre",
                    width=0.6, palette=colores, ax=ax)

# Detalles adicionales
ax.set_title("Cantidad de muestras por litología", fontsize=14)
ax.tick_params(bottom=False)
ax.set_ylabel("")
ax.set_yticks([])
ax.set_ylim(0, 210)
    
# Agregar etiquetas encima de cada barra
for p in ax.patches:
    ax.annotate(f"{p.get_height():.0f}",
                (p.get_x() + (p.get_width() / 2), p.get_height()),
                ha = "center", va = "center",
                xytext = (0, 5),  # Desplazamiento de la etiqueta respecto a la barra
                textcoords = "offset points")

# Mostrar la figura
plt.show()

# Guardamos la figura
fig.savefig("barras.png", dpi=300)

***
<span style="color:gold">**Histograma** </span>

También crearemos un histograma con los valores de sílice `SiO2` para cada litología:

In [None]:
# Figura principal
fig, ax = plt.subplots(figsize=(10, 5))

# Histograma de SiO2 por litología
sns.histplot(data=sample, x="SiO2", hue="Nombre", binwidth=1, edgecolor="k",
             alpha=0.4, palette=colores, linewidth=0.5, ax=ax)

# Detalles adicionales
ax.set_title("Histograma de sílice por litología", fontsize=14)
ax.set_xlabel("$SiO_{2}$ (%)", fontsize=12)
ax.set_ylabel("Frecuencia", fontsize=12)
ax.grid(lw=0.5, c="k", alpha=0.5)
ax.set_axisbelow(True)

# Mostrar la figura
plt.show()

# Guardamos la figura
fig.savefig("histograma.png", dpi=300)

<a id="parte-3"></a>

### <span style="color:lightgreen">**Automatización del proceso** </span>
***

Una vez generado el código base para el análisis descriptivo, procederemos a crear una plantilla para el reporte final, el cual será exportado en formato PDF. 

Esta plantilla integrará las estadísticas resumidas y las visualizaciones generadas, proporcionando una presentación clara y profesional de los resultados del análisis geoquímico de las muestras.

> Usaremos la librería `reportlab` para desarrollar el código de la plantilla.

In [None]:
import time # Para obtener la fecha actual

# Para trabajar con plantillas de PDF en Python
from reportlab.lib.pagesizes import A4 
from reportlab.pdfgen import canvas     
from reportlab.lib import colors

Empezaremos consultando la fecha de hoy, y lo asignaremos a la variable `date`:

In [None]:
date = time.strftime("%d-%m-%Y, %H:%M:%S", time.localtime())
print(f"La fecha de hoy es: {date}")

El tamaño de hoja que usaremos para el reporte es `A4`:
> El tamaño de la hoja está definido por una tupla con el ancho y alto en píxeles.

In [None]:
# Hoja A4
A4


Ahora, crearemos la función plantilla para generar el reporte en formato PDF. 
> Mantendremos el string de documentación del código en inglés por estándar.

Esta función estructurará el diseño del reporte, incluyendo encabezados, estadísticas y visualizaciones, asegurando una presentación profesional y coherente del reporte:

In [None]:
def generate_pdf(name, table, author, date, bar, hist):
    # String de documentación en inglés (estándar)
    """Function for generating PDF files from Python.
    
       Arguments:
       ----------
       name: PDF file name
       table: pandas DataFrame with the information
       author: name of the author
       date: current date
       bar: bar plot filename
       hist: histogram plot filename
    """
    # Define el tamaño del PDF y crea el objeto canvas
    c = canvas.Canvas(name, pagesize=A4)
    # Referenciar las coordenadas de la página
    width, height = A4
    
    # Agrega una línea en la parte superior
    c.setStrokeColor(colors.black) # Color de líneas
    c.line(50, height-50, width-50, height-50)
    
    # Agrega el título centrado a la izquierda
    c.setFont("Helvetica-Bold", 16) # Fuente
    c.drawString(60, height-75, "Reporte de muestras de roca")
    
    # Agrega la caja de texto con el autor y fecha
    text_object = c.beginText(60, height-120)
    text_object.setFont("Helvetica", 12) # Fuente
    text_object.textLine(f"Autor: {author}")
    text_object.textLine(f"Fecha: {date}")
    c.drawText(text_object)
    
    # Agregar la caja de texto con el resumen estadístico
    text_object = c.beginText(60, height-220)
    text_object.setFont("Helvetica", 12) # Fuente
    text_object.textLine(f"Total de muestras: {len(table)}")
    text_object.textLine("")
    text_object.textLine("Medidas estadísticas:")
    text_object.textLine(f"SiO2 Promedio (%): {table.SiO2.mean():.2f}")
    text_object.textLine(f"Al2O3 Promedio (%): {table.Al2O3.mean():.2f}")
    text_object.textLine(f"CaO Promedio (%): {table.CaO.mean():.2f}")
    text_object.textLine(f"MgO Promedio (%): {table.MgO.mean():.2f}")
    c.drawText(text_object)
    
    # Agrega una figura al costado de la caja de texto
    c.drawImage(bar, 250, height-400, width=300, height=300, preserveAspectRatio=True)
    
    # Agrega una figura al costado de la caja de texto
    c.drawImage(hist, 50, 180, width=500, height=300, preserveAspectRatio=True)
    
    # Agrega una línea de texto al final con una línea en la parte superior
    c.setStrokeColor(colors.black)
    c.line(50, 100, width-50, 100)
    c.setFont("Helvetica-Oblique", 12)
    c.drawString(60, 80, "Reporte generado en Python.")
    
    # Guarda el PDF
    c.save()
    

Usando la función `generate_pdf`, exportaremos el resultando en el archivo llamado `reporte.pdf`.
> Los parámetros `bar` y `hist` referencian las imágenes generadas anteriormente. <br>
> Puedes colocar tu nombre en el parámetro `author`.

In [None]:
# Genera automáticamente un reporte y lo exporta en formato PDF
generate_pdf(name="reporte.pdf", 
             table=sample,
             author="Kevin Gómez", 
             date=date, 
             bar="barras.png", 
             hist="histograma.png")

Si revisamos el archivo `reporte.pdf`, deberíamos obtener un resultado similar al de la imagen:

<center>
    <img src="resources/reporte_pdf.png" height="1000">
</center>

***
<span style="color:gold">**Automatización para varios reportes** </span>

Vamos a mejorar este trabajo implementando un script de automatización que generará varios reportes en formato PDF.

Empezaremos parametrizando el código de los gráficos (diagrama de barras e histograma):

In [None]:
# Función para el diagrama de barras
def plot_bar(table, folder, filename):
    """Generate a bar chart of sample counts by lithology and save as a PNG file.
    
       Arguments:
       ----------
       table: pandas DataFrame with the information
       folder: string, name of the folder where the file will be saved
       filename: string, name of the output PNG file (without extension)
    """
    # Agrupamos las filas por litología
    groups = table.groupby("Nombre")
    count = groups.count() # Conteo de filas
    
    # Figura principal
    fig, ax = plt.subplots(figsize=(7, 5))
    
    # Diagrama de barras de las litologías presentes
    barra = sns.barplot(data=count, x="Nombre", y="SiO2", hue="Nombre",
                        width=0.6, palette=colores, ax=ax)
    
    # Detalles adicionales
    ax.set_title("Cantidad de muestras por litología", fontsize=14)
    ax.tick_params(bottom=False)
    ax.set_ylabel("")
    ax.set_yticks([])
    ax.set_ylim(0, 210)
        
    # Agregar etiquetas encima de cada barra
    for p in ax.patches:
        ax.annotate(f"{p.get_height():.0f}",
                    (p.get_x() + (p.get_width() / 2), p.get_height()),
                    ha = "center", va = "center",
                    xytext = (0, 5),  # Desplazamiento de la etiqueta respecto a la barra
                    textcoords = "offset points")
            
    # Guardar la figura en la carpeta images
    fig.savefig(f"{folder}/bar_{filename}.png", dpi=144)

    # No mostrar la figura
    plt.close()


# Función para el histograma
def plot_histogram(table, folder, filename):
    """Generate a histogram of SiO2 by lithology and save as a PNG file.

    Arguments:
    -----
    table: pandas DataFrame with the information
    folder: string, name of the folder where the file will be saved
    filename: string, name of the output PNG file (without extension)
    """
    # Figura principal
    fig, ax = plt.subplots(figsize=(10, 5))
    
    # Histograma de SiO2 por litología
    sns.histplot(data=sample, x="SiO2", hue="Nombre", binwidth=1, edgecolor="k",
                 alpha=0.4, palette=colores, linewidth=0.5, ax=ax)
    
    # Detalles adicionales
    ax.set_title("Histograma de sílice por litología", fontsize=14)
    ax.set_xlabel("$SiO_{2}$ (%)", fontsize=12)
    ax.set_ylabel("Frecuencia", fontsize=12)
    ax.grid(lw=0.5, c="k", alpha=0.5)
    ax.set_axisbelow(True)

    # Guardar la figura
    fig.savefig(f"{folder}/hist_{filename}.png", dpi=144)

    # No mostrar la figura
    plt.close()
    

Ahora usaremos todas estas funciones para automatizar la generación de reportes en formato PDF:

In [None]:
import os # Para trabajar con directorios y archivos
from tqdm.notebook import tqdm # Barra de progreso

In [None]:
# Datos de entrada
author = "Kevin Gómez" # Puedes colocar tu nombre aquí
date = time.strftime("%d-%m-%Y, %H:%M:%S", time.localtime()) # Fecha actual
base_folder = "reports" # Carpeta base para guardar todos los resultados
pdf_folder = os.path.join(base_folder, "pdfs")    # Carpeta para los reportes PDF
img_folder = os.path.join(base_folder, "images")  # Carpeta para las imágenes

# Crea las carpetas de imágenes y reportes, en caso no existan
os.makedirs(pdf_folder, exist_ok=True)
os.makedirs(img_folder, exist_ok=True)

# Bucle de automatización
for i in tqdm(range(10)):
    # Separa un batch de muestras para generar el reporte
    sample_name = f"batch_{i+1}"  # Nombre del batch
    sample = data.sample(200)     # Selecciona 200 muestras al azar

    # Crear y guardar las figuras en la carpeta de imágenes
    plot_bar(sample, img_folder, sample_name)        # Diagrama de barras
    plot_histogram(sample, img_folder, sample_name)  # Histograma
    
    # Genera el reporte del batch y lo exporta en formato PDF
    generate_pdf(name=os.path.join(pdf_folder, f"report_{sample_name}.pdf"),
                 table=sample,
                 author=author,
                 date=date,
                 bar=os.path.join(img_folder, f"bar_{sample_name}.png"),
                 hist=os.path.join(img_folder, f"hist_{sample_name}.png"))

    # Punto de control
    tqdm.write(f"El reporte de {sample_name} ha sido generado.")

print("El script ha terminado.")

En la carpeta `reports`, encontrarás una estructura organizada en dos subcarpetas: `pdfs` e `images`.

La subcarpeta `pdfs` contiene los reportes generados en formato PDF, cada uno documentando de manera detallada un batch específico de muestras analizadas. Estos reportes incluyen información relevante sobre la composición química de las muestras, destacando en particular los niveles de `SiO2`. 

Por otro lado, la subcarpeta `images` alberga las imágenes utilizadas en los reportes, entre las que se incluyen histogramas y diagramas de barras que visualizan de manera clara y concisa la distribución de los datos.

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**En conclusión...** </span>
***

El uso de Python para la generación automatizada de PDFs ofrece una solución eficiente y versátil para la gestión y presentación de datos. 

Con librerías como `pandas`, `matplotlib`, `seaborn` y `reportlab`, es posible crear reportes detallados que incluyen visualizaciones gráficas, facilitando la interpretación y el análisis de grandes volúmenes de información. 

<span style="color:#43c6ac">Esta automatización no solo ahorra tiempo y reduce errores manuales, sino que también permite una actualización rápida y consistente de los reportes, mejorando significativamente el flujo de trabajo en diversas aplicaciones científicas y profesionales. </span>

***