# Generación Automática de Reportes

## 1. Introducción

La generación automática de reportes es una herramienta poderosa en ciencia de datos y análisis, ya que permite ahorrar tiempo y asegurar la consistencia en la presentación de datos. Los reportes pueden generarse en varios formatos como Word, PDF y HTML, cada uno con sus ventajas particulares.

### Importancia de la automatización de reportes

La automatización de reportes:
- Ahorra tiempo al evitar tareas repetitivas.
- Asegura la consistencia en la presentación de los datos.
- Facilita la actualización de reportes con nuevos datos.

### Formatos de reporte
- **Word**: Ideal para documentos que requieren edición manual posterior.
- **PDF**: Adecuado para documentos finales que no necesitan edición.
- **HTML**: Perfecto para reportes interactivos y accesibles en la web.

## 2. Instalación de Herramientas

Para generar reportes en diferentes formatos, utilizaremos las siguientes bibliotecas de Python. Asegúrate de tenerlas instaladas ejecutando los siguientes comandos:

```python
pip install python-docx
pip install reportlab
pip install jinja2
```

## 3. Generación de Reportes en Word

Para generar reportes en formato Word, utilizaremos la biblioteca `python-docx`. Esta biblioteca permite crear y modificar documentos de Word (.docx) mediante un conjunto de funciones y métodos sencillos. A continuación, se detallan los pasos para crear un documento básico, añadir texto, listas, tablas e insertar imágenes.

### Creación de un documento básico

Primero, importamos la biblioteca `Document` de `python-docx` y creamos un nuevo documento. Luego, añadimos un título y un párrafo de texto. Finalmente, guardamos el documento.

In [None]:
from docx import Document

# Crear un nuevo documento
doc = Document()

# Añadir un título
doc.add_heading('Reporte de Datos', 0)

# Añadir un párrafo
doc.add_paragraph('Este es un reporte generado automáticamente usando python-docx.')

# Guardar el documento
doc.save('reporte_word.docx')

### Añadir texto, listas y tablas

Para enriquecer el contenido del documento, podemos añadir subtítulos, listas y tablas. Los subtítulos ayudan a organizar el contenido, las listas permiten enumerar elementos y las tablas son útiles para presentar datos estructurados.

In [None]:
from docx import Document

# Crear un nuevo documento
doc = Document()

# Añadir un título
doc.add_heading('Reporte de Datos', 0)

# Añadir un párrafo
doc.add_paragraph('Este es un reporte generado automáticamente usando python-docx.')

# Añadir sección
doc.add_heading('Sección de Datos', level=1)

# Añadir una lista
doc.add_paragraph('Lista de elementos:', style='ListBullet')
items = ['Item 1', 'Item 2', 'Item 3']
for item in items:
    doc.add_paragraph(item, style='ListBullet')

# Añadir una tabla
table = doc.add_table(rows=3, cols=3)
for i in range(3):
    for j in range(3):
        table.cell(i, j).text = f'Fila {i+1}, Columna {j+1}'

# Guardar el documento con los nuevos elementos
doc.save('reporte_word_completo.docx')

### Modificar estilos de la tabla

Para mejorar la presentación de la tabla, podemos modificar sus estilos, como agregar bordes y rellenos de colores.

In [None]:
from docx import Document
from docx.oxml import OxmlElement
from docx.oxml.ns import qn
from docx.shared import Pt

def set_cell_border(cell, **kwargs):
    """
    Set cell's border
    Usage:
        set_cell_border(
            cell,
            top={"sz": 12, "val": "single", "color": "#FF0000", "space": "0"},
            bottom={"sz": 12, "val": "single", "color": "#00FF00", "space": "0"},
            left={"sz": 24, "val": "dashed", "color": "00FF00", "space": "0"},
            right={"sz": 12, "val": None, "color": "000000", "space": "0"},
        )
    """
    tc = cell._element
    tcPr = tc.get_or_add_tcPr()

    for edge in ('top', 'left', 'bottom', 'right', 'insideH', 'insideV'):
        edge_data = kwargs.get(edge)
        if edge_data:
            tag = 'w:{}'.format(edge)
            element = tcPr.find(qn(tag))
            if element is None:
                element = OxmlElement(tag)
                tcPr.append(element)
            for key in ["sz", "val", "color", "space"]:
                if key in edge_data:
                    element.set(qn('w:{}'.format(key)), str(edge_data[key]))

# Crear un nuevo documento
doc = Document()

# Añadir un título
doc.add_heading('Reporte de Datos', 0)

# Añadir un párrafo
doc.add_paragraph('Este es un reporte generado automáticamente usando python-docx.')

# Añadir sección
doc.add_heading('Sección de Datos', level=1)

# Añadir una lista
doc.add_paragraph('Lista de elementos:', style='ListBullet')
items = ['Item 1', 'Item 2', 'Item 3']
for item in items:
    doc.add_paragraph(item, style='ListBullet')

# Añadir una tabla
table = doc.add_table(rows=3, cols=3)
for i in range(3):
    for j in range(3):
        table.cell(i, j).text = f'Fila {i+1}, Columna {j+1}'

# Aplicar estilo a la tabla
for row in table.rows:
    for cell in row.cells:
        set_cell_border(cell, top={"sz": 12, "val": "single", "color": "#000000", "space": "0"},
                        bottom={"sz": 12, "val": "single", "color": "#000000", "space": "0"},
                        left={"sz": 12, "val": "single", "color": "#000000", "space": "0"},
                        right={"sz": 12, "val": "single", "color": "#000000", "space": "0"})

# Guardar el documento con el estilo de tabla
doc.save('reporte_word_estilo_tabla.docx')

### Insertar imágenes

La inclusión de imágenes puede mejorar significativamente la presentación de un reporte. Para insertar una imagen generada con Matplotlib, primero debemos guardar la imagen en el sistema de archivos y luego insertarla en el documento.

In [None]:
import matplotlib.pyplot as plt
from docx.shared import Inches
from docx import Document

# Crear un nuevo documento
doc = Document()

# Generar una gráfica con Matplotlib
x = range(10)
y = [i**2 for i in x]

plt.figure()
plt.plot(x, y)
plt.title("Gráfica de Ejemplo")
plt.xlabel("Eje X")
plt.ylabel("Eje Y")

# Guardar la gráfica como imagen
plt.savefig("grafica.png")

# Insertar la imagen en el documento
doc.add_picture('grafica.png', width=Inches(4))

# Guardar el documento con la imagen
doc.save('reporte_word_con_imagen.docx')

### Ejemplo práctico: Reporte con datos de Gapminder

En este ejemplo práctico, utilizaremos el dataset de Gapminder disponible en `plotly` para generar una tabla y una gráfica que serán incluidas en el reporte.

In [None]:
import plotly.express as px
import pandas as pd
from docx import Document
from docx.oxml import OxmlElement
from docx.oxml.ns import qn
from docx.shared import Pt, Inches

# Definir la función para aplicar bordes a las celdas
def set_cell_border(cell, **kwargs):
    """
    Set cell's border
    Usage:
        set_cell_border(
            cell,
            top={"sz": 12, "val": "single", "color": "#FF0000", "space": "0"},
            bottom={"sz": 12, "val": "single", "color": "#00FF00", "space": "0"},
            left={"sz": 24, "val": "dashed", "color": "00FF00", "space": "0"},
            right={"sz": 12, "val": None, "color": "000000", "space": "0"},
        )
    """
    tc = cell._element
    tcPr = tc.get_or_add_tcPr()

    for edge in ('top', 'left', 'bottom', 'right', 'insideH', 'insideV'):
        edge_data = kwargs.get(edge)
        if edge_data:
            tag = 'w:{}'.format(edge)
            element = tcPr.find(qn(tag))
            if element is None:
                element = OxmlElement(tag)
                tcPr.append(element)
            for key in ["sz", "val", "color", "space"]:
                if key in edge_data:
                    element.set(qn('w:{}'.format(key)), str(edge_data[key]))

# Cargar el dataset de Gapminder
df = px.data.gapminder()

# Filtrar datos para el año 2007 y obtener los 20 países más poblados
df_2007 = df[df['year'] == 2007].nlargest(20, 'pop')

# Seleccionar solo algunas columnas
df_2007 = df_2007[['country', 'continent', 'gdpPercap', 'lifeExp', 'pop']]

# Crear un nuevo documento
doc = Document()

# Crear una tabla con los datos filtrados
doc.add_heading('Datos de Gapminder (2007) - Top 20 Países por Población', level=1)
table = doc.add_table(rows=1, cols=len(df_2007.columns))
hdr_cells = table.rows[0].cells
for i, col in enumerate(df_2007.columns):
    hdr_cells[i].text = col

for i, row in df_2007.iterrows():
    row_cells = table.add_row().cells
    for j, value in enumerate(row):
        row_cells[j].text = str(value)
        # Ajustar el tamaño de la letra
        for paragraph in row_cells[j].paragraphs:
            for run in paragraph.runs:
                run.font.size = Pt(8)

# Aplicar estilo a la nueva tabla
for row in table.rows:
    for cell in row.cells:
        set_cell_border(cell, top={"sz": 12, "val": "single", "color": "#000000", "space": "0"},
                        bottom={"sz": 12, "val": "single", "color": "#000000", "space": "0"},
                        left={"sz": 12, "val": "single", "color": "#000000", "space": "0"},
                        right={"sz": 12, "val": "single", "color": "#000000", "space": "0"})

# Crear una gráfica con Plotly
fig = px.scatter(df_2007, x="gdpPercap", y="lifeExp", size="pop", color="continent",
                 hover_name="country", log_x=True, size_max=60)

# Exportar la gráfica a imagen
fig.write_image("grafico_gapminder.png")

# Insertar la imagen en el documento
doc.add_heading('Gráfica de Gapminder (2007)', level=1)
doc.add_picture('grafico_gapminder.png', width=Inches(6))

# Guardar el documento final
doc.save('reporte_gapminder_top20.docx')

## 4. Generación de Reportes en PDF

La generación de reportes en formato PDF puede realizarse de manera eficiente con la biblioteca `ReportLab`. A continuación, veremos cómo crear un PDF básico, añadir texto, listas y tablas, incluir gráficos y, finalmente, un ejemplo práctico de conversión del reporte a formato PDF.

### Crear un PDF básico

Para crear un PDF básico, utilizamos `canvas` de `ReportLab`.

In [None]:
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

# Crear un PDF
c = canvas.Canvas("reporte_basico.pdf", pagesize=letter)
c.drawString(100, 750, "Reporte de Datos")
c.save()

### Añadir texto, listas y tablas

Para añadir contenido más complejo como listas y tablas, utilizamos las clases `SimpleDocTemplate`, `Table`, y `TableStyle` de `ReportLab`.

In [None]:
from reportlab.lib import colors
from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Table, TableStyle, Paragraph
from reportlab.lib.styles import getSampleStyleSheet

# Crear el PDF
doc = SimpleDocTemplate("reporte_completo.pdf", pagesize=letter)
elements = []

# Añadir un título
styles = getSampleStyleSheet()
title = Paragraph("Reporte de Datos", styles['Title'])
elements.append(title)

# Añadir un párrafo
elements.append(Paragraph("Este es un reporte generado automáticamente usando ReportLab.", styles['Normal']))

# Añadir una lista
elements.append(Paragraph("Lista de elementos:", styles['Normal']))
items = ['Item 1', 'Item 2', 'Item 3']
for item in items:
    elements.append(Paragraph(item, styles['Bullet']))

# Añadir una tabla
data = [['Fila 1, Columna 1', 'Fila 1, Columna 2', 'Fila 1, Columna 3'],
        ['Fila 2, Columna 1', 'Fila 2, Columna 2', 'Fila 2, Columna 3'],
        ['Fila 3, Columna 1', 'Fila 3, Columna 2', 'Fila 3, Columna 3']]
table = Table(data)
table.setStyle(TableStyle([
    ('BACKGROUND', (0, 0), (-1, 0), colors.grey),
    ('TEXTCOLOR', (0, 0), (-1, 0), colors.whitesmoke),
    ('ALIGN', (0, 0), (-1, -1), 'CENTER'),
    ('FONTNAME', (0, 0), (-1, 0), 'Helvetica-Bold'),
    ('BOTTOMPADDING', (0, 0), (-1, 0), 12),
    ('BACKGROUND', (0, 1), (-1, -1), colors.beige),
    ('GRID', (0, 0), (-1, -1), 1, colors.black)
]))
elements.append(table)

# Construir el PDF
doc.build(elements)

### Incluir gráficos utilizando ReportLab

Para incluir gráficos en el PDF, primero generamos una imagen con `Matplotlib` y luego la insertamos en el documento PDF.

In [None]:
import matplotlib.pyplot as plt
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from reportlab.lib.utils import ImageReader

# Generar un gráfico con Matplotlib
x = range(10)
y = [i**2 for i in x]

plt.figure()
plt.plot(x, y)
plt.title("Gráfica de Ejemplo")
plt.xlabel("Eje X")
plt.ylabel("Eje Y")

# Guardar el gráfico como imagen
plt.savefig("grafica.png")

# Crear el PDF e insertar el gráfico
c = canvas.Canvas("reporte_con_grafico.pdf", pagesize=letter)
c.drawString(100, 750, "Reporte de Datos")
c.drawImage(ImageReader("grafica.png"), 100, 400, width=400, height=300)
c.save()

### Ejemplo práctico: Convertir el mismo reporte a formato PDF

Vamos a convertir el mismo reporte que generamos en la sección anterior para Word, pero ahora en formato PDF utilizando `ReportLab`.

In [None]:
import plotly.express as px
import pandas as pd
from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Table, TableStyle, Paragraph, Image, PageBreak
from reportlab.lib.styles import getSampleStyleSheet
from reportlab.lib import colors
import matplotlib.pyplot as plt
from reportlab.lib.utils import ImageReader

# Cargar el dataset de Gapminder
df = px.data.gapminder()

# Filtrar datos para el año 2007 y obtener los 20 países más poblados
df_2007 = df[df['year'] == 2007].nlargest(20, 'pop')

# Seleccionar solo algunas columnas
df_2007 = df_2007[['country', 'continent', 'gdpPercap', 'lifeExp', 'pop']]

# Crear el PDF
doc = SimpleDocTemplate("reporte_gapminder.pdf", pagesize=letter)
elements = []

# Añadir un título
styles = getSampleStyleSheet()
title = Paragraph("Datos de Gapminder (2007) - Top 20 Países por Población", styles['Title'])
elements.append(title)

# Añadir una tabla con los datos filtrados
data = [df_2007.columns.tolist()] + df_2007.values.tolist()
table = Table(data)
table.setStyle(TableStyle([
    ('BACKGROUND', (0, 0), (-1, 0), colors.grey),
    ('TEXTCOLOR', (0, 0), (-1, 0), colors.whitesmoke),
    ('ALIGN', (0, 0), (-1, -1), 'CENTER'),
    ('FONTNAME', (0, 0), (-1, 0), 'Helvetica-Bold'),
    ('BOTTOMPADDING', (0, 0), (-1, 0), 12),
    ('BACKGROUND', (0, 1), (-1, -1), colors.beige),
    ('GRID', (0, 0), (-1, -1), 1, colors.black)
]))
elements.append(table)

# Añadir un salto de página
elements.append(PageBreak())

# Generar un gráfico con Plotly
fig = px.scatter(df_2007, x="gdpPercap", y="lifeExp", size="pop", color="continent",
                 hover_name="country", log_x=True, size_max=60)

# Guardar la gráfica como imagen
fig.write_image("grafico_gapminder.png")

# Añadir el título de la sección de la gráfica
elements.append(Paragraph("Gráfica de Gapminder (2007)", styles['Title']))

# Añadir el gráfico al PDF usando la clase Image con tamaño ajustado
elements.append(Image("grafico_gapminder.png", width=400, height=300))

# Construir el PDF
doc.build(elements)

## 5. Generación de Reportes en HTML

### Introducción a HTML y Jinja2

Jinja2 es un motor de plantillas para Python que facilita la creación de documentos HTML dinámicos. Permite utilizar variables, bucles y estructuras condicionales en las plantillas HTML, integrando fácilmente datos de Python.

### Crear una plantilla básica

Vamos a crear una plantilla HTML básica utilizando Jinja2.

In [None]:
from jinja2 import Template

# Crear una plantilla HTML básica usando Jinja2
html_template = """
<!DOCTYPE html>
<html>
<head>
    <title>{{ titulo }}</title>
</head>
<body>
    <h1>{{ titulo }}</h1>
    <p>{{ descripcion }}</p>
    <h2>Datos</h2>
    <ul>
    {% for item in items %}
        <li>{{ item }}</li>
    {% endfor %}
    </ul>
</body>
</html>
"""

# Crear un diccionario de contexto
context = {
    'titulo': 'Reporte de Datos',
    'descripcion': 'Este es un reporte generado automáticamente usando Jinja2.',
    'items': ['Item 1', 'Item 2', 'Item 3']
}

# Renderizar la plantilla con el contexto
template = Template(html_template)
html_content = template.render(context)

# Guardar el contenido HTML en un archivo
with open("reporte_basico.html", "w") as f:
    f.write(html_content)

### Integrar gráficos interactivos con Plotly

Plotly permite crear gráficos interactivos que se pueden incrustar fácilmente en documentos HTML. Usaremos Plotly para crear gráficos interactivos y Jinja2 para integrarlos en nuestra plantilla HTML.

In [None]:
import plotly.express as px

# Crear un gráfico interactivo con Plotly
df = px.data.gapminder()

# Filtrar datos para el año 2007 y obtener los 20 países más poblados
df_2007 = df[df['year'] == 2007].nlargest(20, 'pop')

fig = px.scatter(df_2007, x="gdpPercap", y="lifeExp", size="pop", color="continent",
                 hover_name="country", log_x=True, size_max=60)

# Guardar el gráfico como HTML
fig.write_html("grafico_interactivo.html")

# Integrar el gráfico en una plantilla HTML
html_template = """
<!DOCTYPE html>
<html>
<head>
    <title>{{ titulo }}</title>
    <script src="https://cdn.plot.ly/plotly-latest.min.js"></script>
</head>
<body>
    <h1>{{ titulo }}</h1>
    <p>{{ descripcion }}</p>
    <div id="grafico"></div>
    {{ plot_div }}
</body>
</html>
"""

# Renderizar la plantilla con el gráfico
context = {
    'titulo': 'Reporte Interactivo de Gapminder',
    'descripcion': 'Este es un reporte interactivo generado automáticamente.',
    'plot_div': fig.to_html(full_html=False)
}

template = Template(html_template)
html_content = template.render(context)

# Guardar el contenido HTML en un archivo
with open("reporte_interactivo.html", "w") as f:
    f.write(html_content)

### Ejemplo práctico: Reporte HTML interactivo con múltiples gráficos

Vamos a crear un reporte HTML interactivo con tres gráficos distintos utilizando los datos de Gapminder.

In [None]:
import plotly.express as px
from jinja2 import Template

# Cargar el dataset de Gapminder
df = px.data.gapminder()

# Filtrar datos para el año 2007
df_2007 = df[df['year'] == 2007]

# Crear gráficos interactivos con Plotly
fig1 = px.scatter(df_2007, x="gdpPercap", y="lifeExp", size="pop", color="continent",
                  hover_name="country", log_x=True, size_max=60)

fig2 = px.bar(df_2007, x="continent", y="pop", color="continent",
              title="Población por Continente")

fig3 = px.line(df[df['continent'] == 'Asia'], x="year", y="gdpPercap",
               color="country", line_group="country", hover_name="country",
               title="Crecimiento del PIB per cápita en Asia")

# Guardar los gráficos como HTML
fig1_html = fig1.to_html(full_html=False)
fig2_html = fig2.to_html(full_html=False)
fig3_html = fig3.to_html(full_html=False)

# Plantilla HTML con múltiples gráficos
html_template = """
<!DOCTYPE html>
<html>
<head>
    <title>{{ titulo }}</title>
    <script src="https://cdn.plot.ly/plotly-latest.min.js"></script>
</head>
<body>
    <h1>{{ titulo }}</h1>
    <p>{{ descripcion }}</p>
    <h2>Gráfico 1: Relación entre PIB per cápita y Esperanza de Vida</h2>
    <div id="grafico1">{{ plot1 }}</div>
    <h2>Gráfico 2: Población por Continente</h2>
    <div id="grafico2">{{ plot2 }}</div>
    <h2>Gráfico 3: Crecimiento del PIB per cápita en Asia</h2>
    <div id="grafico3">{{ plot3 }}</div>
</body>
</html>
"""

# Renderizar la plantilla con los gráficos
context = {
    'titulo': 'Reporte Interactivo de Gapminder',
    'descripcion': 'Este es un reporte interactivo generado automáticamente con múltiples gráficos.',
    'plot1': fig1_html,
    'plot2': fig2_html,
    'plot3': fig3_html
}

template = Template(html_template)
html_content = template.render(context)

# Guardar el contenido HTML en un archivo
with open("reporte_interactivo_multiples_graficos.html", "w") as f:
    f.write(html_content)

## 6. Conclusiones

En esta clase hemos aprendido a generar reportes automáticos en diferentes formatos utilizando Python y varias bibliotecas especializadas. A lo largo de las secciones, hemos cubierto los siguientes temas:

1. **Introducción a la Generación Automática de Reportes**: Discutimos la importancia de automatizar la generación de reportes y los formatos más comunes, como Word, PDF y HTML.

2. **Instalación de Herramientas**: Aprendimos a instalar las bibliotecas necesarias (`python-docx` para Word, `ReportLab` para PDF y `Jinja2` para HTML).

3. **Generación de Reportes en Word**: Vimos cómo crear documentos de Word, añadir texto, listas, tablas e imágenes, y cómo aplicar estilos a los elementos del documento utilizando `python-docx`.

4. **Generación de Reportes en PDF**: Exploramos la creación de documentos PDF, la adición de contenido como texto, listas y tablas, y la integración de gráficos generados con `Matplotlib` utilizando `ReportLab`.

5. **Generación de Reportes en HTML**: Aprendimos a crear plantillas HTML con `Jinja2`, integrar gráficos interactivos con `Plotly` y generar un reporte HTML interactivo con múltiples gráficos.

### Importancia y Aplicaciones

La automatización de reportes es una habilidad crucial para los científicos de datos y analistas, ya que permite:
- Ahorro de tiempo y reducción de tareas repetitivas.
- Generación de reportes consistentes y profesionales.
- Facilidad para actualizar reportes con nuevos datos.

### Herramientas y Bibliotecas

Las herramientas y bibliotecas que hemos utilizado ofrecen una gran flexibilidad y potencia para crear reportes personalizados:
- **`python-docx`**: Ideal para generar y personalizar documentos de Word.
- **`ReportLab`**: Potente biblioteca para crear documentos PDF con contenido complejo.
- **`Jinja2`**: Motor de plantillas para crear documentos HTML dinámicos.
- **`Plotly`**: Herramienta versátil para crear gráficos interactivos y visualizaciones de datos.

### Futuras Mejoras

Para mejorar aún más la generación de reportes automáticos, podríamos:
- Integrar más fuentes de datos y automatizar su actualización.
- Utilizar bibliotecas adicionales para crear gráficos y visualizaciones más avanzadas.
- Explorar la generación de reportes en otros formatos, como presentaciones de PowerPoint o dashboards interactivos.

### Conclusión

La generación automática de reportes es una técnica poderosa que puede mejorar significativamente la eficiencia y efectividad del análisis de datos y la presentación de resultados. Al dominar estas herramientas, estamos mejor preparados para enfrentar los desafíos del análisis de datos en un entorno profesional.