# Manipulacion de Archivos *.docx

## Creando un documento

Veamos un ejemplo de creacion de un documento con la librería `python-docx`, a partir de la informacion del blog [acervolima](https://es.acervolima.com/trabajar-con-texto-en-el-modulo-docx-de-python/):

In [29]:
import docx
from docx.shared import Pt
from docx.shared import RGBColor

str_Titulo = 'Trabajando con Python-docx'
str_Titulo1 = 'Incrementando Font Size paragraph:'
str_Titulo2 = 'Parrafos con tamaño de letra normal:'
str_parrafo1 = 'Exercitation ex adipisicing cupidatat ea nisi nisi officia excepteur nisi esse et aute. Tempor minim ex exercitation labore. Cupidatat mollit sint tempor irure sunt elit labore laboris laboris. Duis et veniam irure est laborum. Cillum fugiat adipisicing proident duis ex nulla consectetur commodo ex culpa proident veniam adipisicing. Aute aute ex enim tempor duis amet voluptate.'
str_parrafo2 = 'Est magna dolor adipisicing sunt veniam aliqua aute deserunt incididunt veniam eiusmod deserunt ullamco aliquip. Ut consequat est sunt irure nulla sint commodo tempor dolore labore nulla occaecat. Eiusmod id esse in exercitation do aliqua est reprehenderit. Do officia nisi exercitation do. Adipisicing aute minim laboris id.'

doc = docx.Document()
doc.add_heading(str_Titulo, 0)

doc.add_heading(str_Titulo1, 3)
parrafo1 = doc.add_paragraph().add_run(str_parrafo1)
parrafo1.font.size = Pt(12)
parrafo1.font.color.rgb = RGBColor(0x22, 0x8b, 0x22)
parrafo1.font.name = 'Arial'

doc.add_heading(str_Titulo2, 3)
doc.add_paragraph(str_parrafo2)

doc.save('test1.docx')

## Revisando la documentacion oficial de la librería

Ahora veamos un ejemplo ofrecido por la [documentacion oficial](https://python-docx.readthedocs.io/en/latest/) de la librería:

In [30]:
from docx import Document
from docx.shared import Inches

document = Document()

document.add_heading('Document Title', 0)

p = document.add_paragraph('A plain paragraph having some ')
p.add_run('bold').bold = True
p.add_run(' and some ')
p.add_run('italic.').italic = True

document.add_heading('Heading, level 1', level=1)
document.add_paragraph('Intense quote', style='Intense Quote')

document.add_paragraph(
    'first item in unordered list', style='List Bullet'
)
document.add_paragraph(
    'first item in ordered list', style='List Number'
)

document.add_picture('unnamed.jpg', width=Inches(1.25))

records = (
    (3, '101', 'Spam'),
    (7, '422', 'Eggs'),
    (4, '631', 'Spam, spam, eggs, and spam')
)

table = document.add_table(rows=1, cols=3)
hdr_cells = table.rows[0].cells
hdr_cells[0].text = 'Qty'
hdr_cells[1].text = 'Id'
hdr_cells[2].text = 'Desc'
for qty, id, desc in records:
    row_cells = table.add_row().cells
    row_cells[0].text = str(qty)
    row_cells[1].text = id
    row_cells[2].text = desc

document.add_page_break()

document.save('demo.docx')

# Inicio rápido

Comenzar python-docx es fácil. Repasemos los conceptos básicos.

## [Abriendo un documento](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#opening-a-document)

Lo primero que necesitará es un documento en el que trabajar. La forma más fácil es esta:

In [1]:
from docx import Document

document = Document()

> :

Esto abre un documento en blanco basado en la "plantilla" predeterminada, más o menos lo que obtiene cuando comienza un nuevo documento en Word usando los valores predeterminados incorporados. Puede abrir y trabajar en un documento de Word existente usando python-docx, pero por el momento simplificaremos las cosas.

## [Agregar un párrafo](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#adding-a-paragraph)

Los párrafos son fundamentales en Word. Se utilizan para el cuerpo del texto, pero también para encabezados y elementos de lista como viñetas.

Esta es la forma más sencilla de agregar uno:

In [2]:
paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')

--

Este método devuelve una referencia a un párrafo, párrafo recién agregado al final del documento. La nueva referencia de párrafo se asigna a paragraph en este caso, pero lo dejaré fuera en los siguientes ejemplos a menos que lo necesite. En su código, muchas veces no hará nada con el elemento después de haberlo agregado, por lo que no tiene mucho sentido mantener una referencia a él dando vueltas.

También es posible utilizar un párrafo como "cursor" e insertar un nuevo párrafo directamente encima de él:

In [3]:
prior_paragraph = paragraph.insert_paragraph_before('Lorem ipsum')

Esto permite insertar un párrafo en medio de un documento, algo que suele ser importante cuando se modifica un documento existente en lugar de generar uno desde cero.

## [Agregando un encabezado](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#adding-a-heading)

En cualquier documento que no sea el más breve, el cuerpo del texto se divide en secciones, cada una de las cuales comienza con un encabezado. Aquí se explica cómo agregar uno:

In [34]:
document.add_heading('The REAL meaning of the universe')

<docx.text.paragraph.Paragraph at 0x6eb9490>

--

De forma predeterminada, esto agrega un encabezado de nivel superior, lo que aparece en Word como "Título 1". Cuando desee un encabezado para una subsección, simplemente especifique el nivel que desea como un número entero entre 1 y 9:

In [35]:
document.add_heading('The role of dolphins', level=2)

<docx.text.paragraph.Paragraph at 0x6eb9580>

Si especifica un nivel de 0, se agrega un párrafo de "Título". Esto puede ser útil para comenzar un documento relativamente corto que no tiene una página de título separada.

## [Agregar un salto de página ](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#adding-a-page-break)

De vez en cuando desea que el texto que viene a continuación vaya en una página separada, incluso si la que está no está llena. Un salto de página "duro" hace esto:

In [36]:
document.add_page_break()

<docx.text.paragraph.Paragraph at 0x6eb9370>

Si se encuentra usando esto con mucha frecuencia, probablemente sea una señal de que podría beneficiarse al comprender mejor los estilos de párrafo. Una propiedad de estilo de párrafo que puede establecer es dividir una página inmediatamente antes de cada párrafo que tenga ese estilo. Por lo tanto, puede configurar sus encabezados de cierto nivel para comenzar siempre una nueva página. Más sobre estilos más adelante. Resultan ser de vital importancia para realmente sacar el máximo provecho de Word.

## [Agregar una tabla](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#adding-a-table)

Uno se encuentra con frecuencia con contenido que se presta a una presentación tabular, alineado en filas y columnas ordenadas. Word hace un buen trabajo en esto. Aquí se explica cómo agregar una tabla:

In [37]:
table = document.add_table(rows=2, cols=2)

--

Las tablas tienen varias propiedades y métodos que necesitará para completarlas. Acceder a celdas individuales es probablemente un buen lugar para comenzar. Como referencia, siempre puede acceder a una celda por sus índices de fila y columna:

In [38]:
cell = table.cell(0,1)

--

Esto le da la celda de la derecha en la fila superior de la tabla que acabamos de crear. Tenga en cuenta que los índices de fila y columna se basan en cero, al igual que en el acceso a la lista.

Una vez que tenga una celda, puede poner algo en ella:

In [39]:
cell.text = 'parrot, possibly dead'

--

Con frecuencia, es más fácil acceder a una fila de celdas a la vez, por ejemplo, al completar una tabla de longitud variable desde una fuente de datos. La .rows propiedad de una tabla proporciona acceso a filas individuales, cada una de las cuales tiene una .cellspropiedad. La .cellspropiedad en ambos Rowy Column admite el acceso indexado, como una lista:

In [40]:
row = table.rows[1]
row.cells[0].text = 'Foo bar to you.'
row.cells[1].text = 'And a hearty foo bar to you too sir!'

--

Las colecciones .rows y .columns en una tabla son iterables, por lo que puede usarlas directamente en un for bucle. Lo mismo con las .cellssecuencias en una fila o columna:

In [41]:
for row in table.rows:
    for cell in row.cells:
        print(cell.text)


parrot, possibly dead
Foo bar to you.
And a hearty foo bar to you too sir!


--

Si desea contar las filas o columnas de la tabla, simplemente use len()en la secuencia:

In [42]:
row_count = len(table.rows)
col_count = len(table.columns)

--

También puede agregar filas a una tabla de forma incremental de esta manera:

In [43]:
row = table.add_row()

--

Esto puede ser muy útil para el escenario de tabla de longitud variable que mencionamos anteriormente:

In [44]:
# obtener table data
items = (
    (7, '1024', 'Plush kittens'),
    (3, '2042', 'Furbees'),
    (1, '1288', 'French Poodle Collars, Deluxe'),
)

# agregar tabla
table = document.add_table(1, 3)

# agregando cabeceras
cabeceras = table.rows[0].cells # Aca vamos a trabajar con las celdas de la primera fila
cabeceras[0].text = 'Qty'
cabeceras[1].text = 'SKU'
cabeceras[2].text = 'Description'

# agregar la data de cada renglon
for item in items:
    celdas = table.add_row().cells
    celdas[0].text = str(item[0])
    celdas[1].text = str(item[1])
    celdas[2].text = str(item[2])
    

--

Lo mismo funciona para las columnas, aunque todavía tengo que ver un caso de uso para ello.

Word tiene un conjunto de estilos de tabla con formato previo que puede elegir de su galería de estilos de tabla. Puede aplicar uno de esos a la tabla de esta manera:

In [45]:
table.style = 'LightShading-Accent1'

El nombre del estilo se forma eliminando todos los espacios del nombre del estilo de la tabla. Puede encontrar el nombre del estilo de tabla pasando el mouse sobre su miniatura en la galería de estilos de tabla de Word.

## [Agregar una imagen](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#adding-a-picture)

Word le permite colocar una imagen en un documento usando el elemento de menú. He aquí cómo hacerlo en :Insert > Photo > Picture from file...python-docx

In [46]:
document.add_picture('unnamed.jpg')

<docx.shape.InlineShape at 0x6e92df0>

Este ejemplo utiliza una ruta, que carga el archivo de imagen desde el sistema de archivos local. También puede usar un objeto similar a un archivo , esencialmente cualquier objeto que actúe como un archivo abierto. Esto puede ser útil si está recuperando su imagen de una base de datos oa través de una red y no desea involucrar al sistema de archivos.

### [Tamaño de imagen](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#image-size)

De forma predeterminada, la imagen añadida aparece en tamaño nativo . Esto es a menudo más grande de lo que desea. El tamaño nativo se calcula como . Entonces, una imagen de 300x300 píxeles con una resolución de 300 ppp aparece en un cuadrado de una pulgada. El problema es que la mayoría de las imágenes no contienen una propiedad de dpi y el valor predeterminado es 72 dpi. Esto haría que la misma imagen apareciera de 4,167 pulgadas de lado, alrededor de la mitad de la página.pixels / dpi

Para obtener la imagen del tamaño que desea, puede especificar su ancho o alto en unidades convenientes, como pulgadas o centímetros:

In [47]:
from docx.shared import Inches

document.add_picture('unnamed.jpg', width=Inches(1.0))

<docx.shape.InlineShape at 0x5719550>

Puede especificar tanto el ancho como el alto, pero por lo general no querrá hacerlo. Si especifica solo uno, python-docxlo usa para calcular el valor escalado correctamente del otro. De esta manera, se conserva la relación de aspecto y la imagen no se ve estirada.

Las clases Inchesy Cmse proporcionan para permitirle especificar las medidas en unidades prácticas. Internamente, python-docxutiliza unidades métricas inglesas, 914400 por pulgada. Así que si te olvidas y simplemente pones algo así width=2, obtendrás una imagen extremadamente pequeña :). Deberá importarlos desde el docx.shared subpaquete. Puedes usarlos en aritmética como si fueran un número entero, que de hecho lo son. Así que una expresión como funciona bien.width = Inches(3) / thing_count

## [Aplicando un estilo de párrafo](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#applying-a-paragraph-style)

Si no sabe qué es un estilo de párrafo de Word, definitivamente debería comprobarlo. Básicamente, le permite aplicar un conjunto completo de opciones de formato a un párrafo a la vez. Se parece mucho a los estilos CSS si sabes cuáles son.

Puede aplicar un estilo de párrafo justo cuando crea un párrafo:

In [48]:
document.add_paragraph('Lorem ipsum dolor sit amet.', style='ListBullet')

<docx.text.paragraph.Paragraph at 0x5719ac0>

--

Este estilo particular hace que el párrafo aparezca como una viñeta, algo muy útil. También puede aplicar un estilo después. Estas dos líneas son equivalentes a la anterior:

In [49]:
paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')
paragraph.style = 'List Bullet'

El estilo se especifica usando su nombre de estilo, 'List Bullet' en este ejemplo. Por lo general, el nombre del estilo es exactamente como aparece en la interfaz de usuario (IU) de Word.

## [Aplicando negrita y cursiva](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#applying-bold-and-italic)

Para comprender cómo funcionan las negritas y las cursivas, debe comprender un poco lo que sucede dentro de un párrafo. La versión corta es esta:

1. Un párrafo contiene todo el formato de nivel de bloque , como sangría, altura de línea, tabulaciones, etc.
2. El formato de nivel de carácter, como negrita y cursiva, se aplica en el nivel de ejecución . Todo el contenido dentro de un párrafo debe estar dentro de una ejecución, pero puede haber más de uno. Entonces, un párrafo con una palabra en negrita en el medio necesitaría tres tiradas, una normal, una en negrita que contuviera la palabra y otra normal para el texto posterior.

Cuando agrega un párrafo proporcionando texto al .add_paragraph()método, se coloca en una sola ejecución. Puede agregar más usando el .add_run()método en el párrafo:

In [50]:
paragraph = document.add_paragraph('Lorem ipsum ')
paragraph.add_run('dolor sit amet.')

<docx.text.run.Run at 0x5719430>

--

Esto produce un párrafo que se parece a uno creado a partir de una sola cadena. No es evidente dónde se divide el texto del párrafo a menos que mire el XML. Tenga en cuenta el espacio final al final de la primera cadena. Debe ser explícito acerca de dónde aparecen los espacios al principio y al final de una ejecución. No se insertan automáticamente entre ejecuciones. Espere ser atrapado por ese un par de veces :).

Runlos objetos tienen una propiedad .boldy .italicque le permite establecer su valor para una ejecución:

In [51]:
paragraph = document.add_paragraph('Lorem ipsum ')
run = paragraph.add_run('dolor')
run.bold = True
paragraph.add_run(' sit amet.')

<docx.text.run.Run at 0x6eb98b0>

--

que produce un texto similar a este: 'Lorem ipsum dolor sit amet'.

Tenga en cuenta que puede configurar negrita o cursiva directamente en el resultado .add_run()si no lo necesita para nada más:

In [52]:
paragraph.add_run('dolor').bold = True

# is equivalent to:

run = paragraph.add_run('dolor')
run.bold = True

# except you don't have a reference to `run` afterward

No es necesario proporcionar texto al .add_paragraph()método. Esto puede simplificar su código si está construyendo el párrafo a partir de ejecuciones de todos modos:

In [53]:
paragraph = document.add_paragraph()
paragraph.add_run('Lorem ipsum ')
paragraph.add_run('dolor').bold = True
paragraph.add_run(' sit amet.')

<docx.text.run.Run at 0x6eb9cd0>

## [Aplicando un estilo de carácter](https://python-docx.readthedocs.io/en/latest/user/quickstart.html#applying-a-character-style)

Además de los estilos de párrafo, que especifican un grupo de configuraciones de nivel de párrafo, Word tiene estilos de carácter que especifican un grupo de configuraciones de nivel de ejecución. En general, puede pensar en un estilo de carácter como la especificación de una fuente, incluido su tipo de letra, tamaño, color, negrita, cursiva, etc.

Al igual que los estilos de párrafo, un estilo de carácter ya debe estar definido en el documento que abre con la Document()llamada ( consulte Descripción de los estilos ).

Se puede especificar un estilo de carácter al agregar una nueva ejecución:

In [54]:
paragraph = document.add_paragraph('Normal text, ')
paragraph.add_run('text with emphasis.', 'Emphasis')

<docx.text.run.Run at 0x6ed3b80>

--

También puede aplicar un estilo a una ejecución después de crearla. Este código produce el mismo resultado que las líneas anteriores:

In [55]:
paragraph = document.add_paragraph('Normal text, ')
run = paragraph.add_run('text with emphasis.')
run.style = 'Emphasis'

Al igual que con un estilo de párrafo, el nombre del estilo es tal como aparece en la interfaz de usuario de Word.

In [56]:
document.save('documento de prueba - Inicio Rapido python-docx.docx')

# Alterando un archivo

Hagamos un experimento, y alteremos el primer parrafo del documento que acabamos de guardar:

In [57]:
# Con esto obtenemos toda la informacion del archivo que puede obtener python-docx.
f = open('documento de prueba - Inicio Rapido python-docx.docx', 'rb')
document = Document(f)
f.close() # Cerramos el archivo

# Accedemos al primer parrafo de la lista de parrafos y le reasignamos nuevo contenido.
document.paragraphs[0].text = 'Lorem ipsum (Alterado)'

# Guardamos los cambios.
document.save('documento de prueba - Inicio Rapido python-docx (Alterado).docx')