# Teil 18: Word-Dateien verarbeiten

Wie wir bereits im Kapitel zu Dateiverarbeitung gesehen haben, lassen sich Word-Dokumente nicht wie regul√§re `.txt`-Dateien in Python √∂ffnen. Gl√ºcklicherweise gibt es Bibliotheken, die den Zugriff recht einfach gestalten.

## 18.0 Die `python-docx`-Bibliothek

Neuere Word-Dokumente (mit `.docx`-Endung) lassen sich durch die ausgereifte, gut dokumentierte [python-docx](https://python-docx.readthedocs.io/en/latest/index.html) Bibliothek verarbeiten. F√ºr √§ltere `.doc`-Dateien ist eine vorherige Konvertierung notwendig.

In [None]:
!pip install python-docx

## 18.1 Abs√§tze auslesen

Anders als bei regul√§ren Textdateien benutzt `python-docx` nicht das `with open(...) as f`-Konstrukt. Stattdessen erzeugen wir ein `Document`-Objekt aus einer bestehenden Word-Datei, das erst einmal unabh√§ngig von der urspr√ºnglichen Datei ist.

In [None]:
from docx import Document

doc = Document("warenuebersicht.docx")

Der wesentliche Inhalt einer Word-Datei steht meist in den **Abs√§tzen** des Dokuments. Das `paragraphs`-Attribut eines `Document`-Objekts gibt uns diese Abs√§tze als Liste.

In [None]:
paragraphs = doc.paragraphs

paragraphs

Jeder Absatz besitzt au√üerdem ein `text`-Attribut, das dessen Inhalt als String bereitstellt.

In [None]:
paragraphs[0].text

### üõ†Ô∏è √úbung: Abs√§tze durchsuchen

Nutze eine Schleife, um die Abs√§tze des Dokuments durchzugehen und den Absatz auszugeben, der den String "Jacken" enth√§lt.

In [None]:
# Platz f√ºr die √úbung



## 18.2 Tabellen auslesen

Neben Abs√§tzen enthalten manche Word-Dokumente auch **Tabellen**, auf die mit dem `tables`-Attribut zugegriffen werden kann.

In [None]:
inventory = doc.tables[0]

Ein Tabellen-Objekt besitzt Zeilen (*rows*) und Spalten (*columns*), die wiederum Zellen (*cells*) mit Texten besitzen. Wie wir anhand dieser Attribute eine Tabelle verarbeiten, ist uns √ºberlassen. So k√∂nnen wir beispielsweise alle Spaltenwerte als Listen extrahieren:

In [None]:
inventory = doc.tables[0]

inventory_cols = {}
for col in inventory.columns:
    col_name = col.cells[0].text
    inventory_cols[col_name] = []
    
    for cell in col.cells[1:]:
        inventory_cols[col_name].append(cell.text)

print(inventory_cols)

### üõ†Ô∏è √úbung: Tabellenverarbeitung

Schreibe eine Funktion `sum_col`, die die Parameter `table` und `col_name` besitzt. Die Funktion geht die Spalten durch und pr√ºft jeweils, ob der Spaltenname (also der Inhalt der ersten Spalten-Zelle) dem `col_name` entspricht. Falls ja, werden die Werte dieser Spalte addiert und zur√ºckgegeben.

In [None]:
# Platz f√ºr die √úbung



## 18.3 Auf Kopf- und Fu√üzeilen zugreifen

### üõ†Ô∏è √úbung: Docs durchsuchen

Wie l√§sst sich mit `python-docx` auf die Fu√üzeile (engl: *footer*) eines Dokuments zugreifen? Identifiziere die relevante Stelle(n) der [Dokumentation](https://python-docx.readthedocs.io/en/latest/index.html#) und nutze die gefundenen Informationen, um die Fu√üzeile von `warenuebersicht.docx` auszugeben.

In [None]:
# Platz f√ºr die √úbung



## 18.4 Text √§ndern

Das `text`-Attribut von Abs√§tzen (und Tabellen-Zellen) l√§sst sich √ºberschreiben, um Texte in einem Dokument zu √§ndern.

In [None]:
doc.paragraphs[0].text = "Waren√ºbersicht, Mai 2025"

Dar√ºber hinaus k√∂nnen in ein Dokument auch neue Abs√§tze (oder Tabellen, Fu√üzeilen, etc.) hinzugef√ºgt werden, z.B. mit der `insert_paragraph_before`-Funktion eines Absatzes.

In [None]:
doc.paragraphs[1].insert_paragraph_before("Autor: Peter Parker")

**Achtung**: Wie Anfangs erw√§hnt wirken sich √Ñnderungen an einem `Document`-Objekt nicht automatisch auf die urspr√ºngliche Word-Datei aus, aus der das Objekt erzeugt wurde. Damit die √Ñnderungen nicht verloren gehen, m√ºssen wir das Objekt speichern - entweder unter demselben Namen der urspr√ºnglichen Datei, um die √Ñnderungen dort vorzunehmen, oder als neue Datei.

In [None]:
doc.save("warenuebersicht_mai.docx")

### üõ†Ô∏è √úbung: Programmatische Textbearbeitung

Gehe die Abs√§tze in `warenuebersicht.docx` durch und ersetze den String "vergangenen Monat" durch "Mai" und den String "kommenden Monat" durch "Juni". Nutze daf√ºr Pythons `replace()`-Funktion (https://www.w3schools.com/python/ref_string_replace.asp).

Speichere die √Ñnderungen in der Datei `warenuebersicht_mai.docx`.

In [None]:
# Platz f√ºr die √úbung

