<figure>
  <IMG SRC="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d5/Fachhochschule_Südwestfalen_20xx_logo.svg/320px-Fachhochschule_Südwestfalen_20xx_logo.svg.png" WIDTH=250 ALIGN="right">
</figure>

# Skriptsprachen
### Sommersemester 2021
Prof. Dr. Heiner Giefers

## PDF-Dateien zusammenfügen

Zum Anzeigen von PDF-Dateien gibt es viele Werkzeuge.
Am bekanntesten ist sicher der *Acrobat Reader* von Adobe.
Zum Verändern von PDF-Dateien eignet sich der *Reader* nur bedingt, hierzu muss, jedenfalls bei den Adobe-Produkten, der kostenpflichtige *Adobe Reader* verwendet werden.

Allerdings ist das PDF-Format seit 2008 ein offener Standard, weswegen auch andere Werkzeuge und Bibliotheken das Verarbeiten und Erzeugen von PDF-Dateien unterstützen können.
Eine dieser Bibliotheken ist **PyPDF2** für Python.
*PyPDF2* bietet eine Reihe von Methoden, mit denen PDF-Dokumente gelesen, erstellt oder verändert werden können.


Die *PyPDF2* Dokumentation finden Sie auf [dieser Seite](https://pythonhosted.org/PyPDF2/).
Und auch das [Buch von Al Sweigart](https://nostarch.com/automatestuff2) ist eine gute Hilfe.
In der zweiten Ausgabe wird *PyPDF2* in [Kapitel 15](https://automatetheboringstuff.com/2e/chapter13/) behandelt.



In dieser Aufgabe wollen wir ein Problem lösen, dass Sie vielleicht auch schon einmal im Umgang mit PDF-Dateien hatten, nämlich dem Verbinden mehrerer PDFs zu einem Dokument.

Dazu benötigen wir natürlich zuerst mehrere PDF-Dateien.
Um möglichst schnell mit der eigentlichen Aufgabe starten zu können, laden wir ein paar Dokumente aus dem Web herunter.
Dazu setzen wir die **requests** Bibliothek ein, die wir im weiteren Verlauf des Moduls auch nochmal genauer betrachten werden.
Mit dem Modul **os** legen wir uns einen Ordner an, in dem die einzelnen PDF-Dateien abgelegt werden.

In der folgenden Code Zelle wird ein Verzeichnis `tmp/pdfs` erstellt, ausgehend vom aktuellen Pfad dieses Notebooks.
Um ein gleichnamiges Verzeichnis, das eventuell schon existiert vorher zu löschen, verwenden wir die Funktion `rmtree` aus dem Modul `shutil`.
Er gibt zwar auch eine Funktion `os.rmdir`, diese kann allerdings nur leere Verzeichnisse löschen.
Aschließend rufen wir `os.mkdir()` auf, um den Unterodner neu zu erzeugen.

Übrigens, wir könnten statt der (Konstruktor-) Methode `Path` aus dem Modul `pathlib` den Pfad zum Verzeichnis auch direkt als Zeichenkette angeben. Diese Variante hier hat aber einen großen Vorteil. *Erkennen Sie welchen?*

In [None]:
import os
from pathlib import Path
import shutil

dirpath = Path('tmp', 'pdfs')
if dirpath.exists() and dirpath.is_dir():
    shutil.rmtree(dirpath)


tmppath = Path('tmp')
if not tmppath.exists():
    os.mkdir(tmppath)

os.mkdir(dirpath)

Nun laden wir PDF-Dateien aus dem Internet herunter.
Als Beispiel verwenden wir drei Dokumente zum Thema *Python*, die auf [realpython.com](realpython.com) zum Download stehen.
Mit der Methode `requests.get(url)` laden wir den Inhalt der angegebenen URL herunter und schreiben diesen Inhalt mit `f.write(response.content)` in die Datei `f`.

Vielleicht kommt Ihnen in der folgenden Code-Zelle der Aufruf von `.zfill(3)` seltsam vor.
*Können Sie sich denken, warum diese Funktion hier verwendet wird?*

In [None]:
import requests

urls = ["https://static.realpython.com/python-basics-sample-chapters.pdf",
    "https://static.realpython.com/python-cheat-sheet.pdf",
    "https://static.realpython.com/guides/python-opencv-examples.pdf"]

i = 0
for url in urls:
    i += 1
    response = requests.get(url)
    file = Path(dirpath, str(i).zfill(3) + '.pdf')
    with open(file, 'wb') as f:
        f.write(response.content)

Nun kommt Ihre Aufgabe: Lesen Sie sich in die Dokumentation zu *PyPDF2* ein und fügen Sie die Dokumente zusammen.
Dazu können Sie folgendermaßen vorgehen:
1. Sie benötigen eine Liste mit den Quell-PDF-Dateien. Dafür ist es hilfreich, dass wir alle PDFs in einen leeren Ordner gespeichert haben. Sie müssen also nur den Inhalt des Ordners auslesen. Dazu bietet Ihnen das **os**-Modul eine passende Funktion.
2. Legen Sie ein `PdfFileMerger`-Objekt an. Dazu müssen Sie nur sehr wenig über Objektorientierung in Python kennen. Nur soviel, dass `PdfFileMerger()` ein Konstruktor der Klasse ist und ein Objekt (bzw die Referenz auf dieses Objekt) gleichen Typs zurückliefert. Später können Sie auf diesem Objekt die Methode `append` aufrufen, um PDF-Dateien anzuhängen.
3. Laufen Sie über alle Dateien in dem Verzeichnis (bzw. die Dateinamen, die Sie in 1. in eine Liste geladen haben).
    1. Bestimmen Sie jeweils den Pfad zur aktuellen Datei
    2. Öffnen Sie die PDF-Datei mit der Methode `PdfFileReader()`
    3. Hängen Sie die göffnete PDF Datei an das  `PdfFileMerger`-Objekt an
4. Schreiben Sie den Inhalt des `PdfFileMerger`-Objekts mit `write` in die Datei `merged.pdf` im aktuellen Verzeichnis.

In [None]:
from PyPDF2 import PdfFileMerger, PdfFileReader

# YOUR CODE HERE
raise NotImplementedError()

merger.write("merged.pdf")

In [None]:
from PyPDF2 import PdfFileReader
pdf = PdfFileReader(open('merged.pdf','rb'))
assert pdf.getNumPages()>120, "PDF Dokumente sind nicht zusammengefügt"