# Pipelines und Filter unter `Unix`

## Was behandeln wir in diesem Notebook / Lernziele

<div class="alert alert-success">

<b>Fragestellung:</b>
<ul>
    <li> Wie kann ich existierende <code>Unix</code>-Programme kombinieren, um neue und komplexere Aufgaben zu erledigen.</li>
</ul>

<b>Aspekte der Fragestellung:</b>
<ul>
    <li> Ausgabeumlenkung von Programmausgaben in Textdateien</li>
    <li> Kombination von <code>Unix</code>-Programmen durch <i>Pipelines</i></li>
    <li> Das <code>Unix</code>-Baukastenprinzip</li>
</ul>

<b> Zeitaufwand für diese Lektion: </b> 
<ul>
    <li> Durcharbeiten des Textes: 30 min</li>
    <li> Verständnisfragen: 20 min</li>
</ul>
</div>

## Das `Unix`-Baukastenprinzip

Nachdem wir in vorherigen Lektionen grundlegende Aspekte der `Unix`-Shell (Arbeit mit Dateien und Verzeichnissen, Aufruf und Hilfe zu Kommandos) kennengelernt haben, können wir uns jetzt einem der wichtigsten und mächtigsten Eigenschaften der Shell widmen. Es ist die Möglichkeit, als Anwender bestehende Kommandos und Programme einfach zu *kombinieren* und so mit vorhandenen Bausteinen schnell recht komplexe Probleme lösen zu können. Programme unter `Unix` haben üblicherweise nur einen *sehr geringen* Funktionsumfang. Sie lösen in der Regel *eine einzige Aufgabe* sehr gut und sehr effizient. Als Anwender kann man somit bei der Lösung eines komplexeren Problems auf *hoch-qualitative* Grundbausteine zurückgreifen. Dieses Prinzip, vorhandene Baustiene zusammenzubauen, um ein Problem zu lösen, ist eine der fundamentalen Unterschiede zu einem GUI-basierten System. Bei letzterem hat man entweder ein Programm, das ein gegebenes Problem löst oder nicht. Es ist aber in der Regel nicht möglich, die Funktionalitäten zweier GUI-basierter Programme als Anwender in einfacher Weise zu kombinieren oder Teilfunktionalitäten eines Programmes innerhalb eines anderen zu nutzen. Falls dies möglich ist, so muss dies in der Regel alles *mauell* und mit großem Zeitaufwand geschehen.

Da man sich unter `Unix` die Grundbausteine ständig für neue Aufgaben unterschiedlich zusammenstellt, spricht man vom `Unix`-Baukastenprinzip.

In dieser Lektion beschäftigen wir uns mit den ersten beiden Werkzeugen, um Programme zu kombinieren. Es handelt sich um die *Ausgabeumlenkung* und *Pipelines* zwischen Programmen.

## Umleitung der Ausgabe eines Programms in Textdateien (Ausgabeumlenkung)

Annika muss in den nächsten Tagen noch ein Seminar über Monde, die die Planeten unseres Sonnensystems umkreisen, halten. Ihre Daten befinden sich in dem Verzeichnis `Seminar/Planeten_Daten` unterhalb ihres Heimatverzeichnis.

In [None]:
cd ~/Seminar/Planeten_Daten
ls

Neben einer Testdatei (`zahlen_test.txt`)gibt es für jeden Planeten, der von Monden umkreist wird, eine Datei (Endung `.dat`). Um uns eine Textdatei *mal eben schnell* anzusehen, müssen wir keinen Editor aufrufen. Die einfachste Möglichkeit ist das Kommando `cat` (concatenate), welches den Inhalt von Textdateien in der Shell ausgibt.

In [None]:
cat Mars.dat   # zeige Inhalt der Datei Mars.txt

Die Bedeutung der vier Spalten ist:
1. Name des Mondes
2. Zentralobjekt des Mondes
3. Mittlere Entfernung des Mondes vom Zentralobjekt (in km)
4. Umlaufperiode des Mondes um das Zentralobjekt (in Tagen)

<div class="alert alert-info">
    <b> Schnelles Betrachten von Textdateien </b>
    
Wegen der zentralen Bedeutung von Textdateien unter <code>Unix</code> möchte man sich diese oft <i>schnell</i> einmal ansehen. Wenn man die Datei nicht modifizieren möchte, lohnt sich oft der Aufruf eines Editors hierfür nicht. Die Shell bietet für das schnelle Betrachten hauptsächlich zwei Programme. Das hier verwendete <code>cat</code>, welches für Dateien mit wenigen Zeilen die einfachste Möglichkeit ist und welches den gesamten Dateiinhalt auf dem Terminal ausgibt. Die andere Möglichkeit ist der <i>Pager</i> <code>less</code>, welcher Ihnen mit einfachen Tastenkombinationen ein seitenweises Betrachten, Blättern oder Suchen im Text erlaubt. Die wichtigesten Tasten sind: 1. Die Cursortasten erlauben Ihnen Scrollen im Text; 2. <code>Space</code> (oder Leertaste) blättert eine Seite nach vorne und <code>b</code> eine Seite zurück; 3. <code>h</code> zeigt Hilfeinformationen, die Sie mit <code>q</code> wieder verlassen können; 4. Mit <code>q</code> verlassen Sie den Pager.

<code>less</code> müssen Sie in einem voll-funktionsfähigem Terminal ausprobieren. In einer Notebook Befehlszelle funktioniert es nicht.
</div>

Annika möchte herausfinden, welcher Planet die wenigsten/meisten Monde hat und wie viele dies sind. Ein erster Schritt zur Lösung dieses Problems ist das Kommando `wc` (word count), welches die Anzahl der Zeilen, Worte und einzelner Zeichen einer Textdatei anzeigt. 

In [None]:
wc Mars.dat  # zeigt Anzahl der Zeilen, Worte und Zeichen der Datei Mars.txt

Mit der Option `-l` zeigt uns `wc` nur die Anzahl der Zeilen, was hier identisch zur Zahl der Monde eines Planeten ist.

In [None]:
wc -l *dat  # Zeige die Anzahl der Zeilen aller Dateien mit
            # Endung dat

Die Planeten mit den wenigsten und meisten Monde aus der Programmausgabe abzulesen, ist bei sieben Dateien kein Problem. Wir wollen jedoch eine Lösung erarbeiten, die auch bei mehreren Tausend Dateien schnell ein Ergebnis liefert. Hierzu führen wir zunächst folgenden `wc`-Befehl aus.  

In [None]:
wc -l *dat > laengen.txt   # lenke die Ausgane des wc-Befehls in die Datei
                           # laengen.txt um

Die Syntax `> laengen.txt` weist die Shell an, die gesamte Ausgabe des `wc`-Befehls *nicht* auf dem Bildschirm anzuzeigen, sondern sie in die Textdatei `laengen.txt` zu schreiben, bzw. *umzuleiten*. Man spricht hier auch von der *Ausgabeumlenkung in eine Textdatei*.

<div class="alert alert-danger">
    <b> Vorsicht bei der Ausgabeumlenkung (I)</b>

Die Ausgabeumlenkung <b>überschreibt</b> die Zieldatei <b>ohne Warnung</b> falls sie schon existiert! Daher ist hier ein wenig Vorsicht geboten.
</div>

Überzeugen wir uns von der Existenz und dem Inhalt der Datei.

In [None]:
ls laengen.txt  # ueberprüfe, ob Datei laengen.txt vorhanden ist.

In [None]:
cat laengen.txt

Der nächste Baustein für unser Problem ist das Kommando `sort`, welches den Inhalt einer Textdatei *sortiert* auf dem Bildschirm ausgibt. Ohne Option sortiert `sort` *alphabetisch*. Wir wollen allerdings die Datei `laengen.txt` *numerisch* sortieren und benötigen hierzu die Option `-n`.

In [None]:
sort -n laengen.txt  # gib Datei laengen.txt 'numerisch sortiert'
                     # auf dem Bildschirm aus.

### Einschub: alphabetische und numerische Sortierung

Wenn Sie obiges Beispiel als `sort laengen.txt` (ohne die Option `-n`) ausprobieren, so sehen Sie anscheinend keinen Unterschied. DIe Struktur der Datei `laengen.txt` ist so, dass beide Befehle in diesem Fall dasselbe Ergebnis liefern. Um den Unterschied zwischen alphabetischer und numerischer Sortierung zu sehen, führen wir den Befehl auf die Datei `zahlen_test.txt` aus.

In [None]:
cat zahlen_test.txt

In [None]:
sort zahlen_test.txt  # alphabetische Sortierung der Datei zahlen_test.txt

In [None]:
sort -n zahlen_test.txt  # numerische Sortierung der Datei zahlen_test.txt

Zurück zur Sortierung der Datei `laengen.txt`. Der Planet mit den wenigsten Monde befindet sich offenbar in der ersten Zeile der sortierten Liste. Um diesen Eintrag zu bekommen, lenken wir die Ausgabe der Sortierung in eine weitere Datei um und wenden darauf ein neues Kommando, `head -n 1`, an. Dieses Kommando extrahiert aus einer Datei die erste Zeile. 

In [None]:
sort -n laengen.txt > laengen_sort.txt  
    # erstelle eine neue Datei mit einer sortierten
    # Version der Datei laengen.txt                                        

In [None]:
head -n 1 laengen_sort.txt  # zeige die erste Zeile der Datei laengen_sort.txt

Die Option `-n 1` besagt, dass wir nur die erste Zeile haben möchten. Allgmein würde `head -n m` die ersten `m` Zeilen einer Datei liefern. Ohne Option `-n` zeigt `head` die ersten zehn Zeilen.

<div class="alert alert-danger">
    <b> Vorsicht bei der Ausgabeumlenkung (II)</b>

Vielleicht wundern Sie sich, dass wir oben anstatt des Befehls <code>sort -n laengen.txt > laengen_sort.txt</code> nicht die Variante <code>sort -n laengen.txt > laengen.txt</code> gewählt haben. Schließlich brauchen wir die alte Datei <code>laengen.txt</code> nicht mehr und es liegt nahe, sie einfach durch ihre sortierte Version zu ersetzen. <b>Dies funktioniert leider nicht und das Ergebnis wäre am Ende eine <b>leere</b> Datei <code>laengen.txt</code>!</b> Eingabedatei und Ziel der Ausgabeumlenkung sollten <b>nie</b> dieselbe Datei sein!
</div>

Analog zu `head`, was die ersten Zeilen einer Datei ausgibt, können wir uns mit dem Kommando `tail` die *letzten* Zeilen einer Datei besorgen.

In [None]:
tail -n 2 laengen_sort.txt  # zeige die letzten zwei Zeilen der
                            # Datei laengen_sort.txt

Beachten Sie, dass wir für den Planeten mit den meisten Monden die *letzten zwei* Zeilen von `laengen_sort.txt` brauchen, da die letzte Zeile eine Gesamtbilanz aller Planetendateien enthält.  

## Pipelines zwischen `Unix`-Kommandos

<a id='Planeten_Pipeline'></a>
Zusammengefasst haben wir, um die Planeten mit den wenigsten und den meisten Moden zu finden, folgende Befehle ausgeführt:
```bash
> wc -l *dat > laengen.txt
> sort -n laengen.txt > laengen_sort.txt
> head -n 1 laengen_sort.txt  # zeige Datei mit den wenigsten Planeten
> tail -n 2 laengen_sort.txt  # zeige Datei mit den meisten Planeten
                              # (erste Zeile der beiden ausgegebenen)
```
Wir können diese Sequenz an Befehlen auf das allgemeine Problem *Finde aus einer beliebigen Anzahl an Textdateien diejenigen mit den wenigsten und den meisten Zeilen* anwenden. Die einzig notwendige Änderung ist die Übergabe der zu betrachtenden Dateien in dem `wc`-Befehl am Anfang der Sequenz.

Obwohl dies bereits sehr nützlich ist, finden Sie die Sequenz wahrscheinlich auch verwirrend. Auch wenn man weiß, was die Kommandos `wc`, `sort`, `head` und `tail` tun, machen vor allem die *Zwischendateien* das Ganze unübersichtlich, schwer zu verfolgen und auch fehleranfällig (Verwechslung der Zwischendateien). 

Wir können das Ganze *deutlich* vereinfachen und klarer machen, indem wir die involvierten Befehle *direkt kombinieren*. Nehmen wir als Beispiel die Sequenz
```bash
sort -n laengen.txt > laengen_sort.txt
head -n 1 laengen_sort.txt
```
Diese beiden Befehle können wir *zu einem einzigen* zusammenfassen.

In [None]:
sort -n laengen.txt | head -n 1   # Nutze die Ausgabe von sort -n laengen.txt
                                  # als Eingabe für den Befehl head -n 1

Der vertikale Strich `|` baut eine so-genannte *Pipeline* zwischen zwei Befehlen auf. Er weist die Shell an, die *Ausgabe des Befehls links* als *die Eingabe des Befehls rechts* zu nutzen.

Das Schöne an den Pipelines ist, dass Sie nicht nur zwei, sondern *beliebig viele* Befehle damit verbinden können. So können wir die Ausgabe von `wc` an `sort` schicken und das Resultat direkt an `head` weiterleiten. Das heisst, dass wir zuerst eine Pipeline zwischen `wc` und `sort` konstruieren.

In [None]:
wc *dat | sort -n  # aequivalent zur Befehlssequenz wc *dat > laengen.txt
                   # und sort -n laengen.txt

Die resultierende Ausgabe dieses Befehls schicken wir an `head` weiter und die gesamte Befehlskette, um den Planeten mit den wenigsten Monden zu finden, ist 

In [None]:
wc *dat | sort -n | head -n 1

Diese eine Pipeline leistet *genau dasselbe* wie die, mit Zwischendateien gespickte, Befehlssequenz am Anfang dieses Abschnitts.

Sie können sich das Ganze ähnlich der Konstruktion einer zusammengesetzten mathematischen Funktion aus einzelnen Operatoren, wie z. B. $\sin(3x)$, vorstellen. In die Bestandteile zerlegt liest es sich *Der Sinus aus drei mal $x$*. In unserem Fall wäre die Analogie etwa *Erste Zeile aus sortierten Zeilen aus Zeilenzählung von Dateien mit Endung `dat`*.

Die Ausgabeumleitungen und Pipelines dieses Abschnitts sind noch einmal in folgender Figur visualisiert.

<img src="figuren/Shell_Pipelines_und_Filter_fig1.png" style="height: 400px;">

## Filter

Programme, die ihre Eingaben nicht nur über Parameter (z.B. Textdateien), sondern auch über eine Pipeline erhalten können und die ihre Ausgabe standardmäßig auf dem Bildschirm zeigen, nennt man auch *Filter*. Diese Programme können beliebig in `Unix`-Pipelines eingesetzt werden. Sie werden im Laufe der Zeit diejenigen Filter genau kennenlernen, die für Ihre Arbeit wichtig sind. Neben  den hier bereits besprochenen (`cat`, `wc`, `sort`, `head` und `tail`), wollen wir an dieser Stelle noch zwei weitere erwähnen, die für jeden Anwender essentiell sind.

Das erste Filterprogramm is `awk`. Sein Name setzt sich aus den Initialen seiner Entwickler zusammen (Aho, Weinberger und Kernighan) und es erlaubt sehr umfangreiche und komplexe Operationen mit spaltenorientierten Textdateien. Auch eine erste Einführung in dieses Programm würde den Rahmen dieses Tutorials bei weitem sprengen. Wir wollen es hier lediglich nutzen, um aus einer Textdatei einzelne Splaten zu isolieren. 

Annika hat für Ihr Seminar Beobachtungen einiger Planeten durchgeführt. Die Daten der Beobachtungen und die beobachteten Planeten sind in der Datei `/Seminar/Beobachtungen.txt`.

In [None]:
cd ~/Seminar/
cat Beobachtungen.txt

Sie möchte überprüfen, welche Planeten beobachtet wurden und sich dafür die zweite Spalte dieser Datei ansehen. Um diese zu isolieren, gibt sie den Befehl.

In [None]:
awk '{print $2}' Beobachtungen.txt  # drucke zweite Spalte der Datei Beobachtungen.txt

Um sich eine andere Spalte anzeigen zu lassen, müsste nur in dem `awk`-Befehl nach dem Dollar `($)`-Zeichen die entsprechende Zahl gesetzt werden. So würde z.B. `awk '{print $1}'` die erste Spalte drucken.

Für eine bessere Übersicht würde Annika gerne Mehrfacheinträge bei der Ausgabe des letzten Befehls loswerden. Hierzu dient der Filter `uniq`. `uniq` löscht aus einer *sortierten* Textdatei mehrfache Einträge. Da die Eingabe für `uniq` sortiert sein muss, kommt der Filter eigentlich immer in Verbindung mit `sort` vor.

In [None]:
awk '{print $2}' Beobachtungen.txt | sort | uniq
   # drucke alle vorkommenden Einträge der zweiten Spalte
   # in Beobachtungen.txt

Sehr nützlich ist bei `uniq` noch die Option `-c` (count). Mit dieser Option werden Mehrfacheinträge nicht gelöscht, sondern es wird gezeigt, wie oft jeder Eintrag vorkommt. Hiermit bekommt Annika eine schnelle Übersicht *wie oft* jedes Objekt beobachtet wurde.

In [None]:
awk '{print $2}' Beobachtungen.txt | sort | uniq -c

<div class="alert alert-success">
<b>Zum Mitnehmen</b>
<ul>
    <li> <code>befehl > datei</code> lenkt die Ausgabe von <code>befehl</code> in <code>datei</code> um.</li>
    <li> <code>befehl >> datei</code> hängt die Ausgaben von <code>befehl</code> an <code>datei</code> an.</li>
    <li> <code>befehl_1 | befehl_2</code> ist eine Pipeline. Die Ausgabe von <code>befehl_1</code> ist die Eingabe von <code>befehl_2</code>.</li>
    <li> <code>cat textdatei</code> zeigt den Inhalt von <code>textdatei</code> auf dem Bildschirm.</li>
    <li> <code>less textdatei</code> zeigt den Inhalt von <code>textdatei</code> in einem Pager.</li>
    <li> <code>head textdatei</code> zeigt die <i>ersten</i> zehn Zeilen von <code>textdatei</code>.</li>
    <li> <code>tail textdatei</code> zeigt die <i>letzten</i> zehn Zeilen von <code>textdatei</code>.</li>
    <li> <code>sort</code> sortiert die übergebenen Textdateien.</li>
    <li> <code>wc</code> zählt Zeilen, Worte und Zeichen der übergebenen Textdateien.</li>
</ul>
</div>