# Shell-Skripte

## Was behandeln wir in diesem Notebook / Lernziele

<div class="alert alert-success">

<b>Fragestellung:</b>
<ul>
    <li> Wie kann ich existierende <code>Unix</code>-Programme kombinieren, um neue und komplexere Aufgaben zu erledigen?</li>
</ul>

<b>Aspekte der Fragestellung:</b>
<ul>
    <li> Wie kann ich einmal gegebene Befehle, bzw. ganze Befehlssequenzen abspeichern und wiederverwenden? </li>
</ul>

<b> Zeitaufwand für diese Lektion: </b> 
<ul>
    <li> Durcharbeiten des Textes: 30 min</li>
    <li> Verständnisfragen: 20 min</li>
</ul>
</div>

## Shell-Skripte und die `Unix`-Programmierumgebung
Wir kommen nun zu einem weiterem wesentlichen Baustein, um `Unix`-Kommandos zu kombinieren und einmal erledigte Aufgaben später fehlerfrei zu reproduzieren. Während wir uns in vorherigen Lektionen auf die Kombination einzelner Programme konzentriert haben, ist der Schwerpunkt jetzt die *spätere Reproduzierbarkeit von Ergebnissen*.

Dies geschieht primär, indem wir einmal gegebene Kommandos in Textdateien speichern, um sie später erneut durch den Aufruf eines einzelnen Kommandos auszuführen. Aus historischen Gründen bezeichnen wir `Unix`-Kommandos, die zu diesem Zweck in einer Textdatei abgespeichert werden, als *Shell-Skript*. Genauer müsste man aber von *Shell-Programmen* sprechen. Da das Arbeiten mit der Shell sehr viel mit einer Programmiersprache gemein hat (z.B. Kombination von Anweisungen, Variablen, Schleifen), kann man die Shell durchaus auch als *Pragrammiersprache* (wie z.B. *Perl* oder *Python*) betrachten. Man bezeichnet die Shell deshalb oft auch als `Unix`-Programmierumgebung. 


## Ein erstes Shell-Skript

Annika hat in der letzten Lektion für Ihre Seminararbeit Monde mit der geringsten Umlaufperiode um ihre Planeten betrachtet.

In [None]:
cd ~/Seminar/Planeten_Daten

# zeige den Mond mit der geringsten Umlaufperiode für Planeten Jupiter
sort -g -k 4 Jupiter.dat | head -n 1

Annika möchte sich den `sort`-Befehl gerne *permanent merken*, damit sie ihn im Bedarfsfall nicht immer wieder von neuem konstruieren muss. Dazu speichert sie den Befehl in einer Textdatei mit Namen `schneller_mond_version_1.sh`. Annika wird das Skript schrittweise weiter verbessern. Daher der Namenszusatz `version_1`

Die nächste Zelle enthält in der ersten Zeile den speziellen Befehl `%%file /home/annika/Seminar/Planeten_Daten/schneller_mond_version_1.sh`. Dies speichert den Inhalt der Zelle in der Textdatei `/home/annika/Seminar/Planeten_Daten/schneller_mond_version_1.sh`, anstatt sie auszuführen. Es wäre an dieser Stelle gut, wenn Sie die Datei stattdessen mit dem Editor `nano` [in einem Terminal](00_Wie_bearbeite_ich_dieses_Tutorial.ipynb#Figur_Lektion_Terminal) selber erstellen würden, um den Umgang mit dem Editor einzuüben.

In [None]:
%%file /home/annika/Seminar/Planeten_Daten/schneller_mond_version_1.sh
sort -g -k 4 Jupiter.dat | head -n 1                  

Überzeugen wir uns zunächst von der Existenz und dem Inhalt der Datei:

In [None]:
# Ist Datei schneller_mond_version_1.sh vorhanden?
ls schneller_mond_version_1.sh

In [None]:
# Inhalt der Datei schneller_mond_version_1.sh
cat schneller_mond_version_1.sh

Sobald Annika das Kommando auf diese Art gespeichert hat, kann sie die `bash`-Shell veranlassen, es zu einem späteren Zeitpunkt wieder auszuführen.

In [None]:
# Der folgende Befehl führt die Kommandos in der
# Datei schneller_mond.sh mit der bash-Shell aus
bash schneller_mond_version_1.sh

Die Syntax `bash schneller_mond_version_1.sh` bedeutet, dass die in der Datei `schneller_mond_version_1.sh` enthaltenen Befehle mit der `bash`-Shell auszuführen sind. Das Ergebnis ist in diesem Fall äquivalent, als wenn wir den in der Datei enthaltenen `sort`-Befehl direkt gegeben hätten.

### Kommandozeilenargumente für Shell-Skripte

Annika hat nun ein Shell-Skript, um sich den Mond mit der geringsten Umlaufperiode um Jupiter anzeigen zu lassen. Sie würde dasselbe gerne für Saturn und andere Planeten tun. Das Konzept der Shell-Skripte wäre nur von sehr geringem Nutzen, wenn sie hierzu jedes Mal ein neues Skript schreiben oder ihr bestehendes Skript jedes Mal verändern müsste (Namen der Planetendatei).

Annika erstellt eine zweite Version ihres Skripts mit folgendem Inhalt:

In [None]:
%%file /home/annika/Seminar/Planeten_Daten/schneller_mond_version_2.sh
sort -g -k 4 ${1} | head -n 1

In [None]:
cat schneller_mond_version_2.sh

Der Namen der Datei `Jupiter.dat` (erste Skriptversion) wurde durch die Zeichenkette `${1}` (zweite Skriptversion) ersetzt. Die `1` ist innerhalb eines Shell-Skriptes eine *spezielle Variable*, die das *erste Kommandozeilenargument* an ein Skript enthält. Auf den Inhalt der Variable kann mit dem Konstrukt `${1}` zugegriffen werden. Annika kann nun ihr neues Skript wie folgt aufrufen:

In [None]:
# Rufe Skript schneller_mond_version_2.sh mit
# dem Kommandozeilenargument 'Jupiter.dat' auf.
bash schneller_mond_version_2.sh Jupiter.dat

Natürlich funktioniert das jetzt auch mit jeder anderen Planetendatei:

In [None]:
# Zeige den Mond mit der geringsten Umlaufzeit um Saturn
bash schneller_mond_version_2.sh Saturn.dat

Hiermit ist das Skript auf beliebige Planetendateien anwendbar. Wie Sie sich bereits denken können, enthält innerhalb eines Shell-Skripts das Konstrukt `${2}` den Wert des zweiten Kommandozeilenparameters usw. Hiermit kann das Skript weiter für die Aufgabe *zeige die $n$ Monde mit den $n$ niedrigsten Umlaufzeiten um einen Planeten* verallgemeinert werden. Dies tut Annika in einer dritten Version ihres Skripts:

In [None]:
%%file /home/annika/Seminar/Planeten_Daten/schneller_mond_version_3.sh
sort -g -k 4 ${1} | head -n ${2}

In [None]:
cat schneller_mond_version_3.sh

In dem Skript `schneller_mond_version_3.sh` ist neben der Planetendatei jetzt auch die Anzahl zu zeigender Zeilen der Pipelineausgabe ein Kommandozeilenparameter.

Um beispielsweise die beiden Monde mit den geringsten Umlaufzeiten um Neptun zu bekommen, können wir jetzt folgenden Aufruf nutzen:

In [None]:
# zeige die beiden Monde mit den geringsten Umlaufzeiten
# um Neptun
bash schneller_mond_version_3.sh Neptun.dat 2

Wir wollen uns noch eine Möglichkeit ansehen, ein Shell-Skript mit *beliebig vielen* Kommandozeilenparametern zu schreiben. Annika möchte sich eine Übersicht verschaffen, wie viele Monde jeden Planeten umkreisen. Hierfür konstruiert sie zunächst die Pipeline:

In [None]:
# zeige, wieviele Zeilen jede Planetendatei hat
# (i.e. wieviele Monde umkreisen jeden Planeten)
wc -l *.dat | sort -g

Annika möchte diese Pipeline in ein Shell-Skript schreiben, das sie später auch *für eine beliebige Kombination aus Planetendateien* verwenden kann. Da sie aber nicht weiss, *wie viele* Dateien später an das Skript übergeben werden, kann sie die Konstrukte `${1}`, `${2}`, $\dots$ nicht verwenden, um die Kommandozeilenargumente anzusprechen. Für diese Fälle gibt es die spezielle Variable `@`, bzw. das Konstrukt `${@}` für ihren Inhalt, welches *für alle an das Skript übergebene Argumente* steht. Hiermit schreibt Annika ein Skript `anzahl_monde.sh` mit dem Inhalt:

In [None]:
%%file /home/annika/Seminar/Planeten_Daten/anzahl_monde.sh
wc -l ${@} | sort -g

In [None]:
cat anzahl_monde.sh

Dieses Skript kann nun mit einer beliebigen Kombination an Dateien aufgerufen werden!

In [None]:
# Anzahl der Monde für einen Planeten
bash anzahl_monde.sh Jupiter.dat

In [None]:
# Anzahl der Monde für mehrere Planeten
bash anzahl_monde.sh Jupiter.dat Erde.dat Saturn.dat

In [None]:
# Anzahl der Monde für alle Planeten
bash anzahl_monde.sh *.dat

### Kommentare in Shell-Skripten

Wir haben hier in den Notebook Zellen schon gesehen, dass man mit einer Raute `#` und folgendem Text Befehle *kommentieren* kann. Wenn die `bash` eine Raute sieht, ignoriert sie diese und alles, was nach dieser Raute bis ans Ende der Zeile geschrieben ist.

Sie sollten sich von Anfang an angewöhnen, Ihre Shell-Skripte zu kommentieren. Entweder werden Sie später von Ihren Kollegen Shell-Skripte für Ihre Arbeit bekommen oder Sie werden eigene Skripte an Kollegen weitergeben. In all diesen Fällen ist man sehr froh, wenn man zu Anfang des Skripts durch ein paar Kommentare erfährt, was es tut und wie man es benutzen muss. Vor allem bei längeren und komplexeren Skripten ist es oft nicht einfach, ein Skript ohne jegliche Kommentare zu verstehen. Eine in dieser Hinsicht modifizierte Version von `schneller_mond_Version_3.sh` (siehe oben) könnte wie folgt aussehen: 

In [None]:
%%file /home/annika/Seminar/Planeten_Daten/schneller_mond_Version_4.sh
# zeigt die Monde mit der geringsten Umlaufzeit um einen Planeten
# Parameter: (1) Eine Planetendatei;
#            (2) Die Anzahl der Monde, die man sehen möchte
# Format der Planetendatei: Vier Spalten mit
# Mondname   Planetenname   Mondabstand_vom_Planeten  Umlaufzeit
sort -g -k 4 ${1} | head -n ${2}

In [None]:
cat schneller_mond_Version_4.sh

In [None]:
bash schneller_mond_Version_4.sh Neptun.dat 1

Die Funktionsweise der Skripte `schneller_mond_Version_3.sh` und `schneller_mond_Version_4.sh` ist vollkommen identisch. Mit letzterer Variante weiß ein potentieller Nutzer aber gleich, was er dem Skript als Parameter übergeben muss und was die Daten für eine korrekte Funktionsweise des Skripts enthalten müssen. Dies kommt auch Ihnen selber zugute, wenn Sie ein selber geschriebenes Skript nach langer Zeit wiederverwenden oder modifizieren müssen.

### Fehlersuche in Shell-Skripten

Sobald Sie anfangen, eigene Skripte zu schreiben, werden Sie auch Fehler begehen; sei es, dass Sie Kommandos verkehrt schreiben, zu einem Kommando die falsche Option wählen oder dass Sie aus einem zunächst nicht ersichtlichem Grund unerwartete Ergebnisse erhalten. Für diesen Fall bietet die Shell einfache Hilfen bei der Fehlersuche. Betrachten wir folgende Variante von Annikas `anzahl_monde.sh` Skript von oben. In der neuen Version `anzahl_monde_die_zweite.sh` arbeitet sie alle übergebenen Planetendateien mit einer `for`-Schleife ab:

In [None]:
%%file /home/annika/Seminar/Planeten_Daten/anzahl_monde_die_zweite.sh
echo "Hier startet das Skript"

for DATEI in $@
do
  echo "Ich arbeite an ${DATE}"
  wc -l ${DATEI}
done

In [None]:
cat anzahl_monde_die_zweite.sh 

Wir erwarten, dass das Skript neben einer Startnachricht bei der Arbeit an jeder Datei eine Zeichenkette mit dem Dateinamen ausgibt und danach die Zeilenzahl der Datei liefert.

In [None]:
bash anzahl_monde_die_zweite.sh Erde.dat Jupiter.dat

Wir erkennen, dass zwar der `wc`-Befehl ausgeführt wird, aber bei der Ausgabe des Dateinamens etwas nicht funktioniert. In solchen Fällen sollte der `bash`-Befehl mit der Option `-x` versehen und das Skript erneut ausgeführt werden.

In [None]:
# bash -x zeigt jedes Skiptkommando bevor es ausgeführt wird.
bash -x anzahl_monde_die_zweite.sh Erde.dat Jupiter.dat

Die Option `-x` veranlasst die `bash`, jeden Befehl vor seiner Ausführung noch explizit anzuzeigen. Hiermit lässt sich in den meisten Fällen sehr schnell feststellen, an welchen Stellen ein Skript nicht wie erwartet funktioniert. Im vorliegenden Fall sehen wir, dass der `echo`-Befehl auf die Dateinamen, die er ausgeben soll, nicht zugreifen kann. Ein genauerer Blick in das Skript zeigt, dass wir uns vertippt haben und in dem `echo`-Befehl anstatt `${DATEI}` `${DATE}` geschrieben haben. Wenn wir diesen Fehler verbessern, liefert das Skript das erwartete Ergebnis.  

### Konstruktion von Shell-Skripten

Oft entstehen Shell-Skripte aus einer Reihe von Kommandos, die man vorher in der Shell gegeben hat. Man experimentiert mit Dateien oder analysiert Daten und stellt dann fest, dass man die letzten Shell-Befehle gerne verallgemeinern und zu einem Skript zusammenfassen möchte. In diesem Fall muss man *nicht* in einem Editor mit einer leeren Datei anfangen und alle gegebenen Befehle komplett neu tippen. Die Shell kann uns hier einen Gutteil dieser Arbeit abnehmen! Betrachten wir als Beispiel noch einmal Annikas erstes Shell-Skript von oben, um Monde mit den geringsten Umlaufzeiten um Planeten zu identifizieren. Sie hat auf der Shell angefangen, mit folgendem Befehl zu experimentieren:

In [None]:
# zeige den Mond mit der geringsten Umlaufperiode für Planeten Jupiter
sort -g -k 4 Jupiter.dat | head -n 1

Diesen Befehl, eventuell zusammen mit früheren Shell-Eingaben, möchte sie jetzt in ein Skript verwandeln. Sie gibt dazu zunächst einen `history`-Befehl:

In [None]:
# zeige zuletzt eingegebene Shell-Befehle
history

Das Kommando `history` listet die letzten eingegebenen Shell-Befehle auf. Annika kann sich den sie interessierenden Teil in eine Textdatei schreiben lassen:

In [None]:
# schreibe einen Teil der Shell-history in eine Datei,
# um sie später für ein Skript in einem Editor weiterzuverarbeiten
history | tail -n 5 > testskript.sh

In [None]:
cat testskript.sh

Die Datei `testskript.sh` kann Annika in `nano` laden und hat nach kurzer Editierung eine erste lauffähige Version ihres Skripts.

<div class="alert alert-success">
<b>Zum Mitnehmen</b>
<ul>
    <li> Kommandos können in Textdateien abgespeichert werden, um sie später als Shell-Skripte erneut auszuführen.</li>
    <li> <code>bash shellskript</code> führt die in der Datei <code>shellskript</code> gespeicherten Kommandos als Shell-Skript aus.</li>
    <li> <code>&#36;{1}, (&#36;{2})</code> sprechen in einem Shell-Skript das erste (zweite) Kommandozeilenargument an.</li>
    <li> <code>&#36;{@}</code> bezieht sich <i>auf alle</i> Kommandozeilenargumente eines Shell-Skripts.</li>
</ul>
</div>