# 1: Textverarbeitung und Ein-/Ausgabe mit Shell-Skripten

* Umleitungsoperatoren (`>`, `<`, ...) 
* Pipes (`|`)
* Textwerkzeuge



## Eingabe- und Ausgabestr&ouml;me
* von der Shell aus gestartet Programme starten mit 3 offenen Dateihandeln:
  * `stdin (0)` Standardeingabe zum Lesen
  * `stdout (1)` Standardausgabe zum Schreiben
  * `stderr (2)` Standardfehlerausgabe zum Schreiben
* in der Shell sind alle drei Datenstr&ouml;me mit dem Terminal verbunden
* Umleitungsoperatoren zum &Auml;ndern der Datenstr&ouml;me
* ohne Optionen lesen viele Unix-Werkzeuge von der Standardeingabe und schreiben auf die  Standardausgabe

| Ausdruck | Beschreibung
|:---|:---|
| `p > file` | Leitet `stdout` von `p` nach `file` um (**Redirect**) |
| <code>p &vert; q</code> | Leitet `stdout` von `p` nach `stdin` von `q` um (**Pipe**)|
| `p < file` | Leitet `stdin` von `p` nach `file` um |
| `p >> file` | Leitet `stdout` von `p` nach `file` um (h&auml;ngt an) |
| `p 2> file` | Leitet `stderr` von `p` nach `file` um |
| `p 2>> file` | Leitet `stderr` von `p` nach `file` um (h&auml;ngt an) |
| `p > file 2>&1` | Leitet `stdout` von `p` nach `file` und `stderr` nach `stdout` (`file`) um |
| `p 2>&1 > file` | Leitet `stderr` von `p` nach `stdout` von `p` um und `stdout` nach `file` |
| <code>p &vert;& q</code> | Leitet `stdout` und `stderr` von `p` nach `stdin` von `q` um* |
| `p &> file` | Leitet `stdout` und `stderr` von `p` nach `file` um* |

\* markiert inkompatible Erweiterungen


## Werkzeuge zur Textverarbeitung
### cat 
| Name | cat - Konkateniert Dateien und schreibt sie nach `stdout` |
|:---|:---|
|&#0220;berblick| cat \[OPTION\]... \[FILE\]... |
| Beschreibung | Konkateniert FILE und schreibt diese nach `stdout`. |
| | Ohne FILE oder falls FILE `-` ist, wird `stdin` gelesen. | 
| Wichtige Optionen: | |
| -n, --number | Nummeriert alle Ausgabezeilen |
| -v, --shown-nonprinting | Markiert nicht ausdruckbare Zeichen in der `^` bzw. `M-` Notation | 

In [1]:
%%bash
echo -e "Hallo Welt!\a" > hallo.txt
cat -nv < hallo.txt

     1	Hallo Welt!^G


### wc  
| Name | wc - Gibt Anzahl von Zeilenumbr&uuml;chen, W&ouml;rtern und Bytes aus |
|:---|:---|
|&#0220;berblick| wc \[OPTION\]... \[FILE\]... |
| Beschreibung | Gibt Anzahl von Zeilenumbr&uuml;chen, W&ouml;rtern und Bytes aus. |
| | Ein Wort ist dabei eine nicht-leere Folge von Zeichen, |
| | die von Leerzeichen umgeben sind. |
| Wichtige Optionen: | |
| -c, --bytes | Gibt die Byte-Anzahl aus |
| -m, --chars | Gibt die Zeichenanzahl aus | 
| -l, --lines | Gibt die Zeilenanzahl aus |
| -w, --words | Gibt die Wortanzahl aus |

In [2]:
%%bash
echo -e "Erste Zeile.\nFünf." | wc -l

       2


In [3]:
%%bash
wc -w wahlverwandschaften.txt

   11058 wahlverwandschaften.txt


In [4]:
%%bash
ls | wc -l

       5


### head
| Name | head - Ausgabe der ersten 10 Zeilen einer Datei |
|:---|:---|
|Überblick| head \[OPTION\]... \[FILE\]... |
| Beschreibung | Schreibt die ersten 10 Zeilen jeder Datei in FILE nach `stdout`. |
| Wichtige Optionen: | |
| -c, --bytes=\[-\]NUM | Gibt die ersten NUM Bytes aus; |
| | mit '-' wird alles außer den letzten NUM Bytes ausgegeben |
| -n, --lines=\[-\]NUM | Gibt die ersten NUM Zeilen aus; |
| | mit '-' werden alle Zeilen außer den letzten NUM Zeilen ausgegeben |


In [5]:
%%bash
head -n 8 wahlverwandschaften.txt | cat -n

     1	﻿Die Wahlverwandtschaften
     2	
     3	
     4	
     5	Ein Roman
     6	
     7	
     8	von Johann Wolfgang von Goethe


### tail
| Name | tail - Ausgabe der letzten 10 Zeilen einer Datei |
|:---|:---|
|Überblick| tail \[OPTION\]... \[FILE\]... |
| Beschreibung | Schreibt die letzten 10 Zeilen jeder Datei in FILE nach `stdout`. |
| Wichtige Optionen: | |
| -c, --bytes=\[+\]NUM | Gibt die letzten NUM Bytes aus; |b
| | mit '+' wird alles ab Byte NUM ausgegeben |
| -n, --lines=\[+\]NUM | Gibt die letzten NUM Zeilen aus; |
| | mit '+' werden alle Zeilen ab Zeile NUM ausgegeben |



In [6]:
%%bash
tail -n 8 wahlverwandschaften.txt

willen bestimmt, das wirst du uns vorlesen. Ich will dir nicht ins
Blatt sehen, aber freilich ist mir der Inhalt schon bekannt. Doch ließ
nur, lies!“ Mit diesen Worten zog sie einen Brief hervor und reichte
ihn Eduarden.



 Fünftes Kapitel

### grep
| Name | grep - Ausgabe von Zeilen, die bestimmte Muster enthalten |
|:---|:---|
|Überblick| grep \[OPTION\]... PATTERNS \[FILE\]... |
|         | grep \[OPTION\]... -e PATTERNS \[FILE\]... |
|         | grep \[OPTION\]... -f PATTERNS_FILE ... \[FILE\]... |
| Beschreibung | Sucht nach PATTERNS in den Dateien in FILE und schreibt die
|              | passenden Zeilen nach `stdout`. Falls keine Dateien angegeben
|              | sind, werden die Zeilen von `stdin` gelesen. |
| Wichtige Optionen: | |
| -E, --extended-regexp | Interpretiert PATTERNS als erweiterte reguläre Ausdrücke (EREs) |
| -i, --ignore-case | Ignoriert Groß- und Kleinschreibung |
| -v, --invert-match | Es werden Zeilen ausgegeben, die *nicht* auf das Muster passen |
| -w, --word-regexp | Muster werden nur auf Wortebene angewendet |
| -A, --after-context=NUM | Ausgabe von NUM Zeilen nach einem Treffer |
| -B, --before-context=NUM | Ausgabe von NUM Zeilen vor einem Treffer |
| -C, --context=NUM | Ausgabe von NUM Zeilen vor und nach einem Treffer |




In [7]:
%%bash
grep -w versprach wahlverwandschaften.txt

andere erfreuliches Ganze zusammenstellen. Ich versprach, dir an der
er heut nicht umständlich schreibe, und versprach für nächstens ein
Folge den füllereichsten Anblick versprach. Auch einzelne Baumgruppen


In [8]:
%%bash
grep -w -C 1 versprach wahlverwandschaften.txt

unschätzbaren, aber verworrenen Heften und Blättern ein für uns und
andere erfreuliches Ganze zusammenstellen. Ich versprach, dir an der
Abschrift zu helfen, und wir dachten es uns so bequem, so artig, so
--
--
seinen Freund um Verzeihung, daß er diese Tage nicht geschrieben, daß
er heut nicht umständlich schreibe, und versprach für nächstens ein
bedeutenderes, ein beruhigendes Blatt.
--
--
übersah, Tiefen und Höhen, Büsche und Wälder, deren erstes Grün für die
Folge den füllereichsten Anblick versprach. Auch einzelne Baumgruppen
hielten an mancher Stelle das Auge fest. Besonders zeichnete zu den


### tr
| Name | tr - Ersetzt oder löscht Zeichen |
|:---|:---|
|Überblick| tr \[OPTION\]... SET1 \[SET2\] |
| Beschreibung | Ersetzt, komprimiert und/oder löscht Zeichen von
| | `stdin` und schreibt nach `stdout`. |
| | Die Mengen SET1 und SET2 sind dabei Zeichen-Strings. |
| Wichtige Optionen: | |
| -c, -C, --complement | Verwendet die Komplementäre Menge zu SET1 |
| -d, --delete | Löscht Zeichen in SET1 |
| -s, --squeeze-repeats | Ersetzt jede Sequenz von wiederholten Zeichen durch einem einzelnen Zeichen |
| Besondere Zeichen: | |
| \\\\ | Backslash |
| \\n | Zeilenumbruch |
| CHAR1-CHAR2 | Alle Zeichen von CHAR1 zu CHAR2 in aufsteigender Folge |
| \[:alnum:\] | Buchstaben und Zahlen |
| \[:alpha:\] | Alle Buchstaben |
| \[:digit:\] | Alle Zahlen |
| \[:space:\] | Leerzeichen |
| \[:lower:\] | Kleinbuchstaben |
| \[:upper:\] | Großbuchstaben |
| \[:punct:\] | Punktuationszeichen |


In [9]:
%%bash
echo '123Max456' | tr -d [:digit:]

Max


In [10]:
%%bash
echo '123Max456' | tr -d [:digit:] | tr [:lower:] [:upper:]

MAX


In [11]:
%%bash
cat wahlverwandschaften.txt | tr -s ' ' '\n' | tail

sie
einen
Brief
hervor
und
reichte
ihn
Eduarden.
Fünftes
Kapitel

### sort
| Name | sort - Sortiert Zeilen |
|:---|:---|
|Überblick| sort \[OPTION\]... \[FILE\]... |
| Beschreibung | Sortiert alle Zeilen in allen Dateien in FILE und |
|              | und schreibt sie nach `stdout`. Ließt von `stdin`, falls |
|              | keine Dateien angegeben werden. |
| Wichtige Optionen: | |
| -b, --ignore-leading-blanks | Ignoriert führende Leerzeichen |
| -f (sic), --ignore-case | Ignoriert Groß- und Kleinschreibung |
| -n, --numeric-sort | Sortiert numerisch |
| -R, --random-sort | Mischt die Zeilen zufällig |
| -r, --reverse | Dreht die Sortierreihenfolge um |



In [12]:
%%bash
cat wahlverwandschaften.txt | tr -s ' ' '\n' | sort | head -20

-,
-bereiten
-einfahren,
-tauschen,
:
A
A
A
A,
Abend
Abend
Abende
Abende
Abende
Abends
Abends
Aber
Aber
Aber
Aber


### uniq
| Name | uniq - Filtert oder meldet wiederholte Zeilen |
|:---|:---|
|Überblick| uniq \[OPTION\]... \[INPUT \[OUTPUT\]\] |
| Beschreibung | Filtert wiederholte benachbarte Zeilen von INPUT (oder `stdin`) |
|              | und schreibt diese nach OUTPUT (oder `stdout`). |
| Wichtige Optionen: | |
| -c, --count | Stellt den Zeilen die Anzahl ihrere Vorkommen voran |
| -i, --ignore-case | Ignoriert Groß- und Kleinschreibung |
| -u, --unique | Gibt nur einzigartige Zeilen aus |


In [13]:
%%bash
cat wahlverwandschaften.txt | tr -s ' ' '\n' | sort | uniq -c | head

   1 -,
   1 -bereiten
   1 -einfahren,
   1 -tauschen,
   1 :
   3 A
   1 A,
   2 Abend
   3 Abende
   2 Abends


---
## &Uuml;bungsaufgaben 1
### 1. Aufgabe `kbytes`
Schreiben Sie ein Skript `kbytes.bash`, das f&uuml;r jede &uuml;bergebene Datei die Gr&ouml;&szlig;e der Datei in Kilobytes (=Bytes/1000) ausgibt.  Besipiel:
```bash
$./kbytes.bash *.txt
a.txt: 3K
b.txt: 0K
c.txt: 10K
$
```

### 2. Aufgabe `man_words`
Schreiben Sie ein Skript `man_words.bash`, das  das f&uuml;r jede &uuml;bergebenen Namen die Anzahl der W&ouml;rter in der entsprechenden Manpage vorkommt.
Falls f&uuml;r einen Namen kein Manpage-Eintrag existiert, soll `??` ausgegeben werden.  Beispiel:
```bash
$ ./man_words.bash ls xx
ls: 945
xx: ??
$
```

### 3. Aufgabe `add_header`
Schreiben Sie ein Skript `add_header.bash`, das seine Standardeingabe liest, dieser einen Header voranstellt. 
Die vorangestellten Header-Zeilen sollen dabei die einzelnen Kommandozeilenargumente sein.  Beispiel:
```bash
$ echo "Hello, world!" | ./add_header '# my' '# header'
# my
# header
Hello, world!
$
```

### 4. Aufgabe `freq_list`

Schreiben Sie ein Bash-Skript, das für eine Textdatei
(z.B. `wahlverwandschaften.txt`) die Frequenzen der Wörter im Text berechnet und
diese dann mitsamt ihrer Frequenzen zeilenweise nach `stdout` schreibt. 

Verwenden Sie dazu: 
- `tr` zur Erstellung einer Tokenliste 
- `sort` zur alphabetischen Sortierung 
- `uniq` zur Zählung der Types 
- `sort` für eine abschließende Frequenzsortierung.

Beispiel:

```bash
$ ./freq_list.bash wahlverwandschaften.txt
17 der
216 in
13 sagte
...
$
```


### 5. Aufgabe `bigrams`

Schreiben Sie ein Bash-Skript, das für eine Textdatei
(z.B. `wahlverwandschaften.txt`) die Bigramme im Text berechnet und
diese dann mitsamt ihrer Frequenzen zeilenweise nach `stdout` schreibt
(Hinweise: `man paste`, Sie können auch temporäre Dateien verwenden,
schauen sie sich die verschiedenen Optionen von `tail` genauer an). 
Beispiel:

```bash
$ ./bigrams.bash wahlverwandschaften.txt
17 der Hauptmann
16 in der
13 sagte Eduard
...
$
```
Wie können Sie nun die Verteilung der Bigramme mit `plot.py` plotten?
