# Einführung in die Kommandozeile

## Was ist die Kommandozeile?
- Werkzeug zum textuellen Arbeiten mit dem Computer
- Klassische Aufgaben wie etwa..
    - Dateien: öffnen, schließen, anlegen, löschen, umbenennen ..
    - Durch Verzeichnisse navigieren
- ..werden über (Text)befehle umgesetzt (Beispiel: ```pwd```)

## Ein kleines Beispiel..

In [1]:
%%bash
ls -C

Einstieg_Kommandozeile.ipynb  Einstieg_Pandas.ipynb
Einstieg_Matplotlib.ipynb     Einstieg_Python.ipynb


## Vor- /Nachteile Kommandozeile
<div style="color:#42f456">** Vorteile: **</div>
- Kann ohne grafische Oberfläche genutzt werden..
    - SSH: Wartung/Nutzung von entfernten Rechnern zB. Webserver
- "Mächtigere Befehle"
- Möglichkeit zur Automatisierung (Bash-Scripts)


<div style="color:red">** Nachteile: **</div>
- Anfangs: Höhere Lernkurve
- Für kleine Aufgabe (doch) zu umständlich (zB. einzelne Dateien löschen geht grafisch schneller)</p>

# Navigation
- Beim Start befindet sich Kommandozeile in einem "Startordner"
    - `pwd` public working directory
- Wie bei Windows und co. können sie Ordner wechseln..
    - `cd Pfadname` , etwa: "C:\Users\Desktop" oder "\home\pi"
    - `cd ~` wechselt ins HOME-Verzeichnis (je nach Betriebssystem)
- `ls` zeigt den Inhalt des aktuellen Ordners an, mit `ls -a` auch Verstecktes

In [2]:
%%bash
pwd
#cd ~
#ls -a
# 


C:/Users/Philipp Steinweg/Desktop/Projekte/data-visualization/notebooks


# Mit (Text)dateien arbeiten
Unser Trainingsbeispiel heute: *inaugural adresses*
- Textdateien aus NLTK, einer Bibliothek zur Sprachverarbeitung in Python
- 56 Textdateien , Antrittsrede jeweils eines Präsidenten

In [15]:
%%bash
cd ../datasets/inaugural
ls -C

summary.txt  zusammenfassung_washington.txt


In [4]:
%%bash
cd "C:/Users/Philipp Steinweg/AppData/Roaming/nltk_data/corpora/inaugural"
head -c100 "1789-Washington.txt"

Fellow-Citizens of the Senate and of the House of Representatives:

Among the vicissitudes incident 

## `head` - Einen Überblick verschaffen

- `head Dateiname` ermöglicht eine Dateivorschau
    - konkrete Datei: `head 1789-Washington.txt` oder Dateimuster: `head *.txt` oder `head 17**.txt`
- `-c` beschränkt Übersicht auf n Zeichen
    - `head -c140 1789-Washington.txt` zeigt ersten 140 Zeichen

In [17]:
%%bash
cd ../datasets/inaugural
head "1789-Washington.txt"

head: cannot open '1789-Washington.txt' for reading: No such file or directory


# `>` - Ausgaben in Dateien umleiten

- Mit `>` leiten sie Textausgabe in eine Datei um
    - Beispiel: `head -c140 1789-Washington.txt > zusammenfassung_washington.txt`
    - Befehl leitet die ersten 140 Zeichen der Washington-Rede in neue Datei
    

In [19]:
%%bash
cd ../datasets/inaugural  
head -c140 "1789-Washington.txt" > "zusammenfassung_washington.txt"

head: cannot open '1789-Washington.txt' for reading: No such file or directory


# Zwischenaufgabe:
1. Lassen sie sich eine Zusammenfassung (~100 Zeichen) aller Reden in eine Datei schreiben
2. Öffnen sie die erzeugte Datei mit dem Befehl `nano name-der-datei`

In [7]:
%%bash
cd "../datasets/inaugural"
head -c140 *.txt > summary.txt
ls -C
#nano name-der-datei
#----Alternativ----
#cat name-der-datei

summary.txt  zusammenfassung_washington.txt


## (Text)daten verarbeiten
Wir wollen nun einmal tiefer in die Daten schauen...


<div style="font-size:80px;"><center><b> Was könnte interessant sein? </b></center></div>

 # `wc` - Wörter zählen
 
- `wc` gibt #Zeilen, #Zeichen ,#Wörter und den Dateinamen aus
    - Beispiel: `wc 1789-Washington.txt` erzeugt `13 1431 8619 1789-Washington.txt`
- `wc-c`/`wc -m` (characters) `wc -l` (lines) `wc -w` (words) um Ausgabe zu filtern


In [8]:
%%bash
cd "../datasets/inaugural"
# wc 1789-Washington.txt
# wc -c 1789-Washington.txt
# wc -l 1789-Washington.txt
# wc -w 1789-Washington.txt
wc --help

Usage: wc [OPTION]... [FILE]...
  or:  wc [OPTION]... --files0-from=F
Print newline, word, and byte counts for each FILE, and a total line if
more than one FILE is specified.  A word is a non-zero-length sequence of
characters delimited by white space.

With no FILE, or when FILE is -, read standard input.

The options below may be used to select which counts are printed, always in
the following order: newline, word, character, byte, maximum line length.
  -c, --bytes            print the byte counts
  -m, --chars            print the character counts
  -l, --lines            print the newline counts
      --files0-from=F    read input from the files specified by
                           NUL-terminated names in file F;
                           If F is - then read names from standard input
  -L, --max-line-length  print the maximum display width
  -w, --words            print the word counts
      --help     display this help and exit
      --version  output version information and 

# Zwischenaufgabe:

1. Zählen sie die Wörter aller Reden
    - Welcher Präsident war am "gesprächigsten"?
    - Gibt es Ausreißer? Wie lassen sich diese Ausreißer erklären?
    

In [9]:
%%bash
cd "C:/Users/Philipp Steinweg/AppData/Roaming/nltk_data/corpora/inaugural"

# `sort` - Dateien/Ausgaben sortieren

- `sort dateiname` sortiert Datei zeilenweise
- standardmäßig wird aufsteigend lexikographisch sortiert
    - a < b < ... z < A < B < .. Z
    - 0 < 1 ... ! Fehler bei mehrziffrigen Zahlen, `-n` erzwingt numerische Sortierung
- `man sort` bzw. `sort --help` für weitere Einstellungen

# `sort` - Dateien/Ausgaben sortieren

In [10]:
%%bash
cd "../datasets/inaugural"  
wc -w *.txt | sort

0 summary.txt
0 total
0 zusammenfassung_washington.txt


# `grep` - Worte / Wortmuster suchen

- `grep` ermöglicht die Suche von Wort bzw. Wortmustern in Dateien
    - Ausgabe: Wort + umliegender Text
    - Ähnlich zu: "Strg+F" im Browser
- `grep -n` `grep -b` geben an wo sich Worte im Text befinden
- `grep -c` zählt wie oft Wort im Text vorkommt
- `grep --help`

In [11]:
%%bash
cd "../datasets/inaugural"
#grep "war" *.txt
#grep -n "war" *.txt
#grep -c "war" *.txt
grep --help

Usage: grep [OPTION]... PATTERN [FILE]...
Search for PATTERN in each FILE or standard input.
PATTERN is, by default, a basic regular expression (BRE).
Example: grep -i 'hello world' menu.h main.c

Regexp selection and interpretation:
  -E, --extended-regexp     PATTERN is an extended regular expression (ERE)
  -F, --fixed-strings       PATTERN is a set of newline-separated strings
  -G, --basic-regexp        PATTERN is a basic regular expression (BRE)
  -P, --perl-regexp         PATTERN is a Perl regular expression
  -e, --regexp=PATTERN      use PATTERN for matching
  -f, --file=FILE           obtain PATTERN from FILE
  -i, --ignore-case         ignore case distinctions
  -w, --word-regexp         force PATTERN to match only whole words
  -x, --line-regexp         force PATTERN to match only whole lines
  -z, --null-data           a data line ends in 0 byte, not newline

Miscellaneous:
  -s, --no-messages         suppress error messages
  -v, --invert-match        select non-matching 

# Zwischenaufgabe

1.Schauen sie, wie oft bestimmte Keywords in den einzelnen Reden vorkommen
- Interessante Keywords: terror, war, freedom, citizen ..

2.Sortieren sie die Aufgabe - verwenden sie hierfür `sort -t: -k2nr`

In [20]:
%%bash
cd ../datasets/inaugural
grep -c " terror " *.txt | sort -t: -k2nr

summary.txt:0
zusammenfassung_washington.txt:0


# Ein komplexeres Beispiel - Worthäufigkeiten
Als abschließendes Beispiel wollen wir einmal die Worthäufigkeiten in allen Reden erfassen


In [22]:
%%bash
cd ../datasets/inaugural
export LC_ALL='C'
cat *.txt | tr " " "\n" | sort -b | uniq -c | sort -nr

# Funktionsweise
1. Fügt alle Texte zu einem großen Text zusammen - `cat *.txt |` 
2. Schreibe so um, dass jedes Wort in einer neuen Zeile steht - `tr " " "\n" |` 
3. Sortiere diese Ausgabe - `sort |`
4. Fasse gleiche Zeilen zusammen und zähle `uniq -c |`
5. Sortiere diese Ausgabe wieder , numerisch und absteigend `sort -nr`

# Mit PDFs arbeiten

Das Kommandozeilentool `pdftotext` ermöglicht es, PDF-Dateien in Text umzuwandeln
 - Funktioniert nur falls "wirklicher" Text im PDF vorhanden ist
 - Funktioniert nicht bei sog. Faksimile , d.h. zB. Bilder auf denen Text steht
 - Befehl: `pdftotext Dateiname`

In [14]:
%%bash
cd ../pdf
#ls
#pdftotext bitcoin-whitepaper.pdf

# Aufgabe

1. Wandeln sie das im Ordner `pdf` hinterlegte Bitcoin-Whitepaper in eine Textdatei um
2. Nutzen sie `head` um eine Übersicht über die Datei zu bekommen
3. Nutzen sie `grep` und schauen sie
    - wie oft typische Buzzwords wie *Blockchain* , *Crypto* oder *Bitcoin* im Text auftauchen
    - welche Worte für die technische Beschreibung genutzt werden
    
    

# Fazit

- Kommandozeile bringt mächtige Tools mit - Nutzen sie sie!
- textuelles Arbeiten: anfangs sperrig, sobald gelernt: angenehm/nützlich
- Auch Alltags-Software bringt Textkommandos mit
    - zB. Google: `define: Automat` oder `site:wikipedia.org`
    
    <a href="https://www.google.de/search?q=define:+Automat&ie=utf-8&oe=utf-8&client=firefox-b-ab&gws_rd=cr&dcr=0&ei=7qmqWunLDcewkwX4mICYBw">define:Automat</a>
    
    [site:wikipedia.org](https://www.google.de/search?safe=off&client=firefox-b-ab&dcr=0&ei=GaqqWvKJIo_VkwWpzZroDg&q=Commerzbank+site%3Awikipedia.org&oq=Commerzbank+site%3Awikipedia.org&gs_l=psy-ab.3...15794.20526.0.20718.31.30.0.0.0.0.180.2690.19j10.30.0..2..0...1.1.64.psy-ab..1.17.1768.6..0j35i39k1j0i131k1j0i67k1j0i22i30k1.102.9gWM-cBRdLY)
    
    


# Befehlsübersicht