# Python für Geisteswissenschaftler/innen
(Teil 3)

Melanie Andresen

[melanie.andresen@uni-hamburg.de](mailto:melanie.andresen@uni-hamburg.de)

## Agenda
### Im letzten Teil:
* Listen
* Boolsche Ausdrücke
* Bedingungen
* Schleifen
* Dateien einlesen und schreiben

### In diesem Teil:
* Debugging: Wo ist der Fehler?
* Dictionaries
* Module einbinden und nutzen
    * os-Modul
    * NumPy

## Stil
* Variablennamen mit Kleinbuchstaben beginnen
* Leerzeichen zur verbesserten Lesbarkeit einsetzen:

In [1]:
name = 'Karin'

* Aber: keine Leerzeichen vor der Klammer bei Funktionen:

In [2]:
print('Wie heißt du?')

Wie heißt du?


* Leerzeilen zwischen funktionalen Abschnitten

## Kommentare
Kommentare im Code sind dringend notwendig,
* damit andere Leute meinen Code verstehen.
* damit ich meinen Code von letzter Woche verstehe.

Kommentare in Python beginnen mit der Raute und einem Leerzeichen:

In [3]:
# Hier passiert folgendes:

Kommentare können rechts vom Code in der gleichen Zeile folgen:

In [4]:
verben = []    # Leere Liste für die Ergebnisse

## Debugging

Es funktioniert nicht. Was tun?

Vorbeugen:
* Kleinschrittig vorgehen. Immer nur wenige Veränderungen vornehmen und das Programm dann laufen lassen.

Es funktioniert nicht. Was tun?

* Fehlermeldungen lesen

In [5]:
lemmas = 'Ente'
lemmas.append('Katze')

AttributeError: 'str' object has no attribute 'append'

Es funktioniert nicht. Was tun?

* `print()`-Befehle einfügen: Lass dir an mehreren Stellen im Skript Zwischenergebnisse ausgeben. So kannst du sehen, ab wo das Problem entsteht. Es kann außerdem hilfreich sein, sich mit `print(type(<variable>))` den Datentyp einer Variablen ausgeben zu lassen.

Es funktioniert nicht. Was tun?
* Debugging mit PyCharm: PyCharm ermöglicht es uns, ein Skript an einer beliebigen Stelle in der Ausführung zu stoppen und die Belegung der Variablen zu sichten.

Es funktioniert nicht. Was tun?
* Rubber Duck Debugging!

![](https://upload.wikimedia.org/wikipedia/commons/d/d5/Rubber_duck_assisting_with_debugging.jpg)
[Tom Morris [CC BY-SA 3.0] from Wikimedia Commons: https://commons.wikimedia.org/wiki/File:Rubber_duck_assisting_with_debugging.jpg](https://upload.wikimedia.org/wikipedia/commons/d/d5/Rubber_duck_assisting_with_debugging.jpg)

## Rubber Ducking
A very simple but particularly useful technique for finding the cause of a problem is simply to explain it to someone else. The other person should look over your shoulder at the screen, and nod his or her head constantly (like a rubber duck bobbing up and down in a bathtub). They do not need to say a word; the simple act of explaining, step by step, what the code is supposed to do often causes the problem to leap off the screen and announce itself. <sup>7<sup>
*****
7 Why “rubber ducking”? While an undergraduate at Imperial College in London, Dave did a lot of work with a research assistant named Greg Pugh, one of the best developers Dave has known. For several months Greg carried around a small yellow rubber duck, which he’d place on his terminal while coding. It was a while before Dave had the courage to ask...

[Aus: Andrew Hunt & David Thomas (2000): The Pragmatic Programmer. Addison-Wesley. S.95. URL: https://www.nceclusters.no/globalassets/filer/nce/diverse/the-pragmatic-programmer.pdf](https://www.nceclusters.no/globalassets/filer/nce/diverse/the-pragmatic-programmer.pdf)

## Dictionaries

Ein Dictionary enthält Datenpaare, z. B. wie ein klassisches Wörterbuch:

In [6]:
woerterbuch = {'Ente' : 'duck', 'Käse' : 'cheese', 'Holz' : 'wood'}

Jedes Datenpaar besteht aus einem Schlüssel (key) und einem Wert (value), die mit einem Doppelpunkt getrennt werden.

Die Datenpaare werden durch Kommas voneinander getrennt.

Werte abfragen:

In [7]:
woerterbuch['Ente']

'duck'

Ergänzungen vornehmen:

In [8]:
woerterbuch['Tee'] = 'tea'
print(woerterbuch)

{'Ente': 'duck', 'Käse': 'cheese', 'Holz': 'wood', 'Tee': 'tea'}


## Dicts vs. Listen
Dicts und Listen haben einige Gemeinsamkeiten:

Länge prüfen:

In [9]:
len(woerterbuch)

4

Prüfen, ob ein Schlüssel enthalten ist:

In [10]:
'Ente' in woerterbuch

True

Über die Elemente iterieren:

In [11]:
for key in woerterbuch:
    print(key, woerterbuch[key])

Ente duck
Käse cheese
Holz wood
Tee tea


Dicts und Listen unterscheiden sich in wichtigen Punkten:
* Im Dict sind immer Datenpaare abgelegt. Dadurch kann man z. B. kodieren, welche Art Information vorliegt:

In [12]:
wort = {'token' : 'Enten', 'lemma' : 'Ente', 'pos' : 'NN'}

Dicts und Listen unterscheiden sich in wichtigen Punkten:

* Im Dict sind immer Datenpaare abgelegt.
* Dicts sind nicht sortiert, d.h. die Reihenfolge ihrer Elemente ist nicht stabil. Man kann deshalb keine Elemente über einen Index anwählen.

### Counter-Objekte
Für bequeme Frequenzzählungen stehen uns die Counter-Objekte aus dem Modul `collections` zur Verfügung:

In [13]:
from collections import Counter

liste = ['Ente', 'Dinosaurier', 'Ente', 'Ente', 'Gans', 'Ente', 'Ente', 'Gans', 'Käse', 'Käse']

frequenzen = Counter(liste)

print(frequenzen)

Counter({'Ente': 5, 'Gans': 2, 'Käse': 2, 'Dinosaurier': 1})


## Module

* Module sind Sammlungen von Funktionen, die andere Autor/inn/en für Python geschrieben und veröffentlicht haben.
* Wir haben im ersten Teil schon das re-Modul für reguläre Ausdrücke kennengelernt.
* Module müssen am Anfang der Datei einmal importiert werden:

In [14]:
import re

* Später können die Funktionen im Modul über den Namen des Moduls aufgerufen werden:

`re.sub()`

## Das `os`-Modul
os = operating system, Betriebssystem

Dokumentation: [https://docs.python.org/3/library/os.html](https://docs.python.org/3/library/os.html)

`os.getcwd()`

Gibt das aktuelle Working Directory zurück, also den Ort in der Ordnerstruktur, an dem wir uns gerade befinden. Das ist z. B. relevant, wenn wir Dateien öffnen wollen.

`os.listdir(<path='.'>)`

Listet alle Dateien auf, die an einem gegebenen Ort zu finden sind. Sehr praktisch, um danach über alle diese Dateien zu loopen!

In [15]:
import os
files = os.listdir('Daten/')
print(files)

['my_file.txt', 'cities.txt', 'cities_out.xlsx', 'cathaskueche_04.txt', 'cities_out.txt']


## Das `NumPy`-Modul

* Sehr umfassendes Paket für alles Mathematische.
* Dokumentation: [https://docs.scipy.org/doc/](https://docs.scipy.org/doc/)
* Wird üblicherweise so importiert:

In [16]:
import numpy as np

Einfache Statistiken:

In [17]:
zahlen = [2, 54, 18, 34, 44, 9]

np.mean(zahlen)    # Mittelwert

26.833333333333332

In [18]:
np.median(zahlen)    # Median

26.0

In [19]:
np.std(zahlen)    # Standardabweichung

18.69417615788998

### Randomisierung

Liste zufällig durchmischen:

In [20]:
liste = ['Apfel', 'Käse', 'Brot', 'Enten']
np.random.shuffle(liste)
print(liste)

['Käse', 'Brot', 'Enten', 'Apfel']


Aus den Zahlen bis 2000 zufällig 25 ziehen:

In [21]:
np.random.choice(2000, 25, replace=False)

array([ 339, 1393, 1637,   79, 1998, 1618, 1798,  117,  205,  514, 1392,
        807, 1572, 1977, 1613, 1241, 1342,  735, 1819,  171, 1315,  544,
       1106,   74, 1590])

[https://docs.scipy.org/doc/numpy/reference/routines.random.html](https://docs.scipy.org/doc/numpy/reference/routines.random.html)

## Im nächsten Teil:
* Fehlertypen
* Eigene Funktionen schreiben
* Mit natürlicher Sprache arbeiten (NLTK/spaCy)
* Mit tabellarischen Daten arbeiten (pandas)