# Python für Geisteswissenschaftler/innen
(Teil 4)

Melanie Andresen

[melanie.andresen@uni-hamburg.de](mailto:melanie.andresen@uni-hamburg.de)

## Agenda
### Im letzten Teil:
* Debugging: Wo ist der Fehler?
* Dictionaries
* Module einbinden und nutzen
    * os-Modul
    * NumPy

### In diesem Teil:
* Fehlertypen
* Eigene Funktionen schreiben
* Mit natürlicher Sprache arbeiten (NLTK/spaCy)
* Mit tabellarischen Daten arbeiten (pandas)

## Diverses

### String-Formatierung

In [1]:
zahl = 42

print('Die Antwort lautet {}!'.format(zahl))

Die Antwort lautet 42!


&rarr; Keine Konvertierung von Zahlen notwendig.

Auch mit mehreren Variablen:

In [2]:
zahl = 42
zahl_2 = 73

print('Die Antwort lautet {} oder {}!'.format(zahl, zahl_2))

Die Antwort lautet 42 oder 73!


### List Comprehensions
Ermöglicht z. B. Filtern von Listen sehr kompakt:

In [3]:
import re

liste = ['Apfel', 'Ameise', 'Banane', 'Angel']
liste2 = [item for item in liste if re.match('A', item)]

print(liste2)

['Apfel', 'Ameise', 'Angel']


statt

In [4]:
liste2 = []

for item in liste:
    if re.match('A', item):
        liste2.append(item)
        
print(liste2)

['Apfel', 'Ameise', 'Angel']


## Fehlertypen

### Syntaxfehler
Die Syntax des Codes wird vor der eigentlichen Ausführung geprüft. Auch wenn der Fehler erst am Ende des Codes auftritt, wird auch der Teil davor nicht ausgeführt.

In [5]:
if 'miau' in 'Krimiautorin'
    print('Miau!')


SyntaxError: invalid syntax (<ipython-input-5-7fe781f9e4c2>, line 1)

### Exceptions
Der Code ist syntaktisch korrekt, aber bei der Ausführung entstehen Fehler. Zum Beispiel hat eine Variable nicht den erwarteten Typ. Der Code bis zur Exception wird ausgeführt.

* Es gibt viele unterschiedliche Exceptions und es lohnt sich, die häufgsten zu kennen.
* Überblick zu allen Built-in-Exceptions von Python: [https://docs.python.org/3/library/exceptions.html#bltin-exceptions](https://docs.python.org/3/library/exceptions.html#bltin-exceptions)

### NameError

Der Code versucht eine Variable aufzurufen, die nicht definiert ist.

In [6]:
print(ente)

NameError: name 'ente' is not defined

### IndexError
Es wird versucht, über einen Index auf Elemente einer Sequenz (z. B. einer Liste oder eines Strings) zuzugreifen, es gibt diesen Index aber nicht, weil die Sequenz zu kurz ist.

In [7]:
list = ['Käse', 'Orangen', 'Waschmittel']
list[3]

IndexError: list index out of range

### KeyError
Das Skript versucht über einen Key auf ein Dictionary zuzugreifen, es gibt diesen Key im Dictionary aber nicht.

In [8]:
dict = {'Ente': 'duck', 'Maus': 'mouse'}
dict['Huhn']

KeyError: 'Huhn'

### TypeError
Eine Operation kann nicht durchgeführt werden, weil ein Wert den falschen Datentyp hat.

In [9]:
a = 6
for item in a:
    print(item)

TypeError: 'int' object is not iterable

In [10]:
a = 6
a[0]

TypeError: 'int' object is not subscriptable

### ZeroDivisionError
Der Code verlangt eine Division durch Null. Der Grund ist oft, dass eine Variable durch einen Fehler im Code nicht definiert wurde, z. B. eine Liste leer geblieben ist.

In [11]:
list = []
result = sum(list) / len(list)

ZeroDivisionError: division by zero

### AttributeError
Im Code wird ein Attribut zu einem Objekt aufgerufen, das dieses Attribut aber gar nicht hat.

In [12]:
name = 'Andresen'
name.sort()

AttributeError: 'str' object has no attribute 'sort'

### KeyboardInterrupt
Wird ausgegeben, wenn die Nutzerin die Ausführung des Skriptes durch die Tastatur stoppt (Control + C).

## Funktionen schreiben

## Funktionen
Eine Funktion ist ein Stück Code, das wir über einen Namen aufrufen können.

Typischerweise nimmt eine Funktion eine oder mehrere Variablen als Argumente und gibt einen Wert zurück. z. B.:

`re.sub(<pattern>, <replacement>, <string>)`

(Gibt den String mit den Ersetzungen zurück)

Wir können selbst neue Funktionen definieren.

Vorteile:
* Wir können den Code mehrfach im Skript aufrufen, ohne alles nochmal schreiben zu müssen.
* Der Code wird modularer und dadurch übersichtlicher.

Funktionen haben in Python folgende Form:

In [13]:
def coordinate(wort1, wort2):
    coordination = wort1 + ' und ' + wort2
    return coordination

print(coordinate('Käsebrot', 'ich'))

Käsebrot und ich


## Rekursion

Eine rekursive Funktion ruft sich selbst wieder auf.

Linguistik:

NP &rarr; ART + NN + NP

die Mutter der Präsidentin der Gesellschaft der ...

Eine rekursive Funktion ruft sich selbst wieder auf.

In [14]:
def verdoppeln(word):
    word = word + word
    if len(word) < 60:
        word = verdoppeln(word)
    return word

doppelwort = verdoppeln('Ente')

print(doppelwort)

EnteEnteEnteEnteEnteEnteEnteEnteEnteEnteEnteEnteEnteEnteEnteEnte


## Mit natürlicher Sprache arbeiten (NLTK/spaCy)

Zur Arbeit mit natürlicher Sprache stehen uns unterschiedliche Module zur Verfügung. Hier im Kurs arbeiten mit mit dem NLTK und/oder spaCy, weil erfahrungsgemäß beide auf manchen Rechnern Probleme bereiten.
## NLTK
* Natural Language Toolkit
* Dokumentation: [http://www.nltk.org/](http://www.nltk.org/)
* Buch dazu unter CC-Lizenz: [http://www.nltk.org/book/](http://www.nltk.org/book/)

## spaCy
* Dokumentation: https://spacy.io/

## Tokenisierung

Als Tokenisierung bezeichnet man die Zerlegung von Zeichenketten in Wörter und/oder Sätze.


Herausforderungen der **Worttokenisierung**:
1. Am Mittwoch fliege ich nach New York.
2. I just bought a robotic vacuum cleaner.
3. Ich mag meinen Staubsaugerroboter.

Als Tokenisierung bezeichnet man die Zerlegung von Zeichenketten in Wörter und/oder Sätze.

Herausforderungen der **Satztokenisierung**:
1. Ich habe gerade Frau Dr. Meier getroffen. 
2. Ich mag z. B. Enten.
3. Wir brauchen mindestens 1.000 Enten!

## Tokenisierung mit dem NLTK

Segmentierung von Texten in Sätze:

In [15]:
import nltk

sent_tokenizer = nltk.data.load('tokenizers/punkt/german.pickle')        # Wir laden das deutsche Modell
text = 'Ich habe gerade Frau Dr. Meier getroffen. Am Mittwoch fliege ich nach New York. Ich mag z.B. Enten.'
sentences = sent_tokenizer.tokenize(text)

print(sentences)

['Ich habe gerade Frau Dr. Meier getroffen.', 'Am Mittwoch fliege ich nach New York.', 'Ich mag z.B. Enten.']


Segmentierung von Sätzen in Wörter (Tokens):

In [16]:
import nltk

sent = 'Ich habe gerade Frau Dr. Meier getroffen.'
tokens = nltk.word_tokenize(sent, language='german')

print(tokens)

['Ich', 'habe', 'gerade', 'Frau', 'Dr.', 'Meier', 'getroffen', '.']


## Tokenisierung mit spaCy

In [17]:
import spacy

text = 'Ich habe gerade Frau Dr. Meier getroffen. Am Mittwoch fliege ich nach New York. Ich mag z.B. Enten.'

nlp = spacy.load('de_core_news_sm')      # Wir laden das deutsche Modell
doc = nlp(text)

for word in doc:
    print(word)

Ich
habe
gerade
Frau
Dr.
Meier
getroffen
.
Am
Mittwoch
fliege
ich
nach
New
York
.
Ich
mag
z.B.
Enten
.


In [18]:
for sentence in doc.sents: 
    print(sentence)

Ich habe gerade Frau Dr. Meier getroffen.
Am Mittwoch fliege ich nach New York.
Ich mag z.B. Enten.


## Zum Weiterlesen
- Buch zum NLTK: [http://www.nltk.org/book/](http://www.nltk.org/book/)
- Tutorial für komplexere Anwendungen von spaCy, z. B. Annotation von Wortarten: https://course.spacy.io/ oder https://spacy.io/usage/spacy-101

## Tabellarische Daten: pandas

## pandas
* Modul für die Arbeit mit tabellarischen Daten
* Import:

In [19]:
import pandas as pd

* Dokumentation: [http://pandas.pydata.org/pandas-docs/stable/index.html](http://pandas.pydata.org/pandas-docs/stable/index.html)

## Datentypen in pandas
* Series
    * eindimensionale Datenstruktur, Datenreihe, entspricht z. B. den Daten einer Spalte
* DataFrame
    * zweidimensionale Datenstruktur, Tabelle

DataFrame erstellen:

In [20]:
cities = pd.DataFrame({'name': ['Hamburg', 'München', 'Amsterdam', 'Madrid', 'Prag'], 'temperature': [10,21,15,33,19]})

print(cities)

        name  temperature
0    Hamburg           10
1    München           21
2  Amsterdam           15
3     Madrid           33
4       Prag           19


## Input und Output mit pandas

Daten aus Datei einlesen:

In [21]:
cities = pd.read_csv('Daten/cities.txt', sep = '\t', index_col=0)

print(cities)

           temperature  population   area
name                                     
Hamburg           12.8     1830584  755.0
München           13.0     1456039  310.4
Amsterdam         13.4      862276  219.3
Madrid            19.5     3182981  604.3
Prag              12.6     1294513  496.0


Optionen: [http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)

Daten in Datei schreiben:

In [22]:
cities.to_csv('Daten/cities_out.txt', sep = '\t')

Optionen: [http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html)

Auch in und aus Excel (mit Nachinstallation weiterer Module):

In [23]:
cities.to_excel('Daten/cities_out.xlsx')

In [24]:
cities = pd.read_excel('Daten/cities_out.xlsx', index_col=0)
print(cities)

           temperature  population   area
name                                     
Hamburg           12.8     1830584  755.0
München           13.0     1456039  310.4
Amsterdam         13.4      862276  219.3
Madrid            19.5     3182981  604.3
Prag              12.6     1294513  496.0


## Einfache deskriptive Statistiken

In [25]:
cities.describe()

Unnamed: 0,temperature,population,area
count,5.0,5.0,5.0
mean,14.26,1725279.0,477.0
std,2.944147,885834.1,216.803563
min,12.6,862276.0,219.3
25%,12.8,1294513.0,310.4
50%,13.0,1456039.0,496.0
75%,13.4,1830584.0,604.3
max,19.5,3182981.0,755.0


## DataFrames sortieren
* Nach Werten einer Spalte

In [26]:
cities.sort_values(by='population')

Unnamed: 0_level_0,temperature,population,area
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Amsterdam,13.4,862276,219.3
Prag,12.6,1294513,496.0
München,13.0,1456039,310.4
Hamburg,12.8,1830584,755.0
Madrid,19.5,3182981,604.3


## DataFrames

### Spalten auswählen
* über den Namen:

In [27]:
cities['population']

name
Hamburg      1830584
München      1456039
Amsterdam     862276
Madrid       3182981
Prag         1294513
Name: population, dtype: int64

### Zeilen auswählen
* Auswahl über Label mit `loc`:

In [28]:
cities.loc['München']

temperature         13.0
population     1456039.0
area               310.4
Name: München, dtype: float64

* anhand von Bedingungen:

In [29]:
cities[(cities.temperature>13)]

Unnamed: 0_level_0,temperature,population,area
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Amsterdam,13.4,862276,219.3
Madrid,19.5,3182981,604.3


### Einzelne Zellen auswählen:

In [30]:
cities.loc['München','population']

1456039

## Daten ergänzen

Spalten (Variablen) ergänzen:

In [31]:
cities['language'] = ['German', 'German', 'Dutch', 'Spanish', 'Czech']

print(cities)

           temperature  population   area language
name                                              
Hamburg           12.8     1830584  755.0   German
München           13.0     1456039  310.4   German
Amsterdam         13.4      862276  219.3    Dutch
Madrid            19.5     3182981  604.3  Spanish
Prag              12.6     1294513  496.0    Czech


Zeilen (Instanzen) ergänzen:

In [32]:
cities.loc['Rome'] = [20.5, 2873494, 1285.3, 'Italian']

print(cities)

           temperature  population    area language
name                                               
Hamburg           12.8     1830584   755.0   German
München           13.0     1456039   310.4   German
Amsterdam         13.4      862276   219.3    Dutch
Madrid            19.5     3182981   604.3  Spanish
Prag              12.6     1294513   496.0    Czech
Rome              20.5     2873494  1285.3  Italian


## Gruppenweise Auswertungen

In [33]:
cities.groupby('language').sum()

Unnamed: 0_level_0,temperature,population,area
language,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Czech,12.6,1294513,496.0
Dutch,13.4,862276,219.3
German,25.8,3286623,1065.4
Italian,20.5,2873494,1285.3
Spanish,19.5,3182981,604.3


## Mit Spalten rechnen

In [34]:
cities['people_per_area'] = cities['population'] / cities['area']
print(cities)

           temperature  population    area language  people_per_area
name                                                                
Hamburg           12.8     1830584   755.0   German      2424.614570
München           13.0     1456039   310.4   German      4690.847294
Amsterdam         13.4      862276   219.3    Dutch      3931.947104
Madrid            19.5     3182981   604.3  Spanish      5267.219924
Prag              12.6     1294513   496.0    Czech      2609.905242
Rome              20.5     2873494  1285.3  Italian      2235.660157


### Zum Weiterlesen

Kurzer Überblick über die Funktionen mit Links zur ausführlichen Dokumentation: [http://pandas.pydata.org/pandas-docs/stable/10min.html](http://pandas.pydata.org/pandas-docs/stable/10min.html)

Vergleich mit R: [http://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html](http://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html)

## Zum Weiterlernen
- Sehr viele praktische Anwendungsszenarien (nicht nur in Python) für Geisteswissenschaftler/innen: https://programminghistorian.org/
- Einen Hamster steuern in Python: http://www.java-hamster-modell.de
- einfache Spiele programmieren mit Pygame Zero: https://pygame-zero.readthedocs.io

## Danke und viel Spaß beim Programmieren!