# Überblick

* Dieses Notebook gibt einen Überblick über grundlegende Konzepte der Programmiersprache Python.
* Es richtet sich primär an Personen ohne Vorkenntnisse.
* Das Notebook integriert Übungen, mit denen man die Konzepte praktisch anwenden kann. Für diese Übungen gibt es auch beispielshafte Lösungen.
    *  Diese Beispielslösungen sind nicht die einzig richtigen: es gibt beim Programmieren eigentlich immer mehrere Wege, um ans Ziel zu kommen.
* Man muss nicht alles beim ersten Draufschauen verstehen und selbst anwenden können: Sie können immer wieder zu den Inhalten zurückkommen.
* Abschreiben und Abwandeln der Beispiele ist erlaubt: es ist gute Programmierpraxis, bestehenden funktionierenden Code anderer wiederzuverwenden.

# Python

* Programmiersprache: "ist eine **formale** Sprache zur Formulierung von **Datenstrukturen** und **Algorithmen**, d. h. von Rechenvorschriften, die von einem Computer ausgeführt werden können" ("Programmiersprache", Wikipedia)
* Muss auf Rechner installiert werden (auf Linux und Mac meist vorinstalliert)
* Verschiedene Versionen: Python 2.x und **Python 3.x**

In [None]:
# Überprüfung der Python-Version im Jupyter notebook
!python -V 


Überprüfung der Python-Version in der interaktiven shell / Kommandozeile

<img src="imgs/termcheck.gif" width="750" align="center">

# Ausführen von Python-Code

* interaktive Umgebung: Terminal
* Ausführen einer Code-Datei im Terminal
    * Code-Datei mit `.py` Endung (z.B. `my_script.py`)
    * typischerweise editiert mit einem speziellen Editor (z.B. Notepad++, Sublime Text, Visual Studio Code), der Code speziell formatiert
* **Jupyter Notebook**: browser-basierte Umgebung

# Verwendung im Terminal

* Der Befehl `python` startet eine interaktive Python-Shell.
* In der Shell kann dann Python-Code eingegeben  werden, der direkt ausgeführt wird.


In [None]:
# Kommentarzeile, markiert durch '#'. Wird nicht als Code interpretiert.
# print-Funktion: Ausgabe im Terminal , in einer interaktiven Python-Shell oder einem Jupyter Notebook

# String in doppelten oder einfachen Anführungszeichen
print("Hello World")
print('Hallo Welt!')

# Summen  bilden, Ergebnisse an Variablen x und y zuweisen
x=4+2
y=1+2.32
# Ausgabe der Ergebnisse
print(x)
print(y)
# Operator '+' kann auch für die Konkatenation von Strings verwendet werden
"Phon"+"ologie"


# Bestandteile / Element von Python-Programmen

```python
# namen ist eine Variable
# ["Noah", "Matteo", "Elias", "Luca", "Leon", "Theo", "Finn", "Paul","Emil", "Henry"]  ist eine Liste von  Strings 
# Es sind die 10 häufigste Namen für Jungen in 2024 in DE.
# Listen kann man mit eckigen Klammern definieren.
namen = ["Noah", "Matteo", "Elias", "Luca", "Leon", "Theo", "Finn", "Paul","Emil", "Henry"] 

# longest ist eine weitere Variable
longest=""

# die for-Schleife ist eine Kontrollstruktur mit der man der Reihe nach durch eine Liste von Elementen gehen kann
for name in namen:
    # Der if-Test ist ebenso eine Kontrollstruktur.
    # Er testet das Zutreffen einer Bedingung.
    # Hier prüfen wir, ob der aktuelle `name' länger ist als der bisher längste gesehene Name: wenn ja, wird der aktuelle Name zum längsten gesehenen Namen
    # len() ist eine Funktion (s.u.)
    if len(name)>len(longest):
        longest=name
print(longest)
```

* Die Funktion len() ist eine in Python eingebaute (built-in) Funktion: man muss nichts extra installieren, um sie verfügbar zu haben.
* Die Funktion len() gibt die Anzahl der Elemente in einem Objekt zurück, z. B. die Anzahl der Buchstaben in einem String oder die Anzahl der Elemente in einer Liste. len() kann auch  auf viele weitere Arten von "Container"-artigen Objekten angewendet  werden.
* Die Funktion len() braucht ein Argument , das ihr in den runden Klammern übergeben wird.




In [None]:
# namen ist eine Variable
# ["Noah", "Matteo", "Elias", "Luca", "Leon", "Theo", "Finn", "Paul","Emil", "Henry"]  ist eine Liste von  Strings
namen = ["Noah", "Matteo", "Elias", "Luca", "Leon", "Theo", "Finn", "Paul","Emil", "Henry"] 

# max_length eine weitere Variable
longest=""
# die for-Schleife ist eine Kontrollstruktur
for name in namen:
    # der if-Test ist eine Kontrollstruktur
    if len(name)>len(longest):
        longest=name
print(longest)

# Objekte und Typen 

* Wir programmieren mit unterschiedlichen Arten von Objekten.
* Wir können den Typ eines Objektes überprüfen, indem wir den Befehl `type()` verwenden.

```py
type(5)
type("Hallo Welt")
```

* Einige eingebaute Haupttypen:
    * int(eger) - ganze Zahl
    * float - Fließkommazahl
    * str(ing) - Text
* NB: auch Funktionen haben einen Typ!


In [None]:
print(type(5))
print(type("Hallo Welt"))
print(type(x))
print(type(y))
print(type(print))


## Your turn

* Ergeben `1+2` und `'1'+'2'` die gleichen Werte ❓

In [None]:
a=1+2
print(a)
print(type(a))
b='1'+'2'
print(b)
print(type(b))


## Your turn

* Was passiert in den nachfolgenden Beispielen ❓

In [None]:

print("+-" * 20)
print("hello"-"lo")
print("-" - 4)



# Konversion zwischen Typen

* Es gibt Funktionen , die zwischen (geeigneten) Strings, Integers und Floats konvertieren können.

In [None]:
a=3
print(type(a))

a2=str(a)
print(type(a2))

b='3.14'
print(type(b))

b2=float(b)
print(type(b2))

my_sum=b2+a
print(my_sum)


# Funktionen 

* Eine Funktion ist ein Code-Block, der nur ausgeführt wird, wenn er aufgerufen wird.
* Wir können Daten, sogenannte Parameter oder Argumente, an eine Funktion übergeben.
* Eine Funktion kann Daten als Ergebnis zurückgeben. (Sie muss es aber nicht zwingend.)
* Funktionen werden mit ihrem Namen und Parametern aufgerufen: `function_name(parameter1, parameter2,...)`.
* Python hat viele eingebaute Funktionen wie `print()`, `type()`, `str()`, `int()`, `float()`, ...
* Wir können auch eigene Funktionen erstellen.

# Wie man eigene Funktionen definiert

* keyword `def` für Definition einer Funktion
* `function_name` ist der Name der Funktion
* `parameters` sind optional, werden durch Kommata getrennt
* `:` markiert den Anfang des Funktionskörpers
* `return` gibt einen Wert zurück, falls eine Funktion einen Wert zurückgibt


In [None]:
def add_numbers(a, b):
    return a + b

# Aufruf der Funktion
result = add_numbers(3, 5)
print(result)


# Methoden

* Eine Methode ist eine Funktion, die einem Objekt zugeordnet ist.
* Diese Funktion kann auf das Objekt angewendet werden, um es zu ändern oder zu erweitern.
* Methoden werden durch `.` gefolgt von dem Objekt und den Parametern aufgerufen: `object.method_name(parameter1, parameter2,...)`.



In [None]:
# Die Klasse "Person" hat  ein einziges Attribut: den Namen einer Person.
class Person:
    # wir ignorieren diese Methode
    def __init__(self, name):
        self.name = name

    # eine Gruß-Methode
    # sie gibt einen String zurück, in den der Name der Person eingefügt wird
    def say_hello(self):
        return f"Hello, my name is {self.name}!"

# Erstellung eines Objektes (= Instanz einer selbst-definierten Klasse)
my_person = Person("John")
# Aufruf einer Methode auf einem Objekt
my_person.say_hello()

# Wir können say_hello nicht auf der Klasse aufrufen und auch nicht ohne die Klasse
try:
    say_hello()
except:
    print("Geht nicht!")
try:
    Person.say_hello()
except:
    print("Geht auch nicht!")


**Details**

* Fehler und Ausnahmen können die Ausführung eines Programms unterbrechen. 
* Python verfügt mit try- und except-Blöcken an Mitteln, um solche Situationen zu behandeln. 
* Wenn im try-Block ein Fehler auftritt, bricht Python die Ausführung des try-Blocks ab und springt zum exception-Block. 
* Mit diesen Blöcken können Sie die Fehler behandeln, ohne dass das Programm abstürzt.



# String-Methoden

* Strings in Python sind Objekte und haben viele Methoden, die wir verwenden können.
* `string.upper()` und `string.lower()` ändern z.B. die Gross- und Kleinschreibung entsprechend.
* Der Methodenname wird durch einen Punkt vom Objektnamen getrennt.
* Methoden können auch Argumente haben (siehe z.B. `startswith` , `endswith` und `count` unten ).
* Überblick über String-Methoden: https://www.w3schools.com/python/python_ref_string.asp

In [None]:
name="Linus Torvalds"
print(name.lower())
print(name.upper())
print(name.startswith("Linus"))
print(name.endswith("lds"))

# Ermitteln von Eigenschaften
print(name.count("s"))

# Erzeugen von geänderten Varianten des Strings: wir ersetzen alle 's' durch 'x'
place="Mississippi"
print(place.replace("s", "x"))
# der Inhalt von place selbst wird nicht verändert
print(place)
# um die neue Variante verfügbar zu halten, müssen wir sie einer Variable zuweisen
new_place= place.replace("s", "x")
print(new_place)

# Einige häufige Änderungen an strings
satz="Er reagierte damit auf die Veröffentlichung von E-Mails, die den Diplomaten mit dem Sexualstraftäter Epstein in Verbindung bringen. "

# Entfernen von white space am Anfang und Ende eines Strings.
satz_ohne_finalen_whitespace=satz.strip()
print(f"|{satz_ohne_finalen_whitespace}|")

# Es gibt neben `strip()` auch `lstrip()` und `rstrip()`. Was machen die wohl?

# split() erzeugt aus einem String eine Liste von Teilen , die jeweils durch ein Trennzeichen voneinander getrennt sind.
# Ruft man die Funktion ohne Parameter auf, wird das Leerzeichen als Default-Trennzeichen angenommen. 
# Das bietet für das Deutsche eine erste , naive Form der Tokenisierung.
tokens=satz.split()
print(tokens)
# Man kann natürlich auch andere Trennzeichen verwenden.
parts=satz.split(",")
print(parts)

# Daten-Eingabe und -Ausgabe

* Oben haben wir gesehen, dass wir in einem Jupyter-Notebook bzw einer Terminal-Session von Hand Informationen eingeben können, die wir mit Programm-Anweisungen bearbeiten wollen.
* Im Normalfall haben wir aber Datenmengen, die wir nicht selbst eintippen wollen (oder am Ende händisch kopieren und in eine Datei schreiben wollen.)
* Wir wollen daher Informationen aus Dateien einlesen bzw. in Dateien schreiben.


## Einlesen einer Textdatei auf dem lokalen Rechner

* Mit dem Befehl `open` können wir Dateien öffnen.
* Ein simpler, aber häufiger Fall ist das Öffnen von einfachen Textdateien.

In [None]:
# wir verwenden eine Text-Datei aus dem Merlin-Korpus
path_to_file="./data/1091_0000265.txt"
# Die open-Funktion nimmt mehrere Argumente. Das wichtigste ist das erste, der Pfad zur Datei.
# Der zeite Parameter , das "r", sagt, dass wir die Datei lesen (read) wollen, statt sie z.B. neu anlegen (=schreiben) zu wollen.
# Der dritte Parameter gibt den Zeichensatz an. Heute sollte das in den meisten Fällen utf-8 sei.
with open(path_to_file,"r", encoding='utf-8') as f:
    # mit der Methode readlines lesen wir den Datei-Inhalt in eine Liste von Zeilen.
    lines=f.readlines()
print(lines)

# Wir schauen uns die Datei zeilenweise an.
# Wir verwenden die enumerate-Funktion um neben den Zeilen auch gleich einen Zähler zu bekommen.
for ix,z  in enumerate(lines):
    line = z.strip()
    print(f"Z{ix}: {line}")
# Wir sehen, dass die Zeilen nicht einzelne Sätze enthalten, sondern zum Teil Folgen von Sätzen.

Weitere Details:
* Um den open-Befehl herum verwenden wir im Beispiel oben `with ` und `as f`. Dieses Konstrukt dient dazu sicherzustellen, dass die Datei unbeschadet bleibt, auch wenn während der Programmausführung etwas schief geht.
* Wir könnten auch einfach folgende Variante verwenden, die den Schutz durch den sogenannten Context mananger  `with` nicht verwendet.
* NB: wir beenden den Dateizugriff explizit mit `close`.

```python
f=open(path_to_file,"r", encoding='utf-8')
lines=f.readlines()
f.close()
print(lines)

```
  

## Erstes Beispiel: Wörterzählen

* Wir möchten Folgendes zählen:
    * die Anzahl aller Token im Text der oben geladenenen Datei.
    * für jede Wortform, wie häufig sie ist

* Vorgehen ("Algorithmus")
    * Wir betrachten nacheinander alle Zeilen.
    * Wir spalten jede Zeile in Tokens auf.
    * Wir ermitteln die Tokenzahl pro Zeile und addieren sie zu einer Zählvariable hinzu.
    * Für jedes Token in der Zeile prüfen wir, ob wir es schon einmal gesehen haben.
    * Wenn nicht, legen wir einen Eintrag (record) dafür an und initialisieren die Häufigkeit mit 0.
    * Danach addieren wir beim bestehenden Eintrag 1 zur alten Häufigkeit hinzu.



In [None]:
# we use the regular expressions module
import re
# we use a dictionary to keep track of the token frequencies
# an empty dictionary can be constructed as '{}'
freq_records = {}
total_tokens = 0
# we iterate through the lines
for z in lines:
    # we remove the final newline character using the strip-method for strings
    line = z.strip()
    # We separate punctuation marks from preceding alphabetic characters (letters)
    line = re.sub("([a-zA-Zäöü])([\.\!\?,])","\\1 \\2",line)
    print(f"Rohtext Zeile:\t{line}")
    # we split the text of the line into a list of tokens
    white_space_tokens = re.split("\s+",line)
    total_tokens = total_tokens + len(white_space_tokens)
    print(f"Tokens  Zeile: {white_space_tokens}")
    # we visit each token in the list of tokens
    for token in white_space_tokens:
        # we ignore 'Tokens' that are emptys strings
        if token =='':
            continue
        if token not in freq_records:
            freq_records[token] = 0
        freq_records[token] +=1
print("\n")
print(f"Anzahl aller Tokens im Text: {total_tokens}")
print("\n")
print("Häufigkeiten")
print(freq_records)
print("\n")
print("Tokens nach absteigender Häufigkeit")
sorted_keys = sorted(freq_records, key=freq_records.get, reverse=True)
for r in sorted_keys:
    print(r, freq_records[r])

**Details**

* Oben verwenden wir das Modul `re`  für reguläre Ausdrücke.
* Wir kommen später noch mal vertiefend auf `re' zu sprechen.
* Viele der Dinge, die wir mit `re` machen können, kann man alternativ auch mit Stringmethoden machen:
    * `white_space_tokens = line.split()` wäre eine Alternative zu
    * `white_space_tokens = re.split("\s+",line)`

  

## Your turn

* Momentan schreiben wir das Ergebnis der Häufigkeitsermittlung einfach auf den Bildschirm.
* Schreiben Sie die Ergebnisse stattdessen nun in eine Textdatei.
* Legen Sie die Datei unter dem Namen "1091_0000265.freqs.tsv" an.
* Schreiben Sie zunächst das Wort und dann, getrennt durch einen Tabulator, die Häufigkeit.
* Am Anfang der Datei schreiben Sie als Spaltenüberschriften "Token" und "Häufigkeit".
* Legen Sie die Datei unter dem Namen "1091_0000265.freqs.tsv" an.
* Lassen Sie sich [hiervon](https://www.geeksforgeeks.org/python/writing-to-file-in-python/) inspirieren oder googlen Sie nach anderen Seiten bei Bedarf.

Versuchen Sie es erst selbst zu lösen. Sie können danach die `load`-Zeile in der folgenden Zelle auskommentieren und die Zelle ausführen , um eine  Lösung zu sehen.



In [None]:
# %load ./snippets/freq_2_tsvfile.py


## Your turn

* Wie könnten Sie den Code oben modifizieren,  so dass die einzelnen Sätze zugreifbar sind?
* (Perfekt wird es nicht möglich sein, da an manchen Stellen ein satzbeendendes Interpunktionszeichen fehlt.)


In [None]:
# %load ./snippets/get_sentences.py


# Datentypen

* Wir haben schon integers , floats und strings gesehen.
* Weitere Arten von Objekten in Python sind Listen, Mengen/Sets, Tupel und Dictionaries.


## Listen
* Listen sind vergleichbar zu sog. Arrays in anderen Programmiersprachen.
* Listen können beliebig viele Elemente enthalten und können auch verschiedene Typen von Objekten enthalten.
* Die Werte in einer Liste können sich wiederholen. (Es sind keine Mengen (EN 'sets')
* Listen werden durch eckige Klammern gekennzeichnet, innerhalb derer die Elemente durch Kommata getrennt sind.

In [None]:
# Erzeugen von leeren Listen: 2 Alternativen
words = []
worte = list()

# Erzeugen von gefüllten Listen
participants = ["Alice", "Bob", "Charlie"]
ages = [30, 25, 28]
ages2 = [30, 28, 25]
mixed_bag = ["apple", 3, True]

# Sind die beiden Listen gleich?
ages2 == ages


## Listen-Methoden

* Listen verfügen über viele eigene [Methoden](https://www.geeksforgeeks.org/python/list-methods-python/).

In [None]:

verbs = ["gehen", "stehen", "sitzen"]

print(len(verbs))  # Länge der Liste

verbs.append("liegen") # Einfügen am Ende
print(verbs)

verbs.sort() # Sortieren
print(verbs)

verbs.reverse() # Umkehren
print(verbs)

verbs.remove("gehen") # Element entfernen
print(verbs)

verbs.clear() # Löschen aller Einträge
print(verbs)


## Your turn

* Wir wollen die Liste nouns in absteigender Folge sortieren .
* Wie machen wir das?
Versuchen Sie es erst selbst. Sie können in der übernächsten Zelle, den load-Befehl auskommentieren und die Zelle ausführen, um eine mögliche Lösung zu sehen.

In [None]:

nouns = ["Gang", "Tafel", "Schnee" ]

# insert your python statements here

print(nouns)




In [None]:
# %load ./snippets/reverse_sort.py
nouns = ["Gang", "Tafel", "Schnee" ]

# insert your python statements here
nouns.sort()
nouns.reverse()


print(nouns)




### Methoden zum Zugriff auf Elemente in einer Liste

* Die Position des ersten Elements in einer Liste ist 0. Das zweite Element steht an Position 1, und so weiter.
* Wir können auch negative Indizes verwenden, um auf Elemente in der Liste zuzugreifen.
* Die Position -1 ist die letzte Position in einer Liste. 
    * Wenn wir vom ersten Element an Position 0 nach links gehen, landen wir quasi beim letzten Element der Liste!

In [None]:

verbs = ["gehen", "stehen", "sitzen"]
print(verbs[0])
# Wir können Untersequenzen auslesen, z.B. die ersten beiden Wörter wie folgt
print(verbs[0:2])
# Der linke Wert (hier:0) gibt die erste Position aus, die ausgegeben werden soll. 
# Der rechte Wert (hier:2) gibt die Position aus, bis zu der ausgegeben werden soll. 
# Diese Position ist also die erste Position, die nicht mehr ausgegeben werden soll!
print(verbs[1:3])

# Egal wie lang die Liste ist, wir können das letzte Element wie folgt auslesen:
verbs.append("stellen")
print(verbs[-1])
# Das vorletzte Element kann wie folgt gelesen werden:
print(verbs[-2])
# Lesen aller Elemente ausser dem letzten
print(verbs[:-1])


### Einfügen und Entfernen von Elementen an bestimmten Positionen

* Wir können Elemente an einer bestimmten Position hinzufügen oder entfernen.

In [None]:

#  Einfügen eines neuen Elements an einer bestimmten Position (hier: an Positon 0)
verbs.insert(0, "krabbeln")
print(verbs)
# Einfügen an vorletzter Stelle
verbs.insert(-1, "fliegen")
print(verbs)
# Entfernen des ersten Elements
verbs.pop(0)
print(verbs)


## Mengen / Sets

* Mengen sind ähnlich zu Listen, aber sie enthalten keine Duplikate.
* Die Elemente in Mengen sind nicht in einer bestimmten Reihenfolge sortiert.
* Mengen sind veränderbar.
* Wie bei Listen können die Elemente heterogene Typen enthalten.

In [None]:

# Erzeugen einer leeren Menge
m=set()
# Hinzufügen von Elementen
m.add(1)
m.add("norbert")
print(m)
# Test ob Element in Menge enthalten
print(2 in m)

# neues Set aus einer Liste mit den gleichen Elementen wie oben
n=set(['norbert',1])
# Sind diese sets gleich?
m==n


### Spezielle Operationen auf Mengen

* Mengen haben nicht dieselben Methoden wie Listen. Wie oben gesehen fügt man z.B. mit `add` Elemente zu einer Menge hinzu, während bei einer Liste `append` verwendet wird.
* Daneben gibt es Methoden für Operationen, die spezifisch für Mengen sind.


In [None]:

# Erzeugen einer Menge aus einer Liste
verben_a = set(["gehen", "stehen", "sitzen"])
verben_b = set(["laufen", "stehen", "gehen", "stolzieren"])
# Hinzufügen von Elementen
verben_a.add("fliegen")
# Vereinigung von Mengen
alle_verben = verben_a.union(verben_b)
# Schnittmenge
geteilte_verben = verben_a.intersection(verben_b)
print(f"geteilte Verben {geteilte_verben}")
# Unterschiede zwischen Mengen
nur_verben_a = verben_a.difference(verben_b)
nur_verben_b = verben_b.difference(verben_a)
# Alternative Syntax  für Differenz
print(f"a-b {verben_a - verben_b}")
print(f"b-a {verben_b - verben_a}")


## Your turn

* Finden  Sie die Menge aller Mädchennamen, die entweder nur 2022 oder nur 2024 unter den 10 häufigsten Babynamen waren.

In [None]:
female_names_2024 = ["Emilia", "Sophia", "Emma", "Hannah", "Mia", "Lina", "Ella", "Lia", "Leni", "Mila"]
female_names_2022 = ["Emilia", "Mia", "Sophia","Emma","Hannah","Lina","Mila", "Ella", "Leni", "Clara"]


In [None]:
# %load ./snippets/baby_names_not_shared.py


## Dictionaries

* Dictionaries werden verwendet, um Datenwerte in Schlüssel-Wert-Paaren (key-value-pairs) zu speichern.
* Das erste Element jedes Paares , der key, muss sich also von den ersten Elementen aller anderen Paare unterscheiden. 
* Ein Dictionary wird mit geschweiften Klammern gekennzeichnet, innerhalb derer jedes Elementpaar durch einen Doppelpunkt getrennt ist

In [None]:
# Dictionaries
persons = {"Charlie": 28, "Alice": 30, "Bob": 25}
persons2 = { "Bob": 25, "Charlie": 28, "Alice":30}
# Sind diese Dictionaries gleich?
persons == persons2


### Methoden von Dictionaries

In [None]:

# Ausgabe aller Schlüssel
print(persons.keys())
# Ausgabe aller Werte
print(persons.values())
# Ausgabe der Schlüssel-Wert Paare
print(persons.items())

# Ausgabe des Wertes für einen Schlüssel: setzt voraus, dass der Schlüssel existiert
print(f"Alter Alice {persons['Alice']}")

# das Folgende produziert einen Fehler, da der Schlüssel "Waldemar" noch nicht existiert
# print(persons["Waldemar"])

# mit `get` kann man einen Standardwert zurückgeben, falls der Schlüssel nicht existiert
print(persons.get("Waldemar",100))

# gibt man keinen Standardwert an, wird der Sonderwert `None` zurückgegeben
print(persons.get("Waldemar"))

# Testen, ob ein Schlüssel existiert; Test gibt True oder False zurück
print("Waldemar" in persons)

# entfernt den Eintrag für Alice und gibt den Wert für den Eintrag zurück
print(f"Wert für Alice {persons.pop('Alice')}")

# Löschen aller Einträge
persons.clear()
print(persons)


## Tupel

* Tupel sind fixe Sequenzen.
* Sie sind ähnlich zu Listen, aber sie sind unveränderlich (immutable).
* Tupel werden durch eckige Runde gekennzeichnet, innerhalb derer die Elemente durch Kommata getrennt sind.

In [None]:
tupelo = (1, 52, 32)
# Testen, ob Element in Tupel enthalten ist
print(f"① Test, ob 3 im Tupel : {3 in tupelo}")
# Länge des Tupels
print(f"② Länge: {len(tupelo)}")
# Zugriff auf Elemente in Tupel
print(f"③ Element an Position 1: {tupelo[1]}")
print(f"④ vorvorletztes Element bis Ende: {tupelo[-2:]}")

# Reversing the Tuple
print(f"⑤ Umkehrung: {tupelo[::-1]}")
# NB: anders als bei den sort()- oder reverse()-Methoden einer Liste hat die obige Anweisung keinen Einfluss auf das ursprüngliche Tupel
print(f"⑥ unverändertes Tupel: {tupelo}")

# Variablen

* Wenn wir Objekte,  insbesondere die Ergebnisse von Funktionen oder Operationen , dauerhaft zugänglich halten wollen, können wir Variablen verwenden.

```python
# das Folgende druckt 8 als Ergebnis, der Wert verschwindet aber danach wieder
print(4*2)
# Durch Zuweisung an eine Variable lassen wir den Wert dauerhaft zugänglich
product=4*2
print(product)
# Nach dem obigen print-statement können wir weiter mit product rechnen
print(product-1)
```

* NB: Zuweisung mit `=` müssen wir unterscheiden von dem Vergleichsoperator `==`.

```python
x=2
w=3
# Test auf Gleichheit 
print(x==w)
# Neuer Wert für x!
x=w
print(x)
```





In [None]:
# Was passiert bei den folgenden Anweisungen?
print(2+2 == 4)
print(2+2 = 4)


## Variablennamen

* Variablennamen müssen mit einem Buchstaben oder einem Unterstrich beginnen. 
* Der Rest des Namens kann aus beliebigen weiteren Buchstaben, Unterstrichen oder Zahlen bestehen. 

```python
x=1
# Das Folgende wirft einen Fehler: X gibt es nicht , nur x.
print(X)
```
* Bei Variablennamen wird zwischen Groß- und Kleinschreibung unterschieden, und sie dürfen keine der reservierten Python-Wörter
enthalten.

```python
False None True and as assert break class continue
def del elif else except finally for from global
if import in is lambda nonlocal not
or pass raise return try while with yield
```

* Eine Variable, die in einem Programm mit vielen Zeilen weiterlebt, sollte wahrscheinlich einen Namen haben, der die Daten beschreibt, die diese Variable enthält.

```python
word = "Fluorierung"
# Beispiel: Variablenname für die Wortlänge

# nicht so sprechend
x=len(word)

# klarer
word_length = len(word)
wordLength = len(word)
wlen = len(word)
word_len = len(word)
```



# Kontrollstrukturen

* Bisher bestand unser Code lediglich aus Abfolgen von Anweisungen, die nacheinander ausgeführt werden. 
* Nützlicher ist es, wenn Anweisungen bedingt ausgeführt werden können, d.h. wenn einige Anweisungen z.B. die Ausführung umgehen können und andere mehrfach ausgeführt werden können.

* Betrachten wir die if-Kontrollstruktur.
 * Diese Struktur ermöglicht in ihrer einfachsten Form eine bedingte Anwendung.
 * Es gibt einen Test / eine Testklausel und dann einen Block mit einer oder mehreren Anweisungen. 
 * Wenn die Testklausel wahr ist, werden die Anweisungen ausgeführt. Wenn sie nicht wahr ist, werden die Anweisungen nicht ausgeführt
 * Mit else können Anweisungen spezifziert werden, die ausgeführt werden, wenn die getestete Bedingung nicht wahr ist.

In [None]:
verb_a = "flitzen"
verb_b = "kriechen"
if len(verb_a) <= len(verb_b):
    print("Verb a ist kürzer oder gleich lang wie Verb b")
else:
    print("Verb a ist länger")

* NB: die Anweisungen im Block werden durch Leerzeichen oder Tabs und Zeilenumbrüche getrennt.
* Inkonsistente Einrückungen führen zu einem Syntaxfehler. ;/
* Grundsätzlich können Sie entweder mit Leerzeichen oder Tabulatoren einrücken, aber Sie dürfen die beiden Formen nicht mischen.

In [None]:
# wirft einen Fehler!
if len(verb_a)  < len(verb_b):
  print("Verb a ist kürzer")
    print("Verb b ist länger")


## Eingebettete Kontrollstrukturen

* Wir können mehrere Ebenen von Kontrollstrukturen haben.


```python
word="fliegen"
word_length=len(word)
first_letter = word[0]
# erster Test
if word_length>5:
    # zweiter Test
    if first_letter == "f":
        print("word ist länger als 5 Zeichen und der erste Buchstabe ist 'f'")


```


## if-else

* if-else bedingt Anweisungen, die entweder ausgeführt werden oder nicht.

In [None]:
# Informationen über ein Wort in einem Dictionary
word_1={"form":"fliegen", "upos":"VERB", "lemma":"fliegen"}

# Wir betrachten den UPOS-Tag des Wortes
if word_1["upos"] == "VERB":
    # NB: auf Positionen / Zeichen in Strings kann mit derselben Syntax wie bei Listen zugegriffen werden
    # word_1["form"] ist ein String (siehe oben)
    # isupper() ist eine Methode, die prüft ob alle Buchstaben des Strings Großbuchstaben sind
    # Uns interessiert nur der erste Buchstabe, daher wählen wir ihn aus mit word_1["form"][0]
    if word_1["form"][0].isupper():
        print("Das Wort ist ein Verb und beginnt mit einem Großbuchstaben")
    else:
        print("Das Wort ist ein Verb und beginnt nicht mit einem Grobuchstaben")

In [None]:
# Ausführlichere Version mit expliziten Zwischenvariablen:

upos_tag=word_1["upos"]
if upos_tag == "VERB":
    word_form = word_1["form"]
    first_letter = word_form[0]
    if first_letter.isupper():
        print("Das Wort ist ein Verb und beginnt mit einem Großbuchstaben")
    else:
        print("Das Wort ist ein Verb und beginnt nicht mit einem Grobuchstaben")


### if-elif-else: Mehrere Tests

* Wenn  mehr als eine Bedingung geprüft werden soll, müssen wir nach dem ersten Test für die weiteren Tests `elif` statt `if` verwenden.


```python
word_length = 11

if word_length > 0 and word_length < 5:
    print("Wort ist kleiner als 5 Zeichen")
elif word_length >= 5 and word_length < 10:
    print("Wort ist zwischen 5 und 10 Zeichen")
elif word_length >= 10:
    print("Wort ist größer als 10 Zeichen")
else:
    print("Wort hat keine Zeichen")
```

* Q: Was würde passieren, wenn wir oben nie `elif` sondern immer `if` verwenden?


### if-elif-else: Relevanz der Reihenfolge der Bedingungen

* Wenn nur einer der Tests erfüllt werden kann, ist die Reihenfolge der Tests nicht relevant.
* Wenn mehrere Bedingungen erfüllt werden können, ist die Reihenfolge der Bedingungen relevant: die erste zutreffende Bedingung wird ausgeführt.
* Beispiel: ein Wort, das länger als N Zeichen ist potentiell auch länger als ein Wort mit N + 10 Zeichen.

In [None]:

word_length = 11

if word_length >= 30:
    print("Wort ist größer als 30 Zeichen")
elif word_length >= 20:
    print("Wort ist größer als 20 Zeichen")
elif word_length >= 10:
    print("Wort ist größer als 10 Zeichen")
elif word_length >= 1:
    print("Wort ist länger als 1 Zeichen")
else:
    print("Wort hat keine Zeichen")


* Wenn wir im obigen Beispiel die Reihenfolge der ifs und elifs umkehren, feuert bei allen Wortlängen größer als 0 immer nur die Bedingung für Wortlänge >=1.

### Negative Bedingungen:



```python
upos="NOUN"
if upos != "VERB":
    print("Das Wort ist kein Verb")
else:
    print("Das Wort ist ein Verb")
```


```python
aux = ["haben", "sein", "werden"]
verb_lemma = "gehen"
if verb_lemma not in aux:
    # do something
```


### Bedingungen ohne auszuführenden Code: `pass`

* Manchmal wollen wir nur für ein Ergebnis des Tests Code ausführen.
* Dann können wir `pass` verwenden.

```python
if upos == "VERB":
    print("Das Wort ist ein Verb")
else:
    pass
```

Wenn wir im  `else`-Fall nichts tun wollen, können wir allerdings `else` auch ganz weglassen.

```python
upos="NOUN"
if upos != "VERB":
    print("Das Wort ist kein Verb")
```




### Komplexe Bedingungen

* Manchmal möchten wir eine komplexe Bedingung erfüllen.
* Statt einzelne Tests in einander einzubetten, können wir die Bedingungen mit einem `and` verknüpfen, um mehrere Bedingungen zu erfüllen.

```python
# Informationen über ein Wort in einem Dictionary
word_1={"form":"fliegen", "upos":"VERB", "lemma":"fliegen"}

if word_1["upos"] == "VERB" and word_1["form"][0].isupper():
    print("Das Wort ist ein Verb und beginnt mit einem Großbuchstaben")
```

* Statt einzelne Bedingungen abzutesten, die bei Zutreffen alle zum gleichen Ergebnis führen, können wir die Bedingungen mit einem `or` verknüpfen.

```python
if word_1["upos"] == "VERB" or word_1["upos"] === "AUX"
    print("Das Wort ist ein Vollverb oder ein Auxiliary")


```


## Schleifen

* Schleifen ermöglichen es uns, mehrere Anweisungen oder Codeblöcke zu wiederholen.
* Haupttypen:
    * for-loops
    * while-loops

### For-loops

* Sie geben eine Liste oder eine Folge von Elementen an und durchlaufen dann die Liste, wobei Sie den Block einmal für jedes Element in der Liste oder Folge anwenden. 
* Die Syntax besteht aus einer for-Klausel, gefolgt von einem eingerückten Block mit einer oder mehreren Anweisungen.

```python
# For loop über eine Liste von Wörtern
verbs = ["fliegen", "kriechen", "gehen", "laufen"]
for verb in verbs:
    print(verb)


# For loop über eine Menge / set
vset = set(verbs)
for verb in vset:
    print(verb)


# For loop über ein Dictionary
persons = {"Charlie": 28, "Alice": 30, "Bob": 25}

for name in persons:
    print(f"{name} ist {persons[name]} Jahre alt")

# alternative Variante für Durchlauf durch Dictionary, wobei es sowohl für die keys als auch die values  eine Variable gibt
for name, age in persons.items():
    print(f"{name} ist {age} Jahre alt")


```


## Kombination for und if-else

* Beispiel: wir zählen die Anzahl der Buchstaben in einem Wort, die Vokale sind.
* NB: wir betrachten nur einzelne Buchstaben, wir versuchen nicht zu erkennen, dass z.B. `ei` als Diphtong eigentlich nur ein Vokal ist.

```python
# Vokale definieren
vowels = 'aeiouäöü'
# Zählvariable
vowelCount = 0
# Wort definieren
word = 'Oberbürgermeisterin'

# wir iterieren über die Buchstaben des Wortes
for letter in word.lower():
    if letter in vowels:
        vowelCount = vowelCount + 1 # add 1
print(vowelCount)
```


In [None]:
# Vokale definieren
vowels = 'aeiouäöü'
# Zählvariable
vowelCount = 0
# Wort definieren
word = 'Oberbürgermeisterin'

# wir iterieren über die Buchstaben des Wortes
for letter in word.lower():
    if letter in vowels:
        vowelCount = vowelCount + 1 # add 1
print(vowelCount)

## Your turn

* Wie könnten sie den obigen Code verändern, so dass sie die Anzahl der unterschiedlichen Vokale zählen?
* Für `Oberbürgermeisterin` sollte das Ergebnis 4 sein: ['o','e','ü','i'].
* Um eine mögliche Lösung zu sehen, kommentieren Sie den load-Befehl in der folgenden Code-Zelle aus.

In [None]:
# %load ./snippets/count_vowels.py


## Your turn

* Wir wollen Konsonanten in einem Wort zählen.
* Der nachfolgende Code funktioniert so aber  nicht.
* Was für ein Problem haben wir hier? Wir können Sie es beheben?
* NB: wir verwenden hier eine while-Schleife: solange die Bedingung wahr ist, fahren wir mit den Anweisungen in der Schleife fort.


```python
word = 'Oida'
vowels = 'aeiou'
position = 0
consonants = 0
while position < len(word):
    letter = word.lower()[position]
    if letter not in vowels:
        consonants +=1
        print(letter)
        position += 1
print(f"found {consonants} consonants")
print(f"found {consonants} consonants")
```

In [None]:
# %load "./snippets/fix_bad_loop.py"



## Einschub: Strings vs  Listen

* Wir haben mehrfach gesehen, dass wir auf Buchstaben(sequenzen) in strings mit derselben Syntax wie bei Listen zugreifen können.
* Dennoch sind Strings fundamental keine Listen von Buchstaben.




In [None]:
word_list = ["Hans", "Susanne", "Max"]
print(word_list)
word_list[0] = "Hand" #ok
print(word_list)
word_list.append("Kim")
print(word_list)


In [None]:
#  Strings sind unveränderliche Objekte, die nicht durch Indexierung oder Veränderungen erweitert werden können.
word = "Bad"
word[0] = "R" #Fehler: wir können Bad nicht so zu Rad verwandeln
print(word)


In [None]:
word.append("en") # ergibt nicht "Baden"
print(word)

## break und continue statements in Schleifen

* Mit den Anweisungen „break“ und „continue“ können wir Schleifen genauer steuern.
* Eine „break“-Anweisung beendet die kleinste umschließende Schleife.
* Die „continue“-Anweisung beendet die aktuelle Iteration der kleinsten umschließenden Schleife und springt zur nächsten Iteration.



In [None]:
from collections import Counter
wort_liste = ["Lösung","Haus", "Appell", "ist" ,"Mut", "Armeechef", "zu", ]
stopwords = ["ab", "auf", "zu", "ist", "war", "mit", "bin", "bist", "warst", "waren", "ohne"]
vowels= 'aeiouäöü'

# Wir wollen ermitteln mit welcher Häufigkeit verschiedene Vokale den ersten Vokal in einem Wort darstellen.
# Wir suchen in jedem Wort den ersten Vokal und fügen ihn in die Liste firstvowels hinzu.
# Am Ende ermitteln wir die Häufigkeit.
firstvowels=[]

for word in wort_liste:
	if word in stopwords:
        # Wenn wir ein Stopwort (~ Funktionswort)  haben , interessiert uns sein erster Vokal nicht.
        # Mit continue springen wir weiter zum nächsten Wort in der Wortliste.
		continue
	for letter in word.lower():
		if letter in vowels:
			firstvowels.append(letter)
            # Da uns nur der erste Vokal interessiert, können wir abbrechen , wenn wir ihn gefunden haben
            # Beachte, dass wir nur die Buchstabenschleife verlassen. Wir gehen aber weiter zum nächsten Wort!
			break
vowel_frequencies = {}
for v in firstvowels:
    if v not in vowel_frequencies:
        vowel_frequencies[v] = 0
    vowel_frequencies[v]+=1
print(vowel_frequencies)

## Your turn

* Können Sie im vorausgehenden Beispiel das `continue`-Statement entfernen und mit anderen Mitteln denselben Effekt erreichen, dass Stopwörter nicht auf den ersten Vokal durchsucht werden?

Probieren Sie es erst selbst , Sie können danach auch den load-Befehl in der folgenden Zele auskommentieren, um eine Lösung zu sehen.

In [None]:
# %load ./snippets/no_counter.py


# Ausgabe von Text (print)

* Die einfache Funktion `print` gibt eine String-Repräsentation eines Objektes aus.
* Die Funktion print kann für viele Datentpyen wie int oder float genutzt werden, die keine Strings sind, aber als Strings repräsentiert werden können.


In [None]:

# print kann einen einzelnen String oder eine Liste von Strings ausgeben
print("Speerwerfer Julian Webers Sehnsucht nach einer WM-Medaille")
# im Fall einer Liste werden die Teile durch Leerzeichen getrennt ausgegeben
print("Speerwerfer", "Julian", "Webers", "Sehnsucht","nach","einer", "WM-Medaille")
# Wenn man keine Kommas einfügt, kleben die Teile direkt aneinander
print("Speerwerfer" "Julian" "Webers" "Sehnsucht" "nach" "einer" "WM-Medaille")

## Stringinterpolierung

* String-Interpolation ist ein Prozess, bei dem Werte von Variablen in Platzhalter in einem String eingesetzt werden.
* Es gibt (wie oft in Python) mehrere verschiedene Arten von String-Interpolation.
* Man muss sie nicht alle benutzen ;)


In [None]:
# Variablen definieren
name = 'World'
program = 'Python'

## f-strings: vor dem öffnenden Anführungszeichen kommt ein 'f'!
# An den Stellen, an denen Variablen eingesetzt werden, können wir die Variable einfach zwischen geschweifte Klammern schreiben

print(f'Hello {name}! This is {program}')

# Häßlichere Alternative: Konkatenierung der Teile mit +
print('Hello' + ' ' + name +'! This is ' + program)

# %-formatting: statt Variablennamen fügen wir %s in den String ein, wo die Werte eingefügt werden sollen. 
# Wir geben die Reihenfolge der Variablen nach dem String in runden Klammern an, denen ein % vorausgehen muss.
print('Hello %s! This is %s.'%(name,program))

# str-format: eine Methode der String-Klasse
print('Hello {nom}! This is {programme}.'.format(nom=name,programme=program))

# str-format hat auch  Optionen zur Formatierung von Zahlen:
prices = [59,2,1003,90001]
for price in prices:
    # der Preis soll rechts aligniert sein, maximal 8 Zeichen und 2 Nachkommastellen haben [Das Dezimalzeichen ist bei den 8 Zeichen eingerechnet.]
    print('Der Preis beträgt {:>8.2f} Euro'.format(price) )


# Dezimalstellen mit f-strings
for price in prices:
    txt = f"Der Preis ist {price:>8.2f} Euro"
    print(txt)
# Anzahl der Stellen angleichen: zfill fügt nur 0-en hinzu, falls die Zahl nicht ausreichend lang ist
for price in prices:
    txt = f"Der Preis lautet {str(price).zfill(5)} Euro"
    print(txt)
# Ausrichtung der Zahlen
for price in prices:
    txt = f"Der Preis kommt auf {str(price).rjust(5,' ')} Euro"
    print(txt)
for price in prices:
    txt = f"Der Preis beläuft sich auf {str(price).ljust(5,' ')} Euro"
    print(txt)
# wir können in den geschweiften Klammern sogar noch Funktionen aufrufen oder rechnen.
for price in prices:
    txt = f"Der Preis ist {2*price:>9.2f} Euro"
    print(txt)


# Reguläre Ausdrücke

* Wir  müssen oft beurteilen, ob eine Zeichenkette (String) einem Muster entspricht, eine bestimmte Zeichenfolge oder eine bestimmte Anzahl von Zeichen enthält usw.
* Wie andere Programmiersprachen implementiert auch Python  einen allgemeinen Musterabgleichmechanismus, der flexibel und effizient ist: reguläre Ausdrücke.
* Wir müssen das Modul für reguläre Ausdrücke importieren.

```py
import re
```


## Funktion re.match

* Diese Funktion versucht,  einen regulären Ausdruck vom **Anfang** eines Strings her zu matchen.
* Die Funktion nimmt ein Muster (pattern) und einen String (string) als Argumente und gibt `None` zurück, falls der String nicht mit dem Muster anfängt, ansonsten gibt sie ein Match-Objekt zurück
* `re.match(pattern, string, flags=0)`


In [67]:
import re
words = [ "Kanzleramt" , "Wahlkampf", "Bundesseite", "Staatsministerin", "Bundesinnenministerium" ,"Präsidialamt", "Ministerpräsidentin"]
for w in words:
    print(f"\nword {w}")
    bresult= re.match(r'^Bundes', w)
    if bresult !=None:
        print(f"{w} beginnt mit 'Bundes' {bresult}")
    else:
        print(f"Suche nach Bundes: {bresult}")
    mresult= re.match(".*minister.*", w)
    if mresult!=None:
        print(f"{w} enthält 'minister' {mresult}")
    else:
        print(f"Suche nach minister: {mresult}")
    # die nachfolgende Alternative funktionert für Staatsministerin, aber nicht für Ministerpräsidentin
    # Q: Was müsste man tun, damit sie auch die Ministerpräsidentin matcht?
    if re.match(".*minister", w):
        print("Match für Binnen-minister")
    # die nachfolgende Alternative funktionert NICHT  für Staatsministerin und Ministerpräsidentin
    if re.match("minister", w):
       print("Match für initialen minister")
    else:
        print("Suche nach initialem minister: Nada")



word Kanzleramt
Suche nach Bundes: None
Suche nach minister: None
Suche nach initialem minister: Nada

word Wahlkampf
Suche nach Bundes: None
Suche nach minister: None
Suche nach initialem minister: Nada

word Bundesseite
Bundesseite beginnt mit 'Bundes' <re.Match object; span=(0, 6), match='Bundes'>
Suche nach minister: None
Suche nach initialem minister: Nada

word Staatsministerin
Suche nach Bundes: None
Staatsministerin enthält 'minister' <re.Match object; span=(0, 16), match='Staatsministerin'>
Match für Binnen-minister
Suche nach initialem minister: Nada

word Bundesinnenministerium
Bundesinnenministerium beginnt mit 'Bundes' <re.Match object; span=(0, 6), match='Bundes'>
Bundesinnenministerium enthält 'minister' <re.Match object; span=(0, 22), match='Bundesinnenministerium'>
Match für Binnen-minister
Suche nach initialem minister: Nada

word Präsidialamt
Suche nach Bundes: None
Suche nach minister: None
Suche nach initialem minister: Nada

word Ministerpräsidentin
Suche nach Bu

## Funktion re.search

* Die Funktion re.search() sucht nach dem **ersten Vorkommen** eines Musters in einem beliebigen Teil eines Strings .
* Die Funktion gibt `None` zurück, falls der String nicht mit dem Muster übereinstimmt, ansonsten gibt sie ein Match-Objekt zurück
* `re.search(pattern, string, flags=0)`


In [None]:


words = [ "Kanzleramt" , "Wahlkampf", "Bundesseite", "Staatsministerin", "Bundesinnenministerium" ,"Präsidialamt", "Ministerpräsidentin", "Praesidentin", "Praesidium"]
for w in words:
    print(f"{w}")
    # simple Suche nach der Sequenz 'in' egal wo
    in_any= re.search("in", w)
    if in_any!=None:
        print(f"\t{w} enthält 'in' {in_any}")

    # Suche nach `in` am Ende des Strings: das Dollarzeichen $ steht für das Ende des Strings
    in_end= re.search("in$", w)
    if in_end!=None:
        print(f"\t{w} enthält 'in' am Ende {in_end}")

    # Muster das nach folgenden Formen sucht: präsid/Präsid/praesid oder Praesid 
    # In eckigen Klammern [] stehen Alternativen, d.h. wir akzeptieren praesid oder Praesid
    # In den runden Klammern stehen durch "|" getrennt alternative Sequenzen: wir können entweder Präsid oder Praesid haben.
    prez = re.search("[Pp]r(ä|ae)sid", w)
    if prez!=None:
        print(f"\t{w} enthält 'Präsid' {prez}")



## Funktion re.split

* Reguläre Ausdrücke können verwendet werden, um Zeichenketten zu teilen.
* `re.split(pattern, string, maxsplit=0, flags=0)


In [69]:

word="Ur-ur-ur-ur-oma"
print(re.split("(ur)", word.lower()))
re.split("(\-)",word.lower())
word="Ururururoma"

parts = re.split("(ur)", word.lower())
print(parts)
# Fortgeschritten: Entfernen der leeren Strings in einer sog. list comprehension
parts = [part for part in parts if part !='']
print(parts)

['', 'ur', '-', 'ur', '-', 'ur', '-', 'ur', '-oma']
['', 'ur', '', 'ur', '', 'ur', '', 'ur', 'oma']
['ur', 'ur', 'ur', 'ur', 'oma']


## Funktion re.sub

* Ersetzt alle Treffer eines Musters in einem String.
* Die Funktion `sub` hat folgende Argumente
* `re.sub(pattern, repl, string, count=0, flags=0)`
  * `repl` (= replaecment) kann ein String oder eine Funktion sein, die einen String als Argument erwartet und einen ersetzenden String zurückgibt.
  * `string` ist der Input-String, der verändert werden soll
  * `count` gibt an , wie oft die Ersetzung gemacht werden soll, wenn sie möglich ist. Der Wert 0 hat hier die Sonderinterpretaton, dass alle Instanzen von `pattern` durch `repl` ersetzt werden sollen. 


In [None]:
word="praesidieren"
# ae => ä
print(re.sub("ae", "ä",word ))
# prae => Prä
print(re.sub("prae", "Prä", word ))
word="Urururoma"
# wir ersetzen jede Sequenz ur oder Ur durch dieselbe Zeichenfolge und einen Bindestrich
# \\1 bedeutet das die erste in runden Klammern eingeschlossene Gruppe aus dem Muster wieder verwendet wird. Stichwort: capturing group.
print(re.sub("([Uu]r)", "\\1-", word ))
word="Bürger:innen"
# Umformatieren des Binnen-i
print(re.sub(":i", "I", word ))


## Funktion re.findall

* Sucht alle nicht überlappenden Treffer eines Musters in einem String und gibt sie als Liste zurück.
* Man kann mit dem Ergebnis also auch zählen.



In [None]:
words = ["SPD", "CSU", "Die Linke", "Bündnis 90/Die Grünen", "CDU", "ÖDP", "Volt","Bundesinnenministerium" ,"Präsidialamt", "Praeses"]
for w in words:
    vowel = re.findall("[äöüiouea]", w.lower())
    print(f"{w} enthält {len(vowel)} Vokale: {vowel}")
    conseq = re.findall("[qsdrtzpgkjdmnbcxl]{2,}", w.lower())
    print(f"{w} enthält {len(conseq)} Konsonantensequenzen: {conseq}")



## Funktion re.finditer

* Sucht alle nicht überlappenden Treffer eines Musters in einem String und gibt sie sukzessive zurück.
* Gibt Details der Treffer zurück.


In [None]:

words = ["SPD", "CSU", "Die Linke", "Bündnis 90/Die Grünen", "CDU", "ÖDP", "Volt","Bundesinnenministerium" ,"Präsidialamt", "Praeses"]
for w in words:
    for match in re.finditer("[qsdrtzpgkjdmnbcxl]{2,}", w.lower()):
        print(f"In {w} matchen wir {match.group()} von {match.start()} -  {match.end()}")


## Musterdefinition

* Einzelne Zeichen können direkt verwendet werden.
* Zeichensequenzen wie 'ober' oder 'erst' können verwendet werden.
* Wir können alternative Zeichenfolgen durch "|"  verwenden getrennt, um mehrere Alternativen zu akzeptieren.
* Das Symbol  '.' steht für ein beliebiges Zeichen.
* In eckigen Klammern [] stehen Alternativen.
* Das Symbol  '^' in eckigen Klammern zeigt Negation an. [^eiou] bedeutet, dass die genannten Vokale nicht vorkommen dürfen.
* Das Symbol  '+' nach einem Zeichen oder einer Zeichensequenz bedeutet, dass es mindestens ein Vorkommen dieser Zeichenfolge oder Zeichen geben muss.
* Das Symbol  '*' nach einem Zeichen oder einer Zeichensequenz bedeutet, dass es 0 oder mehr  Vorkommen dieser Zeichenfolge oder Zeichen geben muss.
* In geschweiften Klammern kann man angeben, wieviele Vorkommen einer Zeichenfolge oder Zeichen mindestens oder höchstens erlaubt sind.
* ^ und $ stehen für den String-Anfang und das String-Ende



In [None]:
import re
word="Oberbürgermeisterin"
# alle b's
print(re.findall("b",word))

# Alle Sequenzen , die mit e beginnen und i enden. greedy (gieriges) matching: wir bilden möglichst lange Sequenzen
print(re.findall("e.*i",word))

# Alle Sequenzen , die mit e beginnen und i enden. non-greedy matching: wir bilden möglichst kurze Sequenzen
print(re.findall("e.*?i",word))

# alle Sequenzen , die mit e beginnen und i enden , bei denen dazwischen keine weiteres e kommt.
print(re.findall("e[^e]*i",word) )

# Alle Sequenzen von mehr als 2 Konsonanten
print(re.findall("[wrtzpsdfgjklxcvbnm]{2,}", word))

# alle Spannen von 1 oder 2 Vorkommen von "ur"
word="Urururururururoma"
for match in re.finditer("(ur){1,2}",word.lower()):
    print(match)
# alle Spannen von 1 oder 2 Vorkommen von "ur", die nicht am Wortanfang sind (\B)
for match in re.finditer("\B(ur){1,2}",word.lower()):
    print(match)
word="B52s"

# match all sequences of letter chars
print(re.findall("[a-zäöüß]+", word.lower()))



## Your turn

* Auf welche Weisen können Sie  testen, ob ein deutsches Wort in einen Vokal (Monophthong oder Diphthong) endet?


In [None]:
# %load ./snippets/end_in_vowel.py


## Your turn

*  Wir verwenden  die Datei `1091_0000265.txt`, die wir schon beim Wörterzählen oben benutzt hatten.
*  Die Aufgabe besteht darin, alle verschiedenen Sequenzen von zwei Wörtern (Bigrammen) zu ermitteln und  zu zählen, wie oft sie im Text vorkommen.
*  Wie könnten Sie dazu vorgehen? Können Sie eine der Methoden aus dem `re`-Modul verwenden?


In [None]:
# %load ./snippets/count_bigrams.py


## Alternative Implementierung mit fertigen Bausteinen

* Oben haben wir eine handgestrickte Implementation der Bigramm-Ermittlung gesehen.
* Soweit wie möglich möchten wir beim Programmieren gerne Code wiederverwenden, den es schon gibt und der gut getestet und optimiert ist.
* Unten ist ein Beispiel, wie wir mit einer Kombination aus der `bigrams`-Methode des Natural Language Toolkits (nltk) und einem `Counter` aus dem `collections`-Modul die Bigramm-Frequenzen ermitteln können.


In [None]:
import nltk
from nltk.util import bigrams
from collections import Counter
c=Counter( bigrams(all_tokens))
print(c)

# Tabellen

* Wir arbeiten häufig mit Tabellen , die z.B. Metadaten enthalten.
* Eine gängige Art der Darstellung von Daten ist eine Text-Datei, in der die Spalten durch Kommas oder einen anderen Delimiter getrennt sind.
* Wir können auch Excel-Dateien verwenden, um Daten zu speichern und zu laden.
* Pandas ist eine gängige  Bibliothek,  um tabellarische Daten zu manipulieren und zu visualisieren.
* Wir schauen uns eine Datei zu den Sprecher:innen im Comigs-Korpus an.
* Die Datei hat drei Spalten: ID, Proficiencly level und set.
  * Es gibt in Comigs zwei Unterkorpora , set 1 und set 2 , die sich u.a. dadurch unterscheiden, dass es beim einen  set zwei manuell erstellte Zielhypothesen gibt und  beim anderen nicht.



In [None]:
import pandas as pd
# wir laden die Datei in ein Pandas-Dataframe.
# Der Parameter sep="\t" besagt, dass wir  Tab-getrennte Daten haben. 
# (Wir verwenden deswegen auch als Dateinamenserweiterung .tsv und nicht .csv .)
df = pd.read_csv('./data/comigs_proficiency_levels.tsv',sep="\t")

# Mit head können wir uns die ersten Zeilen des Dataframes anzeigen lassen
print(f"HEAD:\n {df.head()}") 
# Das Gegenstück für die letzten Zeilen ist tail()

print(f"TAIL:\n {df.tail()}") 

# Ausgabe der ganzen Tabelle
print(df)

# Länge der Tabelle
print(f"Tabelle hat {len(df)} Zeilen")

In [None]:
# Wir können uns Information über die Datentypen in den Spalten anzeigen lassen:
print(df.info())

# Ebenso macht es meist Sinn zu prüfen, ob die Daten vollständig sind.
print("Fehlende Werte je Spalte: \n")
print(df.isnull().sum())



In [None]:
# Wir sortieren die Tabelle: zuerst aufsteigend nach set, dann nach Proficiency level, und dann nach ID
# inplace=True führt dazu, dass die sortierte Tabelle direkt in df gespeichert wird, ohne einen neuen Dataframe zu erzeugen.
df.sort_values(by=["set", "Proficiency level", "ID" ], ascending=True, inplace=True)  
print(df)


In [None]:
# Wenn wir nur an Set 1 interessiert sind, können wir  einen Unter-Datenframe erzeugen, in dem wir nur die Zeilen für set 1  behalten 
# NB: beachten Sie die Syntax, mit der  wir die Zeilen des Dataframes filtern.
set1_df = df[ df["set"] == 1 ]
print(set1_df)
print(len(set1_df))

# wir können den neuen Dataframe in eine TSV-Datei speichern:
set1_df.to_csv("set1_df.tsv",sep="\t", index=False)

## Your turn

* Erstellen Sie eine Liste mit den IDs der Lerner:innen aus Set2, die Proficiency level A2 haben.
* Kommentieren Sie den load-Befehl in der nächsten Zelle aus, wenn Sie eine Lösung sehen wollen.


In [None]:
# %load ./snippets/find_set2_level_a2_learners.py


In [None]:
# Zugriff auf eine einzelne Spalte:
print(df["Proficiency level"])

# Welche Proficiency levels kommen in der Spalte "Proficiency level" vor?
print(df["Proficiency level"].unique())
# Wie oft kommt jeder der Proficiency levels vor?
print(df["Proficiency level"].value_counts())

## Your turn

* 	Wie können Sie bestimmen, wie viele Lerner:innen in Set 1 und Set 2 jeweils vorhanden sind?

In [None]:
# %load ./snippets/count_learners_per_set.py


In [None]:
# Wir wollen schauen , ob die gleichen Proficiency levels in beiden sets vorkommen.

set1_proficiency_levels = df[df["set"] == 1]["Proficiency level"].unique()
set2_proficiency_levels = df[df["set"] == 2]["Proficiency level"].unique()

print(f"Set 1 Proficiency Levels: {set1_proficiency_levels}")
print(f"Set 2 Proficiency Levels: {set2_proficiency_levels}")


In [None]:
# Wir möchten uns nun die Anzahl der Lerner:innen pro Proficiency level pro Set anzeigen lassen.
# Wir erstellen mit der Funktion crosstab eine Kreuztabelle aus den beiden Variablen.
print(pd.crosstab(df["Proficiency level"], df["set"]))

In [None]:
# Wir möchten die Daten in der Tabelle umformatieren und die Info in Proficiency levels in 2 Spalten "Proficiency Min" und "Proficeincy Max" aufteilen.
# Wenn ein einfacher Wert in der Spalte "Proficiency level" steht, schreiben wir ihn in die beiden neuen Spalten "Proficiency Min" und "Proficiency Max" .
# Wenn ein Wert mit "/" in der Spalte steht (z.B. A2/B1), trennen wir den Eintrag und schreiben den linken Wert in "Proficiency Min" und den rechten Wert in "Proficiency Max".

# Wir können neue Spalten zu einem Datenframe hinzufügen.

df["Proficiency Min"]=""
df["Proficiency Max"]=""
for ix, row in df.iterrows():
	if "/" in row["Proficiency level"]:
		df.loc[ix, "Proficiency Min"] = row["Proficiency level"].split("/")[0]
		df.loc[ix, "Proficiency Max"] = row["Proficiency level"].split("/")[1]
	else:
		df.loc[ix, "Proficiency Min"] = row["Proficiency level"]
		df.loc[ix, "Proficiency Max"] = row["Proficiency level"]
print(df.tail())

## Your turn

* Verändern Sie den obigen Code so, dass Sie möglichst die Methoden aus dem Modul `re` verwenden, um die Einträge in "Proficiency Min" und "Proficiency Max" zu extrahieren.
* (Sie können eine Lösung sehen, in dem  Sie den load-Befehl in der nächsten Zelle auskommentieren, den Code laden und dann ausführen.

In [None]:
# %load ./snippets/use_re_module.py



* In der Code-Zelle unten können Sie eine noch eine kompaktere Version sehen, um die Info in Proficiency level aufzuteilen.

In [None]:
# %load ./snippets/apply_example.py


## Your turn

* Erstellen Sie neue Kreuztabellen mit den Proficiency levels in "Proficiency Min" und "Proficiency Max" pro Set.

In [None]:
# %load ./snippets/create_crosstabs.py


## Erstellen von Dataframes aus Listen  und Dictionaries

* DataFrames / Tabellen haben eine natürliche Verwandtschaft zu Listen und Dictionaries.
* Wir können die einzelnen Spalten als Listen verstehen.
* Wir können Zeilen als Dictionaries verstehen, wobei die Schlüssel die Spaltennamen und die Werte die Spaltenwerte in den relevanten Zellen sind.


In [None]:
# Weiter oben haben wir Worthäufigkeiten für eine Datei aus dem Merlin-Korpus ermittelt und in dem Dictionary `freq_records` gespeichert.

print(freq_records)

# Wir erzeugen aus den Schlüsseln und Werten zwei parallele Listen.
# NB: die keys()-Methode von dictionaries gibt nicht direkt eine Liste zurück.
# Wir können den Rückgabewert mit list() wieder in eine Liste umwandeln.
words = list(freq_records.keys())
freqs = list(freq_records.values())
# Wir schauen uns einige der Werte in den Listen an.
print(words[0:5])	
print(freqs[0:5])
# Erstellen eines Dataframes aus parallelen Listen
# Beachte: wir müssen am Ende ein dictionary haben, dessen Schlüssel die Spaltennamen und dessen Werte die zugehörigen Listen für die Werte in den Zeilen  sind.
df_words_freqs = pd.DataFrame({"word": words, "frequency": freqs})
print(df_words_freqs.head())


In [None]:

# Wir haben oben auch ein Dictionary namens `records` mit den Häufigkeiten von Bigrammen erzeugt.
print(records)

# Wir wandeln die Information  in eine Liste von Dictionaries um. 
# Jedes dictionary hat 2 key-value Paare, eines für das Bigramm und eines für seine Häufigkeit.
# Aus der Liste von dictionaries können wir einen DataFrame erzeugen.
row_list  =[]
for kee,val in records.items():
	row_dict = {"bigram": kee, "frequency": val}
	row_list.append(row_dict)
print(f"row_list {row_list[0:5]}")
bigram_df = pd.DataFrame(row_list)
print(bigram_df.head())	


## Your turn 


* Oben haben wir ein Dictionary `vowel_frequencies` erstellt.
* Wandeln Sie die Werte in einen Dataframe um.


In [None]:
# %load ./snippets/vowel_frequencies_df.py


In [None]:
* In der folgenden Zelle sind noch zwei alternative Lösungen, die kompakter sind.

In [None]:
# %load ./snippets/vowel_frequencies_df_compact.py


# Visualisierung

* pandas stellt auch Methoden bereit , um Daten zu visualiseren.
* Zum Beispiel können wir aus den oben erstellten Crosstabs  Barplots erstellen.


In [None]:
crosstab_min.plot(kind="bar", stacked=True, rot=0)
crosstab_min.plot(kind="bar", stacked=False, rot=0)

# Daten mit Annotationen

* Manchmal haben wir es mit Daten zu tun, die nicht nur aus Text bestehen sondern auch Annotationen enthalten.
* Ein gängiges Beispiel dafür ist das CONLLU-Format (siehe Beispiel).
* Im Conllu-Format enthält jede Zeile ein Token und in tab-getrennten Spalten diverse Annotationen.
* Sätze werden durch Leerzeilen getrennt .
* Die Spalten sind wie folgt belegt: ID, FORM, LEMMA, UPOS, XPOS, FEATS, HEAD, DEPREL, DEPS, MISC.
  * UPOS = Part-of-speech-Tag nach Universal dependencies  (grobkörnig)
  * XPOS = Part-of-speech-Tag nach sprach-spezifischem Tagset (feinkörnig)
  * HEAD = Index desjenigen Tokens, das laut Dependenzsyntax der Kopf des aktuellen Tokens ist. (Im Beispiel unten wird die Tiger-Dependenzsyntax des Deutschen verwendet.)
  * DEPREL = syntaktiche Relation zwischen dem aktuellen und dem Kopftoken.
  * FEATS  = morphologische Merkmale des Tokens


```txt
1	Die	Die	ART	ART	number=sg|gender=fem|case=nom	2	DET	_	_
2	Szene	Szene	N	NN	number=sg|gender=fem|person=third	3	SUBJ	_	_
3	findet	finden	V	VVFIN	number=sg|stress=none|mood=indicative|person=third|valence=-|tense=present	0	S	_	_
4	vermutlich	vermutlich	ADV	ADV	subcat=sentence	3	ADV	_	_
5	in	in	PREP	APPR	case=dat	3	PP	_	_
6	einer	einer	ART	ART	number=sg|gender=fem|case=dat	7	DET	_	_
7	Küche	Küche	N	NN	number=sg|gender=fem|person=third	5	PN	_	_
8	statt	statt	PTKVZ	PTKVZ	_	3	AVZ	_	_
9	.	.	$.	$.	_	0	ROOT	_	_

1	Es	Es	PRO	PPER	number=sg|gender=neut|case=nom|person=third	2	SUBJ	_	_
2	gibt	geben	V	VVFIN	number=sg|stress=none|mood=indicative|person=third|valence=ai|tense=present	0	S	_	_
3	zwei	zwei	CARD	CARD	number=pl|gender=bot|case=bot|person=third	4	ATTR	_	_
4	Figuren	Figur	N	NN	number=pl|gender=fem|case=bot|person=third	2	OBJA	_	_
5	,	,	$,	$,	_	0	ROOT	_	_
6	die	die	PRO	PRELS	number=pl|gender=bot|case=nom|person=third	10	SUBJ	_	_
7	an	an	PREP	APPR	case=dat	10	PP	_	_
8	dem	dem	ART	ART	number=sg|gender=masc|case=dat	9	DET	_	_
9	Tisch	Tisch	N	NN	number=sg|gender=masc|case=nom_dat_acc|person=third	7	PN	_	_
10	sitzen	sitzen	V	VVFIN	number=pl|mood=indicative|tense=present|person=third	4	REL	_	_
11	.	.	$.	$.	_	0	ROOT	_	_
```

## Your turn

* Die Datei `comigs_set_1_bsPg_1_sample.conllu` enthält Parses im Conllu-Format.
* Überlegen Sie sich,  wie Sie diese Daten so einlesen können, dass Sie die nachfolgenden Analysen durchführen können.
  * Ermitteln Sie pro Satz die Anzahl der Tokens. 
  * Wie lang ist der längste Satz? Wie lang ist der kürzeste Satz? (Pot. gibt es mehrere gleich lange/kurze Sätze)
  * Finden Sie alle Verb-Lemmas im Text. Ermitteln Sie für jedes Verb-Lemma, wie oft es im Text vorkommt.
  * Berechnen Sie die Häufigkeiten der UPOS Part-of-speech-Tags.
  * Ermitteln Sie die 5 häufigsten Bigramme im Text. (Bigramme sollen keine Satzgrenzen überschreiten.)
  * Was ist der am häufigsten vorkommende Buchstabe im Text?
  * Ermitteln Sie für jedes Wort die Wortlänge und bilden  Sie am Ende eine Tabelle mit den Spalten `Wortlänge` und `Häufigkeit`, die dokumentiert, wie viele Wörter mit einer gegebenen  Länge im Text vorkommen. Die Tabelle soll aufsteigend nach der Wortlänge sortiert sein.


In [None]:
# %load ./snippets/various_frequencies_off_conllu.py

# the path to the parse file is as shown below
parse_file = "./data/comigs_set_1_bsPg_1_sample.conllu"
