# Daten-Eingabe und -Ausgabe

* In vorausgehenden Notebooks haben wir gesehen, dass wir in einem Jupyter-Notebook bzw einer Terminal-Session von Hand Informationen eingeben können, die wir mit Programm-Anweisungen bearbeiten wollen.
* Im Normalfall haben wir aber Datenmengen, die wir nicht selbst eintippen wollen (oder am Ende händisch kopieren und in eine Datei schreiben wollen.)
* Wir wollen daher Informationen aus Dateien einlesen bzw. in Dateien schreiben.


## Einlesen einer Textdatei auf dem lokalen Rechner

* Mit dem Befehl `open` können wir Dateien öffnen.
* Ein simpler, aber häufiger Fall ist das Öffnen von einfachen Textdateien.

In [None]:
# wir verwenden eine Text-Datei aus dem Merlin-Korpus
path_to_file="./data/1091_0000265.txt"
# Die open-Funktion nimmt mehrere Argumente. Das wichtigste ist das erste, der Pfad zur Datei.
# Der zeite Parameter , das "r", sagt, dass wir die Datei lesen (read) wollen, statt sie z.B. schreiben zu wollen.
# der dritte Parameter gibt den Zeichensatz an. Heute sollte das in den meisten Fällen utf-8 sei.
# open gibt ein sog. file object zurück , unten das 'f'.
with open(path_to_file,"r", encoding='utf-8') as f:
    # mit der Methode readlines lesen wir den Datei-Inhalt aus dem file-objekt f  in eine Liste von Zeilen.
    lines=f.readlines()
print(lines)

# Wir schauen uns die Datei zeilenweise an.
# Wir verwenden die enumerate-Funktion um neben den Zeilen auch gleich einen Zähler zu bekommen.
for ix,z  in enumerate(lines):
    line = z.strip()
    print(f"Z{ix}: {line}")
# Wir sehen, dass die Zeilen nicht einzelne Sätze enthalten, sondern zum Teil Folgen von Sätzen.

Weitere Details:
* Vor dem open-Befehl verwenden wir im Beispiel oben `with `. Dieses Konstrukt dient dazu sicherzustellen, dass die Datei unbeschadet bleibt, auch wenn während der Programmausführung etwas schief geht.
* Wir könnten auch einfach folgende Variante verwenden, die den Schutz durch den sogenannten Context mananger  `with` nicht verwendet.
* NB: wir beenden den Dateizugriff explizit mit `close`.

```python
f=open(path_to_file,"r", encoding='utf-8')
lines=f.readlines()
f.close()
print(lines)

```
  

In [None]:

with open(path_to_file,"r", encoding='utf-8') as f:
    # mit der Methode read lesen wir den Datei-Inhalt in einen einzigen langen String.
    text=f.read()
print(text)


## Erstes Beispiel: Wörter zählen

* Wir möchten Folgendes zählen:
    * die Anzahl aller Token im Text der oben geladenenen Datei.
    * für jede Wortform, wie häufig sie ist

* Vorgehen ("Algorithmus")
    * Wir betrachten nacheinander alle Zeilen.
    * Wir spalten jede Zeile in Tokens auf.
    * Wir ermitteln die Tokenzahl pro Zeile und addieren sie zu einer Zählvariable hinzu.
    * Für jedes Token in der Zeile prüfen wir, ob wir es schon einmal gesehen haben.
    * Wenn nicht, legen wir einen Eintrag (record) dafür an und initialisieren die Häufigkeit mit 0.
    * Danach addieren wir beim bestehenden Eintrag 1 zur alten Häufigkeit hinzu.



In [None]:
# we use the regular expressions module
import re
# we use a dictionary to keep track of the token frequencies
# an empty dictionary can be constructed as '{}'
freq_records = {}
total_tokens = 0
# we iterate through the lines
for z in lines:
    # we remove the final newline character using the strip-method for strings
    line = z.strip()

    # We separate punctuation marks from preceding alphabetic characters (letters)
    line = re.sub("([a-zA-Zäöü])([\.\!\?,])","\\1 \\2",line)
    print(f"Rohtext Zeile:\t{line}")

    # we split the text of the line into a list of tokens
    white_space_tokens = re.split("\s+",line)
    total_tokens = total_tokens + len(white_space_tokens)
    print(f"Tokens  Zeile: {white_space_tokens}")

    # we visit each token in the list of tokens
    for token in white_space_tokens:
        # we ignore 'Tokens' that are emptys strings
        if token =='':
            continue
        if token not in freq_records:
            freq_records[token] = 0
        freq_records[token] +=1
print("\n")
print(f"Anzahl aller Tokens im Text: {total_tokens}")
print("\n")
print("Häufigkeiten")
print(freq_records)
print("\n")
print("Tokens nach absteigender Häufigkeit")
# Wir ignorieren die vollständigen Details der nächsten Zeile fürs Erste
# Aber wir können aber schon mal festhalten, dass man mit `sorted` ein dictionary sortieren kann.
# Unten sortieren wir nach den Werten im Dictionary, nicht nach den Schlüsseln
# Indem wir reverse=True setzten, sortieren wir absteigend
sorted_keys = sorted(freq_records, key=freq_records.get, reverse=True)
for r in sorted_keys:
    print(r, freq_records[r])



In [None]:
# wir speichern das dictionary in einer Datei für die Benutzuung in einem anderen Notebook
# import json
#with open("./data/cyop_of_freq_data.json", "w") as f:
#    json.dump(freq_records, f)

**Details**

* Oben verwenden wir das Modul `re`  für reguläre Ausdrücke.
* Wir kommen später noch mal vertiefend auf `re' zu sprechen.
* Viele der Dinge, die wir mit `re` machen können, kann man alternativ auch mit Stringmethoden machen:
    * `white_space_tokens = line.split()` wäre eine Alternative zu
    * `white_space_tokens = re.split("\s+",line)`
* Probieren Sie es mal aus.
  

## 🫵 Your turn

* Momentan schreiben wir das Ergebnis der Häufigkeitsermittlung einfach auf den Bildschirm.
* Schreiben Sie die Ergebnisse stattdessen nun in eine Textdatei.
* Legen Sie die Datei unter dem Namen "1091_0000265.freqs.tsv" an.
* Schreiben Sie zunächst das Wort und dann, getrennt durch einen Tabulator, die Häufigkeit.
* Am Anfang der Datei schreiben Sie als Spaltenüberschriften "Token" und "Häufigkeit".
* Legen Sie die Datei unter dem Namen "1091_0000265.freqs.tsv" an.
* Lassen Sie sich [hiervon](https://www.geeksforgeeks.org/python/writing-to-file-in-python/) inspirieren oder googlen Sie nach anderen Seiten bei Bedarf.

Versuchen Sie es erst selbst zu lösen. Sie können danach die `load`-Zeile in der folgenden Zelle auskommentieren und die Zelle ausführen , um eine  Lösung zu sehen.



In [None]:
# Platz für ihren Code

In [None]:
# hier können Sie eine mögliche Lösung einblenden
# %load ./snippets/freq_2_tsvfile.py


## 🫵 Your turn

* Wie könnten Sie den Code oben modifizieren,  so dass die einzelnen Sätze zugreifbar sind?
* (Die Lösung wird nicht perfekt  sein, da an manchen Stellen ein satzbeendendes Interpunktionszeichen fehlt.)


In [None]:
# %load ./snippets/get_sentences.py


# Container-Datentypen

* Wir haben schon integers , floats und strings gesehen.
* Weitere Arten von Objekten in Python sind Listen, Mengen/Sets, Tupel und Dictionaries.
* Diese sind Container: sie enthalten andere Objekte.


## Listen
* Listen sind vergleichbar zu sog. Arrays in anderen Programmiersprachen.
* Listen können beliebig viele Elemente enthalten.
* Sie können auch verschiedene Typen von Objekten enthalten. (In andere Programmiersprachen geht das nicht.)
    * ⚡ Diese Möglichkeit sollte man vielleicht in der Praxis nicht oder nur gut überlegt nutzen.
* Die Werte in einer Liste können sich wiederholen. (Es sind keine Mengen (EN 'sets'), in denen jedes Element nur genau einmal vorkommen kann.
* Listen werden durch eckige Klammern gekennzeichnet, innerhalb derer die Elemente durch Kommata getrennt sind.

In [None]:
# Erzeugen von leeren Listen: 2 Alternativen
words = []
worte = list()

# Erzeugen von gefüllten Listen
participants = ["Alice", "Bob", "Charlie"]
ages = [30, 25, 28]
ages2 = [30, 28, 25]
# Sind die beiden Listen gleich?
ages2 == ages


# meist keine gute Idee, Elemente mit verschiedenen Typen in eine Liste zu stecken
mixed_bag = ["apple", 3, True]



## Listen-Methoden

* Listen sind Objekte der list-Klasse.
* Sie verfügen über viele eigene [Methoden](https://www.geeksforgeeks.org/python/list-methods-python/).

In [None]:

verbs = ["gehen", "stehen", "sitzen"]

print(len(verbs))  # Länge der Liste

verbs.append("liegen") # Einfügen am Ende
print(verbs)

verbs.sort() # Sortieren
print(verbs)

verbs.reverse() # Umkehren
print(verbs)

verbs.remove("gehen") # Element entfernen
print(verbs)

verbs.clear() # Löschen aller Einträge
print(verbs)


## 🫵 Your turn

* Wir wollen die Liste nouns in absteigender Folge sortieren .
* Wie machen wir das?
Versuchen Sie es erst selbst. Sie können in der übernächsten Zelle, den load-Befehl auskommentieren und die Zelle ausführen, um eine mögliche Lösung zu sehen.

In [None]:

nouns = ["Gang", "Tafel", "Schnee" ]

# insert your python statements here

print(nouns)




In [None]:
# %load ./snippets/reverse_sort.py
nouns = ["Gang", "Tafel", "Schnee" ]

# insert your python statements here

print(nouns)




### Methoden zum Zugriff auf Elemente in einer Liste

* ⚡ Die Position des ersten Elements in einer Liste ist 0. Das zweite Element steht an Position 1, und so weiter.
* Wir können auch <span style="color:red">negative</span> Indizes (!) verwenden, um auf Elemente in der Liste zuzugreifen.
* Die Position -1 ist die letzte Position in einer Liste. 
    * Wenn wir vom ersten Element an Position 0 nach links gehen, landen wir quasi beim letzten Element der Liste!

In [None]:

verbs = ["gehen", "stehen", "sitzen"]
print(f"Liste am Anfang {verbs[0]}")

# Wir können Untersequenzen auslesen, z.B. die ersten beiden Wörter wie folgt
print(verbs[0:2])

# Der linke Wert (hier:0) gibt die erste Position aus, die ausgegeben werden soll. 
# Der rechte Wert (hier:2) gibt die Position aus, bis zu der ausgegeben werden soll. 
# Diese Position ist also die erste Position, die nicht mehr ausgegeben werden soll!
print(verbs[1:3])


verbs.append("stellen")
print(f"aktualisierte Liste {verbs}")

# Egal wie lang die Liste ist, wir können das letzte Element wie folgt auslesen:
print(verbs[-1])

# Das vorletzte Element kann wie folgt gelesen werden:
print(verbs[-2])

# Lesen aller Elemente ausser dem letzten
print(verbs[:-1])

# Lesen ab dem zweiten Element (an Position 1!) bis ans Ende
print(verbs[1:])


### Einfügen und Entfernen von Elementen an bestimmten Positionen

* Wir können Elemente an einer bestimmten Position hinzufügen oder entfernen.

In [None]:

#  Einfügen eines neuen Elements an einer bestimmten Position (hier: an Positon 0)
verbs.insert(0, "krabbeln")
print(verbs)
# Einfügen an vorletzter Stelle
verbs.insert(-1, "fliegen")
print(verbs)
# Entfernen des ersten Elements
verbs.pop(0)
print(verbs)


### Anzeigen des Index beim Iterieren über eine Liste

* Wenn wir lange Listen verarbeiten, ist es manchmal interessant , beobachten zu können, wie weit die Iteratoin fortgeschritten ist.
* die Funktion `enumerate`  macht für for-loops den Index des aktuellen Elements verfügbar.

In [None]:
numbers = list(range(1,10000))
for index, number in enumerate(numbers):
    if index%1000==0:
        print(f"processing {index}-th number {number}")
        

## Mengen / Sets

* Mengen sind ähnlich zu Listen, aber sie enthalten keine Duplikate.
* Die Elemente in Mengen sind nicht in einer bestimmten Reihenfolge sortiert.
* Mengen sind veränderbar.
* Wie bei Listen können die Elemente heterogene Typen enthalten.

In [None]:

# Erzeugen einer leeren Menge
m=set()
# Hinzufügen von Elementen
m.add(1)
m.add("norbert")
print(m)
# Test ob Element in Menge enthalten
print(2 in m)

# neues Set aus einer Liste mit den gleichen Elementen wie oben
n=set(['norbert',1])
# Sind diese sets gleich?
m==n



In [None]:
# Wir können über Mengen auch direkt iterieren:

for member in m:
    print(member)



### Spezielle Operationen auf Mengen

* Mengen haben nicht dieselben Methoden wie Listen. Wie oben gesehen fügt man z.B. mit `add` Elemente zu einer Menge hinzu, während bei einer Liste `append` verwendet wird.
* Daneben gibt es Methoden für Operationen, die spezifisch für Mengen sind.


In [None]:

# Erzeugen einer Menge aus einer Liste
verben_a = set(["gehen", "stehen", "sitzen"])
verben_b = set(["laufen", "stehen", "gehen", "stolzieren"])

# Hinzufügen von Elementen: add, nicht append
verben_a.add("fliegen")

# Vereinigung von Mengen
alle_verben = verben_a.union(verben_b)

# Schnittmenge
geteilte_verben = verben_a.intersection(verben_b)
print(f"geteilte Verben {geteilte_verben}")

# Unterschiede zwischen Mengen
nur_verben_a = verben_a.difference(verben_b)
nur_verben_b = verben_b.difference(verben_a)

# Alternative Syntax  für Differenz
print(f"a-b {verben_a - verben_b}")
print(f"b-a {verben_b - verben_a}")


## 🫵 Your turn

* Finden  Sie die Menge aller Mädchennamen, die entweder nur 2022 oder nur 2024 unter den 10 häufigsten Babynamen waren.

In [None]:
female_names_2024 = ["Emilia", "Sophia", "Emma", "Hannah", "Mia", "Lina", "Ella", "Lia", "Leni", "Mila"]
female_names_2022 = ["Emilia", "Mia", "Sophia","Emma","Hannah","Lina","Mila", "Ella", "Leni", "Clara"]


In [None]:
# %load ./snippets/baby_names_not_shared.py


* 🚀 Neben den veränderbaren Mengen vom Type `set` gibt es auch den sogenannten Typ `frozenset`, der unveränderlich ist.

## Dictionaries

* Dictionaries werden verwendet, um Datenwerte in Schlüssel-Wert-Paaren (key-value-pairs) zu speichern.
* Das erste Element jedes Paares , der key, muss sich also von den ersten Elementen aller anderen Paare unterscheiden. 
* Ein Dictionary wird mit geschweiften Klammern gekennzeichnet, innerhalb derer jedes Elementpaar durch einen Doppelpunkt getrennt ist

In [None]:
# leere Dictionaries erzeugen
leeres_dict = {}
leeres_dict2=dict()

# dictionaries gleich mit Inhalt initialisieren
persons = {"Charlie": 28, "Alice": 30, "Bob": 25}
persons2 = { "Bob": 25, "Charlie": 28, "Alice":30}
# Sind diese Dictionaries gleich?
persons == persons2


### Methoden von Dictionaries

In [None]:

# Ausgabe aller Schlüssel
print(persons.keys())

# Ausgabe aller Werte
print(persons.values())

# Ausgabe der Schlüssel-Wert Paare
print(persons.items())

# Ausgabe des Wertes für einen Schlüssel: setzt voraus, dass der Schlüssel existiert
print(f"Alter Alice {persons['Alice']}")


# die folgende Zeile würde einen Fehler produzieren, da der Schlüssel "Waldemar"  nicht existiert
#print(persons["Waldemar"])

# mit der `get`-Methode von dictionaries kann man einen Standardwert zurückgeben, falls der Schlüssel nicht existiert
print(f"Alter von Waldemar {persons.get('Waldemar',12345)}")

# gibt man keinen Standardwert an, wird der Sonderwert `None` zurückgegeben
print(persons.get("Waldemar"))

# Testen, ob ein Schlüssel existiert; Test gibt True oder False zurück
print("Waldemar" in persons)

# entfernt den Eintrag für Alice und gibt den Wert für den Eintrag zurück
print(f"Wert für Alice {persons.pop('Alice')}")

# Löschen aller Einträge 🔥
persons.clear()
print(persons)


# 🚀 Tupel

* Tupel sind fixe Sequenzen.
* Sie sind ähnlich zu Listen, aber sie sind unveränderlich (immutable).
* Tupel werden durch runde Klammern gekennzeichnet, innerhalb derer die Elemente durch Kommata getrennt sind.
* Warum braucht man überhaupt Tupel?
    * Wenn man sicherstellen will, dass Daten nicht verändert werden können.
    * Speichermanagement - Tuple verbrauchen weniger Speicher als Listen
    * Performanz - man kann schneller über die Element in einem Tupel iterieren bzw auf sie zugreifen als auf die Elemente einer Liste
    * (Die letzten beiden Gründe sind nicht besonders wichtig, solange man kleine Datenmengen hat.)

In [None]:
tupelo = (1, 52, 32)
# Testen, ob Element in Tupel enthalten ist
print(f"① Test, ob 3 im Tupel : {3 in tupelo}")
# Länge des Tupels
print(f"② Länge: {len(tupelo)}")
# Zugriff auf Elemente in Tupel
print(f"③ Element an Position 1: {tupelo[1]}")
print(f"④ vorvorletztes Element bis Ende: {tupelo[-2:]}")

# Umkehrung der Elemente im Tupel
print(f"⑤ Umkehrung: {tupelo[::-1]}")
# NB: anders als bei den sort()- oder reverse()-Methoden einer Liste hat die obige Anweisung keinen Einfluss auf das ursprüngliche Tupel
print(f"⑥ unverändertes Tupel: {tupelo}")
# Zählen wie oft 52 vorkommt
print(f"wie oft kommt 52 vor? {tupelo.count(52)}")

In [None]:
# Tupel sind unveränderbar, darum gibt es hier einen Fehler
tupelo[0]=12

In [None]:
# man kann leere Tupel erzeugen
# man kann aber später nichts mehr in sie reinschreiben: Tupel sind eben unveränderlich
tupel2 = tuple()
print(tupel2)

In [None]:
# help zeigt, dass es für tuple keine Methode wie add oder append gibt.
help(tuple)

# ✔️ Zwischenstand: I/O und Containerdatentypen


* Mit der python Funktion `open()` kann man Dateien öffnen und eine file object erzeugen, mit dessen Methoden `read` oder `readlines`  man den Inhalt der Datei in einen String oder eine Liste von Strings lesen kann.
* Mit `open()` und der Methode `write` von file objects kann man Dateien auch schreiben.
* (NB: manche Klassen haben Methoden, die das Lesen und Schreiben von Daten managen)


* Zu den Haupt-Containerdatentypen gehören
    * Listen (veränderbar, potentiell mit sich wiederholenden Elementen): `names = ["Hella", "Franz"]``
    * Sets/Mengen (veränderbar, mit sich nicht wiederholenden Elementen): `l1s={"Deutsch","Ungarisch", "Französisch", "Türkisch"}``
    * Dictionaries (veränderbar, mit unikalen keys/Schlüsseln): `student={'age':14, 'l1':"Norwegisch"}`


* Die Containerdatentypen teilen sich einige wichtige Eigenschaften:
    * Z.b. kann man mit `x in y`  prüfen ob
        * x ein Element in der Liste y ist
        * x ein Schlüssel des Dictionary y ist
        * x im Tupel y enthalten ist
        * x im Set y enthalten ist
    * Ebenso kann man mit `len(y)` prüfen
        * wie viele Elemente in der Liste y sind
        * wie viele Elemente im Set y sind
        * wie viele Elemente im Tupel y sind
        * wie viele Schlüssle das dictionary  y hat
 

