# Programmieren für Geisteswissenschaftler - Workshop II
# Tag 1

## Datenstukturen in Jupyter Notebooks

Lernen Sie das Jupyter Notebook kennen:  
Ein Jupyter Notebook enthält einen Python-Interpreter und verschiedene Zellen.  
In den Zellen können Sie entweder Text oder Code eingeben.  
Jede Zelle mit Code kann *einzeln* ausgeführt werden.  

Hinweis:  
Sie können zudem unter "Edit" oder der rechten Maustaste die Funktion "Clear Outputs" / "Clear All Outputs" nutzen, um das Notebook weiterhin übersichtlich zu halten.

Lernziele:

* Was sind die Vorteile von Jupyter Notebooks?
* Wie kann ich in Python Dateien einlesen?
* Wie kann ich Dateien schreiben?
* Wie kann ich aus unstrukturierten Daten strukturierte Daten erzeugen?
* Wie halte ich mehrere Daten in einer Datenstruktur?
* Welche Datenstrukturen gibt es?
* Wie exportiere ich Daten in Standardformate?
* Wie nutze ich bestehende Bibliotheken in Python?

## Aufgabe 1

Machen Sie sich mit dem Jupyter Hub vertraut.

Erzeugen Sie zwei neue Zellen. Eine für Markdown Text und eine formatiert für Code.  

Schreiben Sie in die Textzelle einen Satz und heben Sie dabei ein Wort mit **Fettdruck** hervor.  
Schreiben Sie anschließend `Hello Wrld`(sic!) in eine Variable.  
Nutzen Sie Ersetzen Funktion von Pythons String-Objekt, um das fehlerhafte Wort mit dem korrekten Wort zu ersetzen.

Geben Sie die Variable aus.

Diese Zelle enthält einen **Fettdruck**

In [1]:
greeting = "Hello Wrld"
greeting = greeting.replace('Wrld','World')
greeting

'Hello World'

In [2]:
print(greeting)

Hello World


## Aufgabe 2

Laden Sie, wenn nicht bereits geschehen, von Github das Repo zu diesem Workshop unter [NLP-Workshop](https://github.com/SCDH/python-nlp-workshop) als ZIP Datei herunter.  
Entpacken Sie diese Datei in einem Ordner auf Ihrem PC. Öffnen Sie diesen Ordner. Erstellen Sie nun im Hub einen Ordner namens `data` und kopieren Sie alle Textdateien dort hinein. Sie können die Dateien direkt von Ihrem Explorer hier in das Hub ziehen.  

Lesen Sie nun die Datei `bpb_text_ki_im_klassenzimmer.txt` im Ordner `data` ein.
Benutzen Sie dabei den Context Manager von Python. Infos dazu finden Sie im Infomaterial:  
https://github.com/SCDH/python-nlp-workshop/blob/main/Infomaterial.md#dateien-%C3%B6ffnenlesen

Geben Sie anschließend den Text aus.

Tipp: Schauen Sie immer wieder in das Infomaterial, wenn Sie sich nicht sicher sind.  

In [3]:
with open("../data/bpb_text_ki_im_klassenzimmer.txt") as f:
          text = f.read()

## Aufgabe 3

Laden Sie nun alle fünf Texte mittels Python zunächst einmal in eine Liste.  
Hierbei soll jedes Element der Liste ein Text (d.h. ein String des gesamten Textes) sein.  
Prüfen Sie, ob Sie alle fünf Texte geladen haben.  

Sie können die Bibliothek `glob` (ein Abkömmling des Unix-Tools "global" von 1971) nutzen, um eine Liste aller Dateien aus dem Dateisystem zu bekommen.  
Die Methode `glob` in der gleichnamigen Bibliothek bekommt einen Pfad als Parameter.  
Sie können hier auch sog. "Wildcards" verwenden. Mehr dazu im Infomaterial.  

In [2]:
from glob import glob

texts = []

# Specify the folder path
folder_path = "../data/"

# Use glob to get all text files in the folder
text_files = glob(folder_path + "bpb_*.txt")

# Iterate over the list of text files and read them
for file_path in text_files:
    with open(file_path) as file:
        content = file.read()
        texts.append(content)

# More elaborated:
        
# import glob, os

# texts = []
# folder_path = "data/multiple"
# text_files = glob(os.path.join(folder_path, "bpb_*.txt"))

# for file_path in text_files:
#     with open(file_path, "r", encoding="utf-8") as file:
#         content = file.read()
#         texts.append(content)

## Optional: Aufgabe 4

Vertiefen Sie in dieser optionalen Aufgaben das Arbeiten mit Dateien.  

Schreiben Sie alle Texte aus Ihrer Liste wieder in das Dateisystem zurück.  
Nutzen Sie dazu erneut eine for-Schleife, mit deren Hilfe Sie über die Elemente Ihrer Liste iterieren.  
Um die Dateien zu schreiben können sie vorher einen separaten Ordner erstellen.  

Tipp: Egal, ob Sie in einen neuen oder den bestehenden Ordner schreiben, Sie müssen sicher sein, dass dieser Ordner existiert.  
Python hat dazu in der Library `os` die Methode `makedirs()`: `os.makedirs(output_folder, exist_ok=True)`

Hinzu kommt, dass Sie für jede Datei einen Dateinamen brauchen. Überlegen Sie sich, wie sie einen eindeutigen Namen für jede Datei erzeugen können.  

In [5]:
import os

# Folder where files will be saved
output_folder = 'output_texts'

# Ensure the output directory exists
os.makedirs(output_folder, exist_ok=True)

# Write each text to a separate file
for i, text in enumerate(texts, start=1):
    file_name = f"file{i}.txt"
    file_path = os.path.join(output_folder, file_name)
    
    # Open file in write mode ('w'), which will create the file if it doesn't exist
    with open(file_path, 'w', encoding='utf-8') as file:
        file.write(text)
        
    print(f"Wrote to {file_path}")

Wrote to output_texts/file1.txt
Wrote to output_texts/file2.txt
Wrote to output_texts/file3.txt
Wrote to output_texts/file4.txt
Wrote to output_texts/file5.txt


## Aufgabe 5

Schauen Sie in die Texte (entweder öffnen Sie die Dateien oder Sie lassen sich den Inhalt ihrer Textliste hier ausgeben).  
Sie erkennen dort in den ersten Zeilen wichtige Metainformationen zu den Texten.  
Zunächst wird die Kategorie genannt, dann der Titel, das Datum und schließlich die Autoren.

Überlegen Sie sich eine geeignet Datenstruktur für diese Metadaten mithilfe von Python Dictionaries.

In [6]:
text_obj = {
    "category": "",
    "title": "",
    "date": "",
    "author": "",
    "text": ""
}

## Aufgabe 6

Bisher haben wir die Texte nur als Elemente einer Liste vorliegen.  
Wir möchten die Daten aber mehr strukturieren.  

Iterieren Sie über ihre Liste `texts` und nutzten Sie Pythons Methode `split()`, um den Text an Zeilenumbrüchen zu trennen.  
Sie werden dann eine Liste an "Zeilen" bekommen.

Hinweis: `split()` erwartet als Parameter das Zeichen, an dem getrennt werden soll. Übergeben Sie keinen, wird standardmäßig das Leerzeichen verwendet.  

Überlegen Sie anschließend, wie Sie in derselben Schleife ihr Dictionary für die Metadaten befüllen können.  

In [7]:
from pprint import pprint

texts_with_md = []

for text in texts:
    lines = text.split('\n')
    text_obj = {
        "category": lines[0],
        "title": lines[1],
        "date": lines[2],
        "authors": lines[3],
        "text": text
    }
    texts_with_md.append(text_obj)
    
# pprint(texts_with_md)

## Aufgabe 7

Wir wollen nun unsere strukturierten Daten auch strukturiert speichern.  
Dictionaries sind Datenstrukturen, die nur zur Laufzeit des Python Scripts existieren.  
Um Sie persistent zu speichern, müssen wir Sie in eine Datei schreiben.  

Tatsächlich ist es möglich, Dictionaries zu speichern. Aber wir halten uns an dieser Stelle lieber an verbreitertere Standards.  
Ein Standard ist CSV, Comma-Separated Values, das vom Prinzip her dieselbe Grundlage hat wie Excel Tabellen und auch in Excel verarbeitet werden können.  

Wollen wir also unsere Metadaten tabellarisch speichern, bietet sich das CSV-Format an.  

Eine Bibliothek, die in den letzten Jahren immer beliebter wurde, ist [Pandas](https://pandas.pydata.org/).  
Pandas kann hervorragend mit großen Tabellen umgehen. Das liegt daran, dass Tabellen sich mathematisch als Matrizen darstellen lassen.  
Und dafür hat Pandas einige sehr performante Methoden parat.  

Installieren Sie Pandas in Ihre Umgebung, indem Sie in eine Zelle `!pip install pandas` schreiben. 

Nutzen Sie dazu [Pip](https://pip.pypa.io/en/stable/), den Python Package Manager.  
Das Installieren von Packages über den Package Manager benötigt i.d.R. ein Terminal, auch [Shell](https://wiki.ubuntuusers.de/Shell/) genannt.  
Einige Befehle lassen sich jedoch auch über Notebooks ausführen, wenn man ein `!` voranstellt.

PIP wird Pandas installieren, sodass Sie anschließend mit `import pandas as pd` Pandas nutzen können.  
(Die Abkürzung `pd` hat sich in Bezug auf Pandas etabliert.)

Hinweis: Das Installieren von Bibliotheken müssen Sie pro Umgebung nur einmal machen. D.h. Sie können den Befehl nach dem ersten erfolgreichen Durchlauf auskommentieren.

In [8]:
#!pip install pandas

import pandas as pd

## Aufgabe 8

Erstellen Sie nun einen Pandas DataFrame bei dem Sie ihre Metadaten als Parameter übergeben.  

Speichern Sie anschließend den DataFrame in einer CSV Datei.

In [9]:
df = pd.DataFrame(texts_with_md)
df.to_csv('metadata.csv', index=False)

## Optional: Aufgabe 9

In dieser Übung wollen wir die Probleme verstehen, die entstehen, wenn wir Texte einfach mittels Zeichen trennen.  

Iterieren Sie wieder über ihre Texte. Überlegen Sie sich, an welchen Zeichen Sie trennen müssen, um "Sätze" zu erzeugen.  
Bedenken Sie auch, wie Sie das in Python lösen bzw. welche Probleme hier auftauchen.  

Sie können dann die Sätze in Ihrer Datenstruktur speichern. Am besten unter einem Schlüssel namens `sentences`.  

In [10]:
for text in texts_with_md:
    sentences = text['text'].replace('.','\n').split('\n')
    text['sentences'] = sentences
    
# texts_with_md

## Aufgabe 10

Als Vorübung zur finalen Aufgabe geht es nun darum, die fünf Texte an ihren Wortgrenzen aufzusplitten, um an die Wörter zu kommen.  
Danach müssen alle Wörter zu einer großen Wortmenge vereinigt werden.  

Überlegen Sie sich, wie sie ihre Liste an Texten verarbeiten können, um dies zu erreichen.  
Wenn Sie bereits Aufgabe 9 erledigt haben, sollten Sie davon bereits ein Verständnis haben.

Schreiben Sie am Ende alle Wörter in die Variable `bow` (Bag of Words).  
Prüfen Sie, ob Sie auf ca. 6700 Wörter für alle fünf Texte kommen.

In [11]:
bow = []

for text in texts_with_md:
    words = text['text'].lower().split()
    text['words'] = words
    bow = bow + words
    
len(bow)

6797

## Finale Aufgabe

Als Abschluss wollen wir eine kleine Statistik über unsere Texte erstellen.  
Wir möchten die Wordhäufigkeit (word frequency) ermitteln.  

Dazu können Sie sich einmal überlegen, wie Sie die Wörter aus ihren fünf Texten zählen können.  
Neben dem Wort an sich wollen wir also auch die Anzahl der Vorkommnisse des Wortes ermitteln und speichern.  

Welche Datenstruktur wäre dazu geeignet?  

Bitte schreiben Sie keinen Code, sondern überlegen nur theoretisch!

In [12]:
# Hier ist Platz für ihre Notizen

Der Grund für diesen theoretischen Ansatz ist einfach: Python besitzt bereits eine Library, die das erledigt.  
Wenn Sie aus der Library `collections` die Klasse `Counter` importieren, haben Sie ein umfangreiches Werkzeug für diese Aufgabe.

Übergeben Sie Counter einfach ihre Liste an Wörtern mit:

```python
word_count = Counter(words)
```


In [None]:
from collections import Counter

# Create a Counter object to count the word frequencies
word_count = Counter(bow)

# pprint has since Python 3.8 a standard conversion to a sorted dict
pprint(word_count)