# Objekte / Klassen und Arbeit mit Dateien in Python

## Ziel dieser Lern- und Übungseinheit

Die Materialien in diesem Notebook bauen auf den vorherigen beiden Einheiten. Thema dieser Einheit sind die Grundlagen objektorientierter Programmierung bzw. Klassen, die es uns erlauben eigene Datentypen mit zugehörigen Funktionen (bzw. Methoden) zu erstellen. Zudem wird die Arbeit mit Dateien vorgestellt. Am Ende sollten Sie mit folgenden Themen vertraut sein:

- Klassen und Objekte
- Eigenschaften und Methoden von Klassen
- Öffnen und Schreiben von Dateien

## Klassen und Objekte

Python gehört zur Familie der sog. [objektorientierten Programmiersprachen](https://de.wikipedia.org/wiki/Objektorientierte_Programmierung) – ein zentrales Konzept der objektorientierten sind Klassen und Objekte. Diese werden im Allgemeinen verwendet, um komplexe Datenstrukturen und Verhalten zu modellieren. Klassen sind Blaupausen oder Baupläne, die als Vorlage dienen, um Objekte zu erstellen – ein Objekt ist eine sog. Instanz einer Klasse, sprich die spezifische Umsetzung selbiger. Zwischen Klassen und Objekten besteht i. d. R. eine `1` zu `n`-Beziehung oder anders: Es gibt nur eine Klasse, aber potenziell mehrere Objekte dieser Klasse.

Klassen werden in Python mit dem Schlüsselwort `class` definiert. Anschließend folgt der Name der Klasse. Die Konvention in Python ist, dass Klassennamen in CamelCase geschrieben werden, also mit dem ersten Buchstaben jeder Wortgruppe großgeschrieben. Eine Klasse kann (prinzipiell) auch von einer anderen Klasse erben, um ihre Eigenschaften und Methoden zu erweitern (dies sei hier aber nur der Vollständigkeit halber erwähnt).

Die Initialisierung eines Objekts erfolgt mit der speziellen Methode `__init__()` innerhalb der Klasse. Diese Methode wird automatisch aufgerufen, wenn ein Objekt erstellt wird, und dient dazu, die Attribute des Objekts zu initialisieren. Ein einfaches Beispiel könnte folgendermaßen aussehen:

```python

class TextInfo:

    def __init__(self, title, author, description):
        """Initialisierung der Klasse mit der magischen Funktion __init__().
        Diese kann Parameter übergeben bekommen, wobei `self` für eine jede Methode
        einer Klasse verpflichtend ist!

        Die Werte der drei Parameter werden auf Eigenschaften der Klassen nach dem
        Prinzip `self.title = title` gespeichert und stehen dann auch nach Ausführung
        von `__init__()` zur Verfügung"""

        self.title = title
        self.author = author
        self.description = description

    def describe(self):
        return f"Der Text {self.title} wurde von {self.author} verfasst und die Kurzbeschreibung ist {len(self.description)} Zeichen lang."
```

Das Beispiel zeigt die Definition einer Klasse `TextInfo` – neben der Methode `__init__()` wird hier noch eine weitere Methode (`describe()`) definiert, die Attribute der Klasse ausliest und als String gebündelt zurückgibt. Das Code-Beispiel in der nächsten Zelle verdeutlicht die praktische Anwendung noch einmal. Gehen Sie das Beispiel durch und führen Sie die Zelle anschließend aus. 


In [None]:
class TextInfo:

    def __init__(self, title, author, description):
        """Initialisierung der Klasse mit der magischen Funktion __init__().
        Diese kann Parameter übergeben bekommen, wobei `self` für eine jede Methode
        einer Klasse verpflichtend ist!

        Die Werte der drei Parameter werden auf Eigenschaften der Klassen nach dem
        Prinzip `self.title = title` gespeichert und stehen dann auch nach Ausführung
        von `__init__()` zur Verfügung"""

        self.title = title
        self.author = author
        self.description = description

    def describe(self):
        return f"Der Text {self.title} wurde von {self.author} verfasst und die Kurzbeschreibung ist {len(self.description)} Zeichen lang."
    
# Erstellen einer Instanz der Klasse TextInfo bzw. des Objekts text_a
text_a = TextInfo("Der kleine Prinz", "Antoine de Saint-Exupéry", "Ein kleiner Junge lebt auf einem Asteroiden und besucht die Erde.")
# Erstellen einer Instanz der Klasse TextInfo bzw. des Objekts text_b
text_b = TextInfo("Die drei ???", "Robert Arthur", "Die drei ??? sind drei Freunde, die sich auf die Suche nach mysteriösen Fällen machen.")

# Ausgabe der Eigenschaften der Instanzen
# Ausgabe des Titels von text_a
print(text_a.title)
# Ausgabe des Titels von text_b
print(text_b.title)
# Ausgabe aller Eigenschaften mithilfe von `describe()`
print(text_a.describe())

### Übung Klassen

Wenn im Kontext der digitalen Textanalyse textuelle Daten untersucht werden, dann beginnt die Arbeit an diesen Datensätzen zumeist dieser Texte. Typischerweise stehen hierbei Abläufe wie in der vorherigen Übungseinheit im Fokus: das Trennen des Textes entlang bestimmter Marker (Tokenisierung), Trennung zwischen Groß- und Kleinschreibung bzw. die Vereinheitlichung, einfache Analysen durch Zählen der Worte.

Zur Vertiefung dieser Abläufe sowie zur praktischen Anwendung sei noch einmal ein Ausschnitt aus der Rede des Bundeskanzlers Olaf Scholz gegeben. Definieren Sie eine Klasse `Speech`, welche folgende Attribute beinhaltet: `text` – der ursprüngliche Redetext, `speaker` - Name des / der ursprünglichen Sprecher:in, `tokenized_text` – ein in Tokens zerlegter Text, wobei jedes Token klein geschrieben sein sollte und Satzzeichen wie Punkt, Komma und Doppelpunkt vorab ersetzt wurden. Die Klasse soll dazu neben `__init__()` folgende Methoden beinhalten: `clean_text()` – eine Methode, die Punkt, Komma und Doppelpunkt aus dem Text entfernt, `tokenize` – eine einfache Methode, die den Text entlang der Leerzeichen auftrennt.

Weitere Informationen zur Vertiefung / zum Nachschlagen:

- [Classes](http://python-textbook.pythonhumanities.com/01_intro/01_04-03_classes.html) aus Introduction to Python for Humanists
- [Strings ersetzen](https://digital-history-berlin.github.io/Python-fuer-Historiker-innen/ch01-atomare-datentypen/03-datentyp-strings.html#strings-ersetzen) aus Python für Historiker:innen

Vervollständigen Sie das Skript in der nächsten Zelle und führen Sie die übernächste Zelle zur Überprüfung aus.

In [None]:
speech_two = "Wir erleben eine Zeitenwende. Und das bedeutet: Die Welt danach ist nicht mehr dieselbe wie die Welt davor. Im Kern geht es um die Frage, ob Macht das Recht brechen darf, ob wir es Putin gestatten, die Uhren zurückzudrehen in die Zeit der Großmächte des neunzehnten Jahrhunderts, oder ob wir die Kraft aufbringen, Kriegstreibern wie Putin Grenzen zu setzen."

class Speech:

    def __init__(self, text, ____):
        self.text = text
        self.speaker = ____
        self.tokenized_text = self.____(self.clean_text())

    def clean_text(self):
        cleaned_text = self.____.replace(____, "").replace(",", "").replace(":", "")
        return cleaned_text
    
    def tokenize(self, cleaned_text):
        lowercased_text = cleaned_text.____()
        return lowercased_text.split(" ")
    

speech_analyse = Speech(____, "Olaf Scholz")
    

In [None]:
try:
    assert isinstance(speech_analyse, Speech)
except AssertionError:
    print("Die Variable `speech_analyse` ist keine Instanz der Klasse `Speech`.")
try:
    assert speech_analyse.text == speech_two
except AssertionError:
    print("Die Eigenschaft `text` der Klasse `Speech` enthält nicht den korrekten Text.")
try:
    assert isinstance(speech_analyse.tokenized_text, list)
    assert len(speech_analyse.tokenized_text) == 59
    print("Alles korrekt!")
except AssertionError:
    print("Die Eigenschaft `tokenized_text` der Klasse `Speech` enthält nicht die korrekten Werte.")


## Arbeit mit Dateien

Bislang haben wir nur Datein gearbeitet, die zugleich Teil unserer Skripte waren. In der Praxis ist dies zumeist nicht der Fall – zudem möchten wir unsere Ergebnisse möglicherweise nicht nur über die `print()`-Funktion ausgeben, sondern dauerhaft in einer Datei speichern.

Zur Arbeit mit Dateien bietet Python eine Reihe von Funktionalitäten an. Lesen Sie zunächst den Abschnitt [Dateien öffnen, lesen und bearbeiten](https://digital-history-berlin.github.io/Python-fuer-Historiker-innen/ch04-dateien-verarbeiten/02-dateien-i-o.html) aus Python für Historiker:innen und begeben Sie sich anschließend an die Übungsaufgabe.

### Übungsaufgabe Arbeit mit Dateien

Speichern Sie den Inhalt der Variable `text` in einer Datei `text_one.txt`. Lesen Sie anschließend den Text wieder aus und vergleichen Sie den Inhalt der Datei mit dem Inhalt von `text` mithilfe des Vergleichsoperators `==`.

In [None]:
text = "Wir erleben eine Zeitenwende. Und das bedeutet: Die Welt danach ist nicht mehr dieselbe wie die Welt davor. Im Kern geht es um die Frage, ob Macht das Recht brechen darf, ob wir es Putin gestatten, die Uhren zurückzudrehen in die Zeit der Großmächte des neunzehnten Jahrhunderts, oder ob wir die Kraft aufbringen, Kriegstreibern wie Putin Grenzen zu setzen."

with open('text_one.txt', '____', encoding="utf-8") as textfile:
    ____.write(text)
    
with open(____, 'r', encoding="utf-8") as textfile:
    text_read = textfile.____()

____ == text

In [None]:
assert isinstance(text_read, str)
assert text_read == text
print("Alles korrekt!")