# Objekte / Klassen und Arbeit mit Dateien in Python (Musterlösungen)

### Übung Klassen

Wenn im Kontext der digitalen Textanalyse textuelle Daten untersucht werden, dann beginnt die Arbeit an diesen Datensätzen zumeist mit der Aufbereitung dieser Texte. Typischerweise stehen hierbei Abläufe wie in der vorherigen Übungseinheit im Fokus: das Trennen des Textes entlang bestimmter Marker (Tokenisierung), Trennung zwischen Groß- und Kleinschreibung bzw. die Vereinheitlichung, einfache Analysen durch Zählen der Worte.

Zur Vertiefung dieser Abläufe sowie zur praktischen Anwendung sei noch einmal ein Ausschnitt aus der Rede des Bundeskanzlers Olaf Scholz gegeben. Definieren Sie eine Klasse `Speech`, welche folgende Attribute beinhaltet: `text` – der ursprüngliche Redetext, `speaker` - Name des / der ursprünglichen Sprecher:in, `tokenized_text` – ein in Tokens zerlegter Text, wobei jedes Token kleingeschrieben sein sollte und Satzzeichen wie Punkt, Komma und Doppelpunkt vorab ersetzt wurden. Die Klasse soll dazu neben `__init__()` folgende Methoden beinhalten: `clean_text()` – eine Methode, die Punkt, Komma und Doppelpunkt aus dem Text entfernt, `tokenize` – eine einfache Methode, die den Text entlang der Leerzeichen auftrennt.

Weitere Informationen zur Vertiefung / zum Nachschlagen:

- [Classes](http://python-textbook.pythonhumanities.com/01_intro/01_04-03_classes.html) aus Introduction to Python for Humanists
- [Strings ersetzen](https://digital-history-berlin.github.io/Python-fuer-Historiker-innen/ch01-atomare-datentypen/03-datentyp-strings.html#strings-ersetzen) aus Python für Historiker:innen

Vervollständigen Sie das Skript in der nächsten Zelle und führen Sie die übernächste Zelle zur Überprüfung aus.

In [1]:
speech_two = "Wir erleben eine Zeitenwende. Und das bedeutet: Die Welt danach ist nicht mehr dieselbe wie die Welt davor. Im Kern geht es um die Frage, ob Macht das Recht brechen darf, ob wir es Putin gestatten, die Uhren zurückzudrehen in die Zeit der Großmächte des neunzehnten Jahrhunderts, oder ob wir die Kraft aufbringen, Kriegstreibern wie Putin Grenzen zu setzen."

class Speech:

    def __init__(self, text, speaker):
        # die Argumente, die beim Initialisieren des Objektes übergeben werden, werden hier zunächst Klassenattributen zugeordnet (und damit in der Klasse verfügbar gemacht)
        self.text = text
        self.speaker = speaker
        # dem Attribut self.tokenized_text wird der Rückgabewert der Methode tokenize() zugewiesen, dieser selbst bekommt den Rückgabewert der Methode clean_text() zugewiesen
        self.tokenized_text = self.tokenize(self.clean_text())

    def clean_text(self):
        # der in self.text gespeicherte Text wird bereinigt und das bereinigte Ergebnis wird zurückgegeben
        cleaned_text = self.text.replace('.', "").replace(",", "").replace(":", "")
        return cleaned_text
    
    def tokenize(self, cleaned_text):
        # der Text wird zunächst durchgehend in Kleinbuchstaben umgewandelt
        lowercased_text = cleaned_text.lower()
        # und anschließend entlang der Leerzeichen in Tokens unterteilt
        return lowercased_text.split(" ")
    

speech_analyse = Speech(speech_two, "Olaf Scholz")
    

In [2]:
try:
    assert isinstance(speech_analyse, Speech)
except AssertionError:
    print("Die Variable `speech_analyse` ist keine Instanz der Klasse `Speech`.")
try:
    assert speech_analyse.text == speech_two
except AssertionError:
    print("Die Eigenschaft `text` der Klasse `Speech` enthält nicht den korrekten Text.")
try:
    assert isinstance(speech_analyse.tokenized_text, list)
    assert len(speech_analyse.tokenized_text) == 59
    print("Alles korrekt!")
except AssertionError:
    print("Die Eigenschaft `tokenized_text` der Klasse `Speech` enthält nicht die korrekten Werte.")


Alles korrekt!


## Arbeit mit Dateien

Bislang haben wir nur mit Dateien gearbeitet, die zugleich Teil unserer Skripte waren. In der Praxis ist dies zumeist nicht der Fall – zudem möchten wir unsere Ergebnisse möglicherweise nicht nur über die `print()`-Funktion ausgeben, sondern dauerhaft in einer Datei speichern.

Zur Arbeit mit Dateien bietet Python eine Reihe von Funktionalitäten an. Lesen Sie zunächst den Abschnitt [Dateien öffnen, lesen und bearbeiten](https://digital-history-berlin.github.io/Python-fuer-Historiker-innen/ch04-dateien-verarbeiten/02-dateien-i-o.html) aus Python für Historiker:innen und begeben Sie sich anschließend an die Übungsaufgabe.

### Übungsaufgabe Arbeit mit Dateien

Speichern Sie den Inhalt der Variable `text` in einer Datei `text_one.txt`. Lesen Sie anschließend den Text wieder aus und vergleichen Sie den Inhalt der Datei mit dem Inhalt von `text` mithilfe des Vergleichsoperators `==`.

In [5]:
text = "Wir erleben eine Zeitenwende. Und das bedeutet: Die Welt danach ist nicht mehr dieselbe wie die Welt davor. Im Kern geht es um die Frage, ob Macht das Recht brechen darf, ob wir es Putin gestatten, die Uhren zurückzudrehen in die Zeit der Großmächte des neunzehnten Jahrhunderts, oder ob wir die Kraft aufbringen, Kriegstreibern wie Putin Grenzen zu setzen."

# Schreiben des Textes in eine Datei – dabei wird der Funktion open() als zweites Argument der Modus 'w' übergeben, der für das Schreiben von Dateien steht
with open('text_one.txt', 'w', encoding="utf-8") as textfile:
    textfile.write(text)

# umgekehrt wie oben: Lesen des Textes aus einer Datei – dabei wird der Funktion open() als zweites Argument der Modus 'r' übergeben, der für das Lesen von Dateien steht    
with open('text_one.txt', 'r', encoding="utf-8") as textfile:
    text_read = textfile.read()

text_read == text

True

In [4]:
assert isinstance(text_read, str)
assert text_read == text
print("Alles korrekt!")

Alles korrekt!
