# Textverarbeitung (Teil 1) - Erstellung des Textkorpusses I

In den folgenden Seminareinheiten orientieren wir uns am folgendem Szenario:

<i>Immanuel möchte die philosophischen Texte der heutigen Zeit mit Hilfe von computergestützten Verfahren untersuchen und herausfinden, wie viele unterschiedliche Themen / Teilbereiche es gibt. Hierfür erstellt er zunächst einen Datensatz an unterschiedlichen Texten, bereitet die gewonnenen Daten auf und wendet anschließend ein automatisiertes Verfahren an, das die Texte unterschiedlichen Kategorien zuzuordnet.</i>

Das Vorgehen lässt sich (sehr grob) in folgende Schritte unterteilen:

 <figure>
  <img src="resources/img/schritte_datenverarbeitung.png" alt="Schritte Datenverarbeitung" style="width:50%">
  <br>
  <figcaption></figcaption>
 </figure> 

Im ersten Schritt werden die Texte akquiriert. Die Gesamtheit der Texte wird als <b>Textkorpus</b> und die einzelnen Texte als <b>Dokumente</b> bezeichnet. Im zweiten Schritt werden die Dokumente aufbereitet (z.B. werden Stoppwörter entfernt und alle Wörter klein geschrieben). Im dritten Schritt dient der aufbereitete Textkorpus als Eingabe für ein <b>Topic-Modelling-Verfahren</b>, das mit Hilfe von statistischen Verfahren die Dokumente unterschiedlichen Kategorien zuordnet. Die wichtigsten Wörter der Kategorien werden dabei vom Verfahren bestimmt.

## Exkurs: Client-Server-Modell und Webseiten

Das <b>Internet</b> ist ein sehr großer, weltweiter Verbund von Rechnernetzwerken. Ist man durch ein Gerät mit diesem Netzwerk verbunden, können Daten empfangen oder an andere Rechner gesendet werden. Bestimmte Rechner nehmen dabei gewisse Rollen in diesem Netzwerk ein.

Ein <b>Server</b> ist ein Computer, der bestimmte Dienste oder Ressourcen bereitstellt. Mailserver verarbeiten, speichern und übermitteln E-Mails. Datenbankserver speichern, verwalten und verarbeiten Daten in einer Datenbank. Webserver stellen Webseiten und andere webbasierte Inhalte über das HTTPS-Protokoll bereit. 

Wenn ein Rechner einen Dienst oder eine Ressource von einem anderen Rechner in Anspruch nimmt / nehmen möchte, wird er als <b>Client</b> bezeichnet. Er stellt dabei eine Anfrage (Request) an den Server und erhält eine Antwort (Response).

 <figure>
  <img src="resources/img/client-server-model.png" alt="Client-Server-Modell" style="width:40%">
  <br>
  <figcaption></figcaption>
 </figure>
 
Ein Client ist im Internet (fast) nie „direkt“ mit dem Server verbunden. Die Anfrage vom Client und die Antwort vom Server werden über unterschiedliche Knoten im Netzwerk an das jeweilige Ziel geleitet.

### Die wichtigsten Bausteine einer Webseite

Das Grundgerüst von Webseiten bilden HTML-Dokumente. <b>HTML (Hypertext Markup Language)</b> ist eine Sprache zur Strukturierung von Texten, Bildern und anderen Inhalten. Die Strukturierung erfolgt dabei durch Auszeichnungen (Markups). Wenn in einem HTML-Dokument ein entsprechender Bezug zu einem <b>Cascading Style Sheet (CSS)</b> genommen wird, wird die Darstellung der Inhalte des HTML-Dokuments durch die CSS-Datei bestimmt. Vor allem die Programmiersprache <b>JavaScript</b> wird dafür verwenden, um die Strukturierung, Inhalte und das Design von Webseiten zu verändern, sodass die Webseite dynamischer wird.

<figure>
  <img src="resources/img/html_css_js.png" alt="HTML, CSS und JavaSc" style="width:40%">
  <br>
  <figcaption></figcaption>
 </figure>

Ein <b>Webbrowser</b> ist also ein Programm deren wichtigster Zweck es ist, die vom Server empfangenden Dateien zu der gewünschten Darstellung zusammenzusetzen. 


## HTML-Dokument anfordern

Mit Hilfe der Standardbibliothek 'urllib' lässt sich das HTML-Dokument von einer Webseite als Zeichenkette speichern.

In [None]:
import urllib.request

fp = urllib.request.urlopen("https://plato.stanford.edu/entries/artificial-intelligence/")
mybytes = fp.read()

html = mybytes.decode("utf8")
fp.close()

print(html)

In den meisten Fällen ist man nicht daran interessiert, das komplette HTML-Dokument zu speichern, sondern nur bestimmte Daten. Da es sich bei Zeichenketten um Objekte einer Klasse handelt, können die implementierten Funktion auf diesem Objekt abgerufen werden. 

## Nützliche Methoden

Im Folgenden findest du eine Auswahl an nützlichen Methoden, die du auf einem String-Objekt aufrufen kannst.

In [None]:
text = "Der Mensch ist ein Seil, geknüpft zwischen Tier und Übermensch - ein Seil über einem Abgrund."

In [None]:
# Alle Buchstaben im Text werden klein geschrieben. 
ergebnis = text.lower()
print(ergebnis)

# Beachte, dass der ursprüngliche Text durch den Funktionsaufruf nicht verändert wird.
print(text)

In [None]:
# Teilt den Text an den Vorkommen der übergebenen Zeichenkette auf.
# Das Ergebis ist eine Liste aus Zeichenketten.
ergebnis = text.split("Seil")
print(ergebnis)

In [None]:
# Ersetzt alle Vorkommen der ersten Zeichenkette im Text durch die zweite. 
ergebnis = text.replace("Seil", "Brücke")
print(ergebnis)

In [None]:
# Zählt die Anzahl der Vorkommen der übergebenen Zeichenkette im Text. 
ergebnis = text.count("Seil")
print(ergebnis)

In [None]:
# Gibt den Index des ersten Vorkommen der übergebenen Zeichkette im Text zurück.
ergebnis = text.find("Seil")
print(ergebnis)

<img style="float: left;" src="resources/img/laptop_icon.png" width=50 height=50 /> <br><br>
<i>Unten ist der HTML-Code einer Webseite als Zeichenkette gespeichert. Nutze die vorgestellten Methoden, um die Sprüche (ohne den Urheber) in einer Liste zu speichern.</i>

In [None]:
html = "<!DOCTYPE html><html><head><meta charset=\"UTF-8\"><title>Schöne Sprüche</title></head><body> \
  <h1>Schöne Sprüche</h1> \
  <ul> \
    <li>„Man kann nicht zweimal in denselben Fluss steigen.“ - Heraklit</li> \
    <li>„Ich weiß, dass ich nicht weiß.“ - Sokrates</li> \
    <li>„Der Mensch ist ein politisches Tier.“ - Aristoteles</li> \
    <li>„Das schauerlichste Übel, der Tod, hat also keine Bedeutung für uns; denn für die einen ist er nicht da, die anderen sind für ihn nicht mehr da.“ - Epikur</li> \
    <li>„Ich denke, also bin ich“ - René Descartes</li> \
    <li>„Der Mensch ist frei geboren und überall liegt er in Ketten“ - Jean-Jacques Rousseau</li> \
    <li>„Wage es zu wissen!“ - Immanuel Kant</li> \
    <li>„Die Philosophen haben die Welt nur verschieden interpretiert, es kommt aber darauf an, sie zu verändern.“ - Karl Marx</li> \
    <li>„Die Existenz geht der Essenz voraus.“ - Jean-Paul Sartre</li> \
    <li>„Man kommt nicht als Frau zur Welt, man wird es.“ - Simone de Beauvoir</li> \
  </ul> \
  <p>Quelle: <a href=\"https://www.philomag.de/artikel/10-einflussreiche-zitate-kurz-erklaert\">Philosophie Magazin</a></p> \
</body> \
</html>"

sprueche = []
aufzaehlung_anfang = html.find("„")
while aufzaehlung_anfang != -1:
    aufzaehlung_ende = html.find("“")
    spruch = html[aufzaehlung_anfang + 1 : aufzaehlung_ende]
    sprueche.append(spruch)
    html = html[aufzaehlung_ende + 1 : ]
    aufzaehlung_anfang = html.find("„")

for spruch in sprueche:
    print(spruch)

## Reguläre Ausdrücke

Manchmal ist es notwendig zu prüfen, ob eine Zeichenkette eine gewisse Struktur aufweist. So darf der erste Teil einer E-Mail-Adresse nur aus alphanumerischen Zeichen (und einigen anderen Zeichen, die wir hier aber zur besseren Anschauung vernachlässigen) bestehen. Anschließend wird das @-Zeichen geschrieben, gefolgt von dem Domänenteil, der sich aus einem Hostname (z.B. „gmail“, „web“, „kit“, „adidas“), einem Punkt und einer Top-Level-Domain (z.B. „de“, „com“, „kit“) zusammensetzt.

Um eine Zeichenkette auf eine Struktur zu überprüfen oder einen Text nach einer bestimmter Struktur zu durchsuchen, verwenden wir <b>reguläre Ausdrücke</b>. Ein regulärer Ausdruck ist ein Suchmuster für Zeichenketten.

Folge den Erklärungen in den Feldern, um zu verstehen, wie du reguläre Ausdrücke einsetzen kannst.

### Übereinstimmung - match, search, fullmatch

In [None]:
import re

texte = ["beispiel", "Beispiel", "das ist ein beispiel","Das ist ein Beispielsatz."]

# Reguläre Ausdrücke werden auf diese Weise definiert.
# Dieser reguläre Ausdruck ist einfach nur ein Wort.
reg_ausdruck = re.compile('beispiel')

for text in texte:
    print(f"Text: '{text}'")
    
    # So wird geprüft, ob der reguläre Ausdruck 
    # identisch mit den ERSTEN Zeichen des Texts ist. 
    match = re.match(reg_ausdruck, text)
    print("Übereinstimmung mit den ersten Zeichen: ", bool(match))
    
    # So wird geprüft, ob der reguläre Ausdruck 
    # IRGENDWO im Text auftritt. 
    match = re.search(reg_ausdruck, text)
    print("Übereinstimmung irgendwo im Text: ", bool(match))
    
    # So wird geprüft, ob der reguläre Ausdruck 
    # mit dem GESAMTEN Text identisch ist.
    match = re.fullmatch(reg_ausdruck, text)
    print("Übereinstimmung mit dem gesamten Text: ", bool(match), "\n")

In [None]:
# Ist uns die Groß- und Kleinschreibung nicht wichtig, 
# können wir in unserem regulären Ausdruck als ersten 
# Buchstaben ein großes oder kleines B schreiben.

# Ein Oder drücken wir in einem regulären Ausdruck
# durch ein '|' aus.
reg_ausdruck = re.compile('[B|b]eispiel')

for text in texte:
    print(f"Text: '{text}'")
    
    # So wird geprüft, ob der reguläre Ausdruck 
    # identisch mit den ERSTEN Zeichen des Texts ist. 
    match = re.match(reg_ausdruck, text)
    print("Übereinstimmung mit den ersten Zeichen: ", bool(match))
    
    # So wird geprüft, ob der reguläre Ausdruck 
    # IRGENDWO im Text auftritt. 
    match = re.search(reg_ausdruck, text)
    print("Übereinstimmung irgendwo im Text: ", bool(match))
    
    # So wird geprüft, ob der reguläre Ausdruck 
    # mit dem GESAMTEN Text identisch ist.
    match = re.fullmatch(reg_ausdruck, text)
    print("Übereinstimmung mit dem gesamten Text: ", bool(match), "\n")

### Suche - findall

In [None]:
# Möchten wir einen Text nach einer bestimmten Struktur durchsuchen, 
# gelingt das mit 're.findall'.

texte = ["Das ist doch schön.", "David ist ein Philosoph.", "Hallo Welt!"]

# Das Wort, das wir durch diesen regulären Ausdruck suchen, muss wie 
# folgt aufgebaut sein: Am Anfang steht ein kleines oder großes D. Anschließend
# folgen beliebig viele Kleinbuchstabe (also auch gar kein Kleinbuchstab möglich).
# Letzteres wird durch '*' ausgedrückt.
reg_ausdruck = re.compile('[D|d][a-z]*')

# Am Anfang steht ein kleines oder großes D. Anschließend
# folgen beliebig viele, aber mindestens ein Kleinbuchstabe.
# Letzteres wird durch '+' ausgedrückt.
reg_ausdruck = re.compile('[D|d][a-z]+')

for text in texte:
    print(f"Text: '{text}'")

    # Als Ergebnis wird eine Liste mit den passenden Ausdrücken ausgegeben.
    ergebnis = re.findall(reg_ausdruck, text)
    print(ergebnis)

<img style="float: left;" src="resources/img/laptop_icon.png" width=50 height=50 /> <br><br>
<i>Finde heraus, welche Wörter dem folgenden regulären Ausdruck entsprechen, indem du drei Beispiele angibst.</i>

In [None]:
# Hinweis 1: '[Zeichenmenge]{n}' bedeutet, dass genau n Zeichen aus der 
#             Zeichenmenge an dieser Stelle stehen müssen.
# Hinweis 2: '[^!,:;]'' bedeutet, dass das Zeichen nicht ein Zeichen aus dieser Menge sein darf.
reg_ausdruck = re.compile('[A-Z][a][fghjklprstvwxz]{3}[eioy][ ][a-z]+[^!,:;]')

beispiel1 = "Aafgho a " # Füge deinen Code hier ein.
match = re.fullmatch(reg_ausdruck, beispiel1)
print("Übereinstimmung: ", bool(match))

beispiel2 = "Dafffy a" # Füge deinen Code hier ein.
match = re.fullmatch(reg_ausdruck, beispiel2)
print("Übereinstimmung: ", bool(match))

beispiel3 = "" # Füge deinen Code hier ein.
match = re.fullmatch(reg_ausdruck, beispiel3)
print("Übereinstimmung: ", bool(match))

<img style="float: left;" src="resources/img/laptop_icon.png" width=50 height=50 /> <br><br>
<i>Implementiere eine Funktion, die den Vor- und Nachnamen des Nutzers / der Nutzerin einlesen soll. Dabei soll die Groß- und Kleinschreibung beachtet werden und Doppelnamen und mehrere Vornamen berücksichtigen.</i>

In [None]:
# analog zur Aufgabe 3 des dritten Übungsblatts

Wenn du noch Schwierigkeiten beim Umgang mit regulären Ausdrücken hast, kann dir folgende Erklärung behilflich sein:
<br> 
https://www.youtube.com/watch?v=rAZkI5swi_o

##  Daten visualisieren

Um Daten zu visualisieren, verwenden wir das Modul Matplotlib.

In [None]:
import matplotlib.pyplot as plt

x = [1,2,3,4,5]
y1 = [1,1,1,2,2]
y2 = [2,2,1.2,3,1.5]
y3 = [2.5,2.5,2.5,2.5,2.5]

plt.plot(x, y1)
plt.plot(x, y2, '-o')
plt.plot(x, y3, 'x')

plt.show()

## Abbildungsverzeichnis

[1] https://en.wikipedia.org/wiki/Client%E2%80%93server_model#/media/File:Client-server-model.svg