# 5d Arbeiten mit Texten in Python

<div class="alert alert-info"> In dieser Lerneinheit beschäftigen wir uns ausführlich mit dem Bearbeiten von <b>Texten</b> in Python und spannen damit einen Bogen zum ersten Kapitel, in dem wir bereits einfache String Operationen kennengelernt haben. Ein sicherer Umgang mit String-Variablen ermöglicht es uns Text- oder Sentiment-Analysen durchzuführen. Das Kapitel ist aufgebaut wie folgt: 
    <ol>
        <li> Umgang mit Zeichenketten in Python </li>
        <li> Analyse von Texten </li>
        <li> Beispiel: Analyse von Liedtexten </li>
    </ol>
Nach der Lerneinheit können Sie Befehle zur String Operation auswählen und durchführen. Sie können Begrifflichkeiten der Computerlinguistik nennen und erklären. Außerdem können Sie eigene Projekte zur Auswertung von Textdateien organisieren und umsetzen.</div>

Pakete, die zuvor im Anaconda Navigator installiert werden müssen: 
* nltk
* matplotlib

In [None]:
# Pakete laden
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#### Recap: Textformation (vgl. Kapitel 1.5 Datentypen)

Textformation über *format* oder *f-String* möglich: 

In [None]:
a = "Sonne"
b = 36
print("Heute scheint die {} und es sind {}° Celsius.".format(a, b))
print(f"Heute scheint die {a} und es sind {b}° Celsius.")

In [None]:
type(a)

## 1 Umgang mit Zeichenketten in Python

| **a = "Hello World"**  | **Output**           |
|:------------------------|:----------------------|
| a.lower()              | # "hello world"      |
| a.upper()              | # "HELLO WORLD"      |
| a.startswith("H")      | # True               |
| a.endswith("j")        | # False              |
| a.isdigit()            |  # False             |
| a.split(" ")           | # ["Hello", "World"] |
| "-".join(a.split(" ")) | # "Hello-World"      |

In [None]:
a = "Mexiko Stadt"

In [None]:
print(a.lower())

In [None]:
print(a.upper())

In [None]:
print(a.startswith("J"))
print(a.startswith("Me"))

In [None]:
print(a.isdigit())

In [None]:
print(a.split(" "))
print(a.split("t"))

In [None]:
split1 = a.split("t")
print("t".join(split1))

| **Methode**            | **Beschreibung**                             |
|:-----------------------|:---------------------------------------------|
| a.count()              | Anzahl der Zeichenketten, mit Bedingung      |
| a.replace()            | Teile einer Zeichenkette ersetzen            |
| a.lstrip()             | Whitespace o. Ä. zu Beginn entfernen         |
| a.rstrip()             | Whitespace o. Ä. am Ende entfernen           |
| a.strip()              | Whitespace zu Beginn und am Ende entfernen   |
| a.startswith()         | Überprüfen, ob Beginn mit bestimmten Wert    |
| a.splitline()          | Bei Zeilenumbruch teilen                     |
| a.isnumeric()          | Überprüfen, ob numerische Werte enthalten    |
| a.isalpha()            | Überprüfen, ob nur Zeichen enthalten sind    |
| a.find()               | Substrings identifizieren                    |

In [None]:
print(a.replace("Stadt", "City"))

In [None]:
a.count(" ")

In [None]:
a.count("t")

In [None]:
text = "        Hallo"
text2 = text.lstrip()
print(text)
print(text2)

In [None]:
text = "3€&!Hallo"
text2 = text.lstrip("3€&!")
print(text)
print(text2)

In [None]:
text = "Hallo.3€&!"
text2 = text.rstrip("3€&!")
print(text)
print(text2)

In [None]:
text = "        Hallo.            "
text2 = text.strip()
print(text)
print(text2)

In [None]:
text = "AbC+Hallo.$%T"
text2 = text.strip("AbC+$%T")
print(text)
print(text2)

In [None]:
a.isnumeric()

In [None]:
a.isalpha() # False, da ein Leerzeichen enthalten ist

In [None]:
a.find("Mexiko")

In [None]:
a.find("Stadt")

In [None]:
a.find("City")

#### Texte über mehrere Zeilen

In [None]:
text = """Das ist ein Text, 
der über mehrere Zeilen
geht."""
print(text)

In [None]:
text = ("Das ist ein Text,\n"
       "der über mehrere Zeilen\n"
       "geht.")
print(text)

In [None]:
text.splitlines() # Optional: True

## 2 Analyse von Texten

In [None]:
import nltk

Für spätere Analysen ist es zunächst wichtig den eingelesenen Rohtext in ein einfach auszuwertendes Format zu überführen. Hierfür sind eine Reihe von Schritten notwendig. <br>
Die Bibliothek **nltk** (Natural Language Toolkit) ist dabei die Standardbibliothek für Anwendungen der Computerlinguistik.

### 2.1 Punctuation

Satzzeichen sind oft wenig relevant für eine Textanalyse, sodass wir diese ausschließen können:

In [None]:
rohtext = "Ein Token bezeichnet dabei ein Segment eines Textes."

In [None]:
import re
help(re.sub)

In [None]:
text = re.sub("[^a-zA-Z0-9]", " ", rohtext)

In [None]:
text

### 2.2 Tokenizing

Die Tokenisierung ist oft die Voraussetzung um einen Rohtext in ein für eine Analyse geeignetes Format zu überführen. Ein Token bezeichnet dabei ein Segment eines Textes in spezifische Einheiten wie Paragraphen, Sätze, Wörter oder Buchstaben.

In [None]:
nltk.download('punkt')

In [None]:
print(nltk.sent_tokenize(text, language="german"))

In [None]:
wort_token = nltk.word_tokenize(text, language="german")
print(wort_token)

### 2.3 Stemming

Wenn wir Texte durchsuchen möchten, kann es sinnvoll sein zusammengehörige Wörter zu gruppieren. Möchten wir beispielsweise nur Texte haben, in denen es um *Laptops* geht und suchen nach dem Begriff *Laptop*, werden wir keine Texte finden, in denen der Begriff *Laptops* vorkommt. <br>
Die Methode *Stemming* hilft uns dabei, Wörter ohne Flexionsende darzustellen, z. B. "Katzen" zu "Katze".

In [None]:
nltk.PorterStemmer().stem("Laptops")

In [None]:
wort_stem = [nltk.PorterStemmer().stem(i) for i in wort_token]
print(wort_stem)

### 2.4 Lemmatizing

*Lemmatisieren* ist dem Stemming ähnlich. Hierbei wird die Form des Wortes auf den Wortstamm zurückgeführt, z. B. "is" zu "be"

In [None]:
nltk.download('wordnet')

In [None]:
nltk.WordNetLemmatizer().lemmatize("is", "v")

### 2.5 Vokabular

Die Heterogenität der Wörter eines Textes kann uns viele Informationen über den Text liefern. 

In [None]:
vocab = set(wort_stem)
print(vocab)

In [None]:
len(vocab) # Anzahl unterschiedlicher Wörter in unserem Satz

### 2.6 Stopwords

*Stoppwörter* bezeichnen Wörter, die sehr häufig in Texten vorkommen, aber für gewöhnlich wenig Relevanz für die Erfassung des Dokumentinhalst besitzen. Für Textanalysen werden Stoppwörter deshalb oft aus der Analyse ausgeschlossen.

In [None]:
from nltk.corpus import stopwords

In [None]:
nltk.download('stopwords')

In [None]:
stopword = stopwords.words("german")
stopword

In [None]:
wort_stop = [t for t in vocab if not t in stopword]
wort_stop

## 3 Beispiel: Analyse von Liedtexten

In [None]:
# Daten laden
df = pd.read_csv("..\_Daten\lyrics.csv")

**Überblick verschaffen**

In [None]:
df.head()

In [None]:
# kleinerer Datensatz
df = df.head(300)
df

In [None]:
# Ein Songtext
df.lyrics[0] #\n signalisiert Zeilenumbruch

In [None]:
# Bessere Darstellung mit print
print(df.lyrics[0])

**Punctuation**

In [None]:
# Sonderzeichen durch Leerzeichen ersetzen
df.lyrics = pd.Series([re.sub("[^a-zA-Z0-9]", " ", i) for i in df.lyrics])
print(df.lyrics[0])

In [None]:
df.head()

**Tokenizing**

In [None]:
df.lyrics = [nltk.word_tokenize(i, language="german") for i in df.lyrics] 

In [None]:
df.head()

**Stemming**

In [None]:
for song in range(len(df)):
    df.at[song, "lyrics"] = [nltk.PorterStemmer().stem(t) for t in df.at[song,"lyrics"]] # dauert auch etwas

In [None]:
df.head()

**Vocabular**

In [None]:
vocab = [set(i) for i in df.lyrics]

In [None]:
vocab[0]

**Stopwords**

In [None]:
for i in range(len(vocab)):
    vocab[i] = [t for t in vocab[i] if not t in stopword]

**Einzelne Wörter**

In [None]:
unique_counts = [len(v) for v in vocab]

In [None]:
df.at[:, "unique_count"] = unique_counts

In [None]:
df.head()

**Songs nach Genre analysieren**

In [None]:
df_select = df[["genre", "unique_count"]]

In [None]:
words_counts = df_select.groupby("genre")

In [None]:
words_counts.get_group("Country")

In [None]:
# Mittelwerte
words_counts.mean()

In [None]:
plt.figure(figsize=(15, 8))
plt.bar(words_counts.mean().index, words_counts.mean().unique_count)
plt.show()

<div class="alert alert-warning"><h4> Aufgabe 1: Die Analyse von &bdquo;Faust. Eine Tragödie.&ldquo;	

Sie finden den Datensatz als Datei *Faust* im Git-Repo.

a) Öffnen Sie die Datei in einem Texteditor und verschaffen Sie sich einen Überblick
über die Struktur des Texts.

b) Importieren Sie das Werk und speichern Sie es
unter dem Namen `faust`. Welche Struktur hat das Objekt faust?

c) Entfernen Sie alle Satzzeichen aus Ihrem Text.

d) Segmentieren Sie den Text in einzelne Wörter.

e) Laden Sie die deutschen Stoppwörter.

f) Bereinigen Sie Ihren Vektor von diesen Stoppwörtern.<br>
**Hinweis:** Denken Sie an die Groß- und Kleinschreibung.

g) Wie hoch ist der Anteil der unterschiedlichen Wörter im gerade erstellten Vektor