Dieses Notebook bietet Nicht-Linguisten Anregungen, sich mit der Komplexität von Sprache auseinander zu setzen. Wir versuchen uns an einigen (für Menschen) ganz alltäglichen "NLP"-Tasks. Das Ziel des Experiments besteht darin zu verstehen, warum Sprache so komplex ist.

1. Wir zerlegen einen Text in Sätze.

In [2]:
#Textquelle: https://www.zeit.de/2020/39/weisse-schwarze-milizen-waffen-gewalt-rassismus-usa

text = """Am 7. Juni steht der schwarze Aktivist Hawk Newsome auf dem Times Square in New York vor Hunderten von Demonstranten und sagt: "Wir sind an einem kritischen Punkt der Geschichte. Entweder ihr gebt schwarzen Menschen ihre Rechte, oder wir brennen dieses Land nieder."
Hawk Newsome ist der Präsident von Black Lives Matter of Greater New York. Die ZEIT hat ihn in den letzten Jahren immer wieder getroffen und seine Radikalisierung dokumentiert. Den Glauben, dass der Staat den Schwarzen hilft, hat Newsome mittlerweile verloren. Ebenso die Hoffnung, mit friedlichen Protesten etwas daran ändern zu können, dass immer wieder unbewaffnete Schwarze bei der Verhaftung durch Polizisten sterben. Nach dem Tod von George Floyd hatte Newsome sich daher mit einigen ähnlich desillusionierten Aktivisten getroffen und eine neue Strategie entwickelt. Kern davon ist die Bewaffnung.
Sogenannte peace officers sollen in schwarzen Wohnvierteln patrouillieren, um die Bewohner vor Polizeigewalt zu beschützen. Newsome nimmt sich ein Beispiel an Malcolm X und den bewaffneten Mitgliedern der Black-Panther-Partei, die in den Sechzigerjahren regelmäßig auf "cop watch" gingen. Die ersten Ableger dieser Einheit sollen in Atlanta und in der New Yorker Bronx gegründet werden. Die Miliz hat Newsome "Black O.P.T.S." getauft, eine Anspielung auf den Terminus für verdeckte militärische Operationen und auf das populärste Ego-Shooter-Videospiel (Call of Duty: Black Ops). Bei Newsome steht es für opportunities, Chancen.
In der Bronx stehe die Miliz jedoch noch am Anfang, sagt Newsome am Telefon. In New York City ist es nämlich fast unmöglich, einen Waffenschein zu bekommen. Er selbst habe sich gerade um einen beworben, sagt er. Der Prozess ist teuer und kann bis zu ein Jahr dauern. In der Regel braucht man zudem einen sehr guten Grund. In Atlanta, dem Ort für den zweiten Ableger, ist dagegen nichts leichter, als sich eine Waffe zu besorgen. Nahezu jeder über 21 Jahre kann sich im südlichen Bundesstaat Georgia eine Waffe kaufen und offen tragen. Zudem ist es erlaubt, eine Waffe zur Selbstverteidigung einzusetzen. In Atlanta hat der Black-O.P.T.S.-Ableger bereits 100 Mitglieder."""

In [2]:
text

'Am 7. Juni steht der schwarze Aktivist Hawk Newsome auf dem Times Square in New York vor Hunderten von Demonstranten und sagt: "Wir sind an einem kritischen Punkt der Geschichte. Entweder ihr gebt schwarzen Menschen ihre Rechte, oder wir brennen dieses Land nieder."\nHawk Newsome ist der Präsident von Black Lives Matter of Greater New York. Die ZEIT hat ihn in den letzten Jahren immer wieder getroffen und seine Radikalisierung dokumentiert. Den Glauben, dass der Staat den Schwarzen hilft, hat Newsome mittlerweile verloren. Ebenso die Hoffnung, mit friedlichen Protesten etwas daran ändern zu können, dass immer wieder unbewaffnete Schwarze bei der Verhaftung durch Polizisten sterben. Nach dem Tod von George Floyd hatte Newsome sich daher mit einigen ähnlich desillusionierten Aktivisten getroffen und eine neue Strategie entwickelt. Kern davon ist die Bewaffnung.\nSogenannte peace officers sollen in schwarzen Wohnvierteln patrouillieren, um die Bewohner vor Polizeigewalt zu beschützen. Ne

In [9]:
#Auf diese Weise eliminieren wir die Punkte und zerhacken Daten und Abkürzungen.
#text = text.split('.')

import re

#Wir entfernen erstmal die harten Zeilenumbrüche.
text = re.sub(r'\n', ' ', text)
#Das Datum am Anfang hat immer noch einen falschen Split, die Abkürzung O.P.T.S. ist dagegen erhalten.
text = re.split(r'[\.\!\?](?= \w+)', text)
text

['Am 7',
 ' Juni steht der schwarze Aktivist Hawk Newsome auf dem Times Square in New York vor Hunderten von Demonstranten und sagt: "Wir sind an einem kritischen Punkt der Geschichte',
 ' Entweder ihr gebt schwarzen Menschen ihre Rechte, oder wir brennen dieses Land nieder." Hawk Newsome ist der Präsident von Black Lives Matter of Greater New York',
 ' Die ZEIT hat ihn in den letzten Jahren immer wieder getroffen und seine Radikalisierung dokumentiert',
 ' Den Glauben, dass der Staat den Schwarzen hilft, hat Newsome mittlerweile verloren',
 ' Ebenso die Hoffnung, mit friedlichen Protesten etwas daran ändern zu können, dass immer wieder unbewaffnete Schwarze bei der Verhaftung durch Polizisten sterben',
 ' Nach dem Tod von George Floyd hatte Newsome sich daher mit einigen ähnlich desillusionierten Aktivisten getroffen und eine neue Strategie entwickelt',
 ' Kern davon ist die Bewaffnung',
 ' Sogenannte peace officers sollen in schwarzen Wohnvierteln patrouillieren, um die Bewohner vor 

2. Wir zerlegen Text in Wörter.

In [5]:
#Wir können natürlich über Whitespace zerlegen, "zerschneiden" dabei aber Mehrwortbenennungen wie New York 
#oder Times Square.
#Lösungsideen?

#Wir fügen die Textschnipsel von oben wieder zusammen.
text = '. '.join(text)

text.split()

['Am',
 '7.',
 'Juni',
 'steht',
 'der',
 'schwarze',
 'Aktivist',
 'Hawk',
 'Newsome',
 'auf',
 'dem',
 'Times',
 'Square',
 'in',
 'New',
 'York',
 'vor',
 'Hunderten',
 'von',
 'Demonstranten',
 'und',
 'sagt:',
 '"Wir',
 'sind',
 'an',
 'einem',
 'kritischen',
 'Punkt',
 'der',
 'Geschichte.',
 'Entweder',
 'ihr',
 'gebt',
 'schwarzen',
 'Menschen',
 'ihre',
 'Rechte,',
 'oder',
 'wir',
 'brennen',
 'dieses',
 'Land',
 'nieder."',
 'Hawk',
 'Newsome',
 'ist',
 'der',
 'Präsident',
 'von',
 'Black',
 'Lives',
 'Matter',
 'of',
 'Greater',
 'New',
 'York.',
 'Die',
 'ZEIT',
 'hat',
 'ihn',
 'in',
 'den',
 'letzten',
 'Jahren',
 'immer',
 'wieder',
 'getroffen',
 'und',
 'seine',
 'Radikalisierung',
 'dokumentiert.',
 'Den',
 'Glauben,',
 'dass',
 'der',
 'Staat',
 'den',
 'Schwarzen',
 'hilft,',
 'hat',
 'Newsome',
 'mittlerweile',
 'verloren.',
 'Ebenso',
 'die',
 'Hoffnung,',
 'mit',
 'friedlichen',
 'Protesten',
 'etwas',
 'daran',
 'ändern',
 'zu',
 'können,',
 'dass',
 'immer',


3. Wir finden alle Eigennamen.

In [5]:
#Ideen?
#Technisch besteht Named Entity Recognition aus zwei Tasks:
#Sequence Labeling: S-O-E
#Entity Classification

4. Wir setzen Kommas.

In [6]:
#Erstmal entfernen wir alle Kommas aus dem Text.
#Und nun?

import re

##Nur der Ordnung halber entfernen wir doppelte Leerzeichen
text = re.sub(r'\s+', ' ', text)
text = re.sub(r',', '', text)

In [7]:
text

'Am 7. Juni steht der schwarze Aktivist Hawk Newsome auf dem Times Square in New York vor Hunderten von Demonstranten und sagt: "Wir sind an einem kritischen Punkt der Geschichte. Entweder ihr gebt schwarzen Menschen ihre Rechte oder wir brennen dieses Land nieder." Hawk Newsome ist der Präsident von Black Lives Matter of Greater New York. Die ZEIT hat ihn in den letzten Jahren immer wieder getroffen und seine Radikalisierung dokumentiert. Den Glauben dass der Staat den Schwarzen hilft hat Newsome mittlerweile verloren. Ebenso die Hoffnung mit friedlichen Protesten etwas daran ändern zu können dass immer wieder unbewaffnete Schwarze bei der Verhaftung durch Polizisten sterben. Nach dem Tod von George Floyd hatte Newsome sich daher mit einigen ähnlich desillusionierten Aktivisten getroffen und eine neue Strategie entwickelt. Kern davon ist die Bewaffnung. Sogenannte peace officers sollen in schwarzen Wohnvierteln patrouillieren um die Bewohner vor Polizeigewalt zu beschützen. Newsome ni

# Gut oder schlecht? Ein simples Machine-Learning-Szenario.

Jeden Tag schrieben hunderte Kunden ihre Meinung zu unseren Produkten. Dabei den Überblick 
zu behalten, ist nicht einfach. Wir möchten daher ein kleines Programm schreiben, welches feststellt ob die 
Kunden positiv oder eher negativ über unsere Produkte sprechen.

Dazu bekommen wir eine Liste der Kundenmeinungen. Wir sollen ein kleines Prgramm schreiben, welches eine 
Eins zurückgibt wenn eine Kundenaussage positiv ist und eine Null zurück gibt, wenn eine Kundenaussage 
negativ ist. Auf diese Weise können wir am Schluss einfach auszählen wieviel Prozent der Kunden postiv über unsere Produkte sprechen.

In [2]:
#Empirische Daten sind "messy".

feedback_texte = ["Das ist ein tolles Produkt.",
                  "Ich bin super zufrieden!",
                  "Funktioniert nur sehr schlecht.",
                  "Ist mir viel zu teuer.",                                    
                  "Super Produkt, toller service",
                  "Für die Leistung zu teuer.",
                  "Ein ein super Produkt." #Tippfehler
                  "Super Preis, für die Leistung", #uneindeutige Aussage
                  "Hab eins für meine Oma gekauft und die ist sehr zufrieden",
                  "Kunderservice ist ein nur toll."] #auch hier eine uneindeutige Aussage

In [3]:
#Overfitting: Wenn wir unser Modell nur auf Grundlage obiger Daten bauen, könnten wir auf die Idee kommen, dass eine
#triviale Lösung gut genug ist. Für zuverlässig funktionierende Modelle brauchen wir ausreichende - und ausreichend
#diverse - Trainingsdaten. Andernfalls "overfitten" wir unser Modell auf eine nicht-repräsentative Teilmenge der Daten.

#Triviale Lösung: Unser Kunden-Feedback ist immer super.
def sentiment(text):
    return 1

for text in feedback_texte:
    print(f"{sentiment(text)} = {text}")

1 = Das ist ein tolles Produkt.
1 = Ich bin super zufrieden!
1 = Funktioniert nur sehr schlecht.
1 = Ist mir viel zu teuer.
1 = Super Produkt, toller service
1 = Für die Leistung zu teuer.
1 = Ein ein super Produkt.Super Preis, für die Leistung
1 = Hab eins für meine Oma gekauft und die ist sehr zufrieden
1 = Kunderservice ist ein nur toll.


## Mehr Texte

Da unser System so gut funktioniert, bitten uns die Kollegen weitere Texte zu analysieren:

In [4]:
#Vielleicht ist die triviale Lösung doch nicht so gut.
feedback_texte_advanced = ["Das ist ein dolles Produkt.", #Umgangssprache
                  "Macht meistens was es soll.", #uneindeutig
                  "Das Produkt ist gar nicht so toll wie ich gedacht hatte.", #uneindeutig
                  "super, schon nach ZWEI tagen kaputt!!!", #aussagekräftige Typographie                                    
                  "Bester Service der Welt. Nicht.", #Satzübergreifende Semantik
                  "Gute Leistung, der Preis ist aber nicht angemessen.",
                  "Gar nicht mal so gut.", #uneindeutig
                  "Super Preis, mieser Service."
                  ":(", #Sonderzeichen
                  "1 nices teil"] #Umgangssprache

for text in feedback_texte_advanced:
    print(f"{sentiment(text)} = {text}")

1 = Das ist ein dolles Produkt.
1 = Macht meistens was es soll.
1 = Das Produkt ist gar nicht so toll wie ich gedacht hatte.
1 = super, schon nach ZWEI tagen kaputt!!!
1 = Bester Service der Welt. Nicht.
1 = Gute Leistung, der Preis ist aber nicht angemessen.
1 = Gar nicht mal so gut.
1 = Super Preis, mieser Service.:(
1 = 1 nices teil


## Machine Learning

Wir machen eine ganz einfache BOW-NB-Klassifikation.
(BOW - bag of words: wir klassifizieren die Texte anhand ihres Vokabulars, ignorieren aber die Reihenfolge der Wörter;
NB - Naive Bayes: eine simple, probabilistische Klassifikation)

In [5]:
#scikit-learn ist eine gut entwickelte Statistik- und ML-Bibliothek für Python
#Wir nutzen den TfidfVectorizer für die "feature extraction", also um den Text in eine ML-fähige Repräsentation zu bringen.
from sklearn.feature_extraction.text import TfidfVectorizer 
#Das ist unser Klassifikationsalgorithmus
from sklearn.naive_bayes import MultinomialNB

In [6]:
#Wir bereiten unsere Testdaten gleich mit vor. Die brauchen wir, um unser Modell zu validieren.
test = ["Ich bin total zufrieden.",
       "Mann, ich bin SOWAS VON zufrieden!!!",
       "Würde ich wieder kaufen.",
       "Wirklich großer Mist.",
       "Ist schon kaputt"]

vectorizer = TfidfVectorizer()
data = list()
data.extend(feedback_texte)
data.extend(feedback_texte_advanced)
data.extend(test)

In [7]:
#Für ML-Experimente müssen wir Text i. d. R. in eine geeignete mathematische Repräsentation bringen.
#Hier repräsentieren wir den Datensatz als Matrix von Tfidf-Werten.

all_data = vectorizer.fit_transform(data)
#Wir wollen lernen, sentiment labels (1=positiv, 0=negativ) vorherzusagen. Dafür trainieren wir mit bereits gelabelten Daten.
#Sind die train_labels wirklich korrekt? Wie könnte man die Kundenmeinungen noch einordnen?
train_labels = [1,1,0,0,1,0,1,1,1,1,1,0,0,0,0,0,0,1]

#Wir splitten Trainings- und Testdaten.
train_data = all_data[:len(feedback_texte)+len(feedback_texte_advanced)]
test_data = all_data[len(feedback_texte)+len(feedback_texte_advanced):]

In [24]:
print(all_data.todense()[2])

[[0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.52987404
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.46822377 0.         0.         0.
  0.52987404 0.         0.46822377 0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.        ]]


In [25]:
#Wir trainieren ein Modell.

#https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html
nb = MultinomialNB()
model = nb.fit(train_data, train_labels)

In [26]:
#Wir testen das Modell, indem wir die Vorhersagen auf den Testdaten auswerten.

predictions = model.predict(test_data)

In [27]:
for text, prediction in zip(test, predictions):
    print(text, prediction)

Ich bin total zufrieden. 1
Mann, ich bin SOWAS VON zufrieden!!! 1
Würde ich wieder kaufen. 1
Wirklich großer Mist. 1
Ist schon kaputt 0


Unser Modell klassifiziert nur 3 von 5 (60 %) der Sätze richtig. Wie können wir es verbessern?

## Illustration typischer Wortverteilungen

In [8]:
from collections import Counter

#wir schauen uns die häufigsten Wörter aus dem Zeit-Artikel oben an
zeitcounter = Counter(word for word in text.split())
print(sorted(zeitcounter.items(), key=lambda x: x[1], reverse=True))

[('der', 10), ('Newsome', 8), ('und', 8), ('in', 6), ('ist', 6), ('den', 6), ('die', 5), ('zu', 5), ('sich', 5), ('eine', 5), ('In', 5), ('auf', 4), ('New', 4), ('hat', 4), ('dem', 3), ('von', 3), ('Die', 3), ('für', 3), ('es', 3), ('einen', 3), ('Waffe', 3), ('steht', 2), ('Hawk', 2), ('York', 2), ('vor', 2), ('an', 2), ('schwarzen', 2), ('Black', 2), ('of', 2), ('immer', 2), ('wieder', 2), ('getroffen', 2), ('dass', 2), ('mit', 2), ('sollen', 2), ('um', 2), ('ein', 2), ('Atlanta', 2), ('Bronx', 2), ('Miliz', 2), ('am', 2), ('sagt', 2), ('kann', 2), ('Am', 1), ('7.', 1), ('Juni', 1), ('schwarze', 1), ('Aktivist', 1), ('Times', 1), ('Square', 1), ('Hunderten', 1), ('Demonstranten', 1), ('sagt:', 1), ('"Wir', 1), ('sind', 1), ('einem', 1), ('kritischen', 1), ('Punkt', 1), ('Geschichte.', 1), ('Entweder', 1), ('ihr', 1), ('gebt', 1), ('Menschen', 1), ('ihre', 1), ('Rechte,', 1), ('oder', 1), ('wir', 1), ('brennen', 1), ('dieses', 1), ('Land', 1), ('nieder."', 1), ('Präsident', 1), ('Live

In [20]:
#Funktionswörter sind immer am häufigsten. Schauen wir uns mal nur die Inhaltswörter an

##Vereinfachung: Wörter, die mit einem großbuchstaben beginnen
zeitcounter_nouns = list(filter(lambda x: re.match(r'[A-Z]', x[0]), zeitcounter.items()))
print(sorted(zeitcounter_nouns, key=lambda x: x[1], reverse=True))

[('Newsome', 8), ('In', 5), ('New', 4), ('Die', 3), ('Waffe', 3), ('Hawk', 2), ('York', 2), ('Black', 2), ('Atlanta', 2), ('Bronx', 2), ('Miliz', 2), ('Am', 1), ('Juni', 1), ('Aktivist', 1), ('Times', 1), ('Square', 1), ('Hunderten', 1), ('Demonstranten', 1), ('Punkt', 1), ('Geschichte.', 1), ('Entweder', 1), ('Menschen', 1), ('Rechte,', 1), ('Land', 1), ('Präsident', 1), ('Lives', 1), ('Matter', 1), ('Greater', 1), ('York.', 1), ('ZEIT', 1), ('Jahren', 1), ('Radikalisierung', 1), ('Den', 1), ('Glauben,', 1), ('Staat', 1), ('Schwarzen', 1), ('Ebenso', 1), ('Hoffnung,', 1), ('Protesten', 1), ('Schwarze', 1), ('Verhaftung', 1), ('Polizisten', 1), ('Nach', 1), ('Tod', 1), ('George', 1), ('Floyd', 1), ('Aktivisten', 1), ('Strategie', 1), ('Kern', 1), ('Bewaffnung.', 1), ('Sogenannte', 1), ('Wohnvierteln', 1), ('Bewohner', 1), ('Polizeigewalt', 1), ('Beispiel', 1), ('Malcolm', 1), ('X', 1), ('Mitgliedern', 1), ('Black-Panther-Partei,', 1), ('Sechzigerjahren', 1), ('Ableger', 1), ('Einheit',

In [22]:
#Wir vergleichen diesen Text jetzt mit einem wissenschaftlichen Text zur Hexameterannotation

text2 = 'Die griechische Sprache weist eine im Vergleich zu anderen klassischen Sprachen'\
        'bemerkenswerte Kontinuität im schriftlichen und mündlichen Gebrauch auf und hat im'\
        'Verlauf ihrer mehrere Jahrtausende umfassenden Geschichte unterschiedliche Entwicklungsstadien'\
        'durchlaufen. Die in vorliegender Arbeit untersuchten Texte lassen sich im Hinblick auf ihre'\
        'Entstehungszeit dem von Bussmann als Klassisches Griechisch bezeichneten Entwicklungsstadium'\
        'zuordnen, das zeitlich zwischen einer älteren, archaischen Entwicklungsstufe und dem hellenistischen'\
        'Griechisch des alexandrinischen Reiches einzuordnen ist. Als systemische Besonderheiten dieser'\
        'mittleren Entwicklungsstufe gelten die folgenden Merkmale (ebd.):'\
        'ein komplexes Vokalsystem mit langen und kurzen Vokalen und Diphthongen'\
        'musikalischer Wortakzent mit semantisch distinktiver Stimmtonbewegung auf einer Wortsilbe,'\
        'komplexes Kasussystem mit 5 Kasus,'\
        'Numerussystem mit Auftreten des Dual.'\
        'Wesentlich für die hier zu bewältigende Annotationsaufgabe sind insbesondere die'\
        'prosodischen Eigenschaften des Griechischen. So bewirkt der musikalische Wortakzent,'\
        'dass die Betonung der Silben nicht wie im Deutschen durch Verstärkung des Tones bewirkt'\
        'wird, sondern durch Aussprache in höherer Tonlage: Auf den musikalischen Akzent weist'\
        'schon der antike Ausdruck προσῳδία, lat. accentus (cantare) = das Dazu-Singen hin. Sowohl'\
        'für die Silbentrennung als auch für die Versmaßannotation sind zudem kontextuelle Markierungen'\
        'an den Vokalen zu beachten, insbesondere:'\
        'Akzentzeichen, vor allem der Zirkumflex (z. B. über dem Diphthong ου im Wort νοῦς),'\
        'der lange Vokale oder Diphthonge kennzeichnet (ebd., S. 11),'\
        'Lesezeichen, insbesondere das Trema, das anzeigt, dass der markierte Vokal nicht wie'\
        'gewöhnlich mit einem davorstehenden Vokal zu einem Diphthong verschmilzt, sondern getrennt'\
        'ausgesprochen wird und demnach auch eine eigene Silbe bildet (ebd., S. 13, ein Beispiel findet'\
        'sich im ersten Vers der Ilias: Πηληιαδεω, getrennt πη.λη.ι.α.δεω).'\
        'Aus computerlinguistischer Sicht können an dieser Stelle die folgenden Aspekte hervorgehoben werden:'\
        'Das Griechische weist eine Reihe komplexer linguistischer Eigenschaften auf, welche'\
        'die automatische Verarbeitung erschweren können (z. B. eine formenreiche Morphologie).'\
        'Aufgrund seiner langen Entwicklungsgeschichte hat das Griechische unterschiedliche'\
        'Entwicklungsstadien mit z. T. deutlichen Veränderungen des linguistischen Systems durchlaufen'\
        '(ebd.). In den Texten Homers können linguistische Merkmale unterschiedlicher Entwicklungsstadien'\
        'auftreten – ein Umstand, dem in der automatischen Verarbeitung möglicherweise Rechnung zu tragen ist.'\
        'Sowohl bei der Silbentrennung als auch bei der Versmaßannotation selbst sind lokale Kontextinformationen in Form von Diakritika (Zirkumflex und Trema) zu beachten.'

In [26]:
hexcounter = Counter(word for word in text2.split())
hexcounter_nouns = list(filter(lambda x: re.match(r'[A-Z]', x[0]), hexcounter.items()))
print(sorted(hexcounter_nouns, key=lambda x: x[1], reverse=True))

[('Die', 2), ('Entwicklungsstufe', 2), ('Merkmale', 2), ('Vokalen', 2), ('Eigenschaften', 2), ('Silbentrennung', 2), ('Versmaßannotation', 2), ('B.', 2), ('Diphthong', 2), ('S.', 2), ('Vokal', 2), ('Griechische', 2), ('Verarbeitung', 2), ('Sprache', 1), ('Vergleich', 1), ('Sprachenbemerkenswerte', 1), ('Kontinuität', 1), ('Gebrauch', 1), ('Jahrtausende', 1), ('Geschichte', 1), ('Entwicklungsstadiendurchlaufen.', 1), ('Arbeit', 1), ('Texte', 1), ('Hinblick', 1), ('Bussmann', 1), ('Klassisches', 1), ('Griechisch', 1), ('Entwicklungsstadiumzuordnen,', 1), ('Reiches', 1), ('Als', 1), ('Besonderheiten', 1), ('Vokalsystem', 1), ('Diphthongenmusikalischer', 1), ('Wortakzent', 1), ('Stimmtonbewegung', 1), ('Wortsilbe,komplexes', 1), ('Kasussystem', 1), ('Kasus,Numerussystem', 1), ('Auftreten', 1), ('Dual.Wesentlich', 1), ('Annotationsaufgabe', 1), ('Griechischen.', 1), ('So', 1), ('Wortakzent,dass', 1), ('Betonung', 1), ('Silben', 1), ('Deutschen', 1), ('Verstärkung', 1), ('Tones', 1), ('Aussp