# Automatisierte Textanalyse

In [2]:
Nachdem mittels Webscraping der Textkorpus für die Analyse erstellt wurde, müssen diese Informationen nun verarbeitet werden.

SyntaxError: invalid syntax (<ipython-input-2-eacc22696ccd>, line 1)

Alle für die Textanalyse benötigten Bibliotheken installieren

In [None]:
#pip install spacy

In [3]:
#pip install nltk # nltk = natural language processing tool kit

In [4]:
#pip install gensim

In [5]:
import spacy

Englisches Sprachpaket installieren

In [6]:
#! python -m spacy download en_core_web_sm

Deutsches Sprachpaket installieren

In [7]:
#! python -m spacy download de_core_news_sm

Englisches Sprachpaket aktivieren

In [8]:
nlp = spacy.load("en_core_web_sm")

In [9]:
import nltk

nltk-Datensätze aus dem Internet laden

In [10]:
#nltk.download('all')

Beispieltext wird der Variable doc zugewiesen

In [11]:
doc = "I've been 2 times to New York in 2011, but did not have the constitution for it. It DIDN'T appeal to me. I preferred Los Angeles."

In [12]:
doc = doc.lower() # aller in Kleinbuchstaben umwandeln

In [13]:
doc = nlp(doc)

Für die automatisierte Textverarbeitung müssen Texte häufig vorverarbeitet werden. Text sind ersteinmal sehr lange Zeichenketten. Zur Strukturierung werden diese Zeichenketten dann in einzelne Sätze und die Sätze wiederum in einzelne Wörter zerlegt. 
<dl>
<dt>Sentence splitting</dt>
<dd>Ein Dokument in einzelne Sätze zerlegen.</dd>

<dt>Tokenisierung</dt>
<dd>Satz in seine Bestandteile zerlegen.</dd>
</dl>
Mit der Tokenisierung wird eine Liste (bzw. bei satzweiser Tokenisierung mehrere Listen) von Untersuchungseinheiten (Wörter) erstellt.

Sentence splitting

In [14]:
for sent in doc.sents:
    print(sent.text)

i've been 2 times to new york in 2011, but did not have the constitution for it.
it didn't appeal to me.
i preferred los angeles.


In [15]:
doc_sents = [sent for sent in doc.sents]

In [16]:
print(doc_sents)

[i've been 2 times to new york in 2011, but did not have the constitution for it., it didn't appeal to me., i preferred los angeles.]


Tokenization

In [17]:
tokens = [[token.text for token in sentence] for sentence in doc.sents]

In [18]:
for t in tokens:
    print(t)
    print()

['i', "'ve", 'been', '2', 'times', 'to', 'new', 'york', 'in', '2011', ',', 'but', 'did', 'not', 'have', 'the', 'constitution', 'for', 'it', '.']

['it', 'did', "n't", 'appeal', 'to', 'me', '.']

['i', 'preferred', 'los', 'angeles', '.']



Bedeutungsgleiche Wörter kommen häufig in verschiedenen Varianten vor. Die einzelnen Wörter können auch vereinfacht werden, indem sie auf eine gemeinsame Grundform oder einen gemeinsamen Wortstamm reduziert werden. Somit lässt sich die Anzahl von Untersuchungseinheiten (Wörtern) gleicher Bedeutung reduzieren.

Hier gibt es grundsätzlich zwei Möglichkeiten, auf die man Variationen von Wörtern reduzieren kann:
- [Lemma](https://de.wikipedia.org/wiki/Lemma_(Lexikographie)) - Die Grundform des Wortes, wie sie in einem Wörterbuch steht. Z.B.: Haus, laufen, begründen

- [Stamm](https://de.wikipedia.org/wiki/Wortstamm) - Das Wort ohne Flexionsendungen (Prefixe und Suffixe). Z.B.: Haus, lauf, begründ

<dl>
<dt>Lemmatisierung</dt>
<dd>Jede Variation eines Wortes in Bezug auf Zeit oder Menge wird unter zur Hilfenahme eines elektronsichen Wörterbuches duch die Grundform ersetzt.</dd>
<dt>Stemming</dt>
<dd>Durch regelbasiertes Abschneiden oder Ersetzen von Suffixen entsteht ein künstlicher Wortstamm. Dieser Vorgang beruht ausschließlich auf einem Algorithmus ohne zur Hilfenahme eines Wörterbuchs.</dd>
</dl>

Lemmatisierung

In [19]:
lemmas = [[token.lemma_ for token in sentence] for sentence in doc.sents]

In [20]:
print(lemmas)

[['I', "'ve", 'be', '2', 'time', 'to', 'new', 'york', 'in', '2011', ',', 'but', 'do', 'not', 'have', 'the', 'constitution', 'for', 'it', '.'], ['it', 'do', "n't", 'appeal', 'to', 'I', '.'], ['I', 'prefer', 'los', 'angeles', '.']]


Stemming

In [21]:
from nltk import SnowballStemmer

In [22]:
stemmer = SnowballStemmer('english')

In [23]:
stems = [[stemmer.stem(token) for token in sentence] for sentence in tokens]

In [24]:
print(stems)

[['i', 've', 'been', '2', 'time', 'to', 'new', 'york', 'in', '2011', ',', 'but', 'did', 'not', 'have', 'the', 'constitut', 'for', 'it', '.'], ['it', 'did', "n't", 'appeal', 'to', 'me', '.'], ['i', 'prefer', 'los', 'angel', '.']]


Wenn nicht nur einzelne Wörter sondern auch den unmitterbaren Kontext untersuchen möchte, kann man ein gleitendes Fenster von *n* Wörtern verwenden, um den Text zu untersuchen. Ein derartiges Fenster wird *n-gram* genannt. 

n-grams

In [25]:
from nltk import ngrams

In [26]:
bigrams = [gram for gram in ngrams(tokens[0], 2)]

In [27]:
print(bigrams)

[('i', "'ve"), ("'ve", 'been'), ('been', '2'), ('2', 'times'), ('times', 'to'), ('to', 'new'), ('new', 'york'), ('york', 'in'), ('in', '2011'), ('2011', ','), (',', 'but'), ('but', 'did'), ('did', 'not'), ('not', 'have'), ('have', 'the'), ('the', 'constitution'), ('constitution', 'for'), ('for', 'it'), ('it', '.')]


In [28]:
trigrams = [gram for gram in ngrams(tokens[0], 3)]

In [29]:
print(trigrams)

[('i', "'ve", 'been'), ("'ve", 'been', '2'), ('been', '2', 'times'), ('2', 'times', 'to'), ('times', 'to', 'new'), ('to', 'new', 'york'), ('new', 'york', 'in'), ('york', 'in', '2011'), ('in', '2011', ','), ('2011', ',', 'but'), (',', 'but', 'did'), ('but', 'did', 'not'), ('did', 'not', 'have'), ('not', 'have', 'the'), ('have', 'the', 'constitution'), ('the', 'constitution', 'for'), ('constitution', 'for', 'it'), ('for', 'it', '.')]


## Wortartenerkennung

Man kann die einzelnen Wörter eines Textes verschiedenen [Wortarten](https://de.wikipedia.org/wiki/Wortart) zuordnen. Im Englischen werden die Wortarten *parts of speech* (POS) genannt. Die automatische Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten firmiert entsprechend unter [part of speech bzw. POS tagging](https://de.wikipedia.org/wiki/Part-of-speech-Tagging).

Folgende Wortarten werden in *spacy*'s POS tagger unterschieden:

| POS   |        DESCRIPTION        |
|:------|:--------------------------|
| ADJ   | adjective                 |
| ADP   | adposition                |
| ADV   | adverb                    |
| AUX   | auxiliary                 |
| CONJ  | conjunction               |
| CCONJ | coordinating conjunction  |
| DET   | determiner                |
| INTJ  | interjection              |
| NOUN  | noun                      |
| NUM   | numeral                   |
| PART  | particle                  |
| PRON  | pronoun                   |
| PROPN | proper noun               |
| PUNCT | punctuation               |
| SCONJ | subordinating conjunction |
| SYM   | symbol                    |
| VERB  | verb                      |
| X     | other                     |

In [30]:
pos = [[token.pos_ for token in sentence] for sentence in doc.sents]

In [31]:
print(pos)

[['PRON', 'AUX', 'VERB', 'NUM', 'NOUN', 'ADP', 'PROPN', 'PROPN', 'ADP', 'NUM', 'PUNCT', 'CCONJ', 'AUX', 'PART', 'VERB', 'DET', 'NOUN', 'ADP', 'PRON', 'PUNCT'], ['PRON', 'AUX', 'PART', 'VERB', 'ADP', 'PRON', 'PUNCT'], ['PRON', 'VERB', 'PROPN', 'PROPN', 'PUNCT']]


## Stoppwörter

[Stoppwörter](https://de.wikipedia.org/wiki/Stoppwort) sind Wörter, die ausschließlich grammatikalische/syntaktische Funktionen im Satz übernehmen und somit keine Bedeutung für die Erfassung des Dokumentinhalts besitzen, wie etwa: 
- bestimmte Artikel (der, die, das)
- unbestimmte Artikel (einer, eine)
- Konjunktionen (und, oder, doch, weil, ...)
- Präpositionen (an, in, von, ...)

Aufgrund ihrer inhaltlichen Bedeutungslosigkeit und der großen Häufigkeit, mit der sie in Texten vorkommen, ist es meist sinnvoll, sie bei der Textanalyse zu ignorieren.
Der Ausschluss von Stoppwörtern erfolgt über die Wortart (s.o.) oder über Stoppwort-Listen.

Ausschluss von Stoppwörtern aus dem Beispieltext:

In [32]:
content = [[token.text for token in sentence if token.pos_ in {'NOUN', 'VERB', 'PROPN', 'ADJ', 'ADV'} and not token.is_stop] for sentence in doc.sents]

In [33]:
print(content)

[['times', 'new', 'york', 'constitution'], ['appeal'], ['preferred', 'los', 'angeles']]


## Eigennamenerkennung

In Texten kommen auch [Eigennamen](https://de.wikipedia.org/wiki/Eigenname) vor. Eigennamenerkennung (Named-entity recognition, NER) von spacy kann - zumindest im Englischen - folgende Kategorien unterscheiden:

| Label       | Beschreibung                                                |
|:------------|:------------------------------------------------------------|
| PERSON      | Person                                                      |
| NORP        | Nationality Or Religious or Political group                 |
| FAC         | facility                                                    |
| ORG         | organisation                                                |
| GPE         | GeoPolitical Entity                                         |
| LOC         | locations (wie etwa Seen oder Gebirge)                      |
| PRODUCT     | Produkt                                                     |
| EVENT       | Ereignis (etwa im Sport, in der Politik, in der Geschichte) |
| WORK_OF_ART | Kunstwerk                                                   |
| LAW         | Gesetz                                                      |
| LANGUAGE    | Sprache                                                     |
| DATE        | Datum                                                       |
| TIME        | Zeitangabe                                                  |
| PERCENT     | Prozentwert                                                 |
| MONEY       | Geldbetrag                                                  |
| QUANTITY    | Häufigkeit                                                  |
| ORDINAL     | Ordinalzahl (erste, zweite, dritte, ...)                    |
| CARDINAL    | Kardinalzahl (1, 2, 3, ...)                                 |

In [36]:
entities = [[(entity.text, entity.label_) for entity in nlp(sentence.text).ents] for sentence in doc.sents]

In [37]:
print(entities)

[[('2', 'CARDINAL'), ('new york', 'GPE'), ('2011', 'DATE')], [], [('los angeles', 'GPE')]]


Grafische Darstellung der Eigennamen im Satzzusammenhang:

In [38]:
spacy.displacy.render(doc, style = "ent", jupyter = True)

## Syntaktische Analyse des Textes (Dependenzgrammatik)

Die inhaltliche Bedeutung eines Wortes im Satzzusammenhang kann nicht immer über die Wortart (POS) bestimmt werden. Sie hängt auch von der grammatischen Funktion des Worts im Satz ab. Die [Dependenzgrammatik](https://de.wikipedia.org/wiki/Dependenzgrammatik) analysiert die Beziehungen der Wörter untereinander durch ihre Beziehung zum Hauptverb des jeweiligen Satzes.

In [40]:
[[(c.text, c.head.text, c.dep_) for c in nlp(sentence.text)] for sentence in doc.sents]

[[('i', 'been', 'nsubj'),
  ("'ve", 'been', 'aux'),
  ('been', 'been', 'ROOT'),
  ('2', 'times', 'nummod'),
  ('times', 'been', 'attr'),
  ('to', 'been', 'prep'),
  ('new', 'york', 'compound'),
  ('york', 'to', 'pobj'),
  ('in', 'been', 'prep'),
  ('2011', 'in', 'pobj'),
  (',', 'been', 'punct'),
  ('but', 'been', 'cc'),
  ('did', 'have', 'aux'),
  ('not', 'have', 'neg'),
  ('have', 'been', 'conj'),
  ('the', 'constitution', 'det'),
  ('constitution', 'have', 'dobj'),
  ('for', 'constitution', 'prep'),
  ('it', 'for', 'pobj'),
  ('.', 'been', 'punct')],
 [('it', 'appeal', 'nsubj'),
  ('did', 'appeal', 'aux'),
  ("n't", 'appeal', 'neg'),
  ('appeal', 'appeal', 'ROOT'),
  ('to', 'appeal', 'prep'),
  ('me', 'to', 'pobj'),
  ('.', 'appeal', 'punct')],
 [('i', 'preferred', 'nsubj'),
  ('preferred', 'preferred', 'ROOT'),
  ('los', 'angeles', 'compound'),
  ('angeles', 'preferred', 'dobj'),
  ('.', 'preferred', 'punct')]]

Grafische Darstellung der syntaktischen Abhängigkeiten im Text:

In [45]:
from spacy import displacy
displacy.render(doc, style="dep", jupyter = True)