<a href="https://colab.research.google.com/github/andreahorbach/SeminarMSV/blob/main/TR_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Sitzung 2: Authorship Attribution
Der Code zur heutigen Sitzung folgt lose Kapitel 5 aus "Getting Started with Natural Language Processing" von Ekaterina Kochmar.

**Schritt 1:** Wir laden das Gutenberg-Corpus und lassen uns die darin enthaltenen Titel anzeigen. Von Jane Austen und William Shakespeare gibt es je drei Bücher. Sie werden wir im Folgenden für unsere Beispiele verwenden.

In [None]:
import nltk # nltk = Natural Language Toolkit, eine große open-source-NLP-Bibliothek
nltk.download('gutenberg')
nltk.download('punkt')
from nltk.corpus import gutenberg

gutenberg.fileids() # Zeige alle Dateien im Gutenberg-Corpus an

In [None]:
austen1 = gutenberg.sents('austen-emma.txt') # Wir lassen uns eine Liste der Sätze zurückgeben.
austen2 = gutenberg.sents('austen-persuasion.txt')
austen3 = gutenberg.sents('austen-sense.txt')
shakespeare1 = gutenberg.sents("shakespeare-caesar.txt")
shakespeare2 = gutenberg.sents("shakespeare-hamlet.txt")
shakespeare3 = gutenberg.sents("shakespeare-macbeth.txt")
print (austen1, len(austen1)) # Wir schreiben den Namen der Datei und die Anzahl der Sätze raus.
print (austen2, len(austen2))
print (austen3, len(austen3))
print (shakespeare1, len(shakespeare1))
print (shakespeare2, len(shakespeare2))
print (shakespeare3, len(shakespeare3))

**Schritt 2** Als nächstes geben wir eine erste Statistik zu den 6 Büchern von Austen und Shakespeare aus: Wieviele Wörter hat ein durschnittlicher Satz? Wieviele Buchstaben ein Wort? Und wie oft kommt ein Wort im Schnitt vor?

In [45]:
def statistics(gutenberg_data):
    print(f"{'words_length': <20} {'sentence_length': <20} {'Avg Word Frequency': <20} {'Book': <20}")
    print("-" * 80)
    for work in gutenberg_data:
        num_chars = len(gutenberg.raw(work)) # Anzahl Buchstaben
        num_words = len(gutenberg.words(work)) # Anzahl Wörter
        num_sents = len(gutenberg.sents(work)) # Anzahl Sätze
        num_vocab = len(set(w.lower() for w in gutenberg.words(work))) # Anzahl verschiedener Wörter = Vokabulargröße
        print(f"{round(num_chars/num_words): <20}",  # average word length in characters
             f"{round(num_words/num_sents): <20}", # average sentence length in words
             f"{round(num_words/num_vocab): <20}", # average number of times each word occurs
             f"{work: <20}")

gutenberg_data = ['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt',
                 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt', 'shakespeare-macbeth.txt']
statistics(gutenberg_data)

words_length         sentence_length      Avg Word Frequency   Book                
--------------------------------------------------------------------------------
5                    25                   26                   austen-emma.txt     
5                    26                   17                   austen-persuasion.txt
5                    28                   22                   austen-sense.txt    
4                    12                   9                    shakespeare-caesar.txt
4                    12                   8                    shakespeare-hamlet.txt
4                    12                   7                    shakespeare-macbeth.txt


**Aufgabe** Überlegen Sie, bei welchem der drei Maße die Länge des Textes eine Rolle spielt.

**Aufgabe** Ergänzen Sie den Code so, dass auch die drei Bücher von G. K. Chesterton analysiert werden.

**Schritt 3** Wir schauen uns die Verteilung der verschiedenen Wortarten an.

In [None]:
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
from collections import Counter

nltk.download('averaged_perceptron_tagger')

def map_fine_to_coarse(pos_tag):
    if pos_tag.startswith('N'):
        return 'Noun'
    elif pos_tag.startswith('V'):
        return 'Verb'
    elif pos_tag.startswith('R'):
        return 'Adverb'
    elif pos_tag.startswith('J'):
        return 'Adjective'
    else:
        return 'Other'

def process(gutenberg_data):
   for work in gutenberg_data:
      print("\n", work)
      text = gutenberg.raw(work)
      text = text[0:100000]
      words = word_tokenize(text)
      pos_tags = pos_tag(words)

      #Weise jedem Wort seine Wortart zu
      print(pos_tags)
      pos_tag_frequency = Counter(map_fine_to_coarse(tag) for word, tag in pos_tags)
      # Calculate total number of POS tags
      total_pos_tags = sum(pos_tag_frequency.values())

      # Print the relative frequencies
      for tag, count in pos_tag_frequency.items():
        relative_frequency = count / total_pos_tags
        print(f"{tag}: {relative_frequency:.4f}")

gutenberg_data = ['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt',
                 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt', 'shakespeare-macbeth.txt']
process(gutenberg_data)

**Aufgabe** Modifizieren Sie den Code, so, dass Sie auch die Häufigkeit von Artikeln und Präpositionen angezeigt bekommen. Eine Übersicht der verschiedenen POS Tags finden Sie hier: https://www.sketchengine.eu/penn-treebank-tagset/

**Schritt 4** Wir geben eine Statistik über die häufigsten Wörter aus.

In [None]:
def get_top_words_statistics(gutenberg_data):
  for work in gutenberg_data:
      print("\n", work)
      text = gutenberg.raw(work)[0:100000]
      # Tokenize the text into words
      words = word_tokenize(text)

      # Count the frequency of each word
      word_frequency = Counter(words)

      # Get the 10 most frequent words
      top_words = word_frequency.most_common(20)

      # Calculate total number of words
      total_words = len(words)

      # Print statistics for the top 20 words
      print(f"{'Word': <15}{'Frequency': <15}{'Relative Frequency': <20}")
      print("-" * 50)
      for word, count in top_words:
          relative_frequency = count / total_words
          print(f"{word: <15}{count: <15}{relative_frequency:.4f}")


get_top_words_statistics(gutenberg_data)