<a href="https://colab.research.google.com/github/dgromann/Programmieren_fuer_Translator_innen_2024S/blob/main/notebooks/LV7_Vierte_Praktische_%C3%9Cbung.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **2024S: Einführung ins Programmieren für Translator:innen, Übung (UE), 340273-1**

Verwenden Sie für diese Übung die Textdateien `Text2.txt` und `Text3.txt` welche Sie auf [GitHub](https://github.com/dgromann/Programmieren_fuer_Translator_innen_2024S/tree/main) finden.

Laden Sie sich die Datei erst lokal herunter (Download im Menu auf GitHub welches Sie unter den drei Punkten oben rechts finden) und laden Sie dann die Datei in diesem Notebook.

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Laden Sie den Text der Dateien `Text2.txt` und `Text3.txt`in Python in eine entsprechende Variable text2 und text3, damit diese dann in der Liste `corpus` gespeichert werden können.


In [None]:
# Fügen Sie hier Ihren Code hier ein

corpus = [text2, text3]

In dieser Aufgabe verwenden wir **Term Frequency-Inverse Document Frequency (TF-IDF)**, eine Methode zur Extraktion von Termini aus Texten.

**Term Frequency** misst wie häufig ein Wort in einem Dokument vorkommt. Statt der absoluten Häufigkeit des Wortes, wird die relative Häufigkeit verwendet, d. h. Anzahl des Vorkommens des Wortes dividiert durch die Gesamtanzahl der Wörter im Dokument.

**Inverse Document Frequency (IDF)** misst wie spezifisch oder fachlich ein Wort ist, also wie häufig oder selten ein Wort vorkommt. IDF wird gemessen, indem die Gesamtanzahl der Dokumente durch die Anzahl der Dokumente, in welchen das Wort vorkommt, dividiert wird. Zusätzlich wird ein Logarithmus angewendet, um den Wertebereich zu skalieren, also sicherzustellen, dass Zusammenhänge von kleinen Werten besser überschaubar sind. Wenn beispielsweise die Gesamtanzahl der Dokumente 5 ist und das Wort in jedem Dokument vorkomment, dann ergibt der IDF-Wert 0, weil log(1) = 0.

Die Multiplikation von TF und IDF ergibt den TF-IDF-Wert, wobei davon ausgegangen wird, dass fachlichere und seltenere Wörter bessere Termkandidaten ergeben und somit einen höheren TF-IDF-Wert erhalten. Wörter die in jedem Dokument vorkommen, ergeben nach dieser Formel immer 0, weil der IDF-Wert bereits 0 ist.  



Eine Programmbibliothek für klassisches, statistisches maschinelles Lernen heißt [scikit-learn](https://scikit-learn.org/stable/index.html) und bietet bereits viele vordefinierte Funktionen, so wie TF-IDF. Wir verwenden erst diese Bibliothek um die TF-IDF Werte für die Wörter und Dokumente in unserem Beispielkorpus `corpus`zu berechnen.

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Laden Sie den Text der Dateien `Text2.txt` und `Text3.txt`in Python in eine entsprechende Variable text2 und text3, damit diese dann in der Liste `corpus` gespeichert werden können.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

def tf_idf_sklearn(corpus):

  # Erst wird ein Objekt dieser Klasse erzeugt
  vectorizer = TfidfVectorizer()

  # Mit der Funktion fit_transform werden die TF-IDF-Werte für den Korpus berechnet
  tf_idf_scores = vectorizer.fit_transform(corpus)

  # Mit dieser Funktion können die Termini und deren Index abgerufen werden
  terms = vectorizer.get_feature_names_out()

  tf_idf_dict = {}
  for term in terms:
    # In diesem Dictionary werden die TF-IDF-Werte mit den dazugehörigen Termini gespeichert
    tf_idf_dict[term] = tf_idf_scores[0, vectorizer.vocabulary_[term]]

  return tf_idf_dict

# Fügen Sie hier Ihren Code hier ein


👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Speichern Sie nur die Termkandidaten mit TF-IDF-Werten über 0 in eine Datei.

In [None]:
# Fügen Sie hier Ihren Code hier ein

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Führen Sie nun die folgenden Vorerarbeitungsschritte auf unseren Beispielkorpus `corpus` aus und berechnen Sie die TF-IDF-Werte auf den vorverarbeiteten Korpus.

1. Tokenisierung
2. POS-Tagging und Enfernen der angegebenen POS-Tags
3. Lemmatisierung

Dafür können Sie spaCy nutzen, allerdings verwenden wir dieses Mal ein größeres Modell für die Deutsche Sprache. Eine Übersicht über alle Modelle pro Sprache finden Sie [hier](https://spacy.io/models/de).

Beachten Sie bitte, dass die Dokumente als solche noch erkennbar sein müssen, also nicht alle Tokens beider Dokumente als eine Liste übergeben werden sollen, sondern zwei Listen (eine pro Dokument) in einer Gesamtliste `corpus_preprocessed` gespeichert werden soll.

Auszug:

`
[['Mögliche', 'Hinweise', 'auf', ..., 'im', 'Meer', 'produziert'], ['Grüne', 'Grenze', .. 'viel', 'zu', 'hören', 'sein']]
`

In [None]:
# Laden des spaCy-Modells
!python -m spacy download de_core_news_lg

In [None]:
import spacy
nlp = spacy.load("de_core_news_lg")

def preprocess(document):
  # Die POS-Tags für den zweiten Schritt
  pos_to_be_removed = ['ADV', 'PRON', 'CCONJ', 'PUNCT', 'PART', 'DET', 'ADP', 'SPACE']

  # Fügen Sie hier Ihren Code hier ein

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Berechnen Sie nun die TF-IDF-Werte auf den vorbearbeiteten Korpus und speichern Sie wiederum das Ergebnis in eine Datei, wobei Sie nur Werte größer 0 speichern.

Der TfidfVectorizer erwartet zusammenhängenden Text als Eingabe und nicht Listen von Tokens. Daher verwenden wir `preprocessor=' '.join`, eine Funktion die automatisch die Wörter wieder zu setzen Text zusammenfügt in der Zeile `  vectorizer = TfidfVectorizer(preprocessor=' '.join)`. Daher verwenden Sie bitte die nachstehende Funktion.   

In [None]:
# Fügen Sie hier Ihren Code hier ein
from sklearn.feature_extraction.text import TfidfVectorizer

def tf_idf_sklearn_for_tokens(corpus):

  # Erst wird ein Objekt dieser Klasse erzeugt
  vectorizer = TfidfVectorizer(preprocessor=' '.join)

  # Mit der Funktion fit_transform werden die TF-IDF-Werte für den Korpus berechnet
  tf_idf_scores = vectorizer.fit_transform(corpus)

  # Mit dieser Funktion können die Termini und deren Index abgerufen werden
  terms = vectorizer.get_feature_names_out()

  tf_idf_dict = {}
  for term in terms:
    # In diesem Dictionary werden die TF-IDF-Werte mit den dazugehörigen Termini gespeichert
    tf_idf_dict[term] = tf_idf_scores[0, vectorizer.vocabulary_[term]]

  return tf_idf_dict

👋 ⚒ **Analyse** 👋 ⚒ <br>
Welche Unterschiede lassen sich zwischen der Bechnung ohne und mit Vorverarbeitung erkennen? Fügen Sie hier oder in der nächsten Textzelle Ihre Analyse ein.

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Geben Sie nun nur die Eigennamen also Named Entities des Beispielkorpus und deren TF-IDF-Werte aus. Dazu müssen Sie zuerst die Named Entities identifizieren und dann die TF-IDF-Werten im Ergebnisdictionary finden. Wie fachspezifisch sind die Named Enties laut dieser Analyse? Stimmen Sie zu? Bedenken Sie: ein höherer TF-IDF-Wert bedeutet einen höheren Grad der Spezifizität und Fachlichkeit.

In [None]:
# Fügen Sie hier Ihren Code hier ein