# Bag of Words vs. TFIDF

Im Bag-of-Words-Modell sind alle Wörter eines Dokuments *gleichberechtigt*. Dabei weißt du, dass es Wörter gibt, die eine unterschiedliche hohe *Auszeichungsqualität* haben.

Einige Wörter (wie Artikel usw.) haben von sich aus einen geringen Aussagewert. Die Auszeichnungsqualität anderer Wörter ist jedoch hochgradig domänenespezifisch. Ein i.A. sehr unübliches Wort kann in einem speziellen Korpus sehr häufig vorkommen. Dazu kannst du diesen Kurs hier betrachten: im letzten Kapitel wurde sehr häufig das Wort *linguistisch* verwendet, was im allgemeinen Sprachgebrauch eher selten sein dürfte.

Wir wollen also ein Maß finden, mit dem wir die Aussagekraft bewerten können.

## Spielzeugdaten

Du beginnst wieder mit den ganz einfach Beispiel-Dokumente:

In [None]:
s1 = "Max schaut sich gerne Filme an. Laura mag auch gerne Filme."
s2 = "Stefanie schaut sich gerne Fußballspiele an."

## Vektorisierung mit dem `CountVectorizer`

Und diese vektorisierst du wie gewohnt mit dem `CountVectorizer`:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer()
count_vectors = count_vectorizer.fit_transform([s1, s2])
count_vectors.todense()

## Termfrequenz und invertierte Dokumentenfrequenz

Die Termfrequenz hast du schon kennengelernt, das ist die Häufigkeit, in der ein einzelnes Wort auftaucht.

Für die invertierte Dokumentenfrequenz betrachtest du, wie oft ein Wort im allen Dokumenten zusammen vorkommt. Je häufiger ein Wort ist, desto unspezifischer ist es. Deswegen wird die invertierte Dokumentenfrequenz für das Wort *i* definiert als: 

$\mathrm{IDF}_i = \frac{n}{1 + log F_i}$

Zum Glück musst du dich wenig mit solchen Formeln rumplagen, weil `scikit-learn` das alles für dich berechnen kann. Im nächsten Abschnitt siehst du, wie das geht.

## Transformation in TF/IDF-Raum

Die TF/IDF-Vektoren können aus den `count_vectors` mithilfe des `TfidfTransfomers` berechnet werden.

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()

Anschließend rufst du die Funktion `fit_transform` auf, die mithilfe der `count_vectors` die Häufigkeiten der Wörter bestimmt und die einzelnen Gewicht so verändert, das häufigere Wörter bestraft werden und niedrigere Gewichte erhalten. Das Resultat ist wie gewohnt eine dünn besetzte Matrix:

In [None]:
tfidf_vectors = tfidf_transformer.fit_transform(count_vectors)
tfidf_vectors.todense()

Die Gewichte des Wortes `schaut` sind in den beiden Dokumenten nicht gleich. Das liegt daran, dass TF/IDF-Vektoren normalerweise gleich *normiert* werden. So sind die Gewichte gleicher Wörter nur innerhalb eines Dokuments identisch.

## Bigramme

Genau wie beim `CountVectorizer`kannst du statt der Wörter alleine auch *Bigramme* verwenden. Das Beispiel hier zeigt dir, wie du `CountVectorizer` und `TfidfTransformer` in einem Schritt zusammenfassen kannst:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer2 = TfidfVectorizer(ngram_range=(2,2))
tfidf_vectors2 = tfidf_vectorizer2.fit_transform([s1, s2])
tfidf_vectors2

Die Dokumenten-Term-Matrix stellst du jetzt transponiert dar, weil sie dann einfacher zu lesen ist.

In [None]:
import pandas as pd
pd.DataFrame(tfidf_vectors2.todense(), columns=tfidf_vectorizer2.get_feature_names()).T

## Universelles TF/IDF

TF/IDF wird sehr häufig und für viele Anwendungsfälle eingesetzt - mehr noch als Bag-of-Words. Du wirst dieser Vektorisierung im Laufe des Kurses daher noch häufig begegnen.