# Vektorisierung mit Bag of Words

Im letzten Teil hast du gelernt, dass Dokumente für Machine Learning in Vektoren umgewandelt werden (müssen). Dafür gibt es unterschiedliche Verfahren. In diesem Teil arbeitest du mit dem [*Bag-of-Words*-Modell](https://en.wikipedia.org/wiki/Bag-of-words_model) für die Vektorisierung.

Das Bag-of-Words-Modell kannst du dir wirklich wie einen Sack voller Wörter vorstellen, der richtig durchgeschüttelt wird. Die Reihenfolge der Wörter geht dabei komplett verloren und auch der Zusammenhang der einzelnen Wörter. Wenn Wörter mehrfach in einem Dokument vorkommen, sind sie auch häufiger im Sack vorhanden.

## Spielzeugdaten

Zunächst werden wir mit Spielzeugdaten arbeiten, damit die Vektoren nicht zu groß werden und du die Algorithmen noch im Detail nachvollziehen kannst. Später wirst du dann wieder auf die echten Daten aus den Newsticker wechseln.

Betrachte zunächst diese beiden Dokumente:

In [None]:
s1 = "Max schaut sich gerne Filme an. Laura mag auch gerne Filme."
s2 = "Stefanie schaut sich gerne Fußballspiele an."

Du könntest diese Dokumente jetzt durch `spacy` tokenisieren und analysieren lassen. Das wirst du später auch noch duchführen bzw. die linguistisch analsierten Daten verwenden. Versuche es zunächst einfacher und nutze den `CountVectorizer` von `scikit-learn`, um die Dokumente direkt zu vektorisieren:

## Vektorisierung mit dem `CountVectorizer`

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

Zunächst initialisierst du den `CountVectorizer`:

In [None]:
count_vectorizer = CountVectorizer()

Anschließend rufst du die Funktion `fit_transform` auf, die gleich zwei Dinge für dich erledigt:
* Sie bestimmt das Vokabular der Dokumente, die du ihr übergibst.
* Sie übersetzt die Dokumente in *Bag-of-Words*-Vektoren

In [None]:
count_vectors = count_vectorizer.fit_transform([s1, s2])

Die `count_vectors` sind nun eine dünn besetzte Matrix (die sog. *Document-Term-Matrix*):

## Vektoren und die *Document-Term-Matrix*

In [None]:
count_vectors

Die kannst du in eine echte Matrix wandeln und ausgebene lassen:

In [None]:
count_vectors.todense()

Das Vokabular stellt dir der `CountVectorizer` mit der Funktion `get_feature_names()` zur Verfügung:

In [None]:
count_vectorizer.get_feature_names()

Die Document-Term-Matrix lässt sich schöner mit `pandas` darstellen:

In [None]:
import pandas as pd
pd.DataFrame(count_vectors.todense(), columns=count_vectorizer.get_feature_names())

Wie du sehen kannst, sind die Sätze ganz schön *zerhackt* worden. Die Reihenfolge und der Kontext der Worte ist komplett verloren gegangen.

## Bigramme

Statt der Wörter alleine kannst du als Features auch *Bigramme* verwenden, d.h. Zwei-Wort-Kombinationen. Das geht fast genauso einfach:

In [None]:
count_vectorizer2 = CountVectorizer(ngram_range=(2,2))
count_vectors2 = count_vectorizer2.fit_transform([s1, s2])
count_vectors2

Die Matrix ist nicht viel größer geworden, was damit zusammenhängt, dass fast jedes Wort auch bisher nur einaml vorgekommen ist. Gleiches gilt natürlich für die Kombinationen. In größeren Dokumentenmengen führt die Verwendung von Bigrammen normalerweise zu einer Explosion des Vokabulars.

Schau dir die Dokumenten-Term-Matrix an:

In [None]:
pd.DataFrame(count_vectors2.todense(), columns=count_vectorizer2.get_feature_names())

Die Dokumenten-Term-Matrix stellst du jetzt transponiert dar, weil sie dann einfacher zu lesen ist.

In [None]:
pd.DataFrame(count_vectors2.todense(), columns=count_vectorizer2.get_feature_names()).T

## Einfache Vektorisierung

Bag-of-Words ist die erste Vektorisierung, die du kennengelernt hast. Sie ist sehr einfach, erfüllt aber für viele Textanalyse-Aufgaben alle Anforderungen und produziert im Allgemeinen schon gute Ergebnisse.

Nach und nach werden wir das verfeinern, indem wir die Features optimieren und die Zahlen in der Matrix skalieren.