# Features, Vektoren und Matrizen

Um mit Dokumenten Machine Learning Methoden nutzen zu können, müssen die einzelnen Dokumente zunächst in Zahlen umgewandelt werden. Du kannst dir leicht vorstellen, dass eine einzelne Zahl für ein Dokument nicht genügen wird, deswegen wird jedes Dokument auf einen *Vektor* abgebildet. Vektoren kennst du vielleicht noch aus dem Mathematik-Unterricht in der Schule.

## Vektoren: Dimensionen, Darstellung als Listen und Arrays

Die Anzahl der Zahlen, aus der die Vektoren bestehen, heißen *Dimensionen*.  Häufig werden Vektoren in Python als *Liste* dargestellt:

In [None]:
v = [1, 2, 3, 4, 5]
v

Da du mit sehr großen Vektoren zu arbeiten wirst, wirst du es im Machine Learning hauptsächlich mit `numpy` und den dort verwendeten `np.arrray` zu tun haben:

In [None]:
import numpy as np
a = np.array([1, 2, 3, 4, 5])
a

Das sieht sehr ähnlich aus wie die Liste, hat aber sehr viel weitergehende Eigenschaften. Eine Falle, in die du immer wieder tappen wirst, ist die Abfrage auf `None`:

In [None]:
if v != None:
    print("Liste nicht leer")

In [None]:
if a != None:
    print("Array nicht leer")

Das liegt daran, dass `==` als *Selektionsoperator* für Elemente im Array fungiert. Die richtig Abfrage ist:

In [None]:
if a is not None:
    print("Array nicht leer")

## Features und Matrizen

Als Dimensionen werden bei Dokumenten sog. *Features* verwendet. Sehr häufig wirst du die Wörter der Dokumente als Features verwenden. Die Vektoren haben dann eine Dimension, die der Größe des gesamten Vokabulars aller Dokumente entspricht. Weil aus dem Gesamtvokabular immer nur relativ wenige Wörter pro Dokument verwendet werden, sind die einzelnen Dokument-Vektoren sehr dünn besetzt (*sparse*).

`numpy` bzw. `scipy` bieten für solche Vektoren besonders effiziente Datenstrukturen an, die sog. *sparse matrices* (ein Vektor ist eine Matrix mit nur einer Zeilen bzw. Spalte). Es ist ein bisschen komplizierter, solche Matrizen aufzubauen, aber die Darstellung ist dann sehr effizient, wie du in dem (aus https://docs.scipy.org/doc/scipy/reference/sparse.html entliehenen) Beispiel siehst:

In [None]:
from scipy.sparse import lil_matrix
from scipy.sparse.linalg import spsolve
from numpy.linalg import solve, norm
from numpy.random import rand

A = lil_matrix((1000, 1000))
A[0, 0:100] = rand(100)
A[1, 100:200] = A[0, :100]
A.setdiag(rand(1000))
A = A.tocsr()
A

Die Matrix is 1000x1000 Elemente groß, davon sind aber nur 1.199 besetzt, nämlich in der ersten Zeile die ersten 100 Spalten, in der zweiten Zeile die Spalte 100-199 und die Diagonale. Weil das Element (0, 0) auch auf der Diagonale liegt, sind es nicht ganz 1.200 Elemente.

Üblicherweise würde diese Matrix 1000x1000x8 Bytes Speicherplatz brauchen (8 Bytes für einen Float), also 8 MB. Wie viel braucht sie wirklich:

In [None]:
A.data.nbytes

Das ist natürlich sehr viel weniger! Nur aus diesem Grund funktioniert das Machine Learning mit Texten überhaupt.

## Document-Term-Matrix

Wenn du dir nun vorstellst, dass die (Zeilen-) Vektoren der individuellen Dokumente alle untereinander geschrieben werden, erhältst du die sog. Dokumenten-Term-Matrix.

Ein üblicher Korpus kann leicht aus Millionen von Dokumenten bestehen und ein Vokabular von 100.000 oder mehr Worten enthalten. Hier hilft dann die oben erklärte *Sparse-Darstellung* der Matrix. Das wäre in einer *dichten Darstellung* für fast jeden Computer nämlich einfach zu groß.