# Traditionelle Worteinbettungen

- [1. one hot encoding](#1.-one-hot-encoding)
- [2. Bag of Words (BOW)](#2.-Bag-of-Words-(BOW))

## 1. One-Hot Kodierung
Die One-Hot-Kodierung wird verwendet, um kategoriale Variablen in ein Format zu konvertieren, das von maschinellen Lernalgorithmen problemlos verwendet werden kann.

Die Grundidee der One-Hot-Kodierung besteht darin, neue Variablen zu erstellen, die die Werte 0 und 1 annehmen, um die ursprünglichen kategorialen Werte darzustellen.

In [3]:
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder #für integer encoding
from sklearn.preprocessing import OneHotEncoder #für one hot encoding

# handmadedataset:
data = ['red', 'green', 'blue']
values = array(data)
print(values)

['red' 'green' 'blue']


In [5]:
# integer encoding <- einfache nummerierung der wörter
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(values)
print(values)
print(integer_encoded)

['red' 'green' 'blue']
[2 1 0]


In [6]:
# binary encoding <-das benötigen wir für ein Perceptron
onehot_encoder = OneHotEncoder(sparse=False)
integer_encoded = integer_encoded.reshape(len(integer_encoded), 1)
onehot_encoded = onehot_encoder.fit_transform(integer_encoded)
print(onehot_encoded)

[[0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]


## 2. Bag of Words (BOW)
Ist ein sehr einfache Methode einen Text zu Vektorisieren.

Jedoch werden keine Information über den Kontex der Wörter behalten. 

In [9]:
import pandas as pd

documentA = 'red green blue'
documentB = 'red black yellow'

bagOfWordsA = documentA.split(' ')
bagOfWordsB = documentB.split(' ')

uniqueWords = set(bagOfWordsA).union(set(bagOfWordsB))

numOfWordsA = dict.fromkeys(uniqueWords, 0)
for word in bagOfWordsA:
    numOfWordsA[word] += 1
    
numOfWordsB = dict.fromkeys(uniqueWords, 0)
for word in bagOfWordsB:
    numOfWordsB[word] += 1

df = pd.DataFrame([numOfWordsA, numOfWordsB])
print(df)

   red  black  blue  yellow  green
0    1      0     1       0      1
1    1      1     0       1      0


In [11]:
import pandas as pd

documentA = 'Vor mir steht ein Entwickler Künstlicher Intelligenz aus Indien'
documentB = 'Vor mir steht ein sich mir illegal aufhaltender Ausländer'

bagOfWordsA = documentA.split(' ')
bagOfWordsB = documentB.split(' ')

uniqueWords = set(bagOfWordsA).union(set(bagOfWordsB))

numOfWordsA = dict.fromkeys(uniqueWords, 0)
for word in bagOfWordsA:
    numOfWordsA[word] += 1

numOfWordsB = dict.fromkeys(uniqueWords, 0)
for word in bagOfWordsB:
    numOfWordsB[word] += 1

df = pd.DataFrame([numOfWordsA, numOfWordsB])
print(df)

   mir  Vor  Intelligenz  aus  Ausländer  Entwickler  sich  Künstlicher  \
0    1    1            1    1          0           1     0            1   
1    2    1            0    0          1           0     1            0   

   illegal  aufhaltender  ein  steht  Indien  
0        0             0    1      1       1  
1        1             1    1      1       0  


---

Ein Problem mit dem Bag of Words-Ansatz ist, 
- dass sehr häufige Wörter beginnen, im Dokument zu dominieren (z.B. größere Punktzahl), 
- aber möglicherweise nicht so viel "Informationsgehalt" enthalten. 

Außerdem wird es längeren Dokumenten mehr Gewicht verleihen als kürzeren Dokumenten. 