# Natural Language Processing
---

Das ist eine Zusammenfassung bzw. ein Cheatsheet zum Thema **Natural Language Processing**.<br>
<br>
<br>
<br>
## Table of Contents
<br>

### 1. Basics
* Language models
<br>
* Word Vectors
<br>
* Co-Occurence matrix

<br>

---

## Einführung in die Language Models
<br>

Language Models können verschiedene NLP Probleme wie Spell Checking, Machine Translation oder auch Speech Recognition lösen. Die Grundidee ist im Endeffekt, für einen bestimmten Satz oder für bestimmte Wörter Wahrscheinlichkeiten auszurechnen.

<br>

#### Spell Checking
Beim Spell Checking möchte man z.B. für einen Satz "The office is about fifteen minuets from my house" erreichen, dass **P("about fifteen minutes from") > P("about fifteen minuets from")** gilt.

#### Machine Translation
Bei der Machine Translation möchte man mit den Wahrscheinlichkeiten gute von schlechten Übersetzungen unterscheiden, z.B. 
**P("High winds tonite") > P("Large winds tonite")**, da erstere eine bessere Übersetzung darstellt.

<br>

Was wir im Endeffekt also möchten ist ein Model, dass für einen String W = w1....wn die Wahrscheinlichkeit
<br>
**<p style="text-align: center;">P(W) = P(w1,w2,....,wn)</p>** oder 
<br>
**<p style="text-align: center;">P(wn | w1,w2,...wn-1)</p>**
<br>
berechnen kann.

<br>

#### Wie werden die Wahrscheinlichkeiten berechnet?
Die Wahrscheinlichkeiten werden folgendermaßen berechnet:

![Markov Assumption](img/markov-assumption.png)

Dabei geht es darum, nicht für jedes Wort den gesamten Kontext zu betrachten (zu kompliziert, zu viele Möglichkeiten), sondern man betrachtet für jedes Wort nur k Kontextwörter.
<br>
Für **k=0** nennt man solche Models **Unigram Models**, diese betrachten keinerlei Kontext, d.h. die Wahrscheinlichkeit eines Satzes ist einfach das Produkt der Wahrscheinlichkeiten aller Einzelwörter. Für **k=1** spricht man von **Bigram Models**, die das jeweils hintere Wort betrachten etc. 

<br>

Die Einzelwahrscheinlichkeiten werden über die **Counts** geschätzt. Für ein Bigram Model ginge das folgendermaßen:

<br>

![Count Probability](img/count-probability.png)

<br>

Mit c als "Count-Funktion" berechnet das also, wie oft **wi-1** und **wi** gemeinsam vorkommen geteilt durch die Anzahl der Vorkommen von **wi-1**. Dies wird nun für ein ausreichend großes Dataset für jedes Wort im Trainingsset berechnet. Das Ergebnis ist ein Language Model, dass dann für einen konkretes Problem verwendet werden kann.
<br>
In der Praxis werden diese Wahrscheinlichkeiten aus Effizienzgründen aber nicht miteinander multipliziert, sondern man logarithmiert und addiert sie in der Form **P1 x P2 = log(P1) + log(P2)**.

<br>

---

## Word Vectors
<br>

In der Computerlinguistik werden Wörter in der Regel als Vektoren dargestellt, um sie maschinell verarbeiten zu können. 
Dabei können Wörter auf verschiedene Arten als Vektoren dargestellt werden, wobei die konkrete Herangehensweise ziemlich vom Anwendungsfall abhängt. 

<br>

#### One-Hot-Vectors
Bei den sogenannten **One-Hot-Vectors** handelt es sich um Vektoren, die nur aus den Werten 0 und 1 bestehen.
Diese finden meist Anwendung, wenn man gegeben einem **Vokabular V** bestehend aus n verschiedenen Wörtern und 
einer **Dokumentensammlung D** für jedes Dokument d speichern möchte, ob das jeweilige Wort in Dokument d vorkommt oder nicht.
<br>
Dabei bestehen die One-Hot-Vectors aus insgesamt n Komponenten (Größe des Vokabulars), wobei der Wert der jeweiligen Vektorkomponente
1 ist, wenn das Wort in Dokument d vorkommt und 0 wenn nicht.
<br>
<br>
"Stapelt" man die One-Hot-Vectors aller Dokumente, ergibt sich eine Matrix mit N Zeilen und K Spalten, wobei N die Anzahl der Dokumente
und K die Vokabulargröße ist. Aus dieser kann man dann direkt ablesen, welche Wörter in welchen Dokumenten vorkommen.

<br>

#### Count-based Vectors
Im Gegensatz zu den One-Hot-Vectors können hier die Vektorkomponenten verschiedene Werte >= 0 annehmen. Die Herangehensweise ist die selbe,
jedoch wird für jedes Wort nun nicht gespeichert, ob es vorkommt oder nicht, sondern wie oft. Somit lässt sich aus der Designmatrix später ablesen,
welche Wörter **wie oft** in welchen Dokumenten vorkommen.++

<br>

#### Context-based Word Vectors
Für bestimmte NLP Probleme lässt sich das Konzept auch insofern erweitern, dass man für jedes Wort dessen Kontext speichert.
Dabei wird eine bestimmte Fensterlänge n festgelegt, und für jedes Wort w(i) im Vokabular wird gespeichert, welches Wort w(j) in der 
n-Umgebung von Wort w(i) vorkommt. Dies ist wichtig, da sich herausgestellt hat, dass die Bedeutung eines Wortes maßgeblich dadurch
bestimmt wird, welche Wörter in seiner Umgebung / in seinem Kontext vorkommen. 
<br>
Dies lässt sich dann in einer Co-Occurence-Matrix darstellen, 
die die Form V x V besitzt (V = Vokabulargröße).

<br>

## Co-Occurence-Matrix
Eine Co-Occurence_Matrix für das Vokabular V = { all, that, glitters, is, not, gold, well, ends }, der Fenstergröße n = 1 und den zwei Dokumenten:
<br>
<br>
Document 1: "all that glitters is not gold"

Document 2: "all is well that ends well"

würde somit folgendermaßen aussehen:
<br>

|     *    | `<START>` | all | that | glitters | is   | not  | gold  | well | ends | `<END>` |
|----------|-------|-----|------|----------|------|------|-------|------|------|-----|
| `<START>`    | 0     | 2   | 0    | 0        | 0    | 0    | 0     | 0    | 0    | 0   |
| all      | 2     | 0   | 1    | 0        | 1    | 0    | 0     | 0    | 0    | 0   |
| that     | 0     | 1   | 0    | 1        | 0    | 0    | 0     | 1    | 1    | 0   |
| glitters | 0     | 0   | 1    | 0        | 1    | 0    | 0     | 0    | 0    | 0   |
| is       | 0     | 1   | 0    | 1        | 0    | 1    | 0     | 1    | 0    | 0   |
| not      | 0     | 0   | 0    | 0        | 1    | 0    | 1     | 0    | 0    | 0   |
| gold     | 0     | 0   | 0    | 0        | 0    | 1    | 0     | 0    | 0    | 1   |
| well     | 0     | 0   | 1    | 0        | 1    | 0    | 0     | 0    | 1    | 1   |
| ends     | 0     | 0   | 1    | 0        | 0    | 0    | 0     | 1    | 0    | 0   |
| `<END>`      | 0     | 0   | 0    | 0        | 0    | 0    | 1     | 1    | 0    | 0   |