# Kapitel 1 - Einführung in die Textklassifikation

## 1.1. Kapitelübersicht <a class="anchor" id="1-1"/>



<b>Abschnittsübersicht</b><br>

[1.1. Kapitelübersicht](#1-1)<br>
[1.2. Was ist Textklassifikation?](#1-2)<br>
[1.3. Arten von Textklassifikation?](#1-3)<br>
[1.4. Arten von Machine Learning Klassifizierungsmethoden](#1-4)<br>

## 1.2. Was ist Textklassifikation? <a class="anchor" id="1-2"/>

<b>Texklassifikation</b> ist das Zuweisen von Kategorien oder Tags zu einem Text oder Dokument gemäß seines Inhaltes. Textklassifikation ist eines der grundlegenden Aufgaben im Bereich des <b>NLP</b> (= Natural Language Processing, deutsch: Verarbeitung natürlicher Sprache). Dort wird es in Bereichen wie der sentiment analysis (deutsch: Stimmungsanalyse), dem topic labeling (deutsch: Themenbeschriftung) oder der language detection (deutsch: Spracherkennung) genutzt.<br>
Doch auch im alltäglichen Bereich werden Textklassifizierungsverfahren genutzt, etwa der Erkennung von Spam Mails oder der Unterscheidung von negativen oder positiven Reviews zu einem Produkt.

## 1.3. Arten von Textklassifikation <a class="anchor" id="1-3"/>

Es gibt mehrere Arten von Textklassifikationsverfahren:
- Regelbasierte Systeme
- Maschinelle Lernsysteme
- Hybridsysteme

Die regelbasierten Systeme und die Hybridsysteme werden in dieser Tutorialreihe nicht behandelt. Regelbasierte Systeme klassifizieren Texte anhand einer Reihe handgefertigter Sprachregeln. Hybrid Systeme sind eine Mischung aus regelbasierten Systemen und Maschinellen Lernsystemen. Wir werden sie nicht behandeln, da regelbasierte Systeme sehr viel Domänenwissen über die Daten, die klassifiziert werden sollen, verlangen. Zudem sind sie sehr statisch und sehr zeitaufwendig.

Schneller und meistens auch besser sind Maschinelle Lernsysteme. Anstatt dass wir wie bei der klassischen Programmierung durch die Eingabe Daten und Regeln Antworten erhalten, kennen wir bei Machine Learning einen Teil der Antworten. Unser Ziel hier ist es, durch ein Machine Learning Modell die Regeln herauszufinden.

<img src="tutorialdata/img/machine_learning_paradigma.png" alt="Machine Learning Paradigma" align="center" width="400px;"><br><div style="text-align: center; font-size:10px;">CHOLLET, Francois, Deep Learning mit Python und Keras, übers. von Knut LORENZEN, New York 2018, S. 23.</div></img><br>

Anders als bei der klassischen Programmierung wird ein Machine Learning System <i>trainiert</i>. Bei der Textklassifikation versucht ein Machine Learning Modell beim Training, anhand von Textdaten und zugehörigen <b>Klassen</b> Regeln zu finden, mithilfe derer neue Textdaten klassifiziert werden können. Das Machine Learning Modell versucht bei diesem Lernvorgang (daher auch das "Learning" im Namen) zu verallgemeinern, damit man es für neue Daten benutzen kann (Lerntransfer) (AF). Dieser Vorgang wird durch die folgende Grafik sehr gut verdeutlicht.

<img src="https://monkeylearn.com/static/img/text-classification-training.png" alt="Machine Learning Text classification" style="width: 650px;"/><br>


"Tags" steht hier gleichbedeutend für "Labels" oder "Klassen".[<sup>1</sup>](#fn1)
Auf die <b>Feature Vectors</b> (hier: Features) wird in den nächsten Kapiteln noch genauer eingegangen, hier aber schonmal soviel: Damit Machine Learning Textklassifikationsverfahren mit Texten arbeiten können, müssen Merkmale aus dieses Texten extrahiert werden. Diesen Vorgang nennt man <b>Feature Extraction</b> (ICH: stimmt das den? passt das mit kapitel 3 überein?). Mit einer speziellen Methode werden die Textdaten in eine numerische Darstellung in Form eines Vektors umgewandelt. Mit der Vektordarstellung können die Machine Learning Modelle dann arbeiten (AF?). Nachdem ein Machine Learning System trainiert worden ist, haben wir als Resultat ein Modell. Diesem Modell können wir neue Daten übergeben, die nicht beim Training verwendet worden sind, und <b>Voraussagen</b> (englisch: predictions) treffen. Bei der Textklassifikation versuchen wir, unbekannte Texte anhand unseres Machine Learning Modells zu klassifizieren.<br>


<img src="https://monkeylearn.com/static/img/text-classification-predictions2.png" alt="Machine Learning Text prediction" style="width: 650px;"/><br>

<hr style="border: 0.1px solid black;"/>
<span id="fn1" style="font-size:8pt; line-height:1"><sup style="font-size:5pt">1</sup> &nbsp; 
Tatsächlich gibt es Unterschiede zwischen den Bezeichnungen, die zu Beginn jedoch verwirrend sein können, weshalb wir in dieser Tutorialreihe die Begriffe gleich verwenden werden. Für die Unterschiede siehe z.B. die Diskussionen bei <a href="https://datascience.stackexchange.com/questions/9074/is-there-a-difference-between-classification-and-labeling">Stack Exchange</a>.

## 1.4. Arten von Machine Learning Klassifizierungsmethoden <a class="anchor" id="1-4"/>

Wir unterteilen die Machine Learning Klassifizierungsmethoden in <b>probabilistische</b> und <b>nicht-probabilistische</b> Klassifizierungsverfahren.<br>

<b>Probabilistische Klassifizierungsverfahren</b> nutzen statistische Methoden zur Klassifizierung von Daten. Beispiele für probabilistische Klassifizierungsverfahren sind <b>Naive Bayes</b> (TODO: Kapitel 3-6) oder <b>Logistic Regression</b> (TODO: Kapitel 6). <br>

<b>Nicht-probabilistischen Klassifizierungsverfahren</b> werden in weitere Klassifizierungsverfahren unterteilt. So gibt es die <b>Kernel-Methoden</b>, bei der Daten in einen hochdimensionalen Raum abgebildet werden. Mithilfe des <i>Kernels</i> (deutsch: Kern) können Berechnungen in diesem Raum durchgeführt werden. Das bekannteste Klassifizierungsverfahren, dass die Kernel-Methode nutzt, ist <b>SVM</b> (TODO: Kapitel 7).<br> Weiterhin gibt es die <b>Entscheidungsbäume</b>, <b>Random Forest</b> und die <b>Gradient Boosting Machines</b>. Bei <b>Entscheidungsbäumen werden</b> Daten in ein Baumdiagramm übertragen und die Klassifizierung erfolgt durch Entscheidungsregeln. Beim <b>Random Forest</b>-Algorithmus werden viele spezialisierte Entscheidungsbäume genutzt und deren Ausgaben zusammengefasst. <b>Gradient Boosting Machines</b> funktionieren ähnlich wie der Random Forest-Algorithmus, nutzen jedoch die <b>Gradient Boosting</b>-Methode, mithilfe derer die Schwachpunkte vorangeganger Modelle korrigiert werden sollen. Ein bekanntes Verfahren für Gradient Boosting Machines ist <b>XGBoost</b> (TODO: siehe Kapitel ?).

- binär multiclass und multi-label
- label = kalsse

TODO: das woanders hin? überhaupt benutzen? vllt kapitel 0?

#### Literatur- und Lese-Tipps:
<i>VanderPlas</i>, Jake [Hg.], Data Science mit Python: das Handbuch für den Einsatz von IPython, Jupyter, NumPy, Pandas, Matplotlib, Scikit-Learn, übers. v. Lorenz <i>Knut</i>, Frechen 2018.
- Einführung in Jupyter Notebooks, Numpy, Pandas und Matplotlib
- Übersicht zu scikit-learn
- Ausführliche Erläuterung von Textklassifikations-Verfahren wie Naive Bayes, SVM und Entscheidungsbäume
- aktuell (Stand 2019)
- verfügbar in Deutsch und Englisch