# Machine Learning und Softcomputing Assessment
#### **Sarkasmuserkennung mittels Kernel Ridge Regression**
*Die Ergebnisse dieses Notebooks wurden im Rahmen des Assessments Machine Learning and Softcomputing erarbeitet.*

### Aufgabenstellung
Das Themengebiet **Erkennung von Sarkasmus in Text** ist ein häufig erforschtes Thema. Es fällt in die Kategorisierung **Semantische Textklassifizierung**, welche bereits mehrere Ansätze enthält, um Features aus Texten zu extrahieren. Die Aufgabe stellt sich zusammen aus der Entwicklung eines von qualitativen Features aus einem selbst ausgewählten Datensatz, zum trainieren eines Modells, welches im Anschluss die Texteingabe nach Sarkasmus oder nicht Sarkasmus klassifiziert.

### Formelverzeichnis

|Variablen|Beschreibung|
|---------|------------|
|𝑤|Gewichtsmatrix/-vektor
|𝑥|Datenpunkt (Training)
|z|Datenpunkt (Input)
|𝑏|lineare Konstante
|α|Korrekturwert
|𝜙(𝑥)|Feature-Mapping

<a name="1"></a>
### 1. Einführung in Kernel Ridge Regression
Kernel Ridge Regression (KRR) ist ein Verfahren der Support Vector Machines (SVM), bei dem die klassische Regression oder Klassifikation um die L2-Regularisierung und Kernels erweitert wird. Durch die Kernels kann das Verfahren den sogenannten Kernel-Trick nutzen, um Rechenzeit einzuspaaren. Kernel Ridge Regression verhält sich um Vergleich zu klassischen Support Vector Machines effizienter und genauer für Datensätze mit einer ` Datenpunktanzahl < 25.000 `. Zudem können hochdimensionale Feature-Vektoren durch den Kernel-Trick wesentlich effizienter oder gar überhaupt genutzt werden.

<a name="1.1"></a>
#### 1.1. SVM mittles Kerneln
Eine klassiche lineare Support Vector Machine prognostiziert Ergebnisse anhand der Formel: 

> `𝑓(z) = <𝑤, z> + 𝑏`

Da die Datenpunkte in der Regel hochdimensional sind, entsprechen 𝑤 und 𝑥 Vektoren oder Matrizen, für die das innere Produkt gebildet werden muss, um eine Multiplikation zu erreichen. Die klassische Formel, bzw. die Gewichtsmatrix kann durch den sog. Perzeptron-Algorithmus weiter aufgeschlüsselt werden.

> `w = ∑ 𝛼 * 𝑦 * 𝑥)`

Der Perzeptron-Algorithmus betrachtet hierbei alle Trainingsdatenpunkte und ihre Ergebnisse und kombiniert diese mit einen Korrekturwert. Somit können die Gewichte iterativ angepasst werden und verlieren dennoch nicht an Aussagekraft im Training durch das zwischenspeichern der Trainingsdaten.<br><br>
Weiterführend wird das sog. Feature-Mapping angewandt. Das Feature-Mapping ist eine unbekannte Funktion, die einen Datenpunkt in höhere Dimensionen überführt. Dies ist vorallem wichtig, um noch nicht herausgestellte Zusammenhänge abzubilden. Das Feature-Mapping lässt sich hierbei auf die, aus dem Perzeptron-Algorithmus resultierende, Interpolationfunktion einbinden. Hierzu wird das innere Produkt des Gewichts- und Inputdatenverktors aufgeschlüsselt. Der Gewichtsvektor wird ersetzt und lässt eine Verknüpfung der Trainingsdaten mit den Inputdaten zu (inneres Produkt). Auf die Datenpunkte des inneren Produktes lässt sich anschließend das Feature-Mapping anwenden.

> `𝑓(𝑥) = ∑ 𝛼 * 𝑦 * <𝜙(𝑥),𝜙(z)> + 𝑏`

Das hierbei entstandene innere Produkt lässt sich nun durch die Einführung des sog. Kernels ersetzen. Ein Kernel bildet dieses innere Produkt mit den Feature-Mapping ab.

> `𝑓(𝑥) = ∑ 𝛼 * 𝑦 * 𝑘(𝑥,z) + 𝑏`

#### 1.2. Kernel-Trick
Der Kernel-Trick bezieht sich auf die im vorangegangenen Schritt eingeführten Kernel in den SVM-Funktionen. Durch den Trick können die inneren Produkte mittels vordefinierten Kernel-Methoden im Input-Space durchgeführt werden. Hiervon profitiert voallem die Laufzeit und Speicherkomplexität, da die Umwandlung (Feature-Mapping) in den Feature-Space entfällt. 

> **Linearer Kernel:**  `<𝑥,𝑦>`<br>
> **Polynominaler Kernel:**  `(<𝑥,𝑦>+ 𝑐)^𝑑`<br>


> **Achtung:** Hierbei muss jedoch darauf geachtet werden, dass die Ersetzung der Umwandlung nur für bestimmte Funktionen möglich ist. Konkret gilt [Mercer's Theorem](https://).

#### 1.3. L2-Regularisierung
Die L2-Regularisierung ist ein anderer Begriff für die Ridge Regression, die in diesem Verfahren in Kombination mit dem Kernel-Trick angewandt wird. 

Es gibt verschiedene Verfahren der Regression, die bei verschiedenen Szenarien eingesetzt werden können. Die Bekannteste ist dabei wohl die einfache lineare Regression, welche eine statische Methode ist, die die Beziehung zwischen einer Antwortvariablen ` y ` und einer Prädiktorvariablen ` x ` beschreibt.

> ` y = a + b * x `

Wenn in einem Modell mehrere Prädiktorvariablen vorkommen, die jeweils voneinander unabhängig sind und eine Beziehung zu der Antwortvariablen haben, wird die multiple lineare Regression eingesetzt. Es gibt dabei wieder eine Antwortvariable ` y ` und ` p ` Prädiktorvariablen, die mit ` x(p) ` beschrieben werden. Hinzukommt kommt ` β(p) `, welche den durschnittlichen Effekt einer Zunahme von ` x(p) ` beschreibt, wenn eine Einheit auf ` y ` gerechnet wird. Alle andere Prädiktoren werden dabei festgehalten. 

> ` y = β(0) + β(1) * x(1) + ... + β(p) * x(p) + ε ` 
>
> **Minimierung von** ` RSS`

Da es jedoch bei der multiplen linearen Regression zu Multikollinarität kommen kann, wenn zwei oder mehrere Prädiktorvariablen miteinander in Beziehung stehen, wird die Ridge Regression eingesetzt. Die multiple lineare Regression versucht, die Summe der quadratischen Residuen zu minimieren. 

Bei der Ridge Regression kommt ein Strafterm hinzu und wird minimiert. Dieser hängt besonders von dem Hyperparameter ` λ ` ab. Wenn ` λ=0 ` ist, dann gibt es keine Veränderung. Je größer ` λ ` jedoch wird, desto einflussreicher ist ihr Schrumpfungsgrad. ALlgemeien schrumpfen die Prädiktorvariablen, die am wenigsten Einfluss haben, am schnellsten gegen 0. 

> **Minimierung von** ` RSS + λ * ∑ * β(j)² `

### 2. Auswahl des Datensatzes
Anhand einer vorangegangen Internetrecherche sind wir auf die folgenden drei Datensätze gestoßen, die aus unterschiedlichen Erhebungsstandorten eine Klassifikation nach Sarkasmus und nicht Sarkasmus enthielten.
Außerdem ist es wichtig, dass die Datensätze bereits balanciert wurden, ansonsten muss ein weiterer Balancierungsprozess vorgeschoben werden.

Nach der Evaluation der Vor- und Nachteile der Datensätze, kamen wir zum Ergebnis, dass der Datensatz **Sarcasm on Reddit** am repräsentativsten den modernen Sarkasmus darlegt.
<br><br>

Datensatz|Vorteile|Nachteile
---------|--------|---------
[iSarcasm](https://)||
[Sarcasm on Reddit](https://)|- modernes Sarkasmusverständnis<br>- große Anzahl an Datenpunkten|- viele numerische Kontexte<br>- viele Abkürzungen
[News Headlines Sarcasm](https://)||

#### 2.1. *Sarcasm on Reddit* Metadaten
>**Metadaten** = Grundlegende Informationen über die Einträge des Datensatzes.

Metainformation|Wert
---------------|----
Anzahl an Datenpunkten|~1.000.000 Einträge
Anzahl valider Datenpunkte|962.295 Einträge
Ausgeglichenheitsfaktor|50% Sarkasmus, 50% Kein Sarkasmus
Hauptspalten|"label", "comment", "parent_comment"
Nebenspalten|"author", "subreddit", "score", "ups", "down", "date"

---
> ### Information zu Databricks:
> Um Daten aus dem DBFS zu löschen, kann der folgende Befehl ausgeführt werden. Wichtig ist, dass erst alle Dateien aus einem Verzeichnis gelöscht werden müssen, bevor ein Verzeichnis selbst gelöscht werden kann.
>```
>dbutils.fs.rm("/FileStore/tables/...")
>```
---

<a name="3"></a>
### 3. Vorbereitung der Trainings-, Validierungs- und Testdaten
Um den Datensatz verwenden zu können müssen die Datenpunkte vorbereitet werden. Hierzu zählt das Bereinigen der Daten und das [Feature-Engineering](https://towardsdatascience.com/feature-engineering-for-machine-learning-3a5e293a5114). Aus den Datensatz sollen so viele Informationen wie möglich extrahiert werden. Die Extrahierung zielt vorallem darauf ab die **Informationen zu erlangen**, **die nicht** explizipt **im Datensatz liegen**.<br>
In unserem Fall versuchen wir aus einem großen Datensatz an Texten Informationen zu erlangen, die auf semantische Beziehungen schließen lassen, um eine Klassifikation nach Sarkasmus zu realisieren.<br><br>
**Enscheidung:** Um einen generalisierten Anastz zu verfolgen, haben wir uns im Vorweg dagegen entschieden die weiteren Variablen des Datensatzes (bspw. *score*, *ups* und *downs*) in unser Modell einzubeziehen. Möglicherweise hätten diese uns zwar eine genauere Klassifikation ermöglicht, jedoch sind diese Informationen für die spätere generelle Anwendung nicht verfügbar (Eingrenzung des Use-Case).

**Initialies Laden des Datensatzes:**<br>
*Datensatz wird mittels der Pandas Libary aus der gegebenen CSV-Datei in ein Pandas DataFrame geladen. Für das lokale Ausführen kann hier der komplette Datensatz eingelesen werden. In Google Colab oder Databricks sollten kleinere Mengen gewählt werden.*<br>
>Sollte bereits die Sub-Menge des Datensatzes generiert worden sein, so kann zu <a>Schritt 3.3</a> vorgesprungen werden.

In [1]:
# import pyspark
import pandas as pd

DATASET_NAME = 'dataset.csv'
DATASET_PATH = './' + DATASET_NAME

READ_ROWS = 300000

# For usage via Google Colab:
HEADER_LIST = ['label', 'comment', 'author', 'subreddit', 'score', 'ups', 'downs', 'date', 'ts', 'parent']
complete_dataset = pd.read_csv(DATASET_PATH, sep=',', names=HEADER_LIST, encoding="ISO-8859-1", nrows=READ_ROWS)

# For usage via Databricks:
# complete_dataset = sqlContext.read.csv(DATASET_PATH, sep=",", header=True, encoding="ISO-8859-1").limit(READ_ROWS)
# complete_dataset = complete_dataset.toPandas()

print(complete_dataset.info())

  complete_dataset = pd.read_csv(DATASET_PATH, sep=',', names=HEADER_LIST, encoding="ISO-8859-1", nrows=READ_ROWS)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300000 entries, 0 to 299999
Data columns (total 10 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   label      300000 non-null  object
 1   comment    299994 non-null  object
 2   author     300000 non-null  object
 3   subreddit  300000 non-null  object
 4   score      300000 non-null  object
 5   ups        300000 non-null  object
 6   downs      300000 non-null  object
 7   date       300000 non-null  object
 8   ts         300000 non-null  object
 9   parent     300000 non-null  object
dtypes: object(10)
memory usage: 22.9+ MB
None


<a name="3.1"></a>
#### 3.1. Bereinigen der Daten
Bevor jegliche Art der semeantischen Analyse oder dem Extrahieren einer relevanten und repräsentativen Submenge, müssen die Daten bereinigt werden. Es existieren mehrere Fehlerquellen in den Daten, die ohne eine Filtrierung die Egebnisse verfälschen würden.<br>
Eine der vielen Fehlerquellen sind None-, NaN-, und leere Werte.

**Analysieren der Daten auf None-, NaN- und leere Werte:**<br>
*Gibt die Summe aller None-, NaN- und leeren Werte aus.*

In [2]:
import numpy as np

sum_na = complete_dataset.isna().sum().sum()
sum_empty_string = complete_dataset.eq('').sum().sum()

print("Summe Na-Werte: " + str(sum_na))
print("Summe leere Werte: " + str(sum_empty_string))

Summe Na-Werte: 6
Summe leere Werte: 0


**Bereinigen der Daten nach None-, NaN- und leeren Werte:**<br>
*Entfernt alle None-, NaN- und leeren Werte.*

In [3]:
complete_dataset = complete_dataset.dropna()

sum_na = complete_dataset.isna().sum().sum()
print("Summe Na-Werte: " + str(sum_na))

Summe Na-Werte: 0


**Entfernen von nicht benötigten Spalten:**<br>
*Entfernt alle Spalten bis auf die Kommentare und Label.*

In [4]:
complete_dataset = complete_dataset[['label', 'comment']]

print("Columns: " + str(complete_dataset.columns.to_list()))
print("Size: " + str(len(complete_dataset.index)))

Columns: ['label', 'comment']
Size: 299994


**Entfernen von nicht betrachteten Zeichen:**<br>
*Entfernt aller Zeichen, die nicht für die Analyse benötigt werden.*

In [5]:
import re

def replace_empty(text):
    if len(text.split()) == 0:
        return ''
    return text

complete_dataset['comment'] = complete_dataset['comment'].apply(lambda text: re.sub('[^\.\?\!\,\;\sA-Za-z0-9]+', '', text))
complete_dataset['comment'] = complete_dataset['comment'].apply(lambda text: replace_empty(text))
complete_dataset['comment'] = complete_dataset['comment'].replace('', np.nan)
complete_dataset = complete_dataset.dropna(subset=['comment'])
complete_dataset = complete_dataset.drop_duplicates(subset=['comment'])

<a name="3.2"></a>
#### 3.2. Extrahieren einer ausgeglichenen Sub-Menge
Da der Datensatz enorm viele Daten enthält, wäre er für die weitere Verarbeitung und Aufbereitung insofern ungeeignet, dass er die Rechenleistung enorm beeinträchtigt. Zudem steigt die Wahrscheinlichkeit des Overfittings bei steigender Datenpunktanzahl. Außerdem ist es wichtig, in diesem Schritt Ausreißer zu eleminieren.

**Enscheidung:** Wir haben uns für eine gesamte Datenmenge von ` 6.000 Datenpunkten ` entschieden. Die sich wiederum später bei einem ` Train-, Test-Split auf 4.500, 1.500 Datenpunkten `.

**Analysiert, ob ein Kommentar Zahlen enthält:**<br>
*Durchläuft alle Zeichen der Zeichenfolge, um zu analysieren, ob Zahlen enthalten sind. Sollten diese enthalten sein, werden die Zeilen entfernt*

In [6]:
def contains_digits(comment):
    return any(chr.isdigit() for chr in comment)

contains_digits_mask = np.vectorize(contains_digits)
array_contains_digits = contains_digits_mask(complete_dataset['comment'].values.astype('U'))
complete_dataset = complete_dataset[~array_contains_digits]

**Analysieren der Häufigkeit von Wörtern:**<br>
*Berechnet die Summer der Häufigkeit aller Wörter der Datenpunkte.*

In [7]:
from sklearn.feature_extraction.text import CountVectorizer

word_counter = CountVectorizer(lowercase=True, analyzer='word', stop_words='english')
array_word_counter = word_counter.fit_transform(complete_dataset['comment'].values.astype('U'))
array_word_counter = np.sum(array_word_counter, axis=1)

**Analysieren der Anzahl an Wörtern:**<br>
*Berechnet die Anzahl an Wörtern der Datenpunkte.*

In [8]:
def count_words(comment):
    return len(comment.split())

comment_size_mask = np.vectorize(count_words)
array_comment_size = comment_size_mask(complete_dataset['comment'].values.astype('U'))

**Analysieren der durchschnittlichen Wortgröße:**<br>
*Berechnet die durchschnittliche Wortgröße der Datenpunkte.*

In [9]:
def measure_words(comment):
    words = comment.split()
    return sum(len(word) for word in words) / len(words)

word_size_mask = np.vectorize(measure_words)
array_word_size = word_size_mask(complete_dataset['comment'].values.astype('U'))

**Konkatenieren der gesammelten Daten:**<br>
*Zusammenführen der Daten und in einen Pandas Dataframe überführen. Die Anzahl und Häufigkeit der Wörter werden an die Datenpunkte angehängt.*

In [10]:
concatenated_data = np.array(np.hstack((
        np.reshape(complete_dataset['label'].values, (-1, 1)),
        np.reshape(complete_dataset['comment'].values, (-1, 1)),
        np.reshape(array_comment_size, (-1, 1)),
        np.reshape(array_word_counter, (-1, 1)),
        np.reshape(array_word_size, (-1, 1)),
)))
concatenated_data = pd.DataFrame(concatenated_data, columns=['label', 'comment', 'comment_size', 'word_count', 'avg_word_size'])

**Filtern und Sortieren der Daten:**<br>
*Die Daten werden im Datenframe nach der Anzahl an Wörtern gefiltert, wobei diese gegen eine Mindestwortanzahl gepfüft werden. Anschließend werden die Daten nach der Anzahl der Wörter und dessen Häufigkeit sortiert.*

In [11]:
MIN_WORD_COUNT = 4

concatenated_data = concatenated_data[concatenated_data['comment_size'] >= MIN_WORD_COUNT]
concatenated_data = concatenated_data.sort_values(by=['word_count', 'avg_word_size', 'comment_size'], ascending=[True, False, False])

**Extrahieren eines gleich großen Submenge:**<br>
*Aus dem Dataframe wird eine gleich große Submenge an positiven und negativen Sarkasmusbefunden extrahiert und konkateniert (`6.000 Datenpunkte`).*

In [12]:
SUBSET_PART_SIZE = 6000

# Note: For Databricks please use char representation instead.
POSITIVE_LABEL = 1
NEGATIVE_LABEL = 0

concatenated_data_positive = concatenated_data[concatenated_data['label'] == POSITIVE_LABEL].head(SUBSET_PART_SIZE)
concatenated_data_negative = concatenated_data[concatenated_data['label'] == NEGATIVE_LABEL].head(SUBSET_PART_SIZE)
concatenated_data = pd.concat([concatenated_data_positive, concatenated_data_negative])

**Abspeichern der neuen Submenge:**<br>
*Das Dataframe wird in eine CSV-Datei abgespeichert, um diese im späteren Verlauf zu laden.*

In [13]:
SUBSET_NAME = 'subset-dataset.csv'
OUTPUT_PATH = './' + SUBSET_NAME

concatenated_data = concatenated_data.loc[:, ~concatenated_data.columns.isin(['word_count', 'comment_size', 'avg_word_size'])]

# For usage via Google Colab:
concatenated_data.to_csv(OUTPUT_PATH, index=False)

# For usage via Databricks:
# sparkDataFrame = spark.createDataFrame(concatenated_data)
# sparkDataFrame.coalesce(1).write.csv(OUTPUT_PATH)

---
> ### Information:
> Die nachfolgende Schritte sollten erst ausgeführt werden, wenn die Submenge in <a>Schritt 3.2</a> bereits in eine CSV-Datei gespeichert wurde. Diese CSV-Datei soll im folgenden als neue Datenquelle fungieren und muss dementsprechend erst eingelesen werden Sollte das Vocabular auch bereits vorliegen, so kann zu <a>Schritt 3.5</a> gesprungen werden.
---

In [14]:
# import pyspark
import pandas as pd

DATASET_NAME = 'subset-dataset.csv'
DATASET_PATH = './' + DATASET_NAME

# For usage via Google Colab:
HEADER_LIST = ['label', 'comment']
complete_dataset = pd.read_csv(DATASET_PATH, names=HEADER_LIST, header=0)

# For usage via Databricks:
# complete_dataset = sqlContext.read.csv(DATASET_PATH, header=False).toDF('label', 'comment')
# complete_dataset = complete_dataset.toPandas()

print(complete_dataset.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12000 entries, 0 to 11999
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   label    12000 non-null  int64 
 1   comment  12000 non-null  object
dtypes: int64(1), object(1)
memory usage: 187.6+ KB
None


<a name="3.3"></a>
#### 3.3. Lemmatizing der Texte
Das <a>Lemmmatizing</a> setzt alle Wörter auf ihren Wortstamm und verringert somit die Anzahl an einzigartigen Werten zwischen den Texten. Dies ist vorallem wichtig, um im späteren Verlauf die Wörterhäufigkeit im gesamten Dokument einheitlich bemessen zu können. Außerdem kann anhand der verkürzten Wörter ein wesentlich effizienteres Vokabular aufgebaut werden.

In [15]:
import numpy as np
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('averaged_perceptron_tagger')
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.tokenize import TweetTokenizer

lemmatizer = WordNetLemmatizer()
tokenizer = TweetTokenizer()

def lemmatize_words(comment):
    word_list = pos_tag(tokenizer.tokenize(comment))
    lemmatize_words = []
    for word, tag in word_list:
        wtag = tag[0].lower()
        if wtag in ['a', 'r', 'n', 'v', 's']:
            word = lemmatizer.lemmatize(word, wtag)
        lemmatize_words.append(word)
    return ' '.join(lemmatize_words)

lemmatize_words_mask = np.vectorize(lemmatize_words)
complete_dataset['comment'] = lemmatize_words_mask(complete_dataset['comment'].values.astype('U'))

[nltk_data] Downloading package punkt to /Users/fprinz/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /Users/fprinz/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
[nltk_data] Downloading package omw-1.4 to /Users/fprinz/nltk_data...
[nltk_data]   Unzipping corpora/omw-1.4.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/fprinz/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


**Was ist ein Tokenizer?**<br>
Ein Tokenizer dient zur Auftrennung von Zeichenfolgen basierend auf festgelegten Regeln. Je nach Implementierung kann der Tokenizer rudimentäre Wortzerlegung durchführen oder basierend auf der jeweiligen Sprache spezifische Worttrennungen durchführen.

**Was sind Pos-Tags?**<br>
Die Pos-Tags geben an, um welche Art von Wort es sich im Kontext des Satzes handelt. Unterschieden wird beispielsweise nach *Nomen*, *Verben* oder *Subjekten*. Somit kann der Lemmatizer die Wortstämme besser identifizieren und die Anzahl an Fehlbildungen geht zurück.

**Was ist der Unterschied zwischen Stemming und Lemmatizing?**<br>
*Das Stemming schneidet Konjugationen einzelner Wörter ab und verringert somit die Anzahl an einzigartigen Werten zwischen den Texten. Da hierbei allerdings nicht immer der Wortstamm zurückgegeben wird, leidet die Vergleichbarkeit der Texte. Da das Stemming im Vergleich zum Lemmatizing lediglich die Konjugation abschneidet und das Wort nicht auf den Wortstamm zurück bildet, kann man sagen, dass das Stemming vergleichsweise rudimentär funktioniert.*<br>
```
stemmer = PorterStemmer()
word_stemmed = stemmer.stem("studies")
> studi
```
```
lemmatizer = nltk.wordnet.WordNetLemmatizer()
word_lemmatized = lemmatizer.lemmatize("studies")
> study
```
<br>**Entscheidung:** Da es uns um die größt mögliche semantische Korrektheit bei hoher Effizienz geht, haben wir uns für das Lemmatizing entschieden.

**Entfernen der Punktuationen:**<br>
*Für die Lemmatization ist es wichtig die Satztrennzeichen in den Kommentaren bei zu behalten. Diese können nun entfernt werden.*

In [16]:
import string

def remove_punctuation(text):
    if type(text) != str or len(text) == 0:
        return np.nan
    
    clean_text = ""
    for char in text:
        if char not in string.punctuation:
            clean_text += char
    return clean_text

complete_dataset['comment'] = complete_dataset['comment'].apply(lambda text: remove_punctuation(text))
complete_dataset = complete_dataset.dropna()

**Abspeichern der neuen Datenmenge:**<br>
*Das Dataframe wird in eine CSV-Datei abgespeichert, um diese im späteren Verlauf zu laden.*

In [17]:
SUBSET_NAME = 'prepared-dataset.csv'
OUTPUT_PATH = './' + SUBSET_NAME

# For usage via Google Colab:
complete_dataset.to_csv(OUTPUT_PATH, index=False)

# For usage via Databricks:
# sparkDataFrame = spark.createDataFrame(complete_dataset)
# sparkDataFrame.coalesce(1).write.csv(OUTPUT_PATH)

<a name="3.4"></a>
#### 3.4. Erstellen eines Bag-Of-Words Vocabulars
In diesem Schritt soll die Submenge der Datenbasis in ein <a>Vocabular</a> aufgebrochen werden, welche sich aus den <a>Bag-Of-Words</a> ergeben.
Dafür benutzen wir einen <a>CountVectorizer</a> und extrahieren die trainierten Features, die aus sogenannten <a>N-Grams</a> bestehen. Diese können wir dann als Array in eine CSV-Datei abspeichern.

In [18]:
# import pyspark
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

VOCABULARY_NAME = 'vocabulary.csv'
OUTPUT_PATH = './' + VOCABULARY_NAME
NGRAM_RANGE = (1,3)

count_vectorizer = CountVectorizer(lowercase=True, analyzer='word', stop_words='english', ngram_range=NGRAM_RANGE)
count_vectorizer.fit_transform(complete_dataset['comment'].values.astype('U'))

# Note: For newer versions of scikit-learn use get_feature_names_out().

# For usage via Google Colab:
df_vocabulary = pd.DataFrame(count_vectorizer.get_feature_names_out())
df_vocabulary.to_csv(OUTPUT_PATH, index=False, header=False)

# For usage via Databricks:
# df_vocabulary = pd.DataFrame(count_vectorizer.get_feature_names())
# sparkDataFrame = spark.createDataFrame(df_vocabulary)
# sparkDataFrame.coalesce(1).write.csv(OUTPUT_PATH)

**Was ist Bag-Of-Words?**<br>
Die Bag-of-Words Methode dient im Bereich des Language Processing der Erzeugung nummerischer Features aus einer gegebenen Menge an textuellen Eingaben. Dazu wird zunächst ein Vokabular aus der gegebenen Menge an Eingabetexten erzeugt (siehe unten).
Die Bag-of-Words Repräsentation eines Satzes gibt an, aus welchen Wörtern sich der Satz zusammensetzt. Sie gibt dabei allerdings keine verlässliche Auskunft darüber, wie diese angeordnet sind. Vielmehr besteht sie aus einem Vektor mit der Dimension n (n=Länge des Vokabulars). Jedes einzelne Merkmal des Vektors gibt dabei an, ob das durch das Merkmal repräsentierte Wort des Vokabulars teil dies Satzes ist.

<u>Beispiel:</u>

Satz 1: Das ist toll.

Satz 2: Das ist schlecht.

Vokabular (Ohne Interpunktion und Großschreibung)= [das; ist; toll; schlecht]

B-o-W 1: (1; 1; 1; 0)

B-o-W 1: (1; 1; 0; 1)

**Was sind N-Grams?**<br>
N-Grams sind eine Möglichkeit den Zusammenhang zwischen verschiedenen Worten zu analysieren. Dies geschieht durch eine gemeinsame Erfassung verschiedener Textabschnitte, deren Länge vom Anwender definiert werden kann.

<u>Beispiel</u><br>
"Dieser Satz dient als Beispiel für NGrams."<br>

NGrams (Ohne Interpunktion und Großschreibung)<br>

Monograms: ["dieser"; "satz"; "dient"; "als"; "beispiel"; "für"; "ngrams"]<br>
Bigrams: ["dieser satz"; "satz dient"; "dient als"; "als beispiel"; "beispiel für"; "für ngrams"]<br>
Trigrams: ["dieser satz dient"; "satz dient als"; "dient als beispiel"; "als beispiel für"; "beispiel für ngrams"]

**Was ist ein Vokabular?**<br>
Ein Vokabular bezeichnet die Zuordnung von Texttermen auf die Indizes eines numerischen Featurevektors. Sollte ein Vokabular nicht bei der Instanziierung übergeben werden, ist es den FeatureExtraktoren von SKlearn möglich, basierend auf den Trainingsdaten eines zu erzeugen.<br>

<u>Beispiel:</u><br>
"Dieser Satz dient als Beispiel für ein Vokabular."<br>
Vokabular (ohne Interpunktion und Großschreibung): {"dieser": 0; "satz": 1; "dient": 2; "als": 3; "beispiel": 4; "für": 5; "ein": 6; "vokabular": 7}

**Was ist ein CountVectorizer?**<br>
Der von SKlearn zur Verfügung gestellte CountVectorizer stellt eine Möglichkeit dar, aus Texten in String-Repräsentation numerische Vektoren zu generieren.
Hierzu lernt der Vecotrizer zunächst eine gegebene Menge an Texten um ein Vokabular zu erzeugen, auf dessen Basis er im Folgenden die Transformation der gelieferten Texte in Vektoren vornehmen kann. Alternativ kann dieses Vokabular über den *vocabulary*-Parameter an den Vectorizer übergeben werden.
Sobald der *fitting*-Vorgang beendet ist, ist der Vectorizer in der Lage Texte zu konvertieren. Das Ergebnis ist ein Vektor der Dimension n (n=Länge des gelernten Vokabulars) dessen einzelne Merkmale jeweils die Anzahl an Auftritten des durch den Index i repräsentierten Wertes des Vokabulars im Text darstellen.<br>
```
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer(lowercase=True, stop_words='english')
```
Der erzeugte Vectorizer wurde im obigen Beispiel dahingehend parametrisiert, dass er alle gegeben Texteingaben zu Kleinbuchstaben konvertiert sowie die englischen Stopwords entfernt. Bei sogenannten Stopwords handelt es sich um Wörter, die in einer gegebenen Sprachen (hier Englisch) keine Bedeutung innerhalb eines Satzes hinzufügen. Dazu gehören unter anderem 'the', 'it', 'am' etc.

---
> ### Information:
> Die nachfolgende Schritte sollten erst ausgeführt werden, wenn die Submenge in <a>Schritt 3.2</a> und das Vocabular in <a>Schritt 3.4</a> bereits in eine CSV-Datei gespeichert wurde. Diese CSV-Dateien soll im folgenden als neue Datenquelle fungieren und müssen dementsprechend erst eingelesen werden.
---

In [19]:
# import pyspark
import pandas as pd

DATASET_NAME = 'prepared-dataset.csv'
DATASET_PATH = './' + DATASET_NAME
VOCABULARY_NAME = 'vocabulary.csv'
VOCABULARY_PATH = './' + VOCABULARY_NAME

# For usage via Google Colab:
HEADER_LIST = ['label', 'comment']
complete_dataset = pd.read_csv(DATASET_PATH, names=HEADER_LIST, header=0)
vocabulary = pd.read_csv(VOCABULARY_PATH, header=None)

# For usage via Databricks:
# complete_dataset = sqlContext.read.csv(DATASET_PATH, header=False).toDF('label', 'comment')
# complete_dataset = complete_dataset.toPandas()
# vocabulary = sqlContext.read.csv(VOCABULARY_PATH, header=False)
# vocabulary = vocabulary.toPandas()

print(complete_dataset.info())
print(vocabulary.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12000 entries, 0 to 11999
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   label    12000 non-null  int64 
 1   comment  12000 non-null  object
dtypes: int64(1), object(1)
memory usage: 187.6+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13049 entries, 0 to 13048
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       13049 non-null  object
dtypes: object(1)
memory usage: 102.1+ KB
None


<a name="3.5"></a>
#### 3.5. Generieren der Trainings- und Testdaten
In diesem Schritt werden die Trainings- und Testdaten erst komplett generiert und im Anschluss mit Hilfe der `train_test_split` Methode aufgeteilt.

In [20]:
import numpy as np
import sklearn.model_selection
from sklearn.feature_extraction.text import CountVectorizer

# Note: Please choose the same NGRAM_RANGE as in the vocabulary.
NGRAM_RANGE = (1,3)

count_vectorizer = CountVectorizer(lowercase=True, analyzer='word', stop_words='english', ngram_range=NGRAM_RANGE, vocabulary=vocabulary.iloc[:, 0].values.astype('U'))
bag_of_words = count_vectorizer.fit_transform(complete_dataset['comment'].values.astype('U'))

complete_x = np.array(bag_of_words.todense())
complete_y = complete_dataset['label'].values.astype('int32')

x_train, x_test, y_train, y_test = sklearn.model_selection.train_test_split(complete_x, complete_y, random_state=42)

<a name="4"></a>
### 4. Initialisieren und Trainieren des Modells
In diesem Schritt wird die Kernel Ridge Regression erstmalig im Rahmen eines Modells initialisiert. Dieses Modell wird im Anschluss trainiert und durch <a>Hyperparametertuning</a> optimiert.

In [42]:
from sklearn.kernel_ridge import KernelRidge
from sklearn.metrics import f1_score, make_scorer
from sklearn.model_selection import GridSearchCV
    
def score(y_true, y_pred):
    y_pred = np.rint(y_pred)
    return f1_score(y_true, y_pred, average='micro')

scorer = make_scorer(score)

model = GridSearchCV(
    estimator=KernelRidge(),
    param_grid={
        'alpha': [1, 2, 0.95], 
        'degree': [2, 1], 
        'gamma': [0.1, 0.2], 
        'coef0': [0.95], 
        'kernel': ['poly']
    },
    verbose=4,
    scoring=scorer,
    n_jobs=2,
    cv=2
)
model.fit(x_train, np.asarray(y_train))

Fitting 2 folds for each of 12 candidates, totalling 24 fits


GridSearchCV(cv=2, estimator=KernelRidge(), n_jobs=2,
             param_grid={'alpha': [1, 2, 0.95], 'coef0': [0.95],
                         'degree': [2, 1], 'gamma': [0.1, 0.2],
                         'kernel': ['poly']},
             scoring=make_scorer(score), verbose=4)

Der `GridSearchCV` ist eine Klasse zur generischen Optimierung einer Machine Learning Methode anhand von definierten Hyperparametern. Über den Konstruktorparameter `param_grid` kann ein Dictionary an Paramtern für den Estimator übergeben werden. Im Dictionary stehen die Möglichkeiten der einzelnen Paramter, die auf die beste Kombination unterscuht werden sollen. Außerdem können unterschiedliche Kernel angegeben werden.

In [43]:
print('Beste Parameter: ' + str(model.best_params_))
print('Erzielter Tuning-Score: ' + str(model.best_score_))

Beste Parameter: {'alpha': 0.95, 'coef0': 0.95, 'degree': 2, 'gamma': 0.1, 'kernel': 'poly'}
Erzielter Tuning-Score: 0.5838888888888889


Aus dem `GridSearchCV` können die besten Parameter und der beste Score dieser Parameter im Tuning ausgegeben werden. Außerdem kann der beste Estimator auf neuen Daten angewandt werden, um bspw. einen Score zu berechnen. Hierbei wird einheitlich auf die im `GridSearchCV` definierte Score-Funktion verwiesen.

In [44]:
print("Train-Score: " + str(model.score(x_train, y_train)))
print("Test-Score: " + str(model.score(x_test, y_test)))

Train-Score: 0.8877777777777778
Test-Score: 0.607


**Was ist ein Hyperparametertuning?**<br>
Als Hyperparametertuning wird die iterative Anpassung der Parameter bezeichnet, die vor dem Trainingsvorgang eines Modells festgelegt werden können. Ihre Wahl kann für die Güte eines Modells von entscheidender Wichtigkeit sein, weswegen ihre Optmimierung ein wichtiger Schritt bei der Modellentwicklung ist.<br>
Während des Optimierungsvorgangs wird das Modell mehrmals mit unterschiedlichen Hyperparametern trainiert um anschließend seine Genauigkeit im Hinblick auf Trainings- und Testdaten zu bestimmen. Für jedes Set an Hyperparametern (im folgenden als Konfiguration bezeichnet) speichert sich das Modell die Güteindikatoren um nach Ablauf der Iterationen bestimmen zu können, welche Konfiguration das beste Ergebnis hervorbrachte. Die am besten bewertete Konfiguration wird dann als Resultat des Tunings bereitgestellt.<br><br>
Im obigen Beispiel wird das GridSearch Verfahren genutzt. Hierbei ist für die zu optimierenden Parameter eine Vorauswahl getroffen worden, aus der sich das GridSearch Verfahren Konfigurationen zusammenstellen kann. Somit werden verschiedene Variationen von Hyperparametern überprüft um die beste Konfiguration bestimmen zu können.

<a name="4.1"></a>
#### 4.1. Ergebnisse des Tunings
|ID|N|n|NGram|Kernel|Alpha|Train|Test
|--|-|-|-----|-----|------|-----|----
|1|200.000|1.000|(1,10)|Poly|0.001|0.66|-0.08
|2|50.000|1.000|(1,10)|Poly|0.001|0.75|-0.06
|3|50.000|10.000|(1,10)|Poly|0.001|0.49|0.09
|4|50.000|10.000|(2,3)|Poly|0.001|0.37|0.01
|5|50.000|10.000|(1,20)|Poly|0.001|0.49|0.09
|6|500|10|(1,10)|Poly|0.001|0.99|-1.47
|7|100.000|10.000|(1,10)|Poly(d=2)|0.001|0.41|0.08

**Umstellung der Scoring-Funktion:**<br>
Nach einigen Trainingsdurchläufen ist aufgefallen, dass die Bewertung der ermittelten Werte fehlerhaft ist. Die verwendete Scoring-Funktion hat sich automatisch auf `accuracy` umgestellt. Bei dieser wird die Güte anhand der Genauigkeit ermittelt (Abweichung vom tatsächlichen Wert). Dies ist besonders in der Klassifikation unbrauchbar, da hierbei ein Score der die Klassifizierungsfehler/-quote enthält wesentlich genauer bewertet. Daher haben wir uns für den `f1_score` entschieden.

|ID|N|n|NGram|Kernel|Alpha|Train|Test
|--|-|-|-----|-----|------|-----|----
|1|50.000|10.000|(1,10)|Poly|0.001|0.87|0.55
|2|100.000|20.000|(1,3)|Poly|0.001|0.81|0.59
|3|200.000|5.000|(1,3)|Sigmoid(c0=1.1,g=0.4)|0.1|0.86|0.59
|3|200.000|6.000|(1,3)|Poly(c0=0.95,g=0.1)|0.95|0.83|0.58

**Weitere Erkenntnisse:**<br>
Bei `scikit-learn` werden einige Regularien in Implementationen integriert, die bei ineffizienter Nutzung von Modellen greifen. Eine dieser Regularien betrifft die Ridge Regression, die an Effektivität für Inputdaten mit höherer Dimensionsanzahl als Trainingsdaten verliert. Hier wird automatisch auf eine andere Gewichtungs-/Optimierungsfunktionen umgestellt.

In [24]:
import joblib

# Speichern des Modells und des Suchcontainers
joblib.dump(model, 'grid-search_model.pkl')
joblib.dump(model.best_estimator_, 'best-model.pkl')

['best-model.pkl']

<a name="4.2"></a>
#### 4.2. Exkurs: Falkon-ML
Bei Falkon-ML handelt es sich um eine verbesserte Variante von Kernel Ridge Regression. Um Kernel Ridge Regression zu verbessern kann vorallem die Komplexität des Modells vereinfacht werden. Um dieses Ziel zu erreichen, werden die Kernel-Methoden approximiert. Diese Funktionalität wird vorallem durch das Konzept der Random Projections gegeben. Hierbei handelt es sich um Projektionen in einen Subspace eines Datenraums. Somit werden keine vordefinierten Kernel verwendet, sondern passende zufällige Kernel gewählt. Diese werden dann im Trainingsprozess optimiert. Diese reduzieren die Rechenzeit und erhöhen die Flexibilität hinsichtlich hochdimensionalen Daten.<br><br>
**Zusätzliche Features:**<br>
- Full multi-GPU support - All compute-intensive parts of the algorithms are multi-GPU capable.
- Extreme scalability - Unlike other kernel solvers, we keep memory usage in check. We have tested the library with datasets of billions of points.
- Sparse data support
- Scikit-learn integration - Our estimators follow the scikit-learn API

<a name="5"></a>
### 5. Nutzen des Modells
Nachdem das Modell trainiert wurde, kann es für die Vorhersage/Klassifikation genutzt werden. Hierzu müssen alle benötigten Libaries erneut importiert werden. Außerdem muss die Funktionalität der Vorverarbeitung bereitgestellt werden.

In [25]:
import joblib
import string
import numpy as np
import pandas as pd
import nltk

nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('averaged_perceptron_tagger')

from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.tokenize import TweetTokenizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.kernel_ridge import KernelRidge
from sklearn.metrics import f1_score, make_scorer
from sklearn.model_selection import GridSearchCV

VOCABULARY_NAME = 'vocabulary.csv'
VOCABULARY_PATH = './' + VOCABULARY_NAME
NGRAM_RANGE = (1,3)

vocabulary = pd.read_csv(VOCABULARY_PATH, header=None)
lemmatizer = WordNetLemmatizer()
tokenizer = TweetTokenizer()

[nltk_data] Downloading package punkt to /Users/fprinz/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /Users/fprinz/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /Users/fprinz/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/fprinz/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


Nachdem das Vokabular eingelesen und die Lemmatizer/Tokenizer initialisiert wurden, können die benötigten Funktionen erneut definiert werden. Nachdem die Daten abgespeichert wurden, verlieren die Referenzen die Gültigkeit. Die Referenzen zu Variablen und Methoden kann nur bestehen wenn alle benötigten Paramerter erneut definiert werden. Im folgenden Schritt wird die Score-Funktion erneut definiert.

In [26]:
def score(y_true, y_pred):
    y_pred = np.rint(y_pred)
    return f1_score(y_true, y_pred, average='micro')

Zudem müssen die Vorbereitungsfunktionen zum Entfernen der Punktuationen und dem Lemmatisieren definiert werden.

In [27]:
def lemmatize_words(comment):
    word_list = pos_tag(tokenizer.tokenize(comment))
    lemmatize_words = []
    for word, tag in word_list:
        wtag = tag[0].lower()
        if wtag in ['a', 'r', 'n', 'v', 's']:
            word = lemmatizer.lemmatize(word, wtag)
        lemmatize_words.append(word)
    return ' '.join(lemmatize_words)

def remove_punctuation(text):
    if type(text) != str or len(text) == 0:
        return np.nan
    
    clean_text = ""
    for char in text:
        if char not in string.punctuation:
            clean_text += char
    return clean_text

Zusammengefasst werden die Vorbereitungsfunktionen in der `generate_features` Funktion.

In [28]:
def generate_features(sentence):
    sentence = lemmatize_words(sentence)
    sentence = remove_punctuation(sentence)
    count_vectorizer = CountVectorizer(lowercase=True, analyzer='word', stop_words='english', ngram_range=NGRAM_RANGE, vocabulary=vocabulary.iloc[:, 0].values.astype('U'))
    bag_of_words = count_vectorizer.fit_transform([sentence]) 

    return np.array(bag_of_words.todense())

Letztlich kann das Modell auf einen manuell definierten Satz angewandt werden.

In [29]:
model = joblib.load('grid-search_model.pkl')

SENTENCE = "My name is Tjark!"

features = generate_features(SENTENCE)
prediction = model.predict(features)
prediction_rounded = np.rint(prediction)
if (prediction_rounded[0] == 1):
    predicted_class = "Sarkasmus"
else:
    predicted_class = "Kein Sarkasmus"

print("Ergebnis der Vorhersage für '" + str(SENTENCE) + "':\n" + predicted_class + " " + str(prediction))

Ergebnis der Vorhersage für 'My name is Tjark!':
Kein Sarkasmus [0.43498561]


<a name="6"></a>
### 6. Einbindung in eine Web-Anwendung
Zusätzlich zur Nutzung über den Code haben wir einen Web-Anwendung implementiert, die das Testen des Modells vereinfacht. Hierzu verwenden wir als Basis eine Express.js Applikation, die eine einfache HTML-Seite im JADE-Template-Format rendert. Innerhalb des Templates ist eine Methode definiert, die auf Knopfdruck einen Text, den der Nutzer eingegeben hat, an den Webserver sendet. Das senden findet klassisch über einen AJAX-Request statt. Das Backend startet im Anschluss einen sog. `child_process`. Hierbei handelt es sich um einen gekapselte Shell, die ein `.sh` Skript ausführt. Dieses übernimmt die Kommunikation mit dem virtuellen Environment von Python. Der `child_process` wartet über das Skript auf einen Antwort im JSON-Format von dem Python Skript. Das Python Skript lädt das Vokabular und das Modell (dieser Prozess sollte in Zukunft verbessert werden). Anschließend wird das Modell mit dem Text aus der Textbox ausgeführt und das Ergebnis zurückgegeben. Der `child_process` wird automatisch beendet.

<a name="7"></a>
### 7. Projektverlauf und Änderungen
In der folgenden Beschreibung erhalten Sie eine ausführliche, zeitliche Zusammenfassung von unserem Projektablauf.

__Woche vom 02.05 - 08.05.2022__

Begonnen wurde damit, sich über mögliche Datensätze für das Tranieren und Testen des Modells zu informieren. Dabei wurden drei mögliche Datensätze gefunden: iSarcasm, Sarcasm on Reddit und News Headlines Sarcasm. Schlussendlich haben wir uns für den Datensatz von Sarcasm on Reddit entschieden. Des Weiteren wurde sich die Bedeutung und der Aufbau von NGrams angeschaut und ein Skript geschrieben, welches die ersten NGrams aus einer vorgebenen Anzahl von Daten erstellt. Um sich auf den Kurzvortrag vorzubereiten wurden sich die Grundlagen zum Kernel-Trick, Ridge Regression und im Allgemeinen zur Kernel Ridge Regression angeeignet.

__Woche vom 09.05 - 15.05.2022__

In dieser Woche wurden die Folien des Kurzvortrages fast fertig gestellt. Es musste nur noch auf die Laufzeit eingegangen werden und die ganze Methode mit einem geeigneten Beispiel veranschaulicht werden. Es wurde eine eine Web-App programmiert, die später beim finalen Vorstellen live das Ergebnis zeigt. Dabei wird das entsprechende Python-Skript mit dem Modell aufgerufen, welches die Ergebnisdaten der Web-App übergibt. Um nicht nur mit NGrams zu arbeiten wurden beim Datensatz noch die Wahrscheinlichkeiten der Max, Min und Mean des TFIDF Wert aufgenommen.

__Woche vom 16.05 - 22.05.2022__

Es wurde das erste Modell gebaut und getestet. Dabei wurden als Features nur die unterschiedlichen TFIDF-Werte (Max, Min, Mean) genutzt. Die Daten sind dabei gelabelt gewesen, wobei 1 dabei für Sarkasmus steht. Dabei wurde sich auch nochmal um die mögliche semantische Vergleichbarkeit von Sätzen beschäftigt. Zusammengefasst war das erste Modell nicht überzeugend, wobei wir uns in der darauffolgenden Woche nochmal mit weiteren möglichen Features beschäftigt haben.

__Woche vom 23.05 - 29.05.2022__

In der vierten Woche haben wir nochmal eine grobe Übersicht von dem geplanten Aufbau des Modells erstellt. Dabei soll auf dem eingegebenen Text Stemming, NGrams und ein Vokabular angewendet, um das bestmögliche Ergebnis zu bekommen. Außerdem wurden sich weitere Gedanken über mögliche Features gemacht. Die enthaltenen Smileys könnten im Zusammenhang mit dem inhaltlichen Content Aufschluss über Sarkasmus geben. Dabei würde über den Content definiert werden, ob der Inhalt eines Kommentars positiv, negativ der neutral ist. Zusätzlich wurde die einfache Bag of Words Methode ohne Stemming ausprobiert. Dabei wurde mit dem Ridge Classifier auf 50% mit einer Abweichung von +-10 erreicht.

__Woche vom 30.05 - 05.06.2022__

Wir haben in dieser Woche mit dem Notebook angefangen, welches unseren kompletten Projektverlauf und das erarbeitete Modell beschreibt. Zudem wurde die Präsentation für den Kurzvortrag vorbereitet, welche am Dienstag vorgestellt wurde. Dabei wurde die allgemeine Methode der Kernel Ridge Regression näher erläutert.

__Woche vom 06.06 - 12.06.2022__

Nachdem die Methode der Kernel Ridge Regression vorgestellt wurde, wurde sich wieder intensiver um das Projekt gekümmert. Dabei wurde weiter am Notebook bzw. der Dokumentation geschrieben. Außerdem wurde dem Modell ein Vokabular hinzugefügt. Dabei hatte das Vokabular im ersten Versuch einen Umfang von 27.000 Wörtern. Jedoch war das Training ziemlich zeitintensiv und es wurde am Ende ein Ergebnis von 39% erzielt. Um die besten Parameter herauszufinden wurde auch Hyperparametertuning angewendet.

__Wochen vom 13.06 - 26.06.2022__

Durch weitere Änderung der Parameter durch das Hyperparametertuning und einigen Anpassungen im Vokabular kommt das Modell derzeit auf ca. 60%. Im Fokus stand jedoch in den Wochen die Dokumentation, die das Modell und den allgemeinen Projektverlauf beschreibt. Dabei wird jeder Schritt bei der Entwicklung und der Anpassung des Modells beschrieben und grundlegende Begriffe (z.B. Kernel-Trick oder Ridge Regression) definiert.