# Textklassifikation mit RNN: GermEval 2018

*GermEval* – für German Evaluation – ist ein jährlicher Wettbewerb im Bereich Natural Language Processing für deutschsprachige Texte (s. [https://germeval.github.io/](https://germeval.github.io/)).

Im Jahr 2018 ging es um die Erkennung von Beleidigungen in deutschsprachigen Tweets.

In dieser Aufgabe wollen wir Rekurrente Neuronale Netze (RNN) zur Klassifikation nutzen. Zunächst einmal starten wir mit Vorarbeiten.

## Format der Daten

Die Trainings- und Testdaten liegen als mit Tabulatoren separierte Textdateien (Tab Separated Values – TSV) vor. Uns interessieren die erste Spalte (der Tweet) und die zweite Spalte (`OFFENSE` für Beleidigung bzw. `OTHER` für keine Beleidigung).

In [1]:
! head -10 texts/germeval2018.training.tsv

@corinnamilborn Liebe Corinna, wir würden dich gerne als Moderatorin für uns gewinnen! Wärst du begeisterbar?	OTHER	OTHER
@Martin28a Sie haben ja auch Recht. Unser Tweet war etwas missverständlich. Dass das BVerfG Sachleistungen nicht ausschließt, kritisieren wir.	OTHER	OTHER
@ahrens_theo fröhlicher gruß aus der schönsten stadt der welt theo ⚓️	OTHER	OTHER
@dushanwegner Amis hätten alles und jeden gewählt...nur Hillary wollten sie nicht und eine Fortsetzung von Obama-Politik erst recht nicht..!	OTHER	OTHER
@spdde kein verläßlicher Verhandlungspartner. Nachkarteln nach den Sondierzngsgesprächen - schickt diese Stümper #SPD in die Versenkung.	OFFENSE	INSULT
@Dirki_M Ja, aber wo widersprechen die Zahlen denn denen, die im von uns verlinkten Artikel stehen? In unserem Tweet geht es rein um subs. Geschützte. 2017 ist der gesamte Familiennachzug im Vergleich zu 2016 - die Zahlen, die Hr. Brandner bemüht - übrigens leicht rückläufig gewesen.	OTHER	OTHER
@milenahanm 33 bis 45 habe ich noch gar

## Lesen der Daten

Für das Einlesen der Datensätze verwenden wir die Klasse `NamedTuple`, mit der sich die Daten einfach speichern lassen.

In [2]:
from collections import namedtuple

Record = namedtuple('Record', [ 'text', 'primary_label', 'secondary_label' ])

with open('texts/germeval2018.training.tsv', 'r') as file:
    training_data = [ Record(*line[:-1].split('\t')) for line in file ]

with open('texts/germeval2018.test.tsv', 'r') as file:
    test_data = [ Record(*line[:-1].split('\t')) for line in file ]

training_data[0:5]

[Record(text='@corinnamilborn Liebe Corinna, wir würden dich gerne als Moderatorin für uns gewinnen! Wärst du begeisterbar?', primary_label='OTHER', secondary_label='OTHER'),
 Record(text='@Martin28a Sie haben ja auch Recht. Unser Tweet war etwas missverständlich. Dass das BVerfG Sachleistungen nicht ausschließt, kritisieren wir.', primary_label='OTHER', secondary_label='OTHER'),
 Record(text='@ahrens_theo fröhlicher gruß aus der schönsten stadt der welt theo ⚓️', primary_label='OTHER', secondary_label='OTHER'),
 Record(text='@dushanwegner Amis hätten alles und jeden gewählt...nur Hillary wollten sie nicht und eine Fortsetzung von Obama-Politik erst recht nicht..!', primary_label='OTHER', secondary_label='OTHER'),
 Record(text='@spdde kein verläßlicher Verhandlungspartner. Nachkarteln nach den Sondierzngsgesprächen - schickt diese Stümper #SPD in die Versenkung.', primary_label='OFFENSE', secondary_label='INSULT')]

## Überblick über die Daten

Wir schauen uns die Verteilung der Kategorien in den Trainings- und Testdaten an.

In [3]:
from collections import Counter

Counter([ (record.primary_label, record.secondary_label) for record in training_data ])

Counter({('OTHER', 'OTHER'): 3321,
         ('OFFENSE', 'INSULT'): 595,
         ('OFFENSE', 'PROFANITY'): 71,
         ('OFFENSE', 'ABUSE'): 1022})

In [4]:
Counter([ (record.primary_label, record.secondary_label) for record in test_data ])

Counter({('OTHER', 'OTHER'): 2330,
         ('OFFENSE', 'ABUSE'): 773,
         ('OFFENSE', 'INSULT'): 381,
         ('OFFENSE', 'PROFANITY'): 48})

In [5]:
!pip install torchtext spacy
!python -m spacy download de_core_news_md

Collecting torchtext
  Downloading torchtext-0.14.0-cp310-cp310-manylinux1_x86_64.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[?25hCollecting spacy
  Downloading spacy-3.4.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.5/6.5 MB[0m [31m21.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting torch==1.13.0
  Downloading torch-1.13.0-cp310-cp310-manylinux1_x86_64.whl (890.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m890.1/890.1 MB[0m [31m887.5 kB/s[0m eta [36m0:00:00[0m00:01[0m00:02[0m
Collecting nvidia-cuda-nvrtc-cu11==11.7.99
  Downloading nvidia_cuda_nvrtc_cu11-11.7.99-2-py3-none-manylinux1_x86_64.whl (21.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m21.0/21.0 MB[0m [31m13.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecti

## Preprocessing der Tweets

Für die weitere Verarbeitung wollen wir Twitter Handles (`@username`) löschen und das Hashtag-Zeichen entfernen. Damit verhindern wir, dass unser Model später die Namen auswendig lernt, um die Daten zu klassifizieren. 

In [6]:
import re

def clean_tweet(text):
    """ Preprocess and tokenize a tweet. """
    
    # remove handles, i.e. @username
    text = re.sub('\@\w+', '', text)
    # remove hashtags, quotes, etc.
    text = re.sub('[\#"\']+', '', text)
    text = text.replace('-', ' ')
    return text

clean_tweet(training_data[4].text)

' kein verläßlicher Verhandlungspartner. Nachkarteln nach den Sondierzngsgesprächen   schickt diese Stümper SPD in die Versenkung.'

## Vektorisierung mit vortrainierten Wortvektoren

Wir nutzen vortrainierte Wortvektoren aus Spacy.

In [7]:
import torch
import spacy
import numpy as np

nlp = spacy.load("de_core_news_md")

def vectorize(text):
    """Vectorize text using the German SpaCy tokenizer"""
    return torch.Tensor(np.array([tok.vector for tok in nlp(clean_tweet(text)) if tok.has_vector ]))


In [8]:
vectorize(training_data[0].text).shape

torch.Size([16, 300])

## Laden der Daten

Mithilfe der Funktion `vectorize()` definieren wir die Funktion `collate_batch()`, die einen Batch in zwei Tensoren – für die Label und die Texte – umwandelt.
Damit wir das RNN später effizient trainieren können, bringen wir die Text-Tensoren mithilfe der Funktion `pad_sequence()` auf die gleiche Länge. 

In [9]:
from torch.utils.data import DataLoader
from torch.nn.utils.rnn import pad_sequence

LABEL = { 'OFFENSE': 1, 'OTHER': 0 }

def collate_batch(batch):
    label_list, text_list, lengths = [], [], []
    
    for record in batch:
        label_list.append(LABEL[record.primary_label])
        processed_text = vectorize(record.text)
        text_list.append(processed_text)
        lengths.append(processed_text.shape[0])
    return torch.tensor(label_list), pad_sequence(text_list, batch_first=True), lengths

train_dataloader = DataLoader(training_data, batch_size=64, shuffle=True, num_workers=5, collate_fn=collate_batch)
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True, num_workers=5, collate_fn=collate_batch)

In [10]:
labels, texts, lengths = next(iter(train_dataloader))
labels.shape, texts.shape, len(lengths)

(torch.Size([64]), torch.Size([64, 51, 300]), 64)

## Klassifikation von Text mittels RNNs

Texte bestehen aus einer *Folge* von Wörtern. 
Rekurrente Neuronale Netze (RNNs) eignen sich gut für die Verarbeitung von Folgen.

Unser Netz wird dabei aus zwei Schichten bestehen:
1. das eigentliche RNN aus *Long-Short-Term-Memoy (LSTM)* Zellen oder *Gated Recurrent Units (GRU)*, die die Wortfolge auf eine Folge von *Zuständen* abbilden,
2. einen linearen Layer, der den letzten Zustand auf eine eindimensionale Variable abbildet.


### Aufbau des RNNs

Nun bauen wir das oben beschriebene Netz aus Embedding Layer, RNN Layer und Linear Layer auf.

Die Funktionen `torch.nn.utils.rnn.pack_padded_sequence` und `torch.nn.utils.rnn.pad_packed_sequence` packen bzw. entpacken die Tensoren für eine effiziente Berechnung.

In [11]:
import torch
import torch.nn.functional as F
from torch import nn
from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence

class RNN(torch.nn.Module) :
    def __init__(self, hidden_dim = 20, embedding_dim = 300, dropout = 0.4) :
        super().__init__()
  
        #self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=2, dropout=0.1, batch_first=True)
        self.gru = nn.GRU(embedding_dim, hidden_dim, num_layers=3, dropout=dropout, batch_first=True, bidirectional=False)
        self.linear = nn.Linear(hidden_dim, 2)
    
        
    def forward(self, _x, **kwargs):
        (x, input_lengths) = _x
        
        x = pack_padded_sequence(x, input_lengths, batch_first=True, enforce_sorted=False)
        #x, (ht, ct) = self.lstm(x)
        x, ht = self.gru(x)
        x, output_lengths = pad_packed_sequence(x, batch_first=True)
        #print(ht[-1].shape)
        return self.linear(ht[-1])

### Training und Validierung

Der Einfachheit halber verwenden wir für Training und Validierung weiterhin Scikit Learn und binden das RNN als `skorch.NeuralNetBinaryClassifier` ein.

In [12]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

In [13]:
model = RNN(hidden_dim=64, dropout=0.5)

In [14]:
count_parameters(model)

120322

In [15]:
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
model = model.to(device)

optimizer=torch.optim.AdamW(model.parameters(), lr=0.0005)
loss_fn = nn.CrossEntropyLoss()

In [19]:
from tqdm.notebook import tqdm

epochs = 10 
training_loss = []
testing_loss = []
training_acc = []
testing_acc = []


with tqdm(range(epochs)) as iterator:
    for epoch in iterator:

        train_loss = 0.0
        train_acc = 0     
        
        for idx, (target, text, length) in enumerate(train_dataloader):

            target, text = target.to(device), text.to(device)

            optimizer.zero_grad() 
            output = model((text, length))

            loss = loss_fn(output, target) 
            loss.backward() 
            optimizer.step()
            
            train_loss += loss_fn(output, target).item()
            predictions = output.data.max(1)[1]
            train_acc += (predictions == target).sum().item()
 
        training_acc.append(train_acc/len(train_dataloader.dataset))
        training_loss.append(train_loss/len(train_dataloader.dataset))
            
        test_loss = 0
        test_acc = 0
        with torch.no_grad():
            for target, text, length in test_dataloader:
                target, text = target.to(device), text.to(device)
                output = model((text, length))
                loss = loss_fn(output, target)
                prediction = torch.argmax(output, 1)
                test_acc += (prediction == target).sum().item()
                test_loss += loss.item()        
                
            testing_acc.append(test_acc/len(test_dataloader.dataset))
            testing_loss.append(test_loss/len(test_dataloader.dataset))
            
        #loss = running_loss/count
        #accuracy = 100. * running_correct/count 
        iterator.set_postfix_str(f"train_acc: {train_acc/len(train_dataloader.dataset):.2f} test_acc: {test_acc/len(test_dataloader.dataset):.2f} train_loss: {train_loss/len(train_dataloader.dataset):.2e} test_loss: {test_loss/len(test_dataloader.dataset):.2e}")

  0%|          | 0/10 [00:00<?, ?it/s]