# Text Generation

Zum Abschluss des Trainings schaust du dir jetzt noch an, wie ein Algorithmus Texte selbst erzeugen kann. Das ist ziemlich überraschend, allerdings sind die Anwendungsmöglichkeiten im Vergleich zu der Textanalyse etwas eingeschränkt. Ab und zu ergeben jedoch auch ziemlich lustige Resultate und vielleicht hast du ja genau dafür einen Anwendungsfall!

## Text Generation

Auch wenn ein riesiges Modell hinter der Texterzeugung steht, ist der Aufruf geradezu grotesk einfach:

In [1]:
!pip install transformers



In [2]:
from transformers import pipeline

model_name = "dbmdz/german-gpt2"
#model_name = "dbmdz/german-gpt2-faust"
pipe = pipeline('text-generation', model=model_name,
                 tokenizer=model_name, device=0)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Ähnlich wie bei BERT gibt es auch bei diesem Transfer-Learning sehr viele Zufallszahlengeneratoren, die du wegen der Reproduzierbarkeit der Ergebnisse alle einheitlich initialisierst:

In [3]:
import random
import numpy as np
import torch
# alle Zufallszahlengeneratoren initialisieren (Reproduzierbarkeit)
seed_val = 42
random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)

Du beginnst mit einem *sehr offenen Satz*:

In [4]:
text = pipe("Der Sinn des Lebens ist es", max_length=100)[0]["generated_text"]

print(text)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Der Sinn des Lebens ist es nach eigenem Empfinden, das eigene Leben zu lieben und zu erleben, es aber nicht den Wünschen der Gesellschaft zu beugen. Auch der Mensch muss das Leben mit Liebe, nicht den Wünschen eines anderen Menschen erleben. Liebe geht auch ohne die Liebe, es geht um das Zusammenleben auf der Basis von Harmonie, die sich durch Harmonie hervorruft.“ (Ridow, s. S. 768)
Im Deutschen wurde der Begriff der „Glaube“ seit dem späten 16


Der Text ist vielleicht nicht extrem sinnvoll, aber er hat die *Stimmung* des Anfangssatzes aufgenommen. Sehr interessant.

Versuche es nun mit einem Satz, der *Spannung auslösen soll*:

In [5]:
text = pipe("Plötzlich wachte ich auf", max_length=400)[0]["generated_text"]

print(text)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Plötzlich wachte ich auf und wusste: "Gott, ich fühle mich schlecht"." Als wir noch einmal um die Ecke kamen, fand ich in einem Raum mit lauter Frauen unter ihnen etwas, das mich nicht zu interessieren schien.
Das Problem sei, dass die Menschen viel zu selten einen Arzt aufsuchen, der nicht nur vor Ort und nach Absprache mit den Kollegen unterwegs sei, sagte der GKV-Vorstandsvorsitzende Holger Schnidt.
Bei der Kontrolle des gestohlenen E-Bike-Anhängers stellten die Beamten diverse Mängel fest.
Am 2. November 2017 hatte der Mann ein Zimmer im Dachgeschoss seines Hauses in Wien-Hietzing, der heute in einem Krankenhaus liegt, in dem der 14-Jährige bereits tot ist.
Das sei "total irre".
Doch das sind andere Leute.
Der Mann war am 3. Oktober 2016 auf der Autobahn A14 nahe Schwerin in Richtung Leipzig unterwegs, als er in dem Waldstück an einer Straßenkreuzung mit seinem Pkw ins Schleudern geriet, die die Straße querte und quer über die Fahrbahn krachte.
Die Grünen wiederum fordern ein stärk

Auch dieses Ergebnis ist *mindestens interessant*. Der Text ist etwas unzusammenhängend und man hat das Gefühl, dass das Modell einige Wörter dann plötzlich so gut findet, dass es sie ständig wiederholt. Andererseits werden bestimmte Assoziationen (Nacht, schlafen usw.) doch ganz gut aufgenommen.

Schließlich kannst du noch *einen technischen Text* ausprobieren:

In [6]:
text = pipe("Ich experimentiere gerade mit automatischer Text-Erzeugung", max_length=100)[0]["generated_text"]

print(text)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Ich experimentiere gerade mit automatischer Text-Erzeugung (Wiki).
Auf der anderen Seite ist der Text eine Abstraktion des Originals, die in einem neuen Kontext (in dem es zu lang wird) verwendet werden kann.
Das ist interessant zu verstehen, weil der Autor der Autor der Text ist, der die Struktur des S.E.L.S. Systems ist und dem Leser nicht immer die Möglichkeiten offenstehen, die in Textform dargestellt werden.
Während die meisten Anwender der


Auch hier wurde die Richtung des Textes sehr gut aufgenommen und da System hat versucht, einen Text mit Fachbegriffen zu schreiben. Wie sinnvoll die tatsächlich sind, sei dahingestellt.

# Text Generation steht noch am Anfang

Die Beispiele haben eher lustige als tatsächlich verwendbare Text produziert.

Allerdings steht mit GPT-3 ein wesentlich leistungsfähigeres System zur Verfügung, mit dem schon viel bessere Resultate generiert werden können. Neue Resultate ermöglichen es außerdem, aus Texten Bilder zu erstellen, was auch schon zu guten (und teils überraschenden) Ergebnissen führt.

Auf jeden Fall lohnt es sich, wenn du solche Technologien weiter beobachtest.