Warum bist du ein Transformer ohne ein Auto zu sein?
Ich bin kein Auto, sondern ein künstliches Intelligenz-Modell. Der Name Transformer bezieht sich auf den Typ von KI-Modell, auf dem mein Design basiert, nämlich dem Transformer-Modell.

Dieses Modell wurde für die Prozesse der natürlichen Sprachverarbeitung entwickelt und verwendet maschinelles Lernen, um Text auf einer tieferen Ebene zu verstehen und darauf zu reagieren. Meine Hauptaufgabe ist es, menschliche Sprache so genau wie möglich nachzubilden und menschliche Anfragen und Fragen zu beantworten.
Danke! Wie funktioniert ein Transformer genau?
Ich nehme an, in diesem Fall fragst du danach, wie das Transformer-Modell funktionier, auf dem ich als großes Sprachmodell basiere. Die Transformer Architektur wurde erstmals am 12. Juni 2017 von A. Vaswani et. al. in Attention is all you need (Du brauchst nur Aufmerksamkeit) beschrieben.

Ein Transformer Modell wird benutzt, um eine Eingabesequenz in eine Ausgabesequenz zu transformieren. Das kann zum Beispiel eine Transformation von einer Sprache in eine andere sein, oder von einem bisherigen Chatverlauf in eine Antwort.
Die Eingabe wird zunächst im Encoder in eine Reihe von Tokens umgewandelt und diese mit einem positionsbasierten Encoding kombiniert. Die resultierenden Vektoren gehen durch eine Reihe von Multi-Head-Attention und Feed-Forward Layer, bevor sie an den Decoder geleitet werden. Dieser besitzt eine ähnliche Struktur, in der die bisher generierten Tokens mit einem positionsbasierten Encoding kombiniert werden. Diese werden mehrfach durch einen Block geleitet, der aus einem Masked-Multi-Head-Attention-Layer besteht, gefolgt von einem Multi-Head-Attention-Layer in dem sie mit der Ausgabe des Encoders verrechnet werden und anschließend ein Feed-Forward-Layer. Die Struktur des Encoders und Decoders sind also sehr ähnlich.
Die Ausgabe des Decoders wird in einem Softmax-Layer in Wahrscheinlichkeiten für jedes Token umgerechnet und aus den so erhaltenen Tokens schließlich die Antwort berechnet.