<a href="https://colab.research.google.com/github/JeyTee1988/LLM-Schulung/blob/main/llm_schulung.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Wichtig**: Wenn Du dieses Notebook in Google Colab ausführst, wähle zuerst unter "Laufzeit > Laufzeittyp ändern" eine GPU aus, um die Ausführung zu beschleunigen.

# Transformer nutzen

Zunächst installieren wir die benötigte Library Huggingface Transformer

In [1]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.31.0-py3-none-any.whl (7.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.4/7.4 MB[0m [31m16.1 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.14.1 (from transformers)
  Downloading huggingface_hub-0.16.4-py3-none-any.whl (268 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m268.8/268.8 kB[0m [31m29.1 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m39.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting safetensors>=0.3.1 (from transformers)
  Downloading safetensors-0.3.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m44.9 MB/s[0m eta [36m0:00:0

## Klassifizierung von Text

Wir laden eine Pipeline mit einem vortrainierten Sentiment-Modell. Das Modell kann explizit angegeben werden, ansonsten wird ein Standard-Modell (`distilbert-base-uncased-finetuned-sst-2-english`) genommen.

In [2]:
from transformers import pipeline
classifier = pipeline("sentiment-analysis")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)lve/main/config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Xformers is not installed correctly. If you want to use memory_efficient_attention to accelerate training use the following command to install Xformers
pip install xformers.


Wir können das Modell nutzen, um die Stimmung eines Textes zu bestimmen. Hierbei wird angegeben, ob der Text positiv oder negativ ist und wie sicher das Modell ist bei der Bewertung.

In [3]:
classifier(["We are happy to have you participate in our modest LLM workshop!", "Sorry that we had to cap the participant limit to 20"])

[{'label': 'POSITIVE', 'score': 0.9998558759689331},
 {'label': 'NEGATIVE', 'score': 0.9991243481636047}]

Dieses Modell wurde nur mit englischen Texten und scheinbar nicht mit Emoji trainiert:

In [4]:
classifier(["Was ein schöner Tag für eine Schulung", "🤗", "😠"])

[{'label': 'NEGATIVE', 'score': 0.9137821793556213},
 {'label': 'NEGATIVE', 'score': 0.6970565319061279},
 {'label': 'NEGATIVE', 'score': 0.6970565319061279}]

## Textgenerierung

Wir laden das vortrainierte distilgpt2 Modell und nutzen es für Textgenerierung

In [5]:
from transformers import pipeline

pipe = pipeline("text-generation", model="distilgpt2")

Downloading (…)lve/main/config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/353M [00:00<?, ?B/s]

Downloading (…)neration_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Wir können das Modell nutzen, um Texte zu vervollständigen.

In [6]:
from transformers import set_seed
set_seed(42)
pipe("Hello, I’m a language model", max_length=20, num_return_sequences=5)



Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Hello, I’m a language model but what I do in that role is to make everything'},
 {'generated_text': 'Hello, I’m a language model.” You’ll know the real name'},
 {'generated_text': 'Hello, I’m a language model’s\xadself, and I’m'},
 {'generated_text': 'Hello, I’m a language model, and I really wanted to make a nice API,'},
 {'generated_text': 'Hello, I’m a language model. I’think in any language. I�'}]

## Aufgabe: Nutzt Transformer auf andere Weise!

Spielt ein wenig mit der Pipeline rum:
- Probiert andere Texte aus
- Vergleicht verschiedene Modelle
- Nutzt einen anderen Anwendungsfall

Auf folgender Seite findet ihr weitere mögliche Anwendungsfälle
https://huggingface.co/docs/transformers/main/en/quicktour#pipeline

Probiert gerne was aus 🤗

# Transformer verstehen

Nun schauen wir in die Pipeline rein, um zu verstehen, wie Transformer funktionieren.

Die Pipeline stellt unser gesamtes Language Model dar. Sie besteht bei Transformern aus einem Tokenizer und dem eigentlichen Neuronalen Netz.

In [16]:
tokenizer = pipe.tokenizer
model = pipe.model

## Tokenizer

Der Tokenizer in einem (Large) Language Model (LLM) dient dazu, Text in kleinere Einheiten, sogenannte Tokens, zu zerlegen. Diese Tokens können einzelne Wörter, Phrasen oder sogar einzelne Buchstaben sein.

Der Tokenizer ist wichtig, weil ein LLM wie ein neuronales Netzwerk arbeitet, das auf Zahlen, nicht auf Wörtern, basiert. Es kann nicht direkt Text verstehen oder interpretieren. Stattdessen muss es den Text in eine numerische Form umwandeln, die es verarbeiten kann.

Dieser Prozess des Zerlegens und Umwandeln wird durch den Tokenizer durchgeführt. Er nimmt den ursprünglichen Text, teilt ihn in Tokens und wandelt diese dann in Zahlen um, die das Modell verarbeiten kann.

https://platform.openai.com/tokenizer


In [14]:
text = "Hello, I’m a language model"
tokenizer.tokenize(text)

['Hello', ',', 'ĠI', 'âĢ', 'Ļ', 'm', 'Ġa', 'Ġlanguage', 'Ġmodel']

In [8]:
encoded_input = tokenizer(text, return_tensors='pt')
encoded_input.input_ids

tensor([[15496,    11,   314,   447,   247,    76,   257,  3303,  2746]])

Der Tokenizer enthält ein Dictionary, welches jedem Token eine Zahl zuweist

In [9]:
vocab = tokenizer.get_vocab()
first_20_items = {k: vocab[k] for k in list(vocab.keys())[:20]}
first_20_items

{'Ġintegration': 11812,
 'Ġeffort': 3626,
 'Ġasleep': 16039,
 'Ġdependent': 10795,
 'Ġrigid': 20831,
 'Ġrevive': 26046,
 'Ġhorizontally': 36774,
 'ĠDesk': 39246,
 'Ġhypothes': 22079,
 'Ġinactive': 28621,
 'GR': 10761,
 'Ġlinux': 32639,
 'ĠMud': 32878,
 'Enable': 36695,
 'ĠPlaces': 37291,
 'Ġcolder': 38427,
 'Ġpropaganda': 11613,
 'Ġ100': 1802,
 'iliar': 4797,
 'afia': 22214}

Es gibt insgesamt 50257 Tokens in diesem Tokenizer.

In [10]:
len(vocab)

50257

## Transformer-Modell

Das Modell ist der eigentliche Transformer, der den encodierten Text entgegen nimmt und verarbeitet oder *transformiert* 😎.

### Die Ausgabe verstehen

Statt die Pipeline als ganzes zu nutzen, können wir auch manuell die Ausgabe des Encoders durch unser Modell schleusen, um zu sehen, was es damit macht.

Obwohl wir nur den fehlenden Text vervollständigen wollen, liefert unser Transformer tatsächlich für **jedes** Token in unserem Input-Text eine Vorhersage für das nächste Token:

In [11]:
output = model(**encoded_input)
token_logits = output.logits

# Get the predicted token ids
predicted_token_ids = token_logits.argmax(dim=-1)
predicted_token_ids

tensor([[ 383,  290,  447,  247,   76,  407, 4336, 5887,   13]])

In [12]:
# Decode the tokens to text
predicted_text = [tokenizer.decode(t) for t in predicted_token_ids]

for index, t in enumerate(predicted_token_ids[0]):
  input_token = tokenizer.tokenize(text)[index]
  predicted_next_token = tokenizer.decode(t)
  print(input_token + " => " + predicted_next_token)


Hello =>  The
, =>  and
ĠI => �
âĢ => �
Ļ => m
m =>  not
Ġa =>  fan
Ġlanguage =>  expert
Ġmodel => .


Das liegt daran, dass Transformer auf massiv parallele Verarbeitung und paralleles Training ausgelegt sind. Deswegen verarbeiten sie immer den gesamten Text parallel.

Um eine größere Spanne von Texten erzeugen zu können, nutzen Transformer nicht immer die wahrscheinlichste Vorhersage (Stichwort **Temperatur**).

Hier sind die fünf wahrscheinlichsten Vorhersagen:

In [13]:
import torch

# Convert logits to probabilities
token_probs = torch.nn.functional.softmax(token_logits, dim=-1)

# Get the top 5 predicted token ids
top_k = 5
top_k_probs, top_k_indices = token_probs.topk(top_k, dim=-1)

# Iterate over the tokens and print the top 5 predictions for each one
for i in range(top_k_indices.shape[1]):
    input_token = tokenizer.tokenize(text)[i]
    print(f"Input: {input_token}:")
    for j in range(top_k):
        token_id = top_k_indices[0, i, j].item()
        probability = top_k_probs[0, i, j].item()
        output_token = tokenizer.decode([token_id])
        print(f"    Output: {output_token}, probability: {probability:.3%}")


Input: Hello:
    Output:  The, probability: 4.253%
    Output: ., probability: 1.890%
    Output: ,, probability: 1.780%
    Output:  A, probability: 1.263%
    Output: The, probability: 1.190%
Input: ,:
    Output:  and, probability: 8.286%
    Output:  the, probability: 4.592%
    Output:  we, probability: 4.250%
    Output:  I, probability: 3.777%
    Output:  you, probability: 3.224%
Input: ĠI:
    Output: �, probability: 16.135%
    Output:  am, probability: 7.065%
    Output: 'm, probability: 6.285%
    Output:  have, probability: 4.643%
    Output:  think, probability: 4.031%
Input: âĢ:
    Output: �, probability: 39.789%
    Output: �, probability: 11.001%
    Output: �, probability: 7.779%
    Output: �, probability: 4.514%
    Output: �, probability: 4.339%
Input: Ļ:
    Output: m, probability: 53.071%
    Output: ve, probability: 13.964%
    Output: ll, probability: 8.219%
    Output: d, probability: 3.578%
    Output: �, probability: 1.601%
Input: m:
    Output:  not, prob