<a href="https://colab.research.google.com/github/JeyTee1988/LLM-Schulung/blob/main/llm_schulung.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Wichtig**: Wenn Du dieses Notebook in Google Colab ausführst, wähle zuerst unter Laufzeit > Laufzeittyp ändern eine GPU aus

Zunächst installieren wir die benötigte Library Huggingface Transformer

In [10]:
!pip install transformers



# Klassifizierung von Text

Wir laden eine Pipeline mit einem vortrainierten Sentiment-Modell. Das Modell kann explizit angegeben werden, ansonsten wird ein Standard-Modell genommen.

In [11]:
from transformers import pipeline
classifier = pipeline("sentiment-analysis")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Wir können das Modell nutzen, um die Stimmung eines Textes zu bestimmen. Hierbei wird angegeben, ob der Text positiv oder negativ ist und wie sicher das Modell ist bei der Bewertung.

In [12]:
classifier(["We are happy to have you participate in our modest LLM workshop!", "Sorry that we had to cap the participant limit to 20"])

[{'label': 'POSITIVE', 'score': 0.9998558759689331},
 {'label': 'NEGATIVE', 'score': 0.9991243481636047}]

Dieses Modell wurde nur mit englischen Texten und scheinbar nicht mit Emoji trainiert:

In [13]:
classifier(["Was ein schöner Tag für eine Schulung", "🤗", "😠"])

[{'label': 'NEGATIVE', 'score': 0.9137821793556213},
 {'label': 'NEGATIVE', 'score': 0.6970565319061279},
 {'label': 'NEGATIVE', 'score': 0.6970565319061279}]

# Textgenerierung

Wir laden das vortrainierte distilgpt2 Modell und nutzen es für Textgenerierung

In [14]:
from transformers import pipeline

pipe = pipeline("text-generation", model="distilgpt2")

Wir können das Modell nutzen, um Texte zu vervollständigen.

In [15]:
from transformers import set_seed
set_seed(42)
pipe("Hello, I’m a language model", max_length=20, num_return_sequences=5)



Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Hello, I’m a language model but what I do in that role is to make everything'},
 {'generated_text': 'Hello, I’m a language model.” You’ll know the real name'},
 {'generated_text': 'Hello, I’m a language model’s\xadself, and I’m'},
 {'generated_text': 'Hello, I’m a language model, and I really wanted to make a nice API,'},
 {'generated_text': 'Hello, I’m a language model. I’think in any language. I�'}]

Ein Tokenizer in einem Language Learning Model (LLM) dient dazu, Text in kleinere Einheiten, sogenannte Tokens, zu zerlegen. Diese Tokens können einzelne Wörter, Phrasen oder sogar einzelne Buchstaben sein.

Der Tokenizer ist wichtig, weil ein LLM wie ein neuronales Netzwerk arbeitet, das auf Zahlen, nicht auf Wörtern, basiert. Es kann nicht direkt Text verstehen oder interpretieren. Stattdessen muss es den Text in eine numerische Form umwandeln, die es verarbeiten kann.

Dieser Prozess des Zerlegens und Umwandeln wird durch den Tokenizer durchgeführt. Er nimmt den ursprünglichen Text, teilt ihn in Tokens und wandelt diese dann in Zahlen um, die das Modell verarbeiten kann.

https://platform.openai.com/tokenizer


In [24]:
tokenizer = pipe.tokenizer
model = pipe.model

text = "Hello, I’m a language model"
tokenizer.tokenize(text)

['Hello', ',', 'ĠI', 'âĢ', 'Ļ', 'm', 'Ġa', 'Ġlanguage', 'Ġmodel']

In [23]:
encoded_input = tokenizer(text, return_tensors='pt')
encoded_input.input_ids

tensor([[15496,    11,   314,   447,   247,    76,   257,  3303,  2746]])

**ToDo: Verstehen**

In [None]:
output = model(**encoded_input)
output.logits.size()
output

# Weitere Arten von Tasks
Auf folgender Seite findet ihr weitere mögliche Anwendungsfälle
https://huggingface.co/docs/transformers/main/en/quicktour#pipeline

Probiert gerne welche aus 🤗