---
**Information Retrieval: Projekt**
---
1. Hugging Face - Transformer Tutorial - Chapter 1

---
**Transformer Models: Introduction & NLP**
---

* beschäftigt sich mit dem Verständnis von menschlicher Sprache, als **einzelne Worte** und im **Kontext** ihrer Verwendung
* Klassifikation ganzer Sätze für … Spam-Detection, grammatikalische Korrektheit
Klassifikation jeden Wortes eines Satzes … grammatikalische Komponenten identifizieren (SPVO)
* Text Content generieren … vervollständigen eines prompts mit
auto-generated text
* beschäftigt sich auch mit **Spracherkennung** und **Computer Vision**

**Challenge**

Computer müssen Text eingaben erst prozessieren, sodass ein Modell davon lernen kann. Aufgrund der Komplexität von Texten und Sprache muss vorsichtig prozessiert werden.

---
**Transformer Models: What Transformers can do**
---

**Schritt 1**: Installieren von den Transformers, Datasets, und Evaluierung Libraries

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

**Pipeline Function**

```
pipeline
```

Diese Funktion **verbindet** das Model mit **Pre-** und **Post-processing** Schritten, sodass jeder beliebige Text eingegeben werden kann und eine Antwort liefert.

**Funktionsweise**
1. Der Text wird genommen, **vorverarbeitet** und in eine Form gebracht, mit welcher das Model arbeiten kann (verstehen)
2. Der vorverarbeitete Text wird dem **Modell übergeben**
3. Die **Vorhersage** des Modells wird **nachverarbeitet**, damit der Nutzer die Ausgabe versteht



In [2]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

[{'label': 'POSITIVE', 'score': 0.9598048329353333}]

Die verwendete Pipeline Funktion prüft auf ‚**Sentiment**‘ (wurde fine getuned), d.h. auf die Stimmung einer Aussage. Worte wie „hate“ oder „sad“ weisen dabei z.B. auf eine **negative** Stimmung hin.

In [3]:
classifier(
    ["I've been waiting for a HuggingFace course my whole life.", "I hate this so much!"]
)

[{'label': 'POSITIVE', 'score': 0.9598048329353333},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

Es gibt verschiedene Varianten, wie classifiern Werte übergeben werden können (Trennung durch Kommata)

In [4]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
    "This is a course about the Transformers library",
    candidate_labels=["education", "politics", "business"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445991277694702, 0.11197404563426971, 0.043426841497421265]}

Der zero-shot-classifier Hat die Aufgabe **nicht** gelabelten Text zu klassifizieren.
Es können vom Nutzer **Label vorgegeben** werden, die für die Klassifikation genutzt werden sollen.

-> **Zero-Shot** weil jedes **beliebige** Label verwendet werden kann

In [5]:
from transformers import pipeline

generator = pipeline("text-generation")
generator("In this course, we will teach you how to")

No model was supplied, defaulted to openai-community/gpt2 and revision 6c0e608 (https://huggingface.co/openai-community/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "In this course, we will teach you how to write in-line PHP expressions using a PHP API called The PHP Parsing Language and learn how to use your standard Perl expressions. We'll also provide practical demonstrations on how to get started using and creating"}]

Durch die Vorgabe eines Prompts soll das Modell für die **Auto-Vervollständigung** sorgen. (**Textgenerierung**)

In [6]:
from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=2,
)

config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/353M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to improve the skills that will be taught in our courses.\n\n\n\n\nAs you can see'},
 {'generated_text': 'In this course, we will teach you how to do it, how to set it up, how to set up the game, just to make it'}]

Falls **nicht** das standard Modell (hier: openai-community/gpt2) genommen werden soll, kann spezifiziert werden, welches Modell genommen werden soll.

Ein passendes Modell kann mithilfe von dem **Model Hub** gefunden werden.

Es ist möglich verschiedene Modells mithilfe der **Inference API** im Browser zu testen.

In [7]:
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.", top_k=2)

No model was supplied, defaulted to distilbert/distilroberta-base and revision ec58a5b (https://huggingface.co/distilbert/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/331M [00:00<?, ?B/s]

Some weights of the model checkpoint at distilbert/distilroberta-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'score': 0.19619794189929962,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04052729159593582,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

*Fill-mask* wird genutzt, um **Lücken** in einem Text zu ergänzen. Dafür werden einige Argumente mit übergeben, um zu sagen wie **viele Elemente angezeigt** werden sollen.

In [8]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]



[{'entity_group': 'PER',
  'score': 0.9981694,
  'word': 'Sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': 0.9796019,
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': 0.9932106,
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

*NER* wird genutzt, um in einem gegebenen Text die Wörter im Text zu finden, welche mit **Entitäten übereinstimmen** (Personen, Orte, …)


In [9]:
from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    question="Where do I work?",
    context="My name is Sylvain and I work at Hugging Face in Brooklyn",
)

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

{'score': 0.6949766278266907, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}

*question-answering* wird genutzt, um basierend auf einem **gegebenem Kontext** eine **Antwort** zu generieren.


In [10]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of
    graduates in traditional engineering disciplines such as mechanical, civil,
    electrical, chemical, and aeronautical engineering declined, but in most of
    the premier American universities engineering curricula now concentrate on
    and encourage largely the study of engineering science. As a result, there
    are declining offerings in engineering subjects dealing with infrastructure,
    the environment, and related issues, and greater concentration on high
    technology subjects, largely supporting increasingly complex scientific
    developments. While the latter is important, it should not be at the expense
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other
    industrial countries in Europe and Asia, continue to encourage and advance
    the teaching of engineering. Both China and India, respectively, graduate
    six and eight times as many traditional engineers as does the United States.
    Other industrial countries at minimum maintain their output, while America
    suffers an increasingly serious decline in the number of engineering graduates
    and a lack of well-educated engineers.
"""
)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

[{'summary_text': ' The number of engineering graduates in the United States has declined in recent years . China and India graduate six and eight times as many traditional engineers as the U.S. does . Rapidly developing economies such as China continue to encourage and advance the teaching of engineering . There are declining offerings in engineering subjects dealing with infrastructure, infrastructure, the environment, and related issues .'}]

*summarization* hat die Aufgabe einen **gegebenen Text** in einen **kürzeren** Variante zu transformieren und auf die **wichtigsten Dinge** zu reduzieren. **Spezifikationen** sind durch minimale oder maximale Länge möglich.


In [11]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
translator("Ce cours est produit par Hugging Face.")

config.json:   0%|          | 0.00/1.42k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/301M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/778k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.34M [00:00<?, ?B/s]



[{'translation_text': 'This course is produced by Hugging Face.'}]

*translation* wird dafür genutzt einen Eingabetext zu **übersetzen** und diesen auszugeben.

Eine Möglichkeit ist durch die **explizite Angabe** der Übersetzung: „translation_en_to_fr“

Eine andere Möglichkeit ist die **Wahl** des passenden **Models** aus dem Model Hub.

---
TRANSFORMER MODELS: HOW DO TRANSFORMERS WORK?
---

Unterteilung erfolgt in:

* **GPT-like** (auto-regressive Transformer Models)
* **BERT-like** (auto-encoding Transformer Models)
* **BART/T5-like** (sequence-to-sequence Transformer Models)

Alle Transformer können als Language Models trainiert werden, also mit großen Mengen von „raw“ Text in einer **self-supervised** (Objective wird direkt aus den Inputs berechnet - keine Human Labels) Form.

Ein Language Model erhält durch self-supervised learning ein **Verständnis** der Sprache ist aber erst durch den Prozess des **Transfer-Learning** (supervised fine-tuning) in der Lage **spezielle Aufgaben** zu **lösen**.

**Causal Language Modeling**: Vorhersage des nächsten Wortes eines Eingabesatzes

**Masked Language Modeling**: Vorhersage eines „verdeckten“ (masked) Wortes einem gegebenen Satz

Um die **Performance** von Modeln zu **erhöhen**, werden diese vergrößert und die **Menge der Daten** für das **Pre-Training** werden erhöht.
* viele Ressourcen = hohe Compute kosten & viel Zeitaufwand



**Transfer Learning**

Beim Vorliegen zweier Model, beschreibt das Transfer Learning das **Trainieren** eines Models und das **Übertragen** der **Gewichte** auf das **zweite Model** (Transfer Knowledge & Bias).
Generell ist es klüger bereits vorhandene Modelle zu trainieren und nicht von Scratch zu lernen (weniger Ressourcen & Zeitaufwand).

**Pretraining**

Ist das **Trainieren** eines Models von **Scratch** (random intialized weights & training ohne bisheriges Wissen)

**Fine-Tuning**

Ist das **Trainieren** eines Models (mit passenden Daten), nachdem es **pretrained** wurde (similar to currently developed Model)
* braucht weniger Zeit, weniger Daten, hat weniger Kosten und weniger Umweltverschmutzung

**General Architecture von Transformer Models**
1. **Encoders**: Akzeptiert Text und wandelt diese in eine **Numerische Repräsentation** (High Level) um (Features & Labels). hat self-attention & ist
gut für *sentence classification* und *named entity recognition*
2. **Decoders**: Akzeptiert Text und wird **auto-regressiv** verwendet. Hat *masked self-attention*
gut für *text generation*
3. **Encoder-Decoder**: zusammen werden die beiden als Sequence to Sequence Transformer bezeichnet
**Encoder** ermöglicht eine **High-Level Repräsentation** der Eingabe und **leitet** diese an den **Decoder** weiter und der Decoder verwendet diese **Daten plus zusätzliche Eingaben** für **Vorhersagen**. ED-Transformer sind gut für *translation* und *summarization*

**Attention Layers**

Attention Layers beschreiben eine **Information** an das Model auf bestimmte **Worte zu achten** (aufgrund von Semantik / Kontext und Wortzusammenhängen). Es gibt verschiedene solche Layers in einem Model, mit unterschiedlichen „**attention spans**“.

**Zusätzliche Definitionen**

* **Architecture**: ist das **Skelett** eines **Modells** (jedes Layer & Operationen im Model)
* **Checkpoints**: sind die **Weights**, die auf die Architecture geladen werden
* **Model**: kann entweder **Archticture** oder **Checkpoints** beschreiben (umbrella)

---
TRANSFORMER MODELS: ENCODER MODELS
---

* Auto Encoding Models

Ein **Encoder** nimmt den gegebenen Input und wandelt diesen in eine **numerische Repräsentation**, auch **Feature Vector** oder **Feature Tensor** genannt (sequence von Zahlen), um.

Dabei erhält jedes Wort einen zugehörigen Vektor. Die Dimension wird durch das Model definiert. Der Vektor eines „Zwischen-“Wortes hält nicht nur **Informationen** über sich **selbst**, sondern auch über die um sich liegenden Worte, den **Kontext** (Bidirectional Information).

Ein Vektor steht in dem Sinne also für die „Bedeutung eines Wortes für den Text“.

Ein reines Encoder Model sollte je nach **angestrebtem Aufgabenbereich** verwendet werden:
* **Masked Language Modeling** (Lücken vorhersagen)
* **Sentiment Analysis** (Stimmung eines Textes vorhersagen)
* **Classifying Text Inputs**

---
TRANSFORMER MODELS: DECODER MODELS
---

* Auto-Regressive Models

Ein **Decoder** nimmt den Input, welchen er bekommt und **wandelt** diesen in eine **numerische Repräsentation** (sequence von Zahlen) um, wie beim Encoder.

Anders als beim Encoder verwendet der Decoder einen **Self-Attention Mechanism** (Masked Self-Attention). Das bedeutet **jedes Wort** hat zwar den **Kontext** des Wortes **zuvor** oder des Wortes **danach**, die anderen Worte( jeweils nachfolgend bzw vorhergehend) sind jedoch „**Masked**“, also **nicht** sichtbar für das Model (Uni-directional Context).

Häufig ist das **vorhergehend** Wort sichtbar und nachfolgende masked.

Ein reines Decoder Model sollte je nach **angestrebtem Aufgabenbereich** verwendet werden:
* **Casual Language Modeling** (Vorhersage des nächsten Wortes)

---
TRANSFORMER MODELS: ENCODER-DECODER MODELS
---

Nutzt sowohl die **Encoder** als auch **Decoder Architektur**. Das **Pretraining** solcher Modelle ist meist etwas **komplexer**.

Die **numerischen Repräsentationen** des Encoders werden dem **Decoder weitergegeben**. Daraus erstellt der Decoder mithilfe dieser Sequenz von Nummern und seinem **zusätzlichen Input** eine Vorhersage (ein Folge von Worten).

Das **Wort welches ausgegeben** wurde, wird im nächsten Schritt zum **zusätzlichen Input** hinzugefügt für den Decoder verwendet.
Nachdem alle Worte vom Encoder in numerische Repräsentationen umgewandelt wurden, wird der **Encoder** **nicht** mehr gebraucht.
Encoder und Decoder haben dabei **unterschiedliche Gewichte**. Der Decoder hat als einzige Aufgabe die numerischen Repräsentationen des Encoders zu decoden.

Ein Encoder-Decoder Models sollten je nach **angestrebtem Aufgabenbereich** verwendet werden:
* **Summarization** (Zusammenfassen von längeren Texten zum Kerninhalt)
* **Translation** (Übersetzungen)
* **Generative Question Answering** (Antwortgenerierung)

---
TRANSFORMER MODELS: BIAS AND LIMITATIONS
---

Bei der Verwendung von **Pretrained** und **Fine-Tuned** Models sollte darauf geachtet werden, dass die **Daten** auf welchen diese trainiert wurden sowohl sehr gut, als auch sehr schlecht sein können.

Das kann dazu führen, dass ein sogenannter **Bias** also ein **Einfluss** dem Model mit übergeben wurde.

Es kann also dazu kommen, dass **sexist**, **racist** und **homophobe** Inhalte entstehen. Das **Fine-tunen** mit den **eigenen Daten** wird diesen **Bias nicht** **verschwinden** lassen.

In [12]:
from transformers import pipeline

unmasker = pipeline("fill-mask", model="bert-base-uncased")
result = unmasker("This man works as a [MASK].")
print([r["token_str"] for r in result])

result = unmasker("This woman works as a [MASK].")
print([r["token_str"] for r in result])

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

['carpenter', 'lawyer', 'farmer', 'businessman', 'doctor']
['nurse', 'maid', 'teacher', 'waitress', 'prostitute']


Der Code soll zeigen, dass es nur eine gender-free Antwort gibt mit