# Transfer Learning in der Spracherkennung
Seminar Aktuelle Themen der KI (SS2023)

Gruppenmitglieder:
- Miguel Meindl
- Simon Wolf
- Tim Staudinger

## 1. Installation
- Pandas
- Numpy
- PyTorch
- Scikit-Learn
- Transformers

In [None]:
!pip3 install -r requirements.txt

## 2. BERT (Bidirectional Encoder Representations from Transformers)
- Veröffentlicht von Google im Jahr 2018
- Basiert auf einer Transformer-Architektur
- Vortrainiert auf einen großen Korpus nicht gelabelten Text, inklusive der gesamten Wikipedia (2.500 Millionen Wörter) und des BookCorpus
- BookCorpus: Text von ca. 11.000 nicht veröffentlichen Büchern (ca. 985 Millionen Wörter)

Wie wurde BERT trainiert?
- Masked Language Model:
    - 15% der Wörter wurde zufällige während des Trainings verdeckt
    - BERT muss die verdeckten Wörter vorhersagen
    - Ziel: Erlernen der englischen Sprache und der verwendeten Wörter

- Next Sentence Prediction:
    - BERT muss klassifizieren, ob zwei Sätze aufeinander folgen
    - Ziel: Beziehungen zwischen Sätzen verstehen

### 2.1 Masked Language Model

In [None]:
from transformers import pipeline

In [None]:
unmasker = pipeline('fill-mask', model='bert-base-uncased')

text = "Artificial Intelligence [MASK] will take over the world."
unmasker(text)

### 2.2 Next Sentence Prediction

In [None]:
from transformers import BertTokenizer, BertForNextSentencePrediction
import torch

In [None]:
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertForNextSentencePrediction.from_pretrained("bert-base-uncased")

sentence_A = "It is raining today."
sentence_B = "I will go out on saturday."

inputs = tokenizer(sentence_A, sentence_B, return_tensors="pt")
outputs = model(**inputs)
prediction = torch.argmax(outputs.logits)

if prediction == 0:
    print("Die Sätze gehören zusammen.")
else:
    print("Die Sätze gehören nicht zusammen.")

## 3. Transfer Learning