# Tiny few shot classifer

Im folgenden wird ein few shot classifier für multilabels im [SetFit-Frame](https://huggingface.co/blog/setfit) Format erzeugt. Die multilabels-Option ist deshalb von Nöten, weil durchaus mehrere Future Skills in einem Kurs vermittelt werden können.

Gearbeitet wird mit `Python 3.12.3`, in einem eigens dafür erzeugten Poetry Enviorment (`Poetry Future Skills Enviorment`). Das Enviorment wird als Kernel händisch in Jupyter Notebook geladen. 

Weitere Pakete können dem Enviorment mit `poetry add <paketname>` hinzugefügt werden:

In [1]:
# !poetry add platformdirs
# !poetry add pyreadr

## Pakete laden

In einem weiteren Schritt werden die nötigen Pakete geladen. 

In [2]:
from datasets import load_dataset  # Zum Laden von Datensätzen aus der Hugging Face `datasets` Bibliothek
from sentence_transformers.losses import CosineSimilarityLoss  # Verlustfunktion basierend auf der Kosinusähnlichkeit, für Aufgaben wie Textähnlichkeit

from setfit import SetFitModel, SetFitTrainer  # Zum Laden des SetFit-Modells und Trainers, speziell für Few-Shot Learning mit Satztransformern
import pandas as pd  # Pandas für Datenmanipulation und -analyse
from sklearn.preprocessing import LabelEncoder  # Zum Encoden von Labels in numerische Werte für maschinelles Lernen
import os  # Für den Umgang mit Betriebssystemfunktionen (z.B. Dateipfade)
from datasets import Dataset, DatasetDict  # Zum Erstellen und Verwalten von Datensätzen in Hugging Face `datasets`-Format
from sklearn.model_selection import train_test_split  # Zum Aufteilen der Daten in Trainings- und Testsets

from transformers import TrainingArguments  # Zum Festlegen von Trainingsparametern für Modelle in der Transformers-Bibliothek

import torch  # Ermöglicht die GPU-Nutzung und effiziente Verarbeitung von Tensoren
import numpy as np  # Für numerische Berechnungen und Arbeiten mit Arrays

import re
import html

from unidecode import unidecode
from tqdm.auto import tqdm, trange
from time import sleep



  from .autonotebook import tqdm as notebook_tqdm


## Arbeitsverzeichnis bestimmen

Es wird weiterhin das Rootverzeichnis bestimmt um es später über relative Pfade Daten und Modelle laden zu können.

In [3]:
# checke home-verzeichnis
print(os.getcwd())
# setze home-verzeichnis
os.chdir('c:/Users/Hueck/OneDrive/Dokumente/GitHub/future_skill_classification/')

c:\Users\Hueck\OneDrive\Dokumente\GitHub\future_skill_classification\Py


## Daten

### Daten laden

Von Yannic Hinrichs wurden per String-Match Trainingsdaten erzeugt, die um weitere Daten ergänzt wurden, die keine Future Skills enthalten. Die Daten wurden weiterhin durch Yannic Hinrichs händisch kontrolliert. 

Testdaten liegen zu jetzigen Zeitpunkt nicht vor.

In [4]:

# Laden der Trainingsdaten
df = pd.read_excel('data/train_data_franziska.xlsx')

# Im Fall von gemigemischten Daten: sentence-Spalte als String deklarieren
df['sentence'] = df['sentence'].astype(str)
 
# Falls wieder erwartend NAs in den Daten: Ersetze diese durch 0
df = df.fillna(0)

# Falls wieder erwartend infs in den Daten: Ersetze diese durch 0
df.replace([np.inf, -np.inf], 0, inplace=True)

# Falls wieder erwartend nötig: Die Werte aller numerischen Variablen werden ganze Zahlen gerundet.
df[df.select_dtypes(include='number').columns] = df.select_dtypes(include='number').astype('int64')

# Für die weitere Verarbeitung werden die Daten ins Hugging Face Dataset-Format transformiert. 

# # /////////////////////////////////////////////////
# # Hinweis: Das Dataset-Format der Hugging Face datasets-Bibliothek basiert auf Apache Arrow und ist speichereffizient, was schnelles Laden und Verarbeiten großer Datensätze ermöglicht. Es integriert sich nahtlos in Machine-Learning-Workflows und unterstützt einfache Transformationen und Vorverarbeitung durch Methoden wie .map(). Zudem ist es flexibel und kompatibel mit Pandas DataFrames sowie gängigen Frameworks wie PyTorch und TensorFlow.
# #//////////////////////////////////////////////////

dataset = Dataset.from_pandas(df)
print(dataset)
 

Dataset({
    features: ['sentence', 'Data Analytics & KI', 'Softwareentwicklung', 'Nutzerzentriertes Design', 'IT-Architektur', 'Hardware/Robotikentwicklung', 'Quantencomputing', 'Digital Literacy', 'Digital Ethics', 'Digitale Kollaboration', 'Digital Learning', 'Agiles Arbeiten', 'Lösungsfähigkeit', 'Kreativität', 'Unternehmerisches Handeln & Eigeninitiative', 'Interkulturelle Kommunikation', 'Resilienz', 'Urteilsfähigkeit', 'Innovationskompetenz', 'Missionsorientierung', 'Veränderungskompetenz', 'Dialog- und Konfliktfähigkeit'],
    num_rows: 1577
})


### Daten verarbeiten

#### Feature Auswahl

Nun werden die Features des Classifiers ausgewählt. Diese werden von den Kurstitel und -beschreibungen (`sentence`) separiert. 

In [5]:
# Ziehe columnnames als Liste
features = dataset.column_names

# Definiere Columns, die nicht vom classifier berücksichtigt werden
to_remove = ['sentence','Digital Literacy', 'Digital Ethics', 'Digitale Kollaboration', 'Digital Learning', 'Agiles Arbeiten', 'Lösungsfähigkeit', 'Kreativität', 'Unternehmerisches Handeln & Eigeninitiative', 'Interkulturelle Kommunikation', 'Resilienz', 'Urteilsfähigkeit', 'Innovationskompetenz', 'Missionsorientierung', 'Veränderungskompetenz', 'Dialog- und Konfliktfähigkeit'] # Liste von Columns kann nach bedarf verlängert werden

# Schließe die oben definierten Variablen aus der Feature-Liste aus
filtered_features = [feature for feature in features if feature not in to_remove]

features = filtered_features

print(features)

['Data Analytics & KI', 'Softwareentwicklung', 'Nutzerzentriertes Design', 'IT-Architektur', 'Hardware/Robotikentwicklung', 'Quantencomputing']


### One-Hot-Encoding

Für das Trainieren des Classifiers wird im folgenden ein *One-Hot-Encoding*-Array der Features erzeugt. Dies ist deshalb nötig, da im folgenden ein Modell für ein Multi-Label-Szenario trainiert werden soll: Ein Kursangebot kann den erwerb mehrerer Future Skills versprechen, etwa Softwareentwicklung **&** IT-Architektur. Das One-Hot-Encoding wird benötigt, um die Labels der Features in eine Form zu bringen, die das Classifier Modell von SetFit korrekt verarbeiten kann. Es stellt sicher, dass alle Klassen gleichwertig behandelt werden, und ermöglicht die Berechnung von Ähnlichkeiten verschiedener Kursinhalte.

Um den *One-Hot-Encoding*-Array zu erzeugen definieren wir `encode_labels(record)`: Diese Funktion geht durch jede Zeile eines Data Frames und erstellt eine neue Spalte namens `labels`. In dieser Spalte werden die Werte aus den oben definierten "features" gesammelt und in eine Liste gepackt. Diese Liste enthält Werte der Features.

Beispiel: Mit Blick auf die Features 'Data Analytics & KI', 'Softwareentwicklung' und 'Nutzerzentriertes Design', könnte ein Zeilenvektor des Arrays eines Kurses der sich mit Data Analytics & KI / Softwareentwicklung beschäftigt so aussehen: `[1, 1, 0]`

In [6]:
# Generiere Funktion für One-Hot-Encoding für jede Zeile (record)
def encode_labels(record):
    return {"labels": [record[feature] for feature in features]}

# Wende Funktion auf train_data an
dataset = dataset.map(encode_labels)

# Um die Daten übersichtlich im Viewer zu betrachten: Umwandlung und Pandas Data Frame
pd_dataset = dataset.to_pandas()

  obj.co_lnotab,  # for < python 3.10 [not counted in args]
Map: 100%|██████████| 1577/1577 [00:00<00:00, 4527.41 examples/s]


Wir kopieren den das `dataset`-Objekt in ein neues Objekt namens `train_data` und ziehen davon noch mals eine Kopie mit Pandas, um die Daten ein letztes Mal im Viewer zu prüfen.

In [7]:
train_dataset = dataset

# check data with pandas
pd_train_dataset = train_dataset.to_pandas() 

## Modelltraining

### Vorbereitung des Modells

Es wird das vortrainierte sentence-transformers-Modell `paraphrase-multilingual-MiniLM-L12-v2` aus der Hugging Face Bibliothek geladen. Durch die Angabe der Strategie `one-vs-rest` wird das Modell für eine Multi-Label-Klassifikation konfiguriert, bei der jede Klasse eines Kurses einzeln vorhergesagt wird. Auf diese Weise wird es möglich, mehrere Skills pro Kurs zu identifizieren. 

In [8]:
# Laden des Modells
 
model = SetFitModel.from_pretrained(
    "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2", 
    multi_target_strategy="multi-output",
    labels=['Data Analytics & KI', 'Softwareentwicklung', 'Nutzerzentriertes Design', 'IT-Architektur', 'Hardware/Robotikentwicklung', 'Quantencomputing'],
)


model_head.pkl not found on HuggingFace Hub, initialising classification head with random weights. You should TRAIN this model on a downstream task to use it for predictions and inference.




### Auswahl GPU/CPU

Es wird zunächst geprüft, ob CUDA (und damit eine GPU) verfügbar ist, indem `torch.cuda.is_available()` aufgerufen wird. Wenn CUDA verfügbar ist, wird die GPU als Rechengerät (`device`) ausgewählt, und der Name der GPU mit `torch.cuda.get_device_name(0)` ausgegeben. Falls CUDA nicht verfügbar ist, wird stattdessen die CPU als Rechengerät festgelegt. Anschließend wird das Modell mit `model.to(device)` entweder auf die GPU oder die CPU verschoben, abhängig von der zuvor getroffenen Geräteauswahl, um die Berechnungen entsprechend durchzuführen.

In [9]:
training_device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
training_device

device(type='cuda')

In [10]:
import torch

# Prüfen, ob CUDA (GPU) verfügbar ist
print("CUDA verfügbar:", torch.cuda.is_available())

# Wenn CUDA verfügbar ist, die GPU verwenden
if torch.cuda.is_available():
    device = torch.device("cuda")
    print("GPU:", torch.cuda.get_device_name(0))
else:
    device = torch.device("cpu")
    print("Verwende CPU")

# model auf GPU verschieben

    # Sicherstellen, dass das Modell auf der GPU ist, wenn verfügbar
model = model.to(device)


CUDA verfügbar: True
GPU: NVIDIA GeForce RTX 4060 Ti


Für den Fall dass eine GPU vorhanden ist: `PyTorch` wird verwendet, um die GPU für das Training von Modellen zu verwenden. `PyTorch` nutzt einen Speicher-Caching-Mechanismus, um GPU-Speicher effizient zu verwalten. Wenn Tensoren gelöscht oder nicht mehr benötigt werden, bleibt der Speicher oft noch im Cache, damit zukünftige Speicheranforderungen schneller bedient werden können. Der Befehl `torch.cuda.empty_cache()` leert im folgenden den Cache und gibt den belegten Speicher an das GPU-System zurück, ohne jedoch den aktuell in Verwendung befindlichen Speicher zu beeinflussen. Wird der Cache nicht regelmäßiig geleert, kann das einen ernormen Einfluss auf die Bearbeitungszeit des Trainings eines Classifiers haben.

In [11]:
import torch
torch.cuda.empty_cache()

Der `SetFitTrainer` wird instanziiert, um das Modell auf den Trainings- und Evaluierungsdatensätzen zu trainieren. Eine Bewertung des Modells wird erst zu einem späteren Zeitpunkt möglich, wenn Testdaten vorliegen.

1. Das vortrainierte `model` (siehe oben) wird als Grundlage für das Training verwendet, das auf dem Few-Shot Learning-Ansatz basiert. `paraphrase-mpnet-base-v2` ist ein vortrainiertes Modell aus der Sentence Transformers-Familie, das speziell für die Aufgabe der semantischen Textähnlichkeit und Paraphrasenerkennung entwickelt wurde. 
2. Der `train_dataset` enthält die Trainingsdaten, und der `eval_dataset` wird zu einem späteren Zeitpunkt genutzt, um die Klassifikations-Leistung des Modells während des Trainings zu bewerten.
3. Die Verlustfunktion (`loss_class`) wird als *Cosine Similarity Loss* festgelegt. Die *Cosine Similarity Loss* ist eine Verlustfunktion, die darauf basiert, wie ähnlich sich zwei Vektoren sind. In diesem Fall werden die Ausgabevektoren des Modells und die Zielvektoren (also die "Labels") mithilfe der Kosinus-Ähnlichkeit verglichen. Je höher die Ähnlichkeit also, desto besser das Modell. 
4. Die `column_mapping` gibt an, welche Spalten in den Datensätzen die Texte (`sentence` → `text`) und die zugehörigen Labels (`labels` → `label`) enthalten, sodass das Modell die Daten korrekt interpretieren kann.


In [12]:
trainer = SetFitTrainer(
    model=model,
    train_dataset=dataset, 
    #eval_dataset=eval_dataset,
    loss_class=CosineSimilarityLoss,
    num_iterations=40, 
    num_epochs=2,
    column_mapping={"sentence": "text", "labels": "label"}
)

  trainer = SetFitTrainer(
Applying column mapping to the training dataset
Map: 100%|██████████| 1577/1577 [00:00<00:00, 7282.30 examples/s]


Nun kann das Training beginnen: 

In [13]:
trainer.train()

***** Running training *****
  Num unique pairs = 126160
  Batch size = 16
  Num epochs = 2
  0%|          | 1/15770 [00:00<2:02:32,  2.14it/s]

{'embedding_loss': 0.1571, 'grad_norm': 1.779844045639038, 'learning_rate': 1.2682308180088778e-08, 'epoch': 0.0}


  0%|          | 51/15770 [00:06<31:34,  8.30it/s] 

{'embedding_loss': 0.1986, 'grad_norm': 2.48179292678833, 'learning_rate': 6.341154090044388e-07, 'epoch': 0.01}


  1%|          | 101/15770 [00:12<30:58,  8.43it/s]

{'embedding_loss': 0.1774, 'grad_norm': 1.4752390384674072, 'learning_rate': 1.2682308180088775e-06, 'epoch': 0.01}


  1%|          | 151/15770 [00:18<31:47,  8.19it/s]

{'embedding_loss': 0.136, 'grad_norm': 1.5738091468811035, 'learning_rate': 1.9023462270133167e-06, 'epoch': 0.02}


  1%|▏         | 201/15770 [00:24<29:38,  8.75it/s]

{'embedding_loss': 0.1061, 'grad_norm': 0.9240484237670898, 'learning_rate': 2.536461636017755e-06, 'epoch': 0.03}


  2%|▏         | 251/15770 [00:29<29:33,  8.75it/s]

{'embedding_loss': 0.0779, 'grad_norm': 1.1908466815948486, 'learning_rate': 3.1705770450221946e-06, 'epoch': 0.03}


  2%|▏         | 301/15770 [00:35<31:26,  8.20it/s]

{'embedding_loss': 0.0671, 'grad_norm': 0.8021995425224304, 'learning_rate': 3.8046924540266334e-06, 'epoch': 0.04}


  2%|▏         | 352/15770 [00:41<30:01,  8.56it/s]

{'embedding_loss': 0.0482, 'grad_norm': 1.0862187147140503, 'learning_rate': 4.4388078630310726e-06, 'epoch': 0.04}


  3%|▎         | 401/15770 [00:47<29:05,  8.81it/s]

{'embedding_loss': 0.0444, 'grad_norm': 0.47590360045433044, 'learning_rate': 5.07292327203551e-06, 'epoch': 0.05}


  3%|▎         | 451/15770 [00:53<31:13,  8.18it/s]

{'embedding_loss': 0.0427, 'grad_norm': 2.531590461730957, 'learning_rate': 5.70703868103995e-06, 'epoch': 0.06}


  3%|▎         | 500/15770 [00:59<30:13,  8.42it/s]

{'embedding_loss': 0.0323, 'grad_norm': 0.557704508304596, 'learning_rate': 6.341154090044389e-06, 'epoch': 0.06}


  3%|▎         | 551/15770 [01:07<30:03,  8.44it/s]  

{'embedding_loss': 0.0274, 'grad_norm': 0.5443168878555298, 'learning_rate': 6.975269499048828e-06, 'epoch': 0.07}


  4%|▍         | 602/15770 [01:13<29:24,  8.59it/s]

{'embedding_loss': 0.0301, 'grad_norm': 0.21439853310585022, 'learning_rate': 7.609384908053267e-06, 'epoch': 0.08}


  4%|▍         | 651/15770 [01:19<30:17,  8.32it/s]

{'embedding_loss': 0.0259, 'grad_norm': 0.4973260164260864, 'learning_rate': 8.243500317057705e-06, 'epoch': 0.08}


  4%|▍         | 702/15770 [01:25<28:25,  8.84it/s]

{'embedding_loss': 0.0274, 'grad_norm': 0.7818413376808167, 'learning_rate': 8.877615726062145e-06, 'epoch': 0.09}


  5%|▍         | 751/15770 [01:30<30:23,  8.24it/s]

{'embedding_loss': 0.0305, 'grad_norm': 0.5201361179351807, 'learning_rate': 9.511731135066583e-06, 'epoch': 0.1}


  5%|▌         | 801/15770 [01:36<31:20,  7.96it/s]

{'embedding_loss': 0.0221, 'grad_norm': 1.2860229015350342, 'learning_rate': 1.014584654407102e-05, 'epoch': 0.1}


  5%|▌         | 852/15770 [01:42<28:42,  8.66it/s]

{'embedding_loss': 0.0185, 'grad_norm': 0.15747277438640594, 'learning_rate': 1.077996195307546e-05, 'epoch': 0.11}


  6%|▌         | 901/15770 [01:48<29:11,  8.49it/s]

{'embedding_loss': 0.0208, 'grad_norm': 0.37646982073783875, 'learning_rate': 1.14140773620799e-05, 'epoch': 0.11}


  6%|▌         | 951/15770 [01:54<28:44,  8.59it/s]

{'embedding_loss': 0.0198, 'grad_norm': 1.3746386766433716, 'learning_rate': 1.204819277108434e-05, 'epoch': 0.12}


  6%|▋         | 1000/15770 [02:00<28:23,  8.67it/s]

{'embedding_loss': 0.0107, 'grad_norm': 0.18232248723506927, 'learning_rate': 1.2682308180088779e-05, 'epoch': 0.13}


  7%|▋         | 1051/15770 [02:07<28:39,  8.56it/s]  

{'embedding_loss': 0.0149, 'grad_norm': 2.3639793395996094, 'learning_rate': 1.3316423589093217e-05, 'epoch': 0.13}


  7%|▋         | 1102/15770 [02:13<29:19,  8.34it/s]

{'embedding_loss': 0.0162, 'grad_norm': 0.7776532173156738, 'learning_rate': 1.3950538998097655e-05, 'epoch': 0.14}


  7%|▋         | 1152/15770 [02:19<27:54,  8.73it/s]

{'embedding_loss': 0.0119, 'grad_norm': 0.2902497947216034, 'learning_rate': 1.4584654407102095e-05, 'epoch': 0.15}


  8%|▊         | 1201/15770 [02:25<28:13,  8.60it/s]

{'embedding_loss': 0.0162, 'grad_norm': 0.3924712836742401, 'learning_rate': 1.5218769816106534e-05, 'epoch': 0.15}


  8%|▊         | 1251/15770 [02:31<27:57,  8.66it/s]

{'embedding_loss': 0.0133, 'grad_norm': 0.4988168179988861, 'learning_rate': 1.5852885225110974e-05, 'epoch': 0.16}


  8%|▊         | 1301/15770 [02:37<26:32,  9.08it/s]

{'embedding_loss': 0.0177, 'grad_norm': 0.2152845561504364, 'learning_rate': 1.648700063411541e-05, 'epoch': 0.16}


  9%|▊         | 1351/15770 [02:43<28:33,  8.41it/s]

{'embedding_loss': 0.0102, 'grad_norm': 0.30392709374427795, 'learning_rate': 1.712111604311985e-05, 'epoch': 0.17}


  9%|▉         | 1401/15770 [02:48<27:52,  8.59it/s]

{'embedding_loss': 0.0224, 'grad_norm': 0.4001488983631134, 'learning_rate': 1.775523145212429e-05, 'epoch': 0.18}


  9%|▉         | 1451/15770 [02:54<26:44,  8.93it/s]

{'embedding_loss': 0.0107, 'grad_norm': 0.13621318340301514, 'learning_rate': 1.8389346861128727e-05, 'epoch': 0.18}


 10%|▉         | 1500/15770 [03:00<27:24,  8.68it/s]

{'embedding_loss': 0.0182, 'grad_norm': 0.6973533630371094, 'learning_rate': 1.9023462270133167e-05, 'epoch': 0.19}


 10%|▉         | 1551/15770 [03:08<27:34,  8.59it/s]  

{'embedding_loss': 0.0137, 'grad_norm': 0.44132718443870544, 'learning_rate': 1.9657577679137604e-05, 'epoch': 0.2}


 10%|█         | 1601/15770 [03:13<29:47,  7.92it/s]

{'embedding_loss': 0.0158, 'grad_norm': 0.14407165348529816, 'learning_rate': 1.9967589656873107e-05, 'epoch': 0.2}


 10%|█         | 1651/15770 [03:19<27:19,  8.61it/s]

{'embedding_loss': 0.0142, 'grad_norm': 0.405513197183609, 'learning_rate': 1.9897132389205948e-05, 'epoch': 0.21}


 11%|█         | 1701/15770 [03:25<26:44,  8.77it/s]

{'embedding_loss': 0.0117, 'grad_norm': 0.11745481938123703, 'learning_rate': 1.982667512153879e-05, 'epoch': 0.22}


 11%|█         | 1751/15770 [03:31<28:59,  8.06it/s]

{'embedding_loss': 0.0161, 'grad_norm': 0.5510607957839966, 'learning_rate': 1.975621785387163e-05, 'epoch': 0.22}


 11%|█▏        | 1800/15770 [03:37<28:37,  8.14it/s]

{'embedding_loss': 0.0128, 'grad_norm': 0.8112378716468811, 'learning_rate': 1.9685760586204467e-05, 'epoch': 0.23}


 12%|█▏        | 1851/15770 [03:43<27:07,  8.55it/s]

{'embedding_loss': 0.0118, 'grad_norm': 0.18098798394203186, 'learning_rate': 1.9615303318537307e-05, 'epoch': 0.23}


 12%|█▏        | 1901/15770 [03:49<27:54,  8.28it/s]

{'embedding_loss': 0.0125, 'grad_norm': 0.29416027665138245, 'learning_rate': 1.954484605087015e-05, 'epoch': 0.24}


 12%|█▏        | 1951/15770 [03:55<27:02,  8.52it/s]

{'embedding_loss': 0.0135, 'grad_norm': 0.32230356335639954, 'learning_rate': 1.947438878320299e-05, 'epoch': 0.25}


 13%|█▎        | 2000/15770 [04:01<26:08,  8.78it/s]

{'embedding_loss': 0.0123, 'grad_norm': 0.35692355036735535, 'learning_rate': 1.940393151553583e-05, 'epoch': 0.25}


 13%|█▎        | 2052/15770 [04:09<26:18,  8.69it/s]  

{'embedding_loss': 0.0128, 'grad_norm': 0.503687858581543, 'learning_rate': 1.933347424786867e-05, 'epoch': 0.26}


 13%|█▎        | 2102/15770 [04:14<25:48,  8.83it/s]

{'embedding_loss': 0.0119, 'grad_norm': 2.867211103439331, 'learning_rate': 1.926301698020151e-05, 'epoch': 0.27}


 14%|█▎        | 2151/15770 [04:20<27:07,  8.37it/s]

{'embedding_loss': 0.0074, 'grad_norm': 0.3189273178577423, 'learning_rate': 1.919255971253435e-05, 'epoch': 0.27}


 14%|█▍        | 2202/15770 [04:26<26:39,  8.48it/s]

{'embedding_loss': 0.0116, 'grad_norm': 0.4152417480945587, 'learning_rate': 1.912210244486719e-05, 'epoch': 0.28}


 14%|█▍        | 2252/15770 [04:32<27:25,  8.22it/s]

{'embedding_loss': 0.0088, 'grad_norm': 0.9522496461868286, 'learning_rate': 1.905164517720003e-05, 'epoch': 0.29}


 15%|█▍        | 2301/15770 [04:37<26:21,  8.52it/s]

{'embedding_loss': 0.008, 'grad_norm': 0.35173511505126953, 'learning_rate': 1.898118790953287e-05, 'epoch': 0.29}


 15%|█▍        | 2351/15770 [04:43<26:38,  8.39it/s]

{'embedding_loss': 0.0137, 'grad_norm': 0.25583991408348083, 'learning_rate': 1.891073064186571e-05, 'epoch': 0.3}


 15%|█▌        | 2402/15770 [04:49<24:34,  9.06it/s]

{'embedding_loss': 0.0087, 'grad_norm': 0.357016384601593, 'learning_rate': 1.884027337419855e-05, 'epoch': 0.3}


 16%|█▌        | 2451/15770 [04:55<26:48,  8.28it/s]

{'embedding_loss': 0.0107, 'grad_norm': 0.29364410042762756, 'learning_rate': 1.876981610653139e-05, 'epoch': 0.31}


 16%|█▌        | 2500/15770 [05:01<25:27,  8.69it/s]

{'embedding_loss': 0.0118, 'grad_norm': 0.22956040501594543, 'learning_rate': 1.869935883886423e-05, 'epoch': 0.32}


 16%|█▌        | 2551/15770 [05:08<25:41,  8.58it/s]  

{'embedding_loss': 0.0096, 'grad_norm': 0.2046871781349182, 'learning_rate': 1.862890157119707e-05, 'epoch': 0.32}


 16%|█▋        | 2602/15770 [05:14<25:20,  8.66it/s]

{'embedding_loss': 0.0073, 'grad_norm': 0.12335290759801865, 'learning_rate': 1.855844430352991e-05, 'epoch': 0.33}


 17%|█▋        | 2651/15770 [05:20<25:20,  8.63it/s]

{'embedding_loss': 0.0125, 'grad_norm': 0.3603430390357971, 'learning_rate': 1.8487987035862753e-05, 'epoch': 0.34}


 17%|█▋        | 2701/15770 [05:26<26:43,  8.15it/s]

{'embedding_loss': 0.0085, 'grad_norm': 0.735238254070282, 'learning_rate': 1.841752976819559e-05, 'epoch': 0.34}


 17%|█▋        | 2752/15770 [05:32<24:29,  8.86it/s]

{'embedding_loss': 0.0081, 'grad_norm': 0.2712515592575073, 'learning_rate': 1.834707250052843e-05, 'epoch': 0.35}


 18%|█▊        | 2802/15770 [05:37<24:21,  8.88it/s]

{'embedding_loss': 0.0097, 'grad_norm': 0.31475070118904114, 'learning_rate': 1.827661523286127e-05, 'epoch': 0.36}


 18%|█▊        | 2852/15770 [05:43<26:13,  8.21it/s]

{'embedding_loss': 0.0104, 'grad_norm': 0.6639177799224854, 'learning_rate': 1.8206157965194112e-05, 'epoch': 0.36}


 18%|█▊        | 2901/15770 [05:49<25:34,  8.38it/s]

{'embedding_loss': 0.0062, 'grad_norm': 0.23081399500370026, 'learning_rate': 1.8135700697526953e-05, 'epoch': 0.37}


 19%|█▊        | 2951/15770 [05:55<24:18,  8.79it/s]

{'embedding_loss': 0.0124, 'grad_norm': 0.3888283371925354, 'learning_rate': 1.806524342985979e-05, 'epoch': 0.37}


 19%|█▉        | 3000/15770 [06:01<24:27,  8.70it/s]

{'embedding_loss': 0.0115, 'grad_norm': 0.30437564849853516, 'learning_rate': 1.799478616219263e-05, 'epoch': 0.38}


 19%|█▉        | 3052/15770 [06:08<25:00,  8.48it/s]  

{'embedding_loss': 0.012, 'grad_norm': 0.6374279856681824, 'learning_rate': 1.7924328894525472e-05, 'epoch': 0.39}


 20%|█▉        | 3101/15770 [06:14<25:48,  8.18it/s]

{'embedding_loss': 0.0147, 'grad_norm': 0.42367494106292725, 'learning_rate': 1.7853871626858313e-05, 'epoch': 0.39}


 20%|█▉        | 3151/15770 [06:20<25:41,  8.19it/s]

{'embedding_loss': 0.0097, 'grad_norm': 0.597541868686676, 'learning_rate': 1.778341435919115e-05, 'epoch': 0.4}


 20%|██        | 3201/15770 [06:26<26:15,  7.98it/s]

{'embedding_loss': 0.0107, 'grad_norm': 0.25243881344795227, 'learning_rate': 1.7712957091523994e-05, 'epoch': 0.41}


 21%|██        | 3251/15770 [06:32<23:45,  8.78it/s]

{'embedding_loss': 0.0074, 'grad_norm': 0.25179174542427063, 'learning_rate': 1.764249982385683e-05, 'epoch': 0.41}


 21%|██        | 3301/15770 [06:38<24:51,  8.36it/s]

{'embedding_loss': 0.013, 'grad_norm': 0.27461978793144226, 'learning_rate': 1.7572042556189672e-05, 'epoch': 0.42}


 21%|██        | 3351/15770 [06:44<23:04,  8.97it/s]

{'embedding_loss': 0.0115, 'grad_norm': 0.39758047461509705, 'learning_rate': 1.7501585288522513e-05, 'epoch': 0.42}


 22%|██▏       | 3402/15770 [06:50<24:14,  8.51it/s]

{'embedding_loss': 0.008, 'grad_norm': 0.31260913610458374, 'learning_rate': 1.7431128020855354e-05, 'epoch': 0.43}


 22%|██▏       | 3452/15770 [06:56<23:20,  8.79it/s]

{'embedding_loss': 0.0087, 'grad_norm': 0.7641322016716003, 'learning_rate': 1.7360670753188194e-05, 'epoch': 0.44}


 22%|██▏       | 3500/15770 [07:01<23:13,  8.81it/s]

{'embedding_loss': 0.0099, 'grad_norm': 0.8710197806358337, 'learning_rate': 1.7290213485521032e-05, 'epoch': 0.44}


 23%|██▎       | 3551/15770 [07:09<23:40,  8.60it/s]  

{'embedding_loss': 0.0076, 'grad_norm': 0.8119261264801025, 'learning_rate': 1.7219756217853872e-05, 'epoch': 0.45}


 23%|██▎       | 3601/15770 [07:15<25:24,  7.98it/s]

{'embedding_loss': 0.0118, 'grad_norm': 0.22009332478046417, 'learning_rate': 1.7149298950186713e-05, 'epoch': 0.46}


 23%|██▎       | 3651/15770 [07:21<23:57,  8.43it/s]

{'embedding_loss': 0.013, 'grad_norm': 0.25762495398521423, 'learning_rate': 1.7078841682519554e-05, 'epoch': 0.46}


 23%|██▎       | 3701/15770 [07:26<24:05,  8.35it/s]

{'embedding_loss': 0.0107, 'grad_norm': 0.3230259120464325, 'learning_rate': 1.700838441485239e-05, 'epoch': 0.47}


 24%|██▍       | 3751/15770 [07:32<23:37,  8.48it/s]

{'embedding_loss': 0.0123, 'grad_norm': 0.14067217707633972, 'learning_rate': 1.6937927147185232e-05, 'epoch': 0.48}


 24%|██▍       | 3802/15770 [07:38<22:48,  8.75it/s]

{'embedding_loss': 0.0101, 'grad_norm': 0.14460307359695435, 'learning_rate': 1.6867469879518076e-05, 'epoch': 0.48}


 24%|██▍       | 3851/15770 [07:44<23:17,  8.53it/s]

{'embedding_loss': 0.0095, 'grad_norm': 0.43034815788269043, 'learning_rate': 1.6797012611850914e-05, 'epoch': 0.49}


 25%|██▍       | 3901/15770 [07:50<22:53,  8.64it/s]

{'embedding_loss': 0.01, 'grad_norm': 0.4270773231983185, 'learning_rate': 1.6726555344183754e-05, 'epoch': 0.49}


 25%|██▌       | 3951/15770 [07:56<23:09,  8.51it/s]

{'embedding_loss': 0.0068, 'grad_norm': 0.4023107588291168, 'learning_rate': 1.6656098076516595e-05, 'epoch': 0.5}


 25%|██▌       | 4000/15770 [08:01<21:59,  8.92it/s]

{'embedding_loss': 0.0064, 'grad_norm': 0.24551649391651154, 'learning_rate': 1.6585640808849436e-05, 'epoch': 0.51}


 26%|██▌       | 4051/15770 [08:09<23:47,  8.21it/s]  

{'embedding_loss': 0.0096, 'grad_norm': 0.6152313351631165, 'learning_rate': 1.6515183541182273e-05, 'epoch': 0.51}


 26%|██▌       | 4102/15770 [08:15<21:48,  8.92it/s]

{'embedding_loss': 0.0063, 'grad_norm': 0.8077329993247986, 'learning_rate': 1.6444726273515114e-05, 'epoch': 0.52}


 26%|██▋       | 4151/15770 [08:21<23:47,  8.14it/s]

{'embedding_loss': 0.0083, 'grad_norm': 0.2751293480396271, 'learning_rate': 1.6374269005847955e-05, 'epoch': 0.53}


 27%|██▋       | 4201/15770 [08:27<23:35,  8.17it/s]

{'embedding_loss': 0.0067, 'grad_norm': 0.36220183968544006, 'learning_rate': 1.6303811738180795e-05, 'epoch': 0.53}


 27%|██▋       | 4251/15770 [08:33<22:28,  8.54it/s]

{'embedding_loss': 0.0095, 'grad_norm': 0.3562794327735901, 'learning_rate': 1.6233354470513636e-05, 'epoch': 0.54}


 27%|██▋       | 4301/15770 [08:38<24:27,  7.81it/s]

{'embedding_loss': 0.0097, 'grad_norm': 0.4573301076889038, 'learning_rate': 1.6162897202846474e-05, 'epoch': 0.55}


 28%|██▊       | 4351/15770 [08:44<22:22,  8.50it/s]

{'embedding_loss': 0.0057, 'grad_norm': 0.38513994216918945, 'learning_rate': 1.6092439935179314e-05, 'epoch': 0.55}


 28%|██▊       | 4401/15770 [08:50<20:35,  9.20it/s]

{'embedding_loss': 0.0101, 'grad_norm': 0.25881272554397583, 'learning_rate': 1.6021982667512155e-05, 'epoch': 0.56}


 28%|██▊       | 4451/15770 [08:56<23:16,  8.11it/s]

{'embedding_loss': 0.0101, 'grad_norm': 0.3031936287879944, 'learning_rate': 1.5951525399844996e-05, 'epoch': 0.56}


 29%|██▊       | 4500/15770 [09:02<22:41,  8.28it/s]

{'embedding_loss': 0.0043, 'grad_norm': 1.9931493997573853, 'learning_rate': 1.5881068132177833e-05, 'epoch': 0.57}


 29%|██▉       | 4551/15770 [09:09<20:43,  9.02it/s]  

{'embedding_loss': 0.0099, 'grad_norm': 0.3696815073490143, 'learning_rate': 1.5810610864510677e-05, 'epoch': 0.58}


 29%|██▉       | 4602/15770 [09:15<21:01,  8.85it/s]

{'embedding_loss': 0.0091, 'grad_norm': 0.3403696119785309, 'learning_rate': 1.5740153596843515e-05, 'epoch': 0.58}


 29%|██▉       | 4651/15770 [09:21<22:02,  8.41it/s]

{'embedding_loss': 0.0065, 'grad_norm': 0.17397676408290863, 'learning_rate': 1.5669696329176355e-05, 'epoch': 0.59}


 30%|██▉       | 4701/15770 [09:27<21:02,  8.77it/s]

{'embedding_loss': 0.0071, 'grad_norm': 0.24379844963550568, 'learning_rate': 1.5599239061509196e-05, 'epoch': 0.6}


 30%|███       | 4751/15770 [09:33<22:14,  8.26it/s]

{'embedding_loss': 0.0035, 'grad_norm': 0.18891720473766327, 'learning_rate': 1.5528781793842037e-05, 'epoch': 0.6}


 30%|███       | 4802/15770 [09:38<20:34,  8.88it/s]

{'embedding_loss': 0.0088, 'grad_norm': 0.21746043860912323, 'learning_rate': 1.5458324526174878e-05, 'epoch': 0.61}


 31%|███       | 4851/15770 [09:44<21:11,  8.59it/s]

{'embedding_loss': 0.0079, 'grad_norm': 0.21345394849777222, 'learning_rate': 1.5387867258507715e-05, 'epoch': 0.62}


 31%|███       | 4902/15770 [09:50<21:54,  8.27it/s]

{'embedding_loss': 0.0094, 'grad_norm': 0.1665302813053131, 'learning_rate': 1.5317409990840556e-05, 'epoch': 0.62}


 31%|███▏      | 4952/15770 [09:56<21:19,  8.45it/s]

{'embedding_loss': 0.0105, 'grad_norm': 0.23932935297489166, 'learning_rate': 1.5246952723173397e-05, 'epoch': 0.63}


 32%|███▏      | 5000/15770 [10:02<20:08,  8.91it/s]

{'embedding_loss': 0.0091, 'grad_norm': 0.46006983518600464, 'learning_rate': 1.5176495455506237e-05, 'epoch': 0.63}


 32%|███▏      | 5051/15770 [10:09<21:03,  8.49it/s]  

{'embedding_loss': 0.0109, 'grad_norm': 0.3053146302700043, 'learning_rate': 1.5106038187839076e-05, 'epoch': 0.64}


 32%|███▏      | 5101/15770 [10:16<24:47,  7.17it/s]

{'embedding_loss': 0.0081, 'grad_norm': 0.23898540437221527, 'learning_rate': 1.5035580920171917e-05, 'epoch': 0.65}


 33%|███▎      | 5151/15770 [10:22<21:43,  8.15it/s]

{'embedding_loss': 0.0087, 'grad_norm': 0.14140979945659637, 'learning_rate': 1.4965123652504756e-05, 'epoch': 0.65}


 33%|███▎      | 5201/15770 [10:28<21:12,  8.31it/s]

{'embedding_loss': 0.0091, 'grad_norm': 0.1351613998413086, 'learning_rate': 1.4894666384837597e-05, 'epoch': 0.66}


 33%|███▎      | 5251/15770 [10:33<20:19,  8.62it/s]

{'embedding_loss': 0.0071, 'grad_norm': 0.12424896657466888, 'learning_rate': 1.4824209117170438e-05, 'epoch': 0.67}


 34%|███▎      | 5301/15770 [10:40<22:30,  7.75it/s]

{'embedding_loss': 0.0072, 'grad_norm': 0.18103311955928802, 'learning_rate': 1.4753751849503277e-05, 'epoch': 0.67}


 34%|███▍      | 5351/15770 [10:46<21:30,  8.07it/s]

{'embedding_loss': 0.0084, 'grad_norm': 0.4534738063812256, 'learning_rate': 1.468329458183612e-05, 'epoch': 0.68}


 34%|███▍      | 5402/15770 [10:52<19:01,  9.08it/s]

{'embedding_loss': 0.0099, 'grad_norm': 0.16335992515087128, 'learning_rate': 1.4612837314168957e-05, 'epoch': 0.68}


 35%|███▍      | 5452/15770 [10:58<21:15,  8.09it/s]

{'embedding_loss': 0.004, 'grad_norm': 0.29025769233703613, 'learning_rate': 1.4542380046501799e-05, 'epoch': 0.69}


 35%|███▍      | 5500/15770 [11:03<20:22,  8.40it/s]

{'embedding_loss': 0.0038, 'grad_norm': 0.25966688990592957, 'learning_rate': 1.4471922778834638e-05, 'epoch': 0.7}


 35%|███▌      | 5551/15770 [11:11<19:45,  8.62it/s]  

{'embedding_loss': 0.0072, 'grad_norm': 0.08174542337656021, 'learning_rate': 1.4401465511167479e-05, 'epoch': 0.7}


 36%|███▌      | 5602/15770 [11:17<20:31,  8.26it/s]

{'embedding_loss': 0.0084, 'grad_norm': 0.30667316913604736, 'learning_rate': 1.4331008243500318e-05, 'epoch': 0.71}


 36%|███▌      | 5652/15770 [11:23<18:57,  8.89it/s]

{'embedding_loss': 0.004, 'grad_norm': 0.07494496554136276, 'learning_rate': 1.4260550975833159e-05, 'epoch': 0.72}


 36%|███▌      | 5702/15770 [11:29<19:23,  8.65it/s]

{'embedding_loss': 0.0077, 'grad_norm': 0.17944888770580292, 'learning_rate': 1.4190093708166e-05, 'epoch': 0.72}


 36%|███▋      | 5752/15770 [11:35<19:42,  8.47it/s]

{'embedding_loss': 0.0066, 'grad_norm': 0.1570490151643753, 'learning_rate': 1.4119636440498838e-05, 'epoch': 0.73}


 37%|███▋      | 5801/15770 [11:40<19:22,  8.58it/s]

{'embedding_loss': 0.0043, 'grad_norm': 0.6216923594474792, 'learning_rate': 1.4049179172831679e-05, 'epoch': 0.74}


 37%|███▋      | 5851/15770 [11:46<18:52,  8.76it/s]

{'embedding_loss': 0.0054, 'grad_norm': 0.2858445644378662, 'learning_rate': 1.3978721905164518e-05, 'epoch': 0.74}


 37%|███▋      | 5901/15770 [11:52<20:17,  8.11it/s]

{'embedding_loss': 0.0107, 'grad_norm': 0.17580793797969818, 'learning_rate': 1.3908264637497359e-05, 'epoch': 0.75}


 38%|███▊      | 5951/15770 [11:58<19:12,  8.52it/s]

{'embedding_loss': 0.0046, 'grad_norm': 0.12864702939987183, 'learning_rate': 1.3837807369830198e-05, 'epoch': 0.75}


 38%|███▊      | 6000/15770 [12:04<19:07,  8.51it/s]

{'embedding_loss': 0.0075, 'grad_norm': 0.35758116841316223, 'learning_rate': 1.3767350102163039e-05, 'epoch': 0.76}


 38%|███▊      | 6051/15770 [12:11<19:06,  8.47it/s]  

{'embedding_loss': 0.0106, 'grad_norm': 0.37699204683303833, 'learning_rate': 1.3696892834495878e-05, 'epoch': 0.77}


 39%|███▊      | 6101/15770 [12:17<19:34,  8.23it/s]

{'embedding_loss': 0.0063, 'grad_norm': 0.6143189072608948, 'learning_rate': 1.362643556682872e-05, 'epoch': 0.77}


 39%|███▉      | 6151/15770 [12:23<19:35,  8.19it/s]

{'embedding_loss': 0.007, 'grad_norm': 0.6916019320487976, 'learning_rate': 1.3555978299161561e-05, 'epoch': 0.78}


 39%|███▉      | 6201/15770 [12:29<18:44,  8.51it/s]

{'embedding_loss': 0.0066, 'grad_norm': 0.20977312326431274, 'learning_rate': 1.34855210314944e-05, 'epoch': 0.79}


 40%|███▉      | 6252/15770 [12:35<18:17,  8.67it/s]

{'embedding_loss': 0.0067, 'grad_norm': 0.2701095640659332, 'learning_rate': 1.341506376382724e-05, 'epoch': 0.79}


 40%|███▉      | 6301/15770 [12:41<20:12,  7.81it/s]

{'embedding_loss': 0.0078, 'grad_norm': 0.3843037486076355, 'learning_rate': 1.334460649616008e-05, 'epoch': 0.8}


 40%|████      | 6351/15770 [12:46<19:08,  8.20it/s]

{'embedding_loss': 0.0093, 'grad_norm': 0.4720296263694763, 'learning_rate': 1.327414922849292e-05, 'epoch': 0.81}


 41%|████      | 6401/15770 [12:52<18:17,  8.53it/s]

{'embedding_loss': 0.0055, 'grad_norm': 0.2768990695476532, 'learning_rate': 1.320369196082576e-05, 'epoch': 0.81}


 41%|████      | 6451/15770 [12:58<18:39,  8.32it/s]

{'embedding_loss': 0.0074, 'grad_norm': 0.1513470560312271, 'learning_rate': 1.31332346931586e-05, 'epoch': 0.82}


 41%|████      | 6500/15770 [13:04<17:11,  8.98it/s]

{'embedding_loss': 0.0115, 'grad_norm': 0.14398813247680664, 'learning_rate': 1.306277742549144e-05, 'epoch': 0.82}


 42%|████▏     | 6551/15770 [13:12<18:00,  8.53it/s]  

{'embedding_loss': 0.0058, 'grad_norm': 0.5054593682289124, 'learning_rate': 1.299232015782428e-05, 'epoch': 0.83}


 42%|████▏     | 6602/15770 [13:18<17:58,  8.50it/s]

{'embedding_loss': 0.005, 'grad_norm': 0.1551521122455597, 'learning_rate': 1.292186289015712e-05, 'epoch': 0.84}


 42%|████▏     | 6651/15770 [13:23<17:49,  8.53it/s]

{'embedding_loss': 0.007, 'grad_norm': 1.6490482091903687, 'learning_rate': 1.285140562248996e-05, 'epoch': 0.84}


 42%|████▏     | 6701/15770 [13:29<17:10,  8.80it/s]

{'embedding_loss': 0.0053, 'grad_norm': 0.17003433406352997, 'learning_rate': 1.2780948354822802e-05, 'epoch': 0.85}


 43%|████▎     | 6752/15770 [13:35<17:07,  8.77it/s]

{'embedding_loss': 0.0086, 'grad_norm': 0.3138917088508606, 'learning_rate': 1.2710491087155642e-05, 'epoch': 0.86}


 43%|████▎     | 6802/15770 [13:41<17:20,  8.62it/s]

{'embedding_loss': 0.0054, 'grad_norm': 0.09329922497272491, 'learning_rate': 1.2640033819488482e-05, 'epoch': 0.86}


 43%|████▎     | 6852/15770 [13:47<16:58,  8.76it/s]

{'embedding_loss': 0.0055, 'grad_norm': 0.19516023993492126, 'learning_rate': 1.2569576551821321e-05, 'epoch': 0.87}


 44%|████▍     | 6902/15770 [13:52<17:27,  8.47it/s]

{'embedding_loss': 0.006, 'grad_norm': 1.9058878421783447, 'learning_rate': 1.2499119284154162e-05, 'epoch': 0.88}


 44%|████▍     | 6952/15770 [13:58<17:21,  8.47it/s]

{'embedding_loss': 0.0068, 'grad_norm': 0.2968767583370209, 'learning_rate': 1.2428662016487001e-05, 'epoch': 0.88}


 44%|████▍     | 7000/15770 [14:04<17:04,  8.56it/s]

{'embedding_loss': 0.0103, 'grad_norm': 0.41591840982437134, 'learning_rate': 1.2358204748819842e-05, 'epoch': 0.89}


 45%|████▍     | 7051/15770 [14:12<16:34,  8.77it/s]  

{'embedding_loss': 0.0054, 'grad_norm': 0.1312703788280487, 'learning_rate': 1.2287747481152681e-05, 'epoch': 0.89}


 45%|████▌     | 7101/15770 [14:18<17:35,  8.22it/s]

{'embedding_loss': 0.007, 'grad_norm': 0.5958132743835449, 'learning_rate': 1.2217290213485522e-05, 'epoch': 0.9}


 45%|████▌     | 7151/15770 [14:23<17:10,  8.36it/s]

{'embedding_loss': 0.0047, 'grad_norm': 0.2545923888683319, 'learning_rate': 1.2146832945818362e-05, 'epoch': 0.91}


 46%|████▌     | 7201/15770 [14:29<16:33,  8.62it/s]

{'embedding_loss': 0.0076, 'grad_norm': 0.1101783737540245, 'learning_rate': 1.2076375678151202e-05, 'epoch': 0.91}


 46%|████▌     | 7251/15770 [14:35<15:51,  8.95it/s]

{'embedding_loss': 0.0077, 'grad_norm': 0.26880961656570435, 'learning_rate': 1.2005918410484044e-05, 'epoch': 0.92}


 46%|████▋     | 7301/15770 [14:41<16:34,  8.52it/s]

{'embedding_loss': 0.0058, 'grad_norm': 0.15073983371257782, 'learning_rate': 1.1935461142816881e-05, 'epoch': 0.93}


 47%|████▋     | 7351/15770 [14:47<16:39,  8.42it/s]

{'embedding_loss': 0.0056, 'grad_norm': 0.14920935034751892, 'learning_rate': 1.1865003875149724e-05, 'epoch': 0.93}


 47%|████▋     | 7402/15770 [14:53<15:32,  8.97it/s]

{'embedding_loss': 0.0041, 'grad_norm': 0.2576195299625397, 'learning_rate': 1.1794546607482563e-05, 'epoch': 0.94}


 47%|████▋     | 7451/15770 [14:59<16:37,  8.34it/s]

{'embedding_loss': 0.0062, 'grad_norm': 0.10855340212583542, 'learning_rate': 1.1724089339815404e-05, 'epoch': 0.94}


 48%|████▊     | 7500/15770 [15:04<15:49,  8.71it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.1579761803150177, 'learning_rate': 1.1653632072148243e-05, 'epoch': 0.95}


 48%|████▊     | 7552/15770 [15:12<15:03,  9.10it/s]  

{'embedding_loss': 0.0042, 'grad_norm': 0.22882729768753052, 'learning_rate': 1.1583174804481083e-05, 'epoch': 0.96}


 48%|████▊     | 7601/15770 [15:18<16:06,  8.45it/s]

{'embedding_loss': 0.0095, 'grad_norm': 0.42172926664352417, 'learning_rate': 1.1512717536813924e-05, 'epoch': 0.96}


 49%|████▊     | 7651/15770 [15:24<15:28,  8.74it/s]

{'embedding_loss': 0.0045, 'grad_norm': 0.16108191013336182, 'learning_rate': 1.1442260269146763e-05, 'epoch': 0.97}


 49%|████▉     | 7701/15770 [15:30<16:25,  8.18it/s]

{'embedding_loss': 0.0062, 'grad_norm': 0.3108919560909271, 'learning_rate': 1.1371803001479604e-05, 'epoch': 0.98}


 49%|████▉     | 7752/15770 [15:36<14:52,  8.98it/s]

{'embedding_loss': 0.0036, 'grad_norm': 0.17690958082675934, 'learning_rate': 1.1301345733812443e-05, 'epoch': 0.98}


 49%|████▉     | 7801/15770 [15:41<15:31,  8.56it/s]

{'embedding_loss': 0.0086, 'grad_norm': 1.0961220264434814, 'learning_rate': 1.1230888466145284e-05, 'epoch': 0.99}


 50%|████▉     | 7851/15770 [15:47<15:28,  8.53it/s]

{'embedding_loss': 0.0071, 'grad_norm': 0.09403897076845169, 'learning_rate': 1.1160431198478123e-05, 'epoch': 1.0}


 50%|█████     | 7901/15770 [15:53<16:03,  8.17it/s]

{'embedding_loss': 0.0103, 'grad_norm': 0.20742616057395935, 'learning_rate': 1.1089973930810965e-05, 'epoch': 1.0}


 50%|█████     | 7951/15770 [15:59<15:49,  8.24it/s]

{'embedding_loss': 0.004, 'grad_norm': 0.14644387364387512, 'learning_rate': 1.1019516663143803e-05, 'epoch': 1.01}


 51%|█████     | 8000/15770 [16:05<14:57,  8.66it/s]

{'embedding_loss': 0.0059, 'grad_norm': 0.173641636967659, 'learning_rate': 1.0949059395476645e-05, 'epoch': 1.01}


 51%|█████     | 8052/15770 [16:13<14:12,  9.06it/s]  

{'embedding_loss': 0.0053, 'grad_norm': 0.1648426204919815, 'learning_rate': 1.0878602127809486e-05, 'epoch': 1.02}


 51%|█████▏    | 8101/15770 [16:18<15:25,  8.29it/s]

{'embedding_loss': 0.0079, 'grad_norm': 0.37958869338035583, 'learning_rate': 1.0808144860142325e-05, 'epoch': 1.03}


 52%|█████▏    | 8152/15770 [16:24<14:24,  8.82it/s]

{'embedding_loss': 0.0078, 'grad_norm': 0.39538732171058655, 'learning_rate': 1.0737687592475166e-05, 'epoch': 1.03}


 52%|█████▏    | 8201/15770 [16:30<14:55,  8.45it/s]

{'embedding_loss': 0.0077, 'grad_norm': 0.23430445790290833, 'learning_rate': 1.0667230324808005e-05, 'epoch': 1.04}


 52%|█████▏    | 8251/15770 [16:36<14:48,  8.46it/s]

{'embedding_loss': 0.0062, 'grad_norm': 0.25711315870285034, 'learning_rate': 1.0596773057140845e-05, 'epoch': 1.05}


 53%|█████▎    | 8302/15770 [16:42<13:57,  8.92it/s]

{'embedding_loss': 0.005, 'grad_norm': 0.6526194214820862, 'learning_rate': 1.0526315789473684e-05, 'epoch': 1.05}


 53%|█████▎    | 8351/15770 [16:47<13:53,  8.90it/s]

{'embedding_loss': 0.0071, 'grad_norm': 0.15507686138153076, 'learning_rate': 1.0455858521806525e-05, 'epoch': 1.06}


 53%|█████▎    | 8401/15770 [16:53<14:15,  8.61it/s]

{'embedding_loss': 0.0042, 'grad_norm': 0.14796482026576996, 'learning_rate': 1.0385401254139364e-05, 'epoch': 1.07}


 54%|█████▎    | 8451/15770 [16:59<14:28,  8.43it/s]

{'embedding_loss': 0.0054, 'grad_norm': 0.14988850057125092, 'learning_rate': 1.0314943986472205e-05, 'epoch': 1.07}


 54%|█████▍    | 8500/15770 [17:05<13:29,  8.98it/s]

{'embedding_loss': 0.0048, 'grad_norm': 0.155744269490242, 'learning_rate': 1.0244486718805044e-05, 'epoch': 1.08}


 54%|█████▍    | 8551/15770 [17:12<13:36,  8.85it/s]  

{'embedding_loss': 0.0045, 'grad_norm': 0.24908602237701416, 'learning_rate': 1.0174029451137885e-05, 'epoch': 1.08}


 55%|█████▍    | 8601/15770 [17:18<13:43,  8.70it/s]

{'embedding_loss': 0.0062, 'grad_norm': 0.17291498184204102, 'learning_rate': 1.0103572183470727e-05, 'epoch': 1.09}


 55%|█████▍    | 8652/15770 [17:24<13:29,  8.79it/s]

{'embedding_loss': 0.0094, 'grad_norm': 0.16918304562568665, 'learning_rate': 1.0033114915803566e-05, 'epoch': 1.1}


 55%|█████▌    | 8701/15770 [17:30<13:56,  8.45it/s]

{'embedding_loss': 0.0043, 'grad_norm': 0.04227391630411148, 'learning_rate': 9.962657648136405e-06, 'epoch': 1.1}


 55%|█████▌    | 8752/15770 [17:36<13:23,  8.74it/s]

{'embedding_loss': 0.004, 'grad_norm': 0.0505734421312809, 'learning_rate': 9.892200380469246e-06, 'epoch': 1.11}


 56%|█████▌    | 8802/15770 [17:42<13:25,  8.65it/s]

{'embedding_loss': 0.003, 'grad_norm': 0.3903833031654358, 'learning_rate': 9.821743112802087e-06, 'epoch': 1.12}


 56%|█████▌    | 8851/15770 [17:47<13:32,  8.51it/s]

{'embedding_loss': 0.0026, 'grad_norm': 0.13804805278778076, 'learning_rate': 9.751285845134928e-06, 'epoch': 1.12}


 56%|█████▋    | 8901/15770 [17:53<13:59,  8.18it/s]

{'embedding_loss': 0.0051, 'grad_norm': 0.37749797105789185, 'learning_rate': 9.680828577467767e-06, 'epoch': 1.13}


 57%|█████▋    | 8951/15770 [17:59<13:06,  8.67it/s]

{'embedding_loss': 0.0046, 'grad_norm': 0.0796760842204094, 'learning_rate': 9.610371309800607e-06, 'epoch': 1.14}


 57%|█████▋    | 9000/15770 [18:05<13:15,  8.51it/s]

{'embedding_loss': 0.0046, 'grad_norm': 0.30269885063171387, 'learning_rate': 9.539914042133446e-06, 'epoch': 1.14}


 57%|█████▋    | 9051/15770 [18:13<13:23,  8.36it/s]  

{'embedding_loss': 0.0075, 'grad_norm': 0.23803167045116425, 'learning_rate': 9.469456774466287e-06, 'epoch': 1.15}


 58%|█████▊    | 9102/15770 [18:19<12:34,  8.83it/s]

{'embedding_loss': 0.0066, 'grad_norm': 0.2954498529434204, 'learning_rate': 9.398999506799126e-06, 'epoch': 1.15}


 58%|█████▊    | 9151/15770 [18:24<12:14,  9.01it/s]

{'embedding_loss': 0.0078, 'grad_norm': 0.14608731865882874, 'learning_rate': 9.328542239131967e-06, 'epoch': 1.16}


 58%|█████▊    | 9201/15770 [18:30<12:59,  8.43it/s]

{'embedding_loss': 0.0069, 'grad_norm': 0.2139076590538025, 'learning_rate': 9.258084971464806e-06, 'epoch': 1.17}


 59%|█████▊    | 9251/15770 [18:36<13:48,  7.87it/s]

{'embedding_loss': 0.0087, 'grad_norm': 0.3700447976589203, 'learning_rate': 9.187627703797649e-06, 'epoch': 1.17}


 59%|█████▉    | 9301/15770 [18:42<12:09,  8.87it/s]

{'embedding_loss': 0.0047, 'grad_norm': 0.08434520661830902, 'learning_rate': 9.117170436130488e-06, 'epoch': 1.18}


 59%|█████▉    | 9351/15770 [18:48<12:17,  8.70it/s]

{'embedding_loss': 0.0037, 'grad_norm': 0.13925513625144958, 'learning_rate': 9.046713168463328e-06, 'epoch': 1.19}


 60%|█████▉    | 9401/15770 [18:54<12:53,  8.23it/s]

{'embedding_loss': 0.007, 'grad_norm': 0.10951186716556549, 'learning_rate': 8.976255900796167e-06, 'epoch': 1.19}


 60%|█████▉    | 9451/15770 [19:00<12:13,  8.61it/s]

{'embedding_loss': 0.0069, 'grad_norm': 0.1948661357164383, 'learning_rate': 8.905798633129008e-06, 'epoch': 1.2}


 60%|██████    | 9500/15770 [19:05<12:42,  8.23it/s]

{'embedding_loss': 0.0061, 'grad_norm': 0.31002798676490784, 'learning_rate': 8.835341365461849e-06, 'epoch': 1.2}


 61%|██████    | 9551/15770 [19:13<12:20,  8.40it/s]  

{'embedding_loss': 0.0047, 'grad_norm': 0.16681745648384094, 'learning_rate': 8.764884097794688e-06, 'epoch': 1.21}


 61%|██████    | 9602/15770 [19:19<11:22,  9.04it/s]

{'embedding_loss': 0.0065, 'grad_norm': 0.18662744760513306, 'learning_rate': 8.694426830127529e-06, 'epoch': 1.22}


 61%|██████    | 9651/15770 [19:25<11:27,  8.90it/s]

{'embedding_loss': 0.0058, 'grad_norm': 0.08115483075380325, 'learning_rate': 8.623969562460368e-06, 'epoch': 1.22}


 62%|██████▏   | 9701/15770 [19:31<11:44,  8.62it/s]

{'embedding_loss': 0.0061, 'grad_norm': 0.1862143874168396, 'learning_rate': 8.553512294793209e-06, 'epoch': 1.23}


 62%|██████▏   | 9751/15770 [19:37<11:40,  8.60it/s]

{'embedding_loss': 0.0055, 'grad_norm': 0.0626334473490715, 'learning_rate': 8.48305502712605e-06, 'epoch': 1.24}


 62%|██████▏   | 9802/15770 [19:43<11:31,  8.64it/s]

{'embedding_loss': 0.0064, 'grad_norm': 0.15884757041931152, 'learning_rate': 8.41259775945889e-06, 'epoch': 1.24}


 62%|██████▏   | 9851/15770 [19:48<12:02,  8.19it/s]

{'embedding_loss': 0.0041, 'grad_norm': 0.2907199561595917, 'learning_rate': 8.342140491791729e-06, 'epoch': 1.25}


 63%|██████▎   | 9901/15770 [19:54<11:27,  8.54it/s]

{'embedding_loss': 0.0086, 'grad_norm': 0.12346720695495605, 'learning_rate': 8.27168322412457e-06, 'epoch': 1.26}


 63%|██████▎   | 9952/15770 [20:00<11:22,  8.53it/s]

{'embedding_loss': 0.0053, 'grad_norm': 0.30576658248901367, 'learning_rate': 8.201225956457409e-06, 'epoch': 1.26}


 63%|██████▎   | 10000/15770 [20:06<11:38,  8.26it/s]

{'embedding_loss': 0.0047, 'grad_norm': 0.22795075178146362, 'learning_rate': 8.13076868879025e-06, 'epoch': 1.27}


 64%|██████▎   | 10051/15770 [20:14<10:55,  8.73it/s]  

{'embedding_loss': 0.0053, 'grad_norm': 0.18321917951107025, 'learning_rate': 8.060311421123089e-06, 'epoch': 1.27}


 64%|██████▍   | 10102/15770 [20:20<10:50,  8.71it/s]

{'embedding_loss': 0.003, 'grad_norm': 0.14704078435897827, 'learning_rate': 7.98985415345593e-06, 'epoch': 1.28}


 64%|██████▍   | 10151/15770 [20:25<11:13,  8.34it/s]

{'embedding_loss': 0.0046, 'grad_norm': 0.07750709354877472, 'learning_rate': 7.919396885788768e-06, 'epoch': 1.29}


 65%|██████▍   | 10201/15770 [20:31<10:56,  8.49it/s]

{'embedding_loss': 0.0052, 'grad_norm': 0.14726021885871887, 'learning_rate': 7.848939618121611e-06, 'epoch': 1.29}


 65%|██████▌   | 10251/15770 [20:37<11:44,  7.84it/s]

{'embedding_loss': 0.0056, 'grad_norm': 0.10807043313980103, 'learning_rate': 7.77848235045445e-06, 'epoch': 1.3}


 65%|██████▌   | 10302/15770 [20:43<10:49,  8.42it/s]

{'embedding_loss': 0.0052, 'grad_norm': 0.4282591938972473, 'learning_rate': 7.70802508278729e-06, 'epoch': 1.31}


 66%|██████▌   | 10352/15770 [20:49<10:07,  8.92it/s]

{'embedding_loss': 0.0079, 'grad_norm': 1.237459421157837, 'learning_rate': 7.63756781512013e-06, 'epoch': 1.31}


 66%|██████▌   | 10401/15770 [20:54<09:54,  9.03it/s]

{'embedding_loss': 0.006, 'grad_norm': 0.3112122118473053, 'learning_rate': 7.5671105474529705e-06, 'epoch': 1.32}


 66%|██████▋   | 10452/15770 [21:00<09:56,  8.91it/s]

{'embedding_loss': 0.0055, 'grad_norm': 0.33846017718315125, 'learning_rate': 7.4966532797858104e-06, 'epoch': 1.33}


 67%|██████▋   | 10500/15770 [21:06<10:28,  8.39it/s]

{'embedding_loss': 0.0066, 'grad_norm': 0.1999233514070511, 'learning_rate': 7.42619601211865e-06, 'epoch': 1.33}


 67%|██████▋   | 10551/15770 [21:13<11:06,  7.84it/s]

{'embedding_loss': 0.0076, 'grad_norm': 0.09387780725955963, 'learning_rate': 7.35573874445149e-06, 'epoch': 1.34}


 67%|██████▋   | 10601/15770 [21:19<10:39,  8.09it/s]

{'embedding_loss': 0.0037, 'grad_norm': 0.2724737226963043, 'learning_rate': 7.28528147678433e-06, 'epoch': 1.34}


 68%|██████▊   | 10651/15770 [21:25<09:49,  8.68it/s]

{'embedding_loss': 0.0066, 'grad_norm': 0.05609032139182091, 'learning_rate': 7.214824209117171e-06, 'epoch': 1.35}


 68%|██████▊   | 10702/15770 [21:31<10:23,  8.13it/s]

{'embedding_loss': 0.0059, 'grad_norm': 0.256438672542572, 'learning_rate': 7.144366941450012e-06, 'epoch': 1.36}


 68%|██████▊   | 10751/15770 [21:37<10:06,  8.27it/s]

{'embedding_loss': 0.0057, 'grad_norm': 0.24345798790454865, 'learning_rate': 7.0739096737828516e-06, 'epoch': 1.36}


 68%|██████▊   | 10801/15770 [21:43<09:41,  8.55it/s]

{'embedding_loss': 0.0038, 'grad_norm': 0.20679712295532227, 'learning_rate': 7.0034524061156915e-06, 'epoch': 1.37}


 69%|██████▉   | 10851/15770 [21:49<09:52,  8.30it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.42791682481765747, 'learning_rate': 6.932995138448531e-06, 'epoch': 1.38}


 69%|██████▉   | 10902/15770 [21:55<09:20,  8.68it/s]

{'embedding_loss': 0.0059, 'grad_norm': 0.13181649148464203, 'learning_rate': 6.862537870781371e-06, 'epoch': 1.38}


 69%|██████▉   | 10952/15770 [22:01<09:14,  8.69it/s]

{'embedding_loss': 0.0073, 'grad_norm': 0.46752065420150757, 'learning_rate': 6.792080603114212e-06, 'epoch': 1.39}


 70%|██████▉   | 11000/15770 [22:07<09:39,  8.24it/s]

{'embedding_loss': 0.0055, 'grad_norm': 0.3549690842628479, 'learning_rate': 6.721623335447052e-06, 'epoch': 1.4}


 70%|███████   | 11051/15770 [22:15<09:38,  8.16it/s]

{'embedding_loss': 0.0039, 'grad_norm': 0.1329885870218277, 'learning_rate': 6.651166067779892e-06, 'epoch': 1.4}


 70%|███████   | 11101/15770 [22:21<09:31,  8.17it/s]

{'embedding_loss': 0.0054, 'grad_norm': 0.2455797791481018, 'learning_rate': 6.580708800112732e-06, 'epoch': 1.41}


 71%|███████   | 11152/15770 [22:27<09:18,  8.26it/s]

{'embedding_loss': 0.0068, 'grad_norm': 0.09452047944068909, 'learning_rate': 6.5102515324455725e-06, 'epoch': 1.41}


 71%|███████   | 11201/15770 [22:33<09:16,  8.21it/s]

{'embedding_loss': 0.0067, 'grad_norm': 0.27481064200401306, 'learning_rate': 6.439794264778413e-06, 'epoch': 1.42}


 71%|███████▏  | 11251/15770 [22:39<09:09,  8.22it/s]

{'embedding_loss': 0.0041, 'grad_norm': 0.1701289415359497, 'learning_rate': 6.369336997111253e-06, 'epoch': 1.43}


 72%|███████▏  | 11301/15770 [22:45<08:44,  8.52it/s]

{'embedding_loss': 0.0076, 'grad_norm': 0.2050798535346985, 'learning_rate': 6.298879729444093e-06, 'epoch': 1.43}


 72%|███████▏  | 11351/15770 [22:51<08:42,  8.45it/s]

{'embedding_loss': 0.0071, 'grad_norm': 0.40352603793144226, 'learning_rate': 6.228422461776933e-06, 'epoch': 1.44}


 72%|███████▏  | 11401/15770 [22:57<08:24,  8.66it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.2158474624156952, 'learning_rate': 6.157965194109773e-06, 'epoch': 1.45}


 73%|███████▎  | 11451/15770 [23:03<08:35,  8.38it/s]

{'embedding_loss': 0.0061, 'grad_norm': 0.14837275445461273, 'learning_rate': 6.087507926442613e-06, 'epoch': 1.45}


 73%|███████▎  | 11500/15770 [23:09<08:37,  8.25it/s]

{'embedding_loss': 0.0039, 'grad_norm': 0.2321060299873352, 'learning_rate': 6.017050658775453e-06, 'epoch': 1.46}


 73%|███████▎  | 11551/15770 [23:16<08:12,  8.56it/s]

{'embedding_loss': 0.006, 'grad_norm': 0.1958332061767578, 'learning_rate': 5.9465933911082925e-06, 'epoch': 1.46}


 74%|███████▎  | 11601/15770 [23:22<08:27,  8.21it/s]

{'embedding_loss': 0.0045, 'grad_norm': 0.23936046659946442, 'learning_rate': 5.876136123441133e-06, 'epoch': 1.47}


 74%|███████▍  | 11651/15770 [23:28<08:18,  8.26it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.11997529119253159, 'learning_rate': 5.805678855773974e-06, 'epoch': 1.48}


 74%|███████▍  | 11701/15770 [23:34<07:47,  8.71it/s]

{'embedding_loss': 0.0063, 'grad_norm': 0.2882811427116394, 'learning_rate': 5.735221588106814e-06, 'epoch': 1.48}


 75%|███████▍  | 11751/15770 [23:40<08:20,  8.02it/s]

{'embedding_loss': 0.0061, 'grad_norm': 0.4241712689399719, 'learning_rate': 5.664764320439654e-06, 'epoch': 1.49}


 75%|███████▍  | 11801/15770 [23:46<07:59,  8.27it/s]

{'embedding_loss': 0.0058, 'grad_norm': 0.2173977643251419, 'learning_rate': 5.594307052772494e-06, 'epoch': 1.5}


 75%|███████▌  | 11852/15770 [23:52<08:07,  8.04it/s]

{'embedding_loss': 0.0039, 'grad_norm': 0.20517711341381073, 'learning_rate': 5.5238497851053345e-06, 'epoch': 1.5}


 75%|███████▌  | 11901/15770 [23:58<08:12,  7.86it/s]

{'embedding_loss': 0.0041, 'grad_norm': 0.23367373645305634, 'learning_rate': 5.453392517438174e-06, 'epoch': 1.51}


 76%|███████▌  | 11952/15770 [24:04<07:12,  8.82it/s]

{'embedding_loss': 0.0052, 'grad_norm': 0.07068949192762375, 'learning_rate': 5.382935249771014e-06, 'epoch': 1.52}


 76%|███████▌  | 12000/15770 [24:10<07:22,  8.52it/s]

{'embedding_loss': 0.0034, 'grad_norm': 0.2681538760662079, 'learning_rate': 5.312477982103854e-06, 'epoch': 1.52}


 76%|███████▋  | 12051/15770 [24:18<07:47,  7.95it/s]

{'embedding_loss': 0.0078, 'grad_norm': 0.16545358300209045, 'learning_rate': 5.242020714436694e-06, 'epoch': 1.53}


 77%|███████▋  | 12102/15770 [24:24<07:07,  8.58it/s]

{'embedding_loss': 0.0049, 'grad_norm': 0.32959994673728943, 'learning_rate': 5.171563446769534e-06, 'epoch': 1.53}


 77%|███████▋  | 12151/15770 [24:30<07:31,  8.02it/s]

{'embedding_loss': 0.0064, 'grad_norm': 0.27001839876174927, 'learning_rate': 5.101106179102376e-06, 'epoch': 1.54}


 77%|███████▋  | 12202/15770 [24:36<06:43,  8.84it/s]

{'embedding_loss': 0.0063, 'grad_norm': 0.14547495543956757, 'learning_rate': 5.0306489114352155e-06, 'epoch': 1.55}


 78%|███████▊  | 12251/15770 [24:42<07:07,  8.24it/s]

{'embedding_loss': 0.0068, 'grad_norm': 0.16756242513656616, 'learning_rate': 4.960191643768055e-06, 'epoch': 1.55}


 78%|███████▊  | 12302/15770 [24:48<07:07,  8.12it/s]

{'embedding_loss': 0.008, 'grad_norm': 0.08569425344467163, 'learning_rate': 4.889734376100895e-06, 'epoch': 1.56}


 78%|███████▊  | 12352/15770 [24:54<06:43,  8.46it/s]

{'embedding_loss': 0.0043, 'grad_norm': 0.13188159465789795, 'learning_rate': 4.819277108433735e-06, 'epoch': 1.57}


 79%|███████▊  | 12401/15770 [25:00<06:42,  8.36it/s]

{'embedding_loss': 0.0057, 'grad_norm': 1.0018271207809448, 'learning_rate': 4.748819840766575e-06, 'epoch': 1.57}


 79%|███████▉  | 12451/15770 [25:06<06:40,  8.28it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.18214678764343262, 'learning_rate': 4.678362573099415e-06, 'epoch': 1.58}


 79%|███████▉  | 12500/15770 [25:12<06:23,  8.53it/s]

{'embedding_loss': 0.0048, 'grad_norm': 0.3491515815258026, 'learning_rate': 4.607905305432256e-06, 'epoch': 1.59}


 80%|███████▉  | 12551/15770 [25:20<05:59,  8.95it/s]

{'embedding_loss': 0.0049, 'grad_norm': 0.3092743158340454, 'learning_rate': 4.537448037765096e-06, 'epoch': 1.59}


 80%|███████▉  | 12601/15770 [25:26<05:48,  9.08it/s]

{'embedding_loss': 0.0052, 'grad_norm': 0.19576409459114075, 'learning_rate': 4.466990770097936e-06, 'epoch': 1.6}


 80%|████████  | 12652/15770 [25:32<05:42,  9.10it/s]

{'embedding_loss': 0.0061, 'grad_norm': 0.24567003548145294, 'learning_rate': 4.396533502430776e-06, 'epoch': 1.6}


 81%|████████  | 12701/15770 [25:37<06:06,  8.37it/s]

{'embedding_loss': 0.0066, 'grad_norm': 0.3172694444656372, 'learning_rate': 4.326076234763616e-06, 'epoch': 1.61}


 81%|████████  | 12751/15770 [25:43<05:31,  9.10it/s]

{'embedding_loss': 0.0079, 'grad_norm': 0.2937888205051422, 'learning_rate': 4.255618967096456e-06, 'epoch': 1.62}


 81%|████████  | 12800/15770 [25:49<06:00,  8.24it/s]

{'embedding_loss': 0.0047, 'grad_norm': 0.16605162620544434, 'learning_rate': 4.185161699429297e-06, 'epoch': 1.62}


 81%|████████▏ | 12851/15770 [25:55<05:33,  8.74it/s]

{'embedding_loss': 0.005, 'grad_norm': 0.23420703411102295, 'learning_rate': 4.114704431762137e-06, 'epoch': 1.63}


 82%|████████▏ | 12901/15770 [26:01<05:43,  8.36it/s]

{'embedding_loss': 0.0034, 'grad_norm': 0.12630417943000793, 'learning_rate': 4.044247164094977e-06, 'epoch': 1.64}


 82%|████████▏ | 12951/15770 [26:06<05:08,  9.14it/s]

{'embedding_loss': 0.0051, 'grad_norm': 0.13543832302093506, 'learning_rate': 3.9737898964278174e-06, 'epoch': 1.64}


 82%|████████▏ | 13000/15770 [26:12<05:31,  8.36it/s]

{'embedding_loss': 0.006, 'grad_norm': 0.22381402552127838, 'learning_rate': 3.903332628760657e-06, 'epoch': 1.65}


 83%|████████▎ | 13051/15770 [26:20<05:32,  8.17it/s]

{'embedding_loss': 0.0046, 'grad_norm': 0.21009306609630585, 'learning_rate': 3.832875361093497e-06, 'epoch': 1.66}


 83%|████████▎ | 13101/15770 [26:26<05:32,  8.02it/s]

{'embedding_loss': 0.003, 'grad_norm': 0.1459570676088333, 'learning_rate': 3.762418093426337e-06, 'epoch': 1.66}


 83%|████████▎ | 13152/15770 [26:32<04:46,  9.14it/s]

{'embedding_loss': 0.0055, 'grad_norm': 0.1829334795475006, 'learning_rate': 3.691960825759177e-06, 'epoch': 1.67}


 84%|████████▎ | 13201/15770 [26:37<04:44,  9.03it/s]

{'embedding_loss': 0.0069, 'grad_norm': 0.2649935483932495, 'learning_rate': 3.621503558092018e-06, 'epoch': 1.67}


 84%|████████▍ | 13252/15770 [26:43<04:42,  8.90it/s]

{'embedding_loss': 0.0033, 'grad_norm': 0.15144562721252441, 'learning_rate': 3.5510462904248577e-06, 'epoch': 1.68}


 84%|████████▍ | 13301/15770 [26:49<04:43,  8.71it/s]

{'embedding_loss': 0.0095, 'grad_norm': 0.2504979074001312, 'learning_rate': 3.4805890227576976e-06, 'epoch': 1.69}


 85%|████████▍ | 13351/15770 [26:55<04:48,  8.38it/s]

{'embedding_loss': 0.0043, 'grad_norm': 0.18536992371082306, 'learning_rate': 3.410131755090538e-06, 'epoch': 1.69}


 85%|████████▍ | 13401/15770 [27:00<04:26,  8.88it/s]

{'embedding_loss': 0.0055, 'grad_norm': 0.18932698667049408, 'learning_rate': 3.339674487423378e-06, 'epoch': 1.7}


 85%|████████▌ | 13451/15770 [27:06<04:16,  9.05it/s]

{'embedding_loss': 0.0081, 'grad_norm': 0.3627626895904541, 'learning_rate': 3.269217219756218e-06, 'epoch': 1.71}


 86%|████████▌ | 13500/15770 [27:12<04:21,  8.67it/s]

{'embedding_loss': 0.0042, 'grad_norm': 0.1628625988960266, 'learning_rate': 3.1987599520890585e-06, 'epoch': 1.71}


 86%|████████▌ | 13551/15770 [27:20<04:11,  8.82it/s]

{'embedding_loss': 0.0081, 'grad_norm': 0.21036671102046967, 'learning_rate': 3.1283026844218984e-06, 'epoch': 1.72}


 86%|████████▋ | 13602/15770 [27:26<04:02,  8.96it/s]

{'embedding_loss': 0.0055, 'grad_norm': 0.21658436954021454, 'learning_rate': 3.0578454167547383e-06, 'epoch': 1.72}


 87%|████████▋ | 13651/15770 [27:31<04:13,  8.35it/s]

{'embedding_loss': 0.0043, 'grad_norm': 0.15016460418701172, 'learning_rate': 2.987388149087579e-06, 'epoch': 1.73}


 87%|████████▋ | 13702/15770 [27:37<03:42,  9.28it/s]

{'embedding_loss': 0.0033, 'grad_norm': 0.3774626553058624, 'learning_rate': 2.916930881420419e-06, 'epoch': 1.74}


 87%|████████▋ | 13751/15770 [27:43<04:01,  8.35it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.15686000883579254, 'learning_rate': 2.846473613753259e-06, 'epoch': 1.74}


 88%|████████▊ | 13802/15770 [27:49<03:40,  8.92it/s]

{'embedding_loss': 0.0062, 'grad_norm': 0.15498599410057068, 'learning_rate': 2.7760163460860988e-06, 'epoch': 1.75}


 88%|████████▊ | 13851/15770 [27:55<03:40,  8.72it/s]

{'embedding_loss': 0.0032, 'grad_norm': 0.1763271689414978, 'learning_rate': 2.705559078418939e-06, 'epoch': 1.76}


 88%|████████▊ | 13902/15770 [28:01<03:29,  8.90it/s]

{'embedding_loss': 0.0043, 'grad_norm': 0.2662902772426605, 'learning_rate': 2.6351018107517794e-06, 'epoch': 1.76}


 88%|████████▊ | 13951/15770 [28:06<03:46,  8.01it/s]

{'embedding_loss': 0.0079, 'grad_norm': 0.0946221873164177, 'learning_rate': 2.5646445430846193e-06, 'epoch': 1.77}


 89%|████████▉ | 14000/15770 [28:12<03:30,  8.40it/s]

{'embedding_loss': 0.0053, 'grad_norm': 0.15666991472244263, 'learning_rate': 2.4941872754174596e-06, 'epoch': 1.78}


 89%|████████▉ | 14052/15770 [28:20<03:13,  8.90it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.15852472186088562, 'learning_rate': 2.4237300077502995e-06, 'epoch': 1.78}


 89%|████████▉ | 14101/15770 [28:26<03:25,  8.13it/s]

{'embedding_loss': 0.0064, 'grad_norm': 0.1931704878807068, 'learning_rate': 2.35327274008314e-06, 'epoch': 1.79}


 90%|████████▉ | 14152/15770 [28:32<03:04,  8.75it/s]

{'embedding_loss': 0.0051, 'grad_norm': 0.22983460128307343, 'learning_rate': 2.2828154724159798e-06, 'epoch': 1.79}


 90%|█████████ | 14201/15770 [28:37<03:15,  8.02it/s]

{'embedding_loss': 0.0088, 'grad_norm': 0.284382164478302, 'learning_rate': 2.21235820474882e-06, 'epoch': 1.8}


 90%|█████████ | 14252/15770 [28:43<02:55,  8.63it/s]

{'embedding_loss': 0.0048, 'grad_norm': 0.23796743154525757, 'learning_rate': 2.14190093708166e-06, 'epoch': 1.81}


 91%|█████████ | 14301/15770 [28:49<02:54,  8.42it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.1373061239719391, 'learning_rate': 2.0714436694145003e-06, 'epoch': 1.81}


 91%|█████████ | 14352/15770 [28:55<02:38,  8.95it/s]

{'embedding_loss': 0.0071, 'grad_norm': 0.28545019030570984, 'learning_rate': 2.0009864017473402e-06, 'epoch': 1.82}


 91%|█████████▏| 14402/15770 [29:01<02:42,  8.43it/s]

{'embedding_loss': 0.0058, 'grad_norm': 0.21208825707435608, 'learning_rate': 1.9305291340801806e-06, 'epoch': 1.83}


 92%|█████████▏| 14452/15770 [29:07<02:28,  8.86it/s]

{'embedding_loss': 0.007, 'grad_norm': 0.13925649225711823, 'learning_rate': 1.8600718664130207e-06, 'epoch': 1.83}


 92%|█████████▏| 14500/15770 [29:12<02:21,  9.00it/s]

{'embedding_loss': 0.0028, 'grad_norm': 0.3027694821357727, 'learning_rate': 1.7896145987458608e-06, 'epoch': 1.84}


 92%|█████████▏| 14551/15770 [29:20<02:28,  8.21it/s]

{'embedding_loss': 0.0046, 'grad_norm': 0.3059878647327423, 'learning_rate': 1.7191573310787011e-06, 'epoch': 1.85}


 93%|█████████▎| 14601/15770 [29:26<02:19,  8.39it/s]

{'embedding_loss': 0.0061, 'grad_norm': 0.19184964895248413, 'learning_rate': 1.648700063411541e-06, 'epoch': 1.85}


 93%|█████████▎| 14651/15770 [29:31<02:12,  8.45it/s]

{'embedding_loss': 0.0054, 'grad_norm': 0.09700877964496613, 'learning_rate': 1.5782427957443811e-06, 'epoch': 1.86}


 93%|█████████▎| 14701/15770 [29:37<02:05,  8.49it/s]

{'embedding_loss': 0.004, 'grad_norm': 0.12634114921092987, 'learning_rate': 1.5077855280772212e-06, 'epoch': 1.86}


 94%|█████████▎| 14751/15770 [29:43<01:55,  8.81it/s]

{'embedding_loss': 0.0034, 'grad_norm': 0.22565168142318726, 'learning_rate': 1.4373282604100614e-06, 'epoch': 1.87}


 94%|█████████▍| 14801/15770 [29:49<01:54,  8.49it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.09369568526744843, 'learning_rate': 1.3668709927429017e-06, 'epoch': 1.88}


 94%|█████████▍| 14851/15770 [29:55<01:45,  8.73it/s]

{'embedding_loss': 0.0033, 'grad_norm': 0.1467052698135376, 'learning_rate': 1.2964137250757416e-06, 'epoch': 1.88}


 94%|█████████▍| 14902/15770 [30:01<01:38,  8.80it/s]

{'embedding_loss': 0.007, 'grad_norm': 0.1931041181087494, 'learning_rate': 1.2259564574085817e-06, 'epoch': 1.89}


 95%|█████████▍| 14952/15770 [30:06<01:32,  8.83it/s]

{'embedding_loss': 0.0044, 'grad_norm': 0.491922527551651, 'learning_rate': 1.155499189741422e-06, 'epoch': 1.9}


 95%|█████████▌| 15000/15770 [30:12<01:27,  8.81it/s]

{'embedding_loss': 0.0045, 'grad_norm': 0.1478256732225418, 'learning_rate': 1.0850419220742621e-06, 'epoch': 1.9}


 95%|█████████▌| 15051/15770 [30:20<01:21,  8.85it/s]

{'embedding_loss': 0.0045, 'grad_norm': 0.7055257558822632, 'learning_rate': 1.0145846544071023e-06, 'epoch': 1.91}


 96%|█████████▌| 15101/15770 [30:25<01:18,  8.54it/s]

{'embedding_loss': 0.0093, 'grad_norm': 0.14053025841712952, 'learning_rate': 9.441273867399423e-07, 'epoch': 1.92}


 96%|█████████▌| 15152/15770 [30:31<01:12,  8.56it/s]

{'embedding_loss': 0.0036, 'grad_norm': 0.19363366067409515, 'learning_rate': 8.736701190727824e-07, 'epoch': 1.92}


 96%|█████████▋| 15201/15770 [30:37<01:01,  9.26it/s]

{'embedding_loss': 0.0055, 'grad_norm': 0.149135023355484, 'learning_rate': 8.032128514056225e-07, 'epoch': 1.93}


 97%|█████████▋| 15251/15770 [30:43<01:02,  8.32it/s]

{'embedding_loss': 0.0037, 'grad_norm': 0.24877464771270752, 'learning_rate': 7.327555837384627e-07, 'epoch': 1.93}


 97%|█████████▋| 15302/15770 [30:49<00:54,  8.64it/s]

{'embedding_loss': 0.0043, 'grad_norm': 0.20748084783554077, 'learning_rate': 6.622983160713028e-07, 'epoch': 1.94}


 97%|█████████▋| 15351/15770 [30:54<00:49,  8.44it/s]

{'embedding_loss': 0.0034, 'grad_norm': 0.24697048962116241, 'learning_rate': 5.91841048404143e-07, 'epoch': 1.95}


 98%|█████████▊| 15402/15770 [31:00<00:41,  8.93it/s]

{'embedding_loss': 0.0068, 'grad_norm': 0.18594487011432648, 'learning_rate': 5.213837807369831e-07, 'epoch': 1.95}


 98%|█████████▊| 15451/15770 [31:06<00:37,  8.51it/s]

{'embedding_loss': 0.0058, 'grad_norm': 0.10991384088993073, 'learning_rate': 4.509265130698232e-07, 'epoch': 1.96}


 98%|█████████▊| 15500/15770 [31:12<00:30,  8.79it/s]

{'embedding_loss': 0.0069, 'grad_norm': 0.11731649190187454, 'learning_rate': 3.804692454026633e-07, 'epoch': 1.97}


 99%|█████████▊| 15551/15770 [31:19<00:25,  8.51it/s]

{'embedding_loss': 0.0081, 'grad_norm': 0.11685499548912048, 'learning_rate': 3.1001197773550346e-07, 'epoch': 1.97}


 99%|█████████▉| 15600/15770 [31:25<00:21,  7.94it/s]

{'embedding_loss': 0.0061, 'grad_norm': 0.21489690244197845, 'learning_rate': 2.395547100683436e-07, 'epoch': 1.98}


 99%|█████████▉| 15651/15770 [31:31<00:14,  8.23it/s]

{'embedding_loss': 0.0039, 'grad_norm': 0.27951347827911377, 'learning_rate': 1.690974424011837e-07, 'epoch': 1.98}


100%|█████████▉| 15701/15770 [31:37<00:08,  8.48it/s]

{'embedding_loss': 0.0065, 'grad_norm': 0.28141674399375916, 'learning_rate': 9.864017473402382e-08, 'epoch': 1.99}


100%|█████████▉| 15751/15770 [31:43<00:02,  8.81it/s]

{'embedding_loss': 0.0048, 'grad_norm': 0.4094780683517456, 'learning_rate': 2.818290706686395e-08, 'epoch': 2.0}


100%|██████████| 15770/15770 [31:47<00:00,  8.27it/s]


{'train_runtime': 1907.3028, 'train_samples_per_second': 132.292, 'train_steps_per_second': 8.268, 'train_loss': 0.010429202906017298, 'epoch': 2.0}


In [14]:
# Speichern des Modells auf deinem PC
model.save_pretrained("models")  # Ersetze den Pfad durch deinen gewünschten Speicherort

In [15]:
# # Modell evaluieren (Nur bei vorhandensein von Testdaten)
# metrics = trainer.evaluate()
# metrics


In [None]:
trainer.push_to_hub("Chernoffface/fs-setfit-multilable-model")

In [None]:
from setfit import SetFitModel

model = SetFitModel.from_pretrained("Chernoffface/fs-setfit-multilable-model")

In [None]:
preds = model(
    [
        "Automation Projects, Automation Methods, Development Methods for Automation Systems, Automation with Qualitative Models, Safety and Reliability of Automation Systems",
        "Inhalt: I) Grundlagen - Motivation - Grundelemente der Quantenmechanik - Erinnerung II) Streuung in der Quantenmechanik - Formulierung des Streuproblems - Partialwellenentwicklung und Streuobservablen - Näherungsmethoden III) Quantenmechanisches Vielteilchenproblem - Unterscheidbare vs. identische Teilchen - Symmetrische und antisymmetrische Vielteilchenzustände - Zweite Quantisierung - Exakte Lösungen und Näherungsmethoden - Hartree-Fock & Gross-Pitaevskii Näherung IV) Relativistische Quantenmechanik - Erinnerung an die spez.",
        "Die Themen umfassen die Architektur moderner Spielesysteme, sowohl Hard- als auch Software, das Zeitmanagement im Millisekundenbereich, das Laden und Komprimieren von Assets sowie das physikalisch basierte Echtzeit-Rendering und Animationen. Weitere Schwerpunkte sind der Umgang mit großen Spielwelten, die Audiomodellierung und -mischung, physikbasierte Simulationen mittels Constraints sowie der Einsatz von künstlicher Intelligenz in Spielen. Zudem werden die Netzwerkkommunikation in Multiplayer-Spielen, die prozedurale Erstellung von Inhalten, die Integration von Skriptsprachen und die Optimierung sowie Parallelisierung von CPU- und GPU-Code behandelt. Die Übungen kombinieren dabei theoretische Grundlagen mit praktischen Anwendungen.",
        "Im Mittelpunkt des Seminars steht die neue Renaissance-Poesie, die aus Italien kommend die traditionelle spanische Lyrik zurückdrängt. Dichtungsformen und Inhalte werden beschrieben und die Wirkung auf die Literatur des siglo de oro festgehalten. Textausgaben: Juan Boscán, Obra completa, ed. Carlos Clavería, Madrid: Cátedra,  ISBN 978-84-376-1685-8 Garcilaso de la Vega, Poesia castellana completa, Madrid: Cátedra ISBN 978-84-376-0067-3 Die Texte sollen angeschafft werden. Weitere Texte werden gegebenenfalls vervielfältigt."
    ]
)
[[f for f, p in zip(features, ps) if p] for ps in preds]