In [2]:
# Vollständige Minimalversion eines Trainingsskripts für ein SimilarBERT-Modell mit Triplet Loss, basierend auf textbasierten Triplets in einer CSV-Datei mit den Spalten anchor, positive, negative.
!pip install -U sentence-transformers

Defaulting to user installation because normal site-packages is not writeable


In [3]:
# Trainingsskript: train_similarbert.py
from sentence_transformers import SentenceTransformer, InputExample, losses
from torch.utils.data import DataLoader
import pandas as pd
import os


In [4]:
# ======================
# 1. Daten laden
# ======================
csv_path = 'text_triplets.csv'  # Pfad zu deiner CSV mit anchor, positive, negative
df = pd.read_csv(csv_path)

# Liste von InputExamples erzeugen
train_examples = [
    InputExample(texts=[row['anchor'], row['positive'], row['negative']])
    for _, row in df.iterrows()
]



In [5]:
# ======================
# 2. Modell & Loss definieren
# ======================
model = SentenceTransformer('distiluse-base-multilingual-cased-v2')  # oder z.B. 'all-MiniLM-L6-v2'

# TripletLoss-Objekt erstellen
train_loss = losses.TripletLoss(model=model)

# DataLoader mit Trainingsbeispielen
train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=32)



In [6]:
# ======================
# 3. Training
# ======================
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=5,
    warmup_steps=100,
    show_progress_bar=True,
    output_path='similarbert_model',           # ← finales Modell am Schluss
    checkpoint_path='checkpoints/',            # ← Teilschritte hier speichern
    checkpoint_save_steps=500,                 # ← alle 500 Schritte speichern
    checkpoint_save_total_limit=3              # ← max. 3 Checkpoints behalten
)
print("✅ Training abgeschlossen! Modell gespeichert in 'similarbert_model'")


Computing widget examples:   0%|          | 0/1 [00:00<?, ?example/s]

Step,Training Loss
500,3.477
1000,1.8519


✅ Training abgeschlossen! Modell gespeichert in 'similarbert_model'


In [None]:
#Modell später neu laden:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('similarbert_model')


In [None]:
#Modell verwenden wie jedes andere SBERT-Modell:
emb = model.encode("Ein Beispielsatz", convert_to_tensor=True)
