In [None]:
!pip install sentence-transformers pandas

In [None]:
from sentence_transformers import SentenceTransformer, InputExample, losses, models, evaluation
from torch.utils.data import DataLoader
import pandas as pd
import os
import math

# --- 1. CONFIGURAZIONE ---
model_name = 'all-MiniLM-L6-v2'  # Il modello base
train_batch_size = 16            # Numero di coppie per batch (più alto è meglio per questa Loss, ma occhio alla memoria)
num_epochs = 4                   # Numero di passaggi sui dati (non esagerare per evitare overfitting su dataset piccoli)
model_save_path = 'FineTunedModel/fine_tuned_compliance_model' # Cartella dove salvare il modello
csv_file = 'TrainAndTestData/training.csv' # Il file generato nello step precedente

# Verifica esistenza file
if not os.path.exists(csv_file):
    raise FileNotFoundError(f"Il file {csv_file} non esiste! Esegui prima il codice di generazione dati.")

# --- 2. CARICAMENTO DATI ---
print("Caricamento dataset...")
df = pd.read_csv(csv_file)

# Convertiamo il DataFrame in una lista di oggetti InputExample
train_examples = []
for i, row in df.iterrows():
    # InputExample accetta una lista di testi. Qui ne passiamo due: [Anchor, Positive]
    train_examples.append(InputExample(texts=[str(row['anchor']), str(row['positive'])]))

print(f"Dataset caricato: {len(train_examples)} coppie di training.")

# Creazione del DataLoader
# Shuffle è importante!
train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=train_batch_size)

# --- 3. INIZIALIZZAZIONE MODELLO ---
print(f"Scaricamento modello base: {model_name}...")
model = SentenceTransformer(model_name)

# --- 4. DEFINIZIONE DELLA LOSS FUNCTION ---
# MultipleNegativesRankingLoss è ottima quando hai solo coppie positive.
# Usa gli altri campioni nel batch come negativi impliciti.
train_loss = losses.MultipleNegativesRankingLoss(model=model)

# --- 5. CALCOLO PASSI DI WARMUP ---
# Il warmup aiuta a stabilizzare il training all'inizio
warmup_steps = math.ceil(len(train_dataloader) * num_epochs * 0.1) # 10% del training

# --- 6. TRAINING ---
print("Inizio del fine-tuning...")
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=num_epochs,
    warmup_steps=warmup_steps,
    show_progress_bar=True,
    output_path=model_save_path # Salva automaticamente qui alla fine
)

print(f"\n✅ Training completato! Il modello è stato salvato in: '{model_save_path}'")