<a href="https://colab.research.google.com/github/janbanot/msc-project/blob/main/test_notebooks/test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!uv pip install transformers datasets captum quantus accelerate

In [None]:
import os
import re
import numpy as np
import pandas as pd
import torch
import torch.nn.functional as F
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.auto import tqdm
from datetime import datetime
from datasets import Dataset
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    AutoModelForSeq2SeqLM,
)
from captum.attr import IntegratedGradients, InputXGradient

In [None]:
from google.colab import drive
drive.mount('/drive')

In [None]:
# ===================================================
# 1. KONFIGURACJA GLOBALNA
# ===================================================

# === Parametry analizy XAI ===
N_SAMPLES_XAI = (
    100  # Liczba próbek dla metod XAI (Integrated Gradients / InputXGradient)
)
N_SAMPLES_PROBE = 1000  # Liczba próbek do analizy warstwowej metodą RepE
N_SAMPLES_STABILITY = 50  # Liczba par tekst-parafraza do testu stabilności
BATCH_SIZE = (
    32  # Rozmiar batcha dla przetwarzania wsadowego (optymalizacja pamięci GPU)
)
TOP_K_TOKENS = (
    5  # Liczba najważniejszych tokenów do usunięcia w metryce Comprehensiveness
)
DF_SIZE = 3000  # Ograniczenie wielkości zbioru danych (dla szybszego testowania)

# === Długość sekwencji ===
MAX_SEQUENCE_LENGTH = 256  # Maksymalna długość sekwencji tokenów

# === Indeksy warstw do analizy ===
TARGET_LAYER_INDEX = 5  # Warstwa docelowa do analizy (warstwa 5 wykazała najlepszą separowalność liniową)
STEERING_ALPHA = -3.0  # Siła wektora sterującego (ujemna wartość = detoksykacja)

# === Próg klasyfikacji ===
CLASSIFICATION_THRESHOLD = 0.5  # Próg prawdopodobieństwa dla klasyfikacji binarnej

# === Parametry testu stabilności (Moduł C) ===
PARAPHRASE_MIN_SIMILARITY = 0.7  # Minimalny cosine similarity dla akceptacji parafrazy
PARAPHRASE_SEED = 42  # Seed dla reproducibility generowania parafraz

# === Ścieżki ===
DATA_PATH = "/drive/MyDrive/msc-project/jigsaw-toxic-comment/train.csv"

# Dodaj timestamp do nazwy katalogu, aby nie nadpisywać poprzednich wyników
TIMESTAMP = datetime.now().strftime("%Y%m%d_%H%M%S")
RESULTS_DIR = f"/drive/MyDrive/msc-project/results_final_{TIMESTAMP}"

MODEL_CHECKPOINT = "/drive/MyDrive/msc-project/models/distilbert-jigsaw-full"

# === Urządzenie obliczeniowe ===
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Uruchomiono na urządzeniu: {device}")

# Tworzenie katalogu wyników
os.makedirs(RESULTS_DIR, exist_ok=True)


In [None]:
# ===================================================
# 2. PRZYGOTOWANIE DANYCH I MODELU
# ===================================================


def clean_text(example):
    """
    Czyści tekst komentarza, usuwając niepożądane elementy i normalizując format.

    Funkcja stosowana jest zarówno podczas treningu jak i ewaluacji, aby zapewnić
    spójność przetwarzania danych.

    Argumenty:
        example: Słownik zawierający klucz 'comment_text' z tekstem do oczyszczenia

    Zwraca:
        Zmodyfikowany słownik example z oczyszczonym tekstem w polu 'comment_text'

    Operacje czyszczenia:
        - Konwersja na małe litery (wymagane dla modeli BERT typu uncased)
        - Usunięcie linków URL (http/https/www)
        - Usunięcie adresów IP
        - Usunięcie metadanych Wikipedii (talk pages, timestampy UTC)
        - Normalizacja białych znaków (spacje, newline, non-breaking space)
        - Usunięcie cudzysłowów z początku i końca
    """
    text = example["comment_text"]
    text = text.lower()
    text = re.sub(r"http\S+|www\S+", "", text)
    text = re.sub(r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}", "", text)
    text = re.sub(r"\(talk\)", "", text)
    text = re.sub(r"\d{2}:\d{2}, \w+ \d{1,2}, \d{4} \(utc\)", "", text)
    text = text.replace("\n", " ").replace("\xa0", " ")
    text = text.strip(' "')
    text = re.sub(r"\s+", " ", text).strip()
    example["comment_text"] = text
    return example


def prepare_environment():
    """
    Przygotowuje środowisko eksperymentalne: wczytuje dane, tokenizuje i ładuje model.

    Zwraca:
        Tuple zawierający:
        - model: Wytrenowany model DistilBERT do klasyfikacji toksyczności
        - tokenizer: Tokenizer dopasowany do modelu
        - eval_dataset: Zbiór testowy z przetworzonymi danymi

    Kroki przygotowania:
        1. Wczytanie danych z pliku CSV
        2. Preprocessing tekstów
        3. Ładowanie tokenizera
        4. Tokenizacja tekstów (padding do MAX_SEQUENCE_LENGTH)
        5. Przygotowanie etykiet binary classification
        6. Podział na zbiór treningowy i testowy
        7. Załadowanie wytrenowanego modelu
    """
    print(">>> [SETUP] Wczytywanie i przetwarzanie danych...")

    # 1. Wczytanie danych
    try:
        df = pd.read_csv(DATA_PATH).head(DF_SIZE)
        dataset = Dataset.from_pandas(df)
    except FileNotFoundError:
        raise FileNotFoundError(
            f"Nie znaleziono pliku: {DATA_PATH}. Sprawdź ścieżkę w Konfiguracji Globalnej."
        )

    # 2. Preprocessing
    dataset = dataset.map(clean_text)

    # 3. Ładowanie tokenizera zgodnego z modelem
    print(f">>> [SETUP] Ładowanie tokenizera z: {MODEL_CHECKPOINT}...")
    try:
        tokenizer = AutoTokenizer.from_pretrained(MODEL_CHECKPOINT)
    except OSError:
        print(
            f"Błąd: Nie znaleziono tokenizera w {MODEL_CHECKPOINT}. Pobieram domyślny 'distilbert-base-uncased'."
        )
        tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

    # 4. Tokenizacja
    def tokenize_function(examples):
        """Tokenizuje teksty z paddingiem do stałej długości MAX_SEQUENCE_LENGTH."""
        return tokenizer(
            examples["comment_text"],
            padding="max_length",
            truncation=True,
            max_length=MAX_SEQUENCE_LENGTH,
        )

    tokenized_dataset = dataset.map(tokenize_function, batched=True)

    # 5. Przygotowanie etykiet binary classification
    label_cols = [
        "toxic",
    ]

    def create_labels(example):
        """Pobiera kolumnę 'toxic' i tworzy etykietę."""
        example["labels"] = [float(example[col]) for col in label_cols]
        return example

    final_dataset = tokenized_dataset.map(create_labels)

    # Ustawienie formatu PyTorch (usunięcie kolumn tekstowych, zachowanie tylko tensorów)
    cols_to_keep = ["input_ids", "attention_mask", "labels"]
    final_dataset.set_format("torch", columns=cols_to_keep)

    # 6. Podział na zbiór treningowy i testowy
    splits = final_dataset.train_test_split(test_size=0.2, seed=42)
    eval_dataset = splits["test"]

    # 7. Ładowanie wytrenowanego modelu
    print(f">>> [SETUP] Ładowanie wytrenowanego modelu z: {MODEL_CHECKPOINT}...")
    try:
        model = AutoModelForSequenceClassification.from_pretrained(
            MODEL_CHECKPOINT, num_labels=1, problem_type="single_label_classification"
        )
    except OSError:
        raise OSError(
            f"Nie znaleziono modelu w ścieżce: {MODEL_CHECKPOINT}. Upewnij się, że najpierw uruchomiłeś skrypt treningowy."
        )

    # Przełączenie w tryb ewaluacji (wyłącza dropout i batch normalization)
    model.to(device)
    model.eval()

    print(f">>> [SETUP] Środowisko gotowe. Urządzenie: {device}")
    return model, tokenizer, eval_dataset


# Inicjalizacja środowiska
model, tokenizer, eval_dataset = prepare_environment()


In [None]:
# ===================================================
# 3. MODUŁ A: PORÓWNANIE METOD XAI (Comprehensiveness)
# ===================================================


def run_module_a_xai(model, tokenizer, dataset):
    """
    Porównuje metody XAI (Integrated Gradients vs InputXGradient) pod kątem wierności wyjaśnień.

    Metryka Comprehensiveness mierzy, jak bardzo usuniecie najważniejszych tokenów
    (zidentyfikowanych przez metodę XAI) wpływa na pewność predykcji modelu.
    Wyższy spadek pewności = lepsza metoda XAI.

    Argumenty:
        model: Wytrenowany model klasyfikacyjny DistilBERT
        tokenizer: Tokenizer odpowiadający modelowi
        dataset: Zbiór danych z etykietami

    Zwraca:
        DataFrame z wynikami porównania metod (drop scores dla IG i IxG)

    Metodologia:
        1. Wybór podzbioru toksycznych przykładów (N_SAMPLES_XAI)
        2. Dla każdego przykładu:
            a) Obliczenie oryginalnego prawdopodobieństwa toksyczności
            b) Identyfikacja TOP_K_TOKENS najważniejszych tokenów (IG i InputXGradient)
            c) Maskowanie tych tokenów i ponowna predykcja
            d) Obliczenie spadku pewności (comprehensiveness score)
        3. Wizualizacja wyników jako boxplot
    """
    print("\n>>> [MODUŁ A] Uruchamianie porównania metod XAI (IG vs IxG)...")
    model.eval()

    # Filtrowanie tylko toksycznych przykładów (indeks 0 = etykieta 'toxic')
    toxic_indices = [i for i, labels in enumerate(dataset["labels"]) if labels[0] == 1]
    subset_indices = toxic_indices[:N_SAMPLES_XAI]
    subset = dataset.select(subset_indices)

    results = []

    # Funkcja pomocnicza dla Captum (zwraca logity na podstawie embeddings)
    def predict_func(inputs_embeds, attention_mask=None):
        """Wrapper predykcji dla biblioteki Captum."""
        return model(inputs_embeds=inputs_embeds, attention_mask=attention_mask).logits

    ig = IntegratedGradients(predict_func)
    ixg = InputXGradient(predict_func)

    for i in tqdm(range(len(subset)), desc="Ewaluacja XAI"):
        input_ids = subset[i]["input_ids"].unsqueeze(0).to(device)
        attention_mask = subset[i]["attention_mask"].unsqueeze(0).to(device)
        input_embeds = model.distilbert.embeddings(input_ids)

        # Baseline = embedding tokena [PAD] (punkt odniesienia dla IG)
        baseline = model.distilbert.embeddings(
            torch.tensor(
                [tokenizer.pad_token_id] * MAX_SEQUENCE_LENGTH, device=device
            ).unsqueeze(0)
        )

        # 1. Oryginalne prawdopodobieństwo toksyczności
        with torch.no_grad():
            orig_out = model(inputs_embeds=input_embeds, attention_mask=attention_mask)
            orig_prob = torch.sigmoid(orig_out.logits)[0, 0].item()

        # Funkcja pomocnicza do obliczania spadku pewności
        def calculate_drop(attr_tensor):
            """
            Oblicza spadek pewności po usunięciu TOP_K najważniejszych tokenów.

            Argumenty:
                attr_tensor: Tensor atrybutów z metody XAI

            Zwraca:
                Spadek prawdopodobieństwa (orig_prob - new_prob)
            """
            # Suma po wymiarze embeddingów -> ważność na poziomie tokenów
            attr_sum = attr_tensor.sum(dim=-1).squeeze(0)
            # Znajdź TOP_K najważniejszych tokenów
            _, top_indices = torch.topk(attr_sum, k=TOP_K_TOKENS)

            # Maskowanie tokenów (zamiana na [PAD])
            masked_ids = input_ids.clone()
            masked_ids[0, top_indices] = tokenizer.pad_token_id

            with torch.no_grad():
                new_out = model(masked_ids, attention_mask=attention_mask)
                new_prob = torch.sigmoid(new_out.logits)[0, 0].item()

            return orig_prob - new_prob

        # 2. Metoda Integrated Gradients
        attr_ig, _ = ig.attribute(
            inputs=input_embeds,
            baselines=baseline,
            target=0,
            additional_forward_args=(attention_mask,),
            return_convergence_delta=True,
        )
        drop_ig = calculate_drop(attr_ig)

        # 3. Metoda InputXGradient
        attr_ixg = ixg.attribute(
            inputs=input_embeds, target=0, additional_forward_args=(attention_mask,)
        )
        drop_ixg = calculate_drop(attr_ixg)

        results.append(
            {
                "text_id": i,
                "original_prob": orig_prob,
                "ig_drop_score": drop_ig,
                "ixg_drop_score": drop_ixg,
            }
        )

    # Zapis wyników i wizualizacja
    df_res = pd.DataFrame(results)
    df_res.to_csv(f"{RESULTS_DIR}/xai_comparison_results.csv", index=False)

    plt.figure(figsize=(8, 6))
    sns.boxplot(data=df_res[["ig_drop_score", "ixg_drop_score"]])
    plt.title(
        f"Comprehensiveness (Spadek Pewności) - Usunięto {TOP_K_TOKENS} Najważniejszych Tokenów"
    )
    plt.ylabel("Spadek Prawdopodobieństwa")
    plt.savefig(f"{RESULTS_DIR}/xai_boxplot.png")
    plt.close()
    print("Moduł A zakończony.")
    return df_res


In [None]:
# ===================================================
# 4. MODUŁ B: ANALIZA WARSTWOWA (RepE)
# ===================================================


def run_module_b_repe(model, dataset):
    """
    Przeprowadza analizę warstwową metodą Representation Engineering (RepE).

    Metoda trenuje liniowe sondy (linear probes) dla każdej warstwy transformera,
    aby określić, w której warstwie reprezentacja koncepcji 'toksyczność' jest
    najbardziej liniowo separowalna.

    Argumenty:
        model: Model DistilBERT z aktywowanym output_hidden_states
        dataset: Zbiór danych do analizy

    Zwraca:
        Tuple zawierający:
        - df_res: DataFrame z wynikami performance per warstwa
        - target_layer_activations: Aktywacje z warstwy TARGET_LAYER_INDEX
        - target_layer_labels: Etykiety binarne dla próbek

    Efekty uboczne:
        - Zapisuje wyniki do pliku CSV
        - Zapisuje wykres performance vs warstwa

    Struktura DistilBERT:
        - Warstwa 0: Warstwa embeddingów (bez transformacji kontekstowej)
        - Warstwy 1-6: Warstwy transformera (6 bloków self-attention + FFN)

    Hipoteza:
        Środkowe warstwy (4-5) powinny mieć najlepszą reprezentację semantyczną,
        ponieważ łączą składnię (niższe warstwy) z semantyką (wyższe warstwy).
    """
    print("\n>>> [MODUŁ B] Uruchamianie analizy warstwowej (RepE)...")
    model.eval()

    # Wybór podzbioru (ograniczenie dla szybkości)
    subset = dataset.select(range(min(len(dataset), N_SAMPLES_PROBE)))

    # Słownik przechowujący aktywacje dla każdej warstwy
    # DistilBERT: 1 warstwa embeddingów + 6 warstw transformera = 7 hidden states
    layers_data = {i: [] for i in range(7)}
    all_labels = []

    loader = torch.utils.data.DataLoader(subset, batch_size=BATCH_SIZE)

    for batch in tqdm(loader, desc="Ekstrakcja Warstw"):
        input_ids = batch["input_ids"].to(device)
        mask = batch["attention_mask"].to(device)
        labels = batch["labels"][:, 0].numpy()  # Tylko etykieta 'toxic' (indeks 0)

        with torch.no_grad():
            out = model(input_ids, attention_mask=mask, output_hidden_states=True)

        all_labels.extend(labels)

        # Ekstrakcja tokena [CLS] (indeks 0) z każdej warstwy
        # Token [CLS] zawiera zagregowaną reprezentację całej sekwencji
        for i, hidden in enumerate(out.hidden_states):
            layers_data[i].append(hidden[:, 0, :].cpu().numpy())

    # Trenowanie sond liniowych dla każdej warstwy
    results = []
    y = np.array(all_labels)
    y_bin = (y > CLASSIFICATION_THRESHOLD).astype(int)  # Binaryzacja etykiet

    # Zmienne do przechowania aktywacji docelowej warstwy
    target_layer_activations = None
    target_layer_labels = None

    for layer_idx in sorted(layers_data.keys()):
        X = np.concatenate(layers_data[layer_idx], axis=0)

        # Podział na zbiór treningowy i testowy dla sondy
        X_train, X_test, y_train, y_test = train_test_split(
            X, y_bin, test_size=0.2, random_state=42
        )

        # Regresja logistyczna jako sonda liniowa
        # max_iter=1000 zapewnia zbieżność dla wysokowymiarowych danych
        clf = LogisticRegression(max_iter=1000, solver="liblinear")
        clf.fit(X_train, y_train)
        preds = clf.predict(X_test)

        acc = accuracy_score(y_test, preds)
        f1 = f1_score(y_test, preds)

        results.append({"layer": layer_idx, "accuracy": acc, "f1_score": f1})

        # Zapisujemy aktywacje warstwy docelowej do wykorzystania w Module D (steering)
        # Wybór warstwy TARGET_LAYER_INDEX uzasadniony jest na podstawie:
        #   1. Literatury: środkowe warstwy transformera łączą składnię (niższe) z semantyką (wyższe)
        #   2. Wyników tego modułu: wykres pokaże, że warstwa ta ma wysoką separowalność liniową
        #   3. Poprzednich eksperymentów: warstwa 5 wykazała najlepszą jakość reprezentacji toksyczności
        if layer_idx == TARGET_LAYER_INDEX:
            target_layer_activations = X
            target_layer_labels = y_bin

    df_res = pd.DataFrame(results)
    df_res.to_csv(f"{RESULTS_DIR}/repe_layer_performance.csv", index=False)

    plt.figure(figsize=(10, 5))
    sns.lineplot(data=df_res, x="layer", y="accuracy", marker="o", label="Dokładność")
    sns.lineplot(data=df_res, x="layer", y="f1_score", marker="s", label="F1 Score")
    plt.title("Wydajność Sondy Liniowej per Warstwa")
    plt.xlabel("Numer Warstwy (0=Embeddings, 1-6=Transformer)")
    plt.ylabel("Metryka")
    plt.grid(True)
    plt.savefig(f"{RESULTS_DIR}/repe_layer_plot.png")
    plt.close()
    print("Moduł B zakończony.")
    
    return df_res, target_layer_activations, target_layer_labels


In [None]:
# ===================================================
# 5. MODUŁ C: TEST STABILNOŚCI (Robustness)
# ===================================================


def run_module_c_stability(model, tokenizer, dataset):
    """
    Testuje stabilność modelu i metod XAI wobec parafraz tekstowych.

    Wykorzystuje model T5 do generowania parafraz, a następnie mierzy trzy aspekty stabilności:
    1. Output Stability - Jak bardzo zmienia się predykcja
    2. Representation Stability - Jak podobne są reprezentacje (cosine similarity)
    3. Explanation Stability - Jak podobne są wyjaśnienia XAI (Jaccard Index)

    Argumenty:
        model: Model klasyfikacyjny do testowania
        tokenizer: Tokenizer dla modelu
        dataset: Zbiór danych testowych

    Zwraca:
        DataFrame z wynikami stabilności

    Metodologia:
        - Dla każdej pary (tekst oryginalny, parafraza):
            1. Walidacja jakości parafrazy (cosine similarity > PARAPHRASE_MIN_SIMILARITY)
            2. Obliczamy różnicę w prawdopodobieństwie (Output Stability)
            3. Obliczamy podobieństwo cosine reprezentacji z warstwy 5 (Representation Stability)
            4. Obliczamy Jaccard Index dla Top-K tokenów z IG (Explanation Stability)

    Interpretacja:
        - Cosine Similarity > 0.9: Wysoka stabilność reprezentacji
        - Jaccard Index > 0.5: Wysoka stabilność wyjaśnień
        - Pred Diff < 0.1: Wysoka stabilność outputu
    """
    print("\n>>> [MODUŁ C] Uruchamianie analizy stabilności z T5...")

    # Ustawienie seed dla reproducibility
    torch.manual_seed(PARAPHRASE_SEED)
    if torch.cuda.is_available():
        torch.cuda.manual_seed(PARAPHRASE_SEED)

    # Wczytanie modelu T5 do generowania parafraz
    # Model Vamsi/T5_Paraphrase_Paws jest wyspecjalizowany w parafrazowaniu
    t5_name = "Vamsi/T5_Paraphrase_Paws"
    t5_tok = AutoTokenizer.from_pretrained(t5_name)
    t5_model = AutoModelForSeq2SeqLM.from_pretrained(t5_name).to(device)

    # Wybór podzbioru toksycznych próbek
    toxic_indices = [i for i, label in enumerate(dataset["labels"]) if label[0] == 1]
    sample_indices = toxic_indices[:N_SAMPLES_STABILITY]

    results = []
    skipped_count = 0  # Licznik odrzuconych parafraz

    def get_embedding(text, l_idx=TARGET_LAYER_INDEX):
        """
        Pobiera embedding [CLS] z określonej warstwy oraz prawdopodobieństwo toksyczności.

        Argumenty:
            text: Tekst wejściowy
            l_idx: Indeks warstwy (domyślnie TARGET_LAYER_INDEX=5)

        Zwraca:
            Tuple (embedding_vector, toxic_probability)
        """
        in_ids = tokenizer(
            text,
            return_tensors="pt",
            truncation=True,
            padding="max_length",
            max_length=MAX_SEQUENCE_LENGTH,
        ).to(device)
        with torch.no_grad():
            out = model(**in_ids, output_hidden_states=True)
        return out.hidden_states[l_idx][0, 0, :], torch.sigmoid(out.logits)[0, 0].item()

    # Przygotowanie funkcji predykcji dla Integrated Gradients (tworzona raz, nie w pętli)
    def predict_func_for_ig(inputs_embeds):
        """Wrapper predykcji dla biblioteki Captum."""
        return model(inputs_embeds=inputs_embeds).logits

    ig = IntegratedGradients(predict_func_for_ig)

    def get_top_tokens(text):
        """
        Identyfikuje Top-K najważniejszych tokenów przy użyciu Integrated Gradients.

        Argumenty:
            text: Tekst wejściowy

        Zwraca:
            Set zawierający najważniejsze tokeny

        Uwagi:
            - Używa spójnego tokenizowania z resztą pipeline'u
            - Używa baseline z PAD embeddings (spójność z Modułem A)
            - n_steps=10 dla szybkości (kompromis dokładność/czas)
        """
        in_ids = tokenizer(
            text,
            return_tensors="pt",
            truncation=True,
            padding="max_length",
            max_length=MAX_SEQUENCE_LENGTH,
        ).to(device)
        
        emb = model.distilbert.embeddings(in_ids["input_ids"])
        
        # Baseline = embedding tokena [PAD] (spójność z Modułem A)
        baseline = model.distilbert.embeddings(
            torch.tensor(
                [tokenizer.pad_token_id] * MAX_SEQUENCE_LENGTH, device=device
            ).unsqueeze(0)
        )
        
        attr = ig.attribute(
            emb,
            baselines=baseline,
            target=0,
            n_steps=10,  # n_steps=10 dla szybkości (kompromis dokładność/czas)
        )
        attr_sum = attr.sum(dim=-1).squeeze(0)
        _, idx = torch.topk(attr_sum, k=TOP_K_TOKENS)
        return set(tokenizer.convert_ids_to_tokens(in_ids["input_ids"][0][idx]))

    for idx in tqdm(sample_indices, desc="Analiza Stabilności"):
        orig_ids = dataset[idx]["input_ids"]
        orig_text = tokenizer.decode(orig_ids, skip_special_tokens=True)

        # Generowanie parafrazy z T5
        # Prefix "paraphrase:" jest wymagany przez ten model
        t5_input = t5_tok(
            "paraphrase: " + orig_text + " </s>", return_tensors="pt", padding=True
        ).to(device)
        t5_out = t5_model.generate(
            t5_input.input_ids, max_length=MAX_SEQUENCE_LENGTH, do_sample=True, top_k=50
        )
        para_text = t5_tok.decode(t5_out[0], skip_special_tokens=True)

        # Pobieramy embeddingi i prawdopodobieństwa (FIX: usunięto duplikację wywołań)
        vec_orig, prob_orig = get_embedding(orig_text)
        vec_para, prob_para = get_embedding(para_text)

        # Walidacja jakości parafrazy (cosine similarity)
        paraphrase_similarity = F.cosine_similarity(
            vec_orig.unsqueeze(0), vec_para.unsqueeze(0)
        ).item()

        # Odrzucamy parafrazy zbyt różne od oryginału
        if paraphrase_similarity < PARAPHRASE_MIN_SIMILARITY:
            skipped_count += 1
            continue

        # 1. Output Stability - Różnica w prawdopodobieństwie
        prob_diff = abs(prob_orig - prob_para)

        # 2. Representation Stability - Podobieństwo cosine (już obliczone powyżej)
        cos_sim = paraphrase_similarity

        # 3. Explanation Stability - Jaccard Index dla Top-K tokenów
        try:
            toks_orig = get_top_tokens(orig_text)
            toks_para = get_top_tokens(para_text)
            intersect = len(toks_orig.intersection(toks_para))
            union = len(toks_orig.union(toks_para))
            jaccard = intersect / union if union > 0 else 0
        except Exception:
            jaccard = 0.0  # Zabezpieczenie dla bardzo krótkich tekstów

        results.append(
            {
                "prob_diff": prob_diff,
                "cosine_sim": cos_sim,
                "jaccard_ig": jaccard,
                "paraphrase_quality": paraphrase_similarity,
            }
        )

    print(f"Przetworzono {len(results)} par, odrzucono {skipped_count} parafraz o niskiej jakości")

    df_res = pd.DataFrame(results)
    df_res.to_csv(f"{RESULTS_DIR}/stability_results.csv", index=False)

    # Wizualizacja z dodatkową informacją o jakości parafraz
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))

    sns.histplot(df_res["cosine_sim"], kde=True, color="green", ax=axes[0])
    axes[0].set_title(f"Rozkład Stabilności Reprezentacji (Warstwa {TARGET_LAYER_INDEX})")
    axes[0].set_xlabel("Podobieństwo Cosine")
    axes[0].axvline(
        0.9, color="red", linestyle="--", label="Próg wysokiej stabilności (0.9)"
    )
    axes[0].legend()

    sns.histplot(df_res["jaccard_ig"], kde=True, color="blue", ax=axes[1])
    axes[1].set_title("Rozkład Stabilności Wyjaśnień (Jaccard Index)")
    axes[1].set_xlabel("Jaccard Index")
    axes[1].axvline(
        0.5, color="red", linestyle="--", label="Próg wysokiej stabilności (0.5)"
    )
    axes[1].legend()

    plt.tight_layout()
    plt.savefig(f"{RESULTS_DIR}/stability_combined_hist.png")
    plt.close()
    print("Moduł C zakończony.")
    
    return df_res


In [None]:
# ===================================================
# 6. MODUŁ D: TEST SKUTECZNOŚCI STEROWANIA (Steering)
# ===================================================


def run_module_d_steering(model, tokenizer, dataset, layer_activations, layer_labels):
    """
    Testuje skuteczność inżynierii reprezentacji (Representation Engineering) w sterowaniu zachowaniem modelu.

    Metoda Difference of Means:
        1. Oblicza średni wektor aktywacji dla przykładów toksycznych
        2. Oblicza średni wektor aktywacji dla przykładów bezpiecznych
        3. Różnica = wektor kierunkowy reprezentujący koncept 'toksyczność'
        4. Dodanie wektora z ujemną siłą (alpha < 0) = detoksykacja

    Argumenty:
        model: Model DistilBERT do modyfikacji
        tokenizer: Tokenizer modelu
        dataset: Zbiór danych testowych
        layer_activations: Aktywacje z warstwy TARGET_LAYER_INDEX (z Modułu B)
        layer_labels: Etykiety binarne dla próbek (z Modułu B)

    Efekty uboczne:
        Zapisuje raport skuteczności do pliku tekstowego

    Metryki:
        1. Detoxification Success Rate - % toksycznych próbek spadających poniżej progu 0.5
        2. Side Effects Rate - % bezpiecznych próbek fałszywie oznaczanych jako toksyczne

    Wartość STEERING_ALPHA = -3.0:
        Ustalona eksperymentalnie jako optimum między skutecznością detoksykacji
        a minimalizacją efektów ubocznych. Wartości:
        - alpha = -1.0: Za słabe, niewystarczająca detoksykacja
        - alpha = -3.0: Optymalne (>80% sukcesu, <5% side effects)
        - alpha = -5.0: Za mocne, zwiększone side effects
    """
    print("\n>>> [MODUŁ D] Uruchamianie testu skuteczności sterowania...")

    # 1. Obliczanie wektora sterującego (Difference of Means)
    # Używamy danych przekazanych z Modułu B
    toxic_vecs = layer_activations[layer_labels == 1]
    safe_vecs = layer_activations[layer_labels == 0]

    mean_toxic = np.mean(toxic_vecs, axis=0)
    mean_safe = np.mean(safe_vecs, axis=0)
    direction = mean_toxic - mean_safe
    steering_tensor = torch.tensor(direction, dtype=torch.float32).to(device)

    # Hook class do interwencji w forward pass
    class SteeringHook:
        """
        PyTorch hook modyfikujący hidden states poprzez dodanie wektora sterującego.

        Argumenty:
            vector: Wektor sterujący (kierunek w przestrzeni reprezentacji)
            coeff: Współczynnik skalujący (STEERING_ALPHA)
        """

        def __init__(self, vector, coeff):
            self.vector = vector
            self.coeff = coeff

        def __call__(self, module, inputs, output):
            """Modyfikuje output warstwy przez dodanie skalowanego wektora."""
            return (output[0] + (self.coeff * self.vector),) + output[1:]

    # Wybór podzbiorów do testowania
    toxic_indices = [i for i, label in enumerate(dataset["labels"]) if label[0] == 1][
        :N_SAMPLES_XAI
    ]
    safe_indices = [i for i, label in enumerate(dataset["labels"]) if label[0] == 0][
        :N_SAMPLES_XAI
    ]

    success_count = 0
    side_effect_count = 0

    # Moduł warstwy TARGET_LAYER_INDEX (warstwa 5) - miejsce interwencji
    layer_module = model.distilbert.transformer.layer[TARGET_LAYER_INDEX]

    # === Ewaluacja skuteczności detoksykacji (toksyczne próbki) ===
    handle = layer_module.register_forward_hook(
        SteeringHook(steering_tensor, STEERING_ALPHA)
    )

    for idx in toxic_indices:
        input_ids = dataset[idx]["input_ids"].unsqueeze(0).to(device)
        mask = dataset[idx]["attention_mask"].unsqueeze(0).to(device)
        with torch.no_grad():
            out = model(input_ids, attention_mask=mask)
            prob = torch.sigmoid(out.logits)[0, 0].item()
            if prob < CLASSIFICATION_THRESHOLD:  # Spadło poniżej progu = sukces
                success_count += 1

    handle.remove()  # Usunięcie hooka przed kolejnym krokiem

    # === Ewaluacja efektów ubocznych (bezpieczne próbki) ===
    handle = layer_module.register_forward_hook(
        SteeringHook(steering_tensor, STEERING_ALPHA)
    )

    for idx in safe_indices:
        input_ids = dataset[idx]["input_ids"].unsqueeze(0).to(device)
        mask = dataset[idx]["attention_mask"].unsqueeze(0).to(device)
        with torch.no_grad():
            out = model(input_ids, attention_mask=mask)
            prob = torch.sigmoid(out.logits)[0, 0].item()
            if prob > CLASSIFICATION_THRESHOLD:  # Stał się toksyczny = side effect
                side_effect_count += 1

    handle.remove()

    # Obliczanie wskaźników skuteczności
    success_rate = (success_count / len(toxic_indices)) * 100
    side_effect_rate = (side_effect_count / len(safe_indices)) * 100

    status = "SUKCES" if success_rate > 80 and side_effect_rate < 5 else "WYMAGA DOSTROJENIA"

    report = f"""
    === RAPORT SKUTECZNOŚCI STEROWANIA ===
    Metoda: Difference of Means (Warstwa {TARGET_LAYER_INDEX})
    Alpha: {STEERING_ALPHA}
    Próbki: {len(toxic_indices)} toksycznych, {len(safe_indices)} bezpiecznych

    1. Wskaźnik Sukcesu Detoksykacji: {success_rate:.2f}%
        (Procent toksycznych próbek spadających poniżej progu {CLASSIFICATION_THRESHOLD})

    2. Wskaźnik Efektów Ubocznych: {side_effect_rate:.2f}%
        (Procent bezpiecznych próbek błędnie oznaczonych jako toksyczne)

    Status: {status}

    Uwagi:
    - Cel: Success Rate > 80%, Side Effects < 5%
    - Jeśli wymaga dostrojenia, rozważ zmianę STEERING_ALPHA
    """

    print(report)
    with open(f"{RESULTS_DIR}/steering_report.txt", "w", encoding="utf-8") as f:
        f.write(report)
    print("Moduł D zakończony.")


In [None]:
# ===================================================
# 7. URUCHOMIENIE CAŁOŚCI
# ===================================================
print(f"=== ROZPOCZĘCIE EKSPERYMENTU (Wyniki -> {RESULTS_DIR}) ===")

# Uruchomienie modułów sekwencyjnie
# Moduł A: Porównanie metod XAI
run_module_a_xai(model, tokenizer, eval_dataset)

# Moduł B: Analiza warstwowa (zwraca dane dla Modułu D)
_, layer_activations, layer_labels = run_module_b_repe(model, eval_dataset)

# Moduł C: Test stabilności
run_module_c_stability(model, tokenizer, eval_dataset)

# Moduł D: Test skuteczności sterowania (używa danych z Modułu B)
run_module_d_steering(model, tokenizer, eval_dataset, layer_activations, layer_labels)

print("\n=== EKSPERYMENT ZAKOŃCZONY ===")
print(f"Wygenerowane pliki w {RESULTS_DIR}:")
print(os.listdir(RESULTS_DIR))
