<a href="https://colab.research.google.com/github/janbanot/msc-project/blob/main/test_notebooks/test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!uv pip install transformers datasets captum quantus accelerate bitsandbytes

In [None]:
import os
import re
import numpy as np
import pandas as pd
import torch
import torch.nn.functional as F
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.auto import tqdm
from datetime import datetime
from datasets import Dataset
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    AutoModelForSeq2SeqLM,
    AutoModelForCausalLM,
    BitsAndBytesConfig,
)
from captum.attr import IntegratedGradients, InputXGradient

In [None]:
from google.colab import drive
drive.mount('/drive')

In [None]:
# ===================================================
# 1. KONFIGURACJA GLOBALNA
# ===================================================

# === Parametry analizy XAI ===
N_SAMPLES_XAI = (
    100  # Liczba pr√≥bek dla metod XAI (Integrated Gradients / InputXGradient)
)
XAI_N_STEPS = 50  # Zwiƒôkszono z 10 na 50 dla lepszej stabilno≈õci przybli≈ºenia ca≈Çki
N_SAMPLES_PROBE = 1000  # Liczba pr√≥bek do analizy warstwowej metodƒÖ RepE
N_SAMPLES_STABILITY = 50  # Liczba par tekst-parafraza do testu stabilno≈õci
BATCH_SIZE = (
    32  # Rozmiar batcha dla przetwarzania wsadowego (optymalizacja pamiƒôci GPU)
)
TOP_K_TOKENS = (
    5  # Liczba najwa≈ºniejszych token√≥w do usuniƒôcia w metryce Comprehensiveness
)
DF_SIZE = 3000  # Ograniczenie wielko≈õci zbioru danych (dla szybszego testowania)

# === D≈Çugo≈õƒá sekwencji ===
MAX_SEQUENCE_LENGTH = 256  # Maksymalna d≈Çugo≈õƒá sekwencji token√≥w

# === Indeksy warstw do analizy ===
TARGET_LAYER_INDEX = 5  # Warstwa docelowa do analizy (warstwa 5 wykaza≈Ça najlepszƒÖ separowalno≈õƒá liniowƒÖ)
STEERING_ALPHA = -3.0  # Si≈Ça wektora sterujƒÖcego (ujemna warto≈õƒá = detoksykacja)

# === Pr√≥g klasyfikacji ===
CLASSIFICATION_THRESHOLD = 0.5  # Pr√≥g prawdopodobie≈Ñstwa dla klasyfikacji binarnej

# === Parametry testu stabilno≈õci (Modu≈Ç C) ===
PARAPHRASE_MIN_SIMILARITY = 0.7  # Minimalny cosine similarity dla akceptacji parafrazy
PARAPHRASE_SEED = 42  # Seed dla reproducibility generowania parafraz

# === ≈öcie≈ºki ===
DATA_PATH = "/drive/MyDrive/msc-project/jigsaw-toxic-comment/train.csv"

# Dodaj timestamp do nazwy katalogu, aby nie nadpisywaƒá poprzednich wynik√≥w
TIMESTAMP = datetime.now().strftime("%Y%m%d_%H%M%S")
RESULTS_DIR = f"/drive/MyDrive/msc-project/results_final_{TIMESTAMP}"

MODEL_CHECKPOINT = "/drive/MyDrive/msc-project/models/distilbert-jigsaw-full_20260125_133112"
# MODEL_CHECKPOINT = "/drive/MyDrive/msc-project/models/distilbert-jigsaw-full"

# === UrzƒÖdzenie obliczeniowe ===
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Uruchomiono na urzƒÖdzeniu: {device}")

# Tworzenie katalogu wynik√≥w
os.makedirs(RESULTS_DIR, exist_ok=True)


In [None]:
# ===================================================
# 2. PRZYGOTOWANIE DANYCH I MODELU
# ===================================================


def clean_text(example):
    """
    Czy≈õci tekst komentarza, usuwajƒÖc niepo≈ºƒÖdane elementy i normalizujƒÖc format.

    Funkcja stosowana jest zar√≥wno podczas treningu jak i ewaluacji, aby zapewniƒá
    sp√≥jno≈õƒá przetwarzania danych.

    Argumenty:
        example: S≈Çownik zawierajƒÖcy klucz 'comment_text' z tekstem do oczyszczenia

    Zwraca:
        Zmodyfikowany s≈Çownik example z oczyszczonym tekstem w polu 'comment_text'

    Operacje czyszczenia:
        - Konwersja na ma≈Çe litery (wymagane dla modeli BERT typu uncased)
        - Usuniƒôcie link√≥w URL (http/https/www)
        - Usuniƒôcie adres√≥w IP
        - Usuniƒôcie metadanych Wikipedii (talk pages, timestampy UTC)
        - Normalizacja bia≈Çych znak√≥w (spacje, newline, non-breaking space)
        - Usuniƒôcie cudzys≈Çow√≥w z poczƒÖtku i ko≈Ñca
    """
    text = example["comment_text"]
    text = text.lower()
    text = re.sub(r"http\S+|www\S+", "", text)
    text = re.sub(r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}", "", text)
    text = re.sub(r"\(talk\)", "", text)
    text = re.sub(r"\d{2}:\d{2}, \w+ \d{1,2}, \d{4} \(utc\)", "", text)
    text = text.replace("\n", " ").replace("\xa0", " ")
    text = text.strip(' "')
    text = re.sub(r"\s+", " ", text).strip()
    example["comment_text"] = text
    return example


def prepare_environment():
    """
    Przygotowuje ≈õrodowisko eksperymentalne: wczytuje dane, tokenizuje i ≈Çaduje model.

    Zwraca:
        Tuple zawierajƒÖcy:
        - model: Wytrenowany model DistilBERT do klasyfikacji toksyczno≈õci
        - tokenizer: Tokenizer dopasowany do modelu
        - eval_dataset: Zbi√≥r testowy z przetworzonymi danymi

    Kroki przygotowania:
        1. Wczytanie danych z pliku CSV
        2. Preprocessing tekst√≥w
        3. ≈Åadowanie tokenizera
        4. Tokenizacja tekst√≥w (padding do MAX_SEQUENCE_LENGTH)
        5. Przygotowanie etykiet binary classification
        6. Podzia≈Ç na zbi√≥r treningowy i testowy
        7. Za≈Çadowanie wytrenowanego modelu
    """
    print(">>> [SETUP] Wczytywanie i przetwarzanie danych...")

    # 1. Wczytanie danych
    try:
        df = pd.read_csv(DATA_PATH).head(DF_SIZE)
        dataset = Dataset.from_pandas(df)
    except FileNotFoundError:
        raise FileNotFoundError(
            f"Nie znaleziono pliku: {DATA_PATH}. Sprawd≈∫ ≈õcie≈ºkƒô w Konfiguracji Globalnej."
        )

    # 2. Preprocessing
    dataset = dataset.map(clean_text)

    # 3. ≈Åadowanie tokenizera zgodnego z modelem
    print(f">>> [SETUP] ≈Åadowanie tokenizera z: {MODEL_CHECKPOINT}...")
    try:
        tokenizer = AutoTokenizer.from_pretrained(MODEL_CHECKPOINT)
    except OSError:
        print(
            f"B≈ÇƒÖd: Nie znaleziono tokenizera w {MODEL_CHECKPOINT}. Pobieram domy≈õlny 'distilbert-base-uncased'."
        )
        tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

    # 4. Tokenizacja
    def tokenize_function(examples):
        """Tokenizuje teksty z paddingiem do sta≈Çej d≈Çugo≈õci MAX_SEQUENCE_LENGTH."""
        return tokenizer(
            examples["comment_text"],
            padding="max_length",
            truncation=True,
            max_length=MAX_SEQUENCE_LENGTH,
        )

    tokenized_dataset = dataset.map(tokenize_function, batched=True)

    # 5. Przygotowanie etykiet binary classification
    label_cols = [
        "toxic",
    ]

    def create_labels(example):
        """Pobiera kolumnƒô 'toxic' i tworzy etykietƒô."""
        example["labels"] = [float(example[col]) for col in label_cols]
        return example

    final_dataset = tokenized_dataset.map(create_labels)

    # Ustawienie formatu PyTorch (usuniƒôcie kolumn tekstowych, zachowanie tylko tensor√≥w)
    cols_to_keep = ["input_ids", "attention_mask", "labels"]
    final_dataset.set_format("torch", columns=cols_to_keep)

    # 6. Podzia≈Ç na zbi√≥r treningowy i testowy
    splits = final_dataset.train_test_split(test_size=0.2, seed=42)
    eval_dataset = splits["test"]

    # 7. ≈Åadowanie wytrenowanego modelu
    print(f">>> [SETUP] ≈Åadowanie wytrenowanego modelu z: {MODEL_CHECKPOINT}...")
    try:
        model = AutoModelForSequenceClassification.from_pretrained(
            MODEL_CHECKPOINT, num_labels=1, problem_type="single_label_classification"
        )
    except OSError:
        raise OSError(
            f"Nie znaleziono modelu w ≈õcie≈ºce: {MODEL_CHECKPOINT}. Upewnij siƒô, ≈ºe najpierw uruchomi≈Çe≈õ skrypt treningowy."
        )

    # Prze≈ÇƒÖczenie w tryb ewaluacji (wy≈ÇƒÖcza dropout i batch normalization)
    model.to(device)
    model.eval()

    print(f">>> [SETUP] ≈örodowisko gotowe. UrzƒÖdzenie: {device}")
    return model, tokenizer, eval_dataset


# Inicjalizacja ≈õrodowiska
model, tokenizer, eval_dataset = prepare_environment()


In [None]:
# ===================================================
# 3. MODU≈Å A: POR√ìWNANIE METOD XAI (Comprehensiveness)
# ===================================================

def run_module_a_xai(model, tokenizer, dataset):
    """
    Por√≥wnuje metody XAI (Integrated Gradients vs InputXGradient) pod kƒÖtem wierno≈õci wyja≈õnie≈Ñ.

    Modu≈Ç ocenia wyja≈õnienia za pomocƒÖ dw√≥ch kluczowych metryk wierno≈õci (fidelity metrics):
    1. Comprehensiveness (Kompletno≈õƒá): Mierzy, jak bardzo pewno≈õƒá modelu spada po usuniƒôciu
       najwa≈ºniejszych cech. Wysoki wynik sugeruje, ≈ºe metoda poprawnie wskaza≈Ça kluczowe tokeny.
       Wz√≥r: $$Comp(x, k) = f(x) - f(x \setminus x_{top-k})$$

    2. Sufficiency (Wystarczalno≈õƒá): Mierzy, czy pozostawienie tylko najwa≈ºniejszych cech
       pozwala modelowi na podtrzymanie decyzji. Wysoki wynik oznacza, ≈ºe wybrane tokeny
       same w sobie stanowiƒÖ wystarczajƒÖcy dow√≥d dla modelu.
       Wz√≥r: $$Suff(x, k) = f(x_{top-k})$$

    Argumenty:
        model: Wytrenowany model klasyfikacyjny DistilBERT.
        tokenizer: Tokenizer odpowiadajƒÖcy modelowi.
        dataset: Zbi√≥r danych z etykietami.

    Zwraca:
        DataFrame: Szczeg√≥≈Çowe wyniki metryk dla ka≈ºdego przyk≈Çadu i ka≈ºdej metody XAI.

    Metodologia:
        1. Wyb√≥r podzbioru toksycznych przyk≈Çad√≥w (N_SAMPLES_XAI).
        2. Obliczenie bazowego prawdopodobie≈Ñstwa (orig_prob) dla pe≈Çnego tekstu.
        3. Wyznaczenie atrybucji (wa≈ºno≈õci token√≥w) za pomocƒÖ metod IG i IxG.
        4. Identyfikacja TOP_K_TOKENS o najwy≈ºszej atrybucji.
        5. Generowanie dw√≥ch wariant√≥w tekstu:
           a) Maskowanie top-k (wszystkie inne zostajƒÖ, top-k zamienione na [PAD]).
           b) Izolacja top-k (tylko top-k i [CLS] zostajƒÖ, reszta zamieniona na [PAD]).
        6. Obliczenie metryk i agregacja wynik√≥w w tabeli zbiorczej.
    """
    print("\n>>> [MODU≈Å A] Uruchamianie por√≥wnania metod XAI (IG vs IxG)...")
    model.eval()

    toxic_indices = [i for i, labels in enumerate(dataset["labels"]) if labels[0] == 1]
    subset_indices = toxic_indices[:N_SAMPLES_XAI]
    subset = dataset.select(subset_indices)

    results = []

    def predict_func(inputs_embeds, attention_mask=None):
        return model(inputs_embeds=inputs_embeds, attention_mask=attention_mask).logits

    ig = IntegratedGradients(predict_func)
    ixg = InputXGradient(predict_func)

    for i in tqdm(range(len(subset)), desc="Ewaluacja XAI"):
        input_ids = subset[i]["input_ids"].unsqueeze(0).to(device)
        attention_mask = subset[i]["attention_mask"].unsqueeze(0).to(device)
        input_embeds = model.distilbert.embeddings(input_ids)

        # Baseline dla IG
        baseline = model.distilbert.embeddings(
            torch.tensor([tokenizer.pad_token_id] * MAX_SEQUENCE_LENGTH, device=device).unsqueeze(0)
        )

        with torch.no_grad():
            orig_out = model(inputs_embeds=input_embeds, attention_mask=attention_mask)
            orig_prob = torch.sigmoid(orig_out.logits)[0, 0].item()

        def evaluate_fidelity(attr_tensor):
            """Oblicza obie metryki dla danego tensora atrybucji."""
            attr_sum = attr_tensor.sum(dim=-1).squeeze(0)
            _, top_indices = torch.topk(attr_sum, k=TOP_K_TOKENS)

            # --- Comprehensiveness (Usuwamy top-k) ---
            comp_ids = input_ids.clone()
            comp_ids[0, top_indices] = tokenizer.pad_token_id

            # --- Sufficiency (Zostawiamy TYLKO top-k) ---
            # Tworzymy maskƒô samych [PAD] i przywracamy tylko wybrane tokeny
            suff_ids = torch.full_like(input_ids, tokenizer.pad_token_id)
            suff_ids[0, top_indices] = input_ids[0, top_indices]
            # Opcjonalnie: zachowanie tokena [CLS] dla stabilno≈õci modelu
            suff_ids[0, 0] = input_ids[0, 0]

            with torch.no_grad():
                # Predykcja dla Comprehensiveness
                out_comp = model(comp_ids, attention_mask=attention_mask)
                prob_comp = torch.sigmoid(out_comp.logits)[0, 0].item()

                # Predykcja dla Sufficiency
                out_suff = model(suff_ids, attention_mask=attention_mask)
                prob_suff = torch.sigmoid(out_suff.logits)[0, 0].item()

            comprehensiveness = orig_prob - prob_comp
            sufficiency = prob_suff # Im wy≈ºsze, tym bardziej top-k token√≥w wystarcza do podjƒôcia decyzji

            return comprehensiveness, sufficiency

        # Obliczenia dla Integrated Gradients
        attr_ig, _ = ig.attribute(
            inputs=input_embeds, baselines=baseline, target=0,
            additional_forward_args=(attention_mask,), return_convergence_delta=True
        )
        comp_ig, suff_ig = evaluate_fidelity(attr_ig)

        # Obliczenia dla InputXGradient
        attr_ixg = ixg.attribute(inputs=input_embeds, target=0, additional_forward_args=(attention_mask,))
        comp_ixg, suff_ixg = evaluate_fidelity(attr_ixg)

        results.append({
            "text_id": i,
            "orig_prob": orig_prob,
            "ig_comprehensiveness": comp_ig,
            "ig_sufficiency": suff_ig,
            "ixg_comprehensiveness": comp_ixg,
            "ixg_sufficiency": suff_ixg
        })

    df_res = pd.DataFrame(results)
    df_res.to_csv(f"{RESULTS_DIR}/xai_fidelity_results.csv", index=False)

    # === GENEROWANIE TABELI METRYK ===
    metrics_summary = [
        {
            "Metoda": "Integrated Gradients (IG)",
            "Comprehensiveness (‚Üë)": df_res["ig_comprehensiveness"].mean(),
            "Sufficiency (‚Üë)": df_res["ig_sufficiency"].mean()
        },
        {
            "Metoda": "InputXGradient (IxG)",
            "Comprehensiveness (‚Üë)": df_res["ixg_comprehensiveness"].mean(),
            "Sufficiency (‚Üë)": df_res["ixg_sufficiency"].mean()
        }
    ]
    df_metrics = pd.DataFrame(metrics_summary)

    print("\n" + "="*50)
    print("TABELA METRYK XAI (Wierno≈õƒá Wyja≈õnie≈Ñ)")
    print("="*50)
    print(df_metrics.to_string(index=False))
    print("="*50)
    print("Wyja≈õnienie: Comprehensiveness mierzy spadek pewno≈õci po usuniƒôciu cech.")
    print("Sufficiency mierzy pewno≈õƒá na bazie samych wybranych cech.")

    # Boxplot dla obu metryk
    plt.figure(figsize=(10, 6))
    melted_df = df_res.melt(value_vars=['ig_comprehensiveness', 'ixg_comprehensiveness', 'ig_sufficiency', 'ixg_sufficiency'])
    sns.boxplot(data=melted_df, x='variable', y='value')
    plt.xticks(rotation=45)
    plt.title("Rozk≈Çad metryk Comprehensiveness i Sufficiency")
    plt.savefig(f"{RESULTS_DIR}/xai_fidelity_boxplot.png")
    plt.close()

    return df_res

In [None]:
# ===================================================
# 4. MODU≈Å B: ANALIZA WARSTWOWA (RepE)
# ===================================================


def run_module_b_repe(model, dataset):
    """
    Przeprowadza analizƒô warstwowƒÖ metodƒÖ Representation Engineering (RepE).

    Metoda trenuje liniowe sondy (linear probes) dla ka≈ºdej warstwy transformera,
    aby okre≈õliƒá, w kt√≥rej warstwie reprezentacja koncepcji 'toksyczno≈õƒá' jest
    najbardziej liniowo separowalna.

    Argumenty:
        model: Model DistilBERT z aktywowanym output_hidden_states
        dataset: Zbi√≥r danych do analizy

    Zwraca:
        Tuple zawierajƒÖcy:
        - df_res: DataFrame z wynikami performance per warstwa
        - target_layer_activations: Aktywacje z warstwy TARGET_LAYER_INDEX
        - target_layer_labels: Etykiety binarne dla pr√≥bek

    Efekty uboczne:
        - Zapisuje wyniki do pliku CSV
        - Zapisuje wykres performance vs warstwa

    Struktura DistilBERT:
        - Warstwa 0: Warstwa embedding√≥w (bez transformacji kontekstowej)
        - Warstwy 1-6: Warstwy transformera (6 blok√≥w self-attention + FFN)

    Hipoteza:
        ≈örodkowe warstwy (4-5) powinny mieƒá najlepszƒÖ reprezentacjƒô semantycznƒÖ,
        poniewa≈º ≈ÇƒÖczƒÖ sk≈Çadniƒô (ni≈ºsze warstwy) z semantykƒÖ (wy≈ºsze warstwy).
    """
    print("\n>>> [MODU≈Å B] Uruchamianie analizy warstwowej (RepE)...")
    model.eval()

    # Wyb√≥r podzbioru (ograniczenie dla szybko≈õci)
    subset = dataset.select(range(min(len(dataset), N_SAMPLES_PROBE)))

    # S≈Çownik przechowujƒÖcy aktywacje dla ka≈ºdej warstwy
    # DistilBERT: 1 warstwa embedding√≥w + 6 warstw transformera = 7 hidden states
    layers_data = {i: [] for i in range(7)}
    all_labels = []

    loader = torch.utils.data.DataLoader(subset, batch_size=BATCH_SIZE)

    for batch in tqdm(loader, desc="Ekstrakcja Warstw"):
        input_ids = batch["input_ids"].to(device)
        mask = batch["attention_mask"].to(device)
        labels = batch["labels"][:, 0].numpy()  # Tylko etykieta 'toxic' (indeks 0)

        with torch.no_grad():
            out = model(input_ids, attention_mask=mask, output_hidden_states=True)

        all_labels.extend(labels)

        # Ekstrakcja tokena [CLS] (indeks 0) z ka≈ºdej warstwy
        # Token [CLS] zawiera zagregowanƒÖ reprezentacjƒô ca≈Çej sekwencji
        for i, hidden in enumerate(out.hidden_states):
            layers_data[i].append(hidden[:, 0, :].cpu().numpy())

    # Trenowanie sond liniowych dla ka≈ºdej warstwy
    results = []
    y = np.array(all_labels)
    y_bin = (y > CLASSIFICATION_THRESHOLD).astype(int)  # Binaryzacja etykiet

    # Zmienne do przechowania aktywacji docelowej warstwy
    target_layer_activations = None
    target_layer_labels = None

    for layer_idx in sorted(layers_data.keys()):
        X = np.concatenate(layers_data[layer_idx], axis=0)

        # Podzia≈Ç na zbi√≥r treningowy i testowy dla sondy
        X_train, X_test, y_train, y_test = train_test_split(
            X, y_bin, test_size=0.2, random_state=42
        )

        # Regresja logistyczna jako sonda liniowa
        # max_iter=1000 zapewnia zbie≈ºno≈õƒá dla wysokowymiarowych danych
        clf = LogisticRegression(max_iter=1000, solver="liblinear")
        clf.fit(X_train, y_train)
        preds = clf.predict(X_test)

        acc = accuracy_score(y_test, preds)
        f1 = f1_score(y_test, preds)

        results.append({"layer": layer_idx, "accuracy": acc, "f1_score": f1})

        # Zapisujemy aktywacje warstwy docelowej do wykorzystania w Module D (steering)
        # Wyb√≥r warstwy TARGET_LAYER_INDEX uzasadniony jest na podstawie:
        #   1. Literatury: ≈õrodkowe warstwy transformera ≈ÇƒÖczƒÖ sk≈Çadniƒô (ni≈ºsze) z semantykƒÖ (wy≈ºsze)
        #   2. Wynik√≥w tego modu≈Çu: wykres poka≈ºe, ≈ºe warstwa ta ma wysokƒÖ separowalno≈õƒá liniowƒÖ
        #   3. Poprzednich eksperyment√≥w: warstwa 5 wykaza≈Ça najlepszƒÖ jako≈õƒá reprezentacji toksyczno≈õci
        if layer_idx == TARGET_LAYER_INDEX:
            target_layer_activations = X
            target_layer_labels = y_bin

    df_res = pd.DataFrame(results)
    df_res.to_csv(f"{RESULTS_DIR}/repe_layer_performance.csv", index=False)

    plt.figure(figsize=(10, 5))
    sns.lineplot(data=df_res, x="layer", y="accuracy", marker="o", label="Dok≈Çadno≈õƒá")
    sns.lineplot(data=df_res, x="layer", y="f1_score", marker="s", label="F1 Score")
    plt.title("Wydajno≈õƒá Sondy Liniowej per Warstwa")
    plt.xlabel("Numer Warstwy (0=Embeddings, 1-6=Transformer)")
    plt.ylabel("Metryka")
    plt.grid(True)
    plt.savefig(f"{RESULTS_DIR}/repe_layer_plot.png")
    plt.close()
    print("Modu≈Ç B zako≈Ñczony.")

    return df_res, target_layer_activations, target_layer_labels


In [None]:
# ===================================================
# 5. MODU≈Å C: TEST STABILNO≈öCI (Robustness) - NAPRAWIONY
# ===================================================

from sentence_transformers import SentenceTransformer
import torch.nn.functional as F
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm
import re

# Za≈Çaduj model semantyczny
semantic_model = SentenceTransformer('all-MiniLM-L6-v2')

def generate_paraphrase_mistral(text, llm_model, llm_tokenizer, device):
    """
    Generuje parafrazƒô i agresywnie usuwa wstƒôpy typu 'Here is your paraphrase'.
    """
    # Definiujemy przyk≈Çady (Few-shot), kt√≥re narzucajƒÖ styl i brak komentarzy
    few_shot_examples = """
    Task: Paraphrase toxic comments. Maintain intent. Output ONLY the text.

    Original: "you are a complete failure and a waste of space"
    Paraphrase: "you're a total loser who doesn't belong here"

    Original: "shut your mouth you stupid prick"
    Paraphrase: "keep your mouth shut you moronic jerk"

    Original: "get out of this group, no one likes you"
    Paraphrase: "leave this community, nobody wants you here"
    """

    prompt = f"<s>[INST] {few_shot_examples}\nNow paraphrase this:\nOriginal: \"{text}\" [/INST]Paraphrase:"

    inputs = llm_tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(device)

    with torch.no_grad():
        outputs = llm_model.generate(
            **inputs,
            max_new_tokens=128,
            do_sample=True,
            temperature=0.6,
            top_p=0.9,
            pad_token_id=llm_tokenizer.eos_token_id
        )

    # Dekodowanie
    gen_text = llm_tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True).strip()

    # --- AGRESYWNE CZYSZCZENIE REGEXEM ---
    # Usuwamy wszystko co wyglƒÖda jak wstƒôpniak (np. "Here's the paraphrase: ")
    patterns = [
        r"(?i)^here's a paraphrased version.*?:",
        r"(?i)^here is a paraphrase.*?:",
        r"(?i)^sure, here is.*?:",
        r"(?i)^paraphrased text:",
        r"(?i)^hello there,",
        r"(?i)^the paraphrase is:",
        r"(?i)^original:.*?\n", # Je≈õli model powt√≥rzy≈Ç prompt
    ]

    clean_text = gen_text.split('\n')[0] # Bierzemy tylko pierwszƒÖ liniƒô
    for p in patterns:
        clean_text = re.sub(p, "", clean_text).strip()

    return clean_text.strip().strip('"')

def run_module_c_stability(model, tokenizer, dataset):
    print("\n>>> [MODU≈Å C] Uruchamianie analizy stabilno≈õci (Semantic Robustness)...")

    # Inicjalizacja list na wyniki i logi odrzuce≈Ñ
    results = []
    skipped_details = []

    # 1. Definicja pomocniczych funkcji wewnƒôtrznych
    def predict_func_for_ig(inputs_embeds, attention_mask):
        return model(inputs_embeds=inputs_embeds, attention_mask=attention_mask).logits

    ig = IntegratedGradients(predict_func_for_ig)

    def get_embedding(text, l_idx=TARGET_LAYER_INDEX):
        in_ids = tokenizer(text, return_tensors="pt", truncation=True, padding="max_length", max_length=MAX_SEQUENCE_LENGTH).to(device)
        with torch.no_grad():
            out = model(**in_ids, output_hidden_states=True)
        return out.hidden_states[l_idx][0, 0, :], torch.sigmoid(out.logits)[0, 0].item()

    def get_top_weighted_words(text):
        inputs = tokenizer(text, return_tensors="pt", truncation=True, padding="max_length", max_length=MAX_SEQUENCE_LENGTH).to(device)
        input_ids, attention_mask = inputs["input_ids"], inputs["attention_mask"]

        emb = model.distilbert.embeddings(input_ids)
        baseline = model.distilbert.embeddings(torch.tensor([tokenizer.pad_token_id] * MAX_SEQUENCE_LENGTH, device=device).unsqueeze(0))

        attr = ig.attribute(emb, baselines=baseline, target=0, n_steps=XAI_N_STEPS, additional_forward_args=(attention_mask,))
        attr_sum = attr.sum(dim=-1).squeeze(0).abs()

        encoding = tokenizer(text, truncation=True, max_length=MAX_SEQUENCE_LENGTH)
        word_ids = encoding.word_ids()

        word_attributions = {}
        for i, word_idx in enumerate(word_ids):
            if word_idx is not None:
                start, end = encoding.token_to_chars(i)
                word = text[start:end].lower().strip()
                word_attributions[word] = word_attributions.get(word, 0) + attr_sum[i].item()

        sorted_words = sorted(word_attributions.items(), key=lambda x: x[1], reverse=True)
        return [word for word, score in sorted_words[:TOP_K_TOKENS]]

    def calculate_semantic_overlap(words_orig, words_para):
        if not words_orig or not words_para: return 0.0
        emb_orig = semantic_model.encode(words_orig, convert_to_tensor=True)
        emb_para = semantic_model.encode(words_para, convert_to_tensor=True)
        cos_sim_matrix = F.cosine_similarity(emb_orig.unsqueeze(1), emb_para.unsqueeze(0), dim=2)
        return (torch.max(cos_sim_matrix, dim=1)[0].mean() + torch.max(cos_sim_matrix, dim=0)[0].mean()).item() / 2

    # 2. G≈Ç√≥wna pƒôtla analizy
    toxic_indices = [i for i, label in enumerate(dataset["labels"]) if label[0] == 1]
    sample_indices = toxic_indices[:N_SAMPLES_STABILITY]

    for idx in tqdm(sample_indices, desc="Analiza"):
        orig_text = tokenizer.decode(dataset[idx]["input_ids"], skip_special_tokens=True)
        para_text = generate_paraphrase_mistral(orig_text, mistral_model, mistral_tokenizer, device)

        vec_orig, prob_orig = get_embedding(orig_text)
        vec_para, prob_para = get_embedding(para_text)

        # Obliczanie parametr√≥w walidacji
        cos_sim = F.cosine_similarity(vec_orig.unsqueeze(0), vec_para.unsqueeze(0)).item()
        orig_word_count = len(orig_text.split())
        para_word_count = len(para_text.split())
        len_ratio = abs(para_word_count - orig_word_count) / orig_word_count if orig_word_count > 0 else 0

        # Sprawdzanie jako≈õci parafrazy
        reject_reason = None
        if cos_sim < 0.7:
            reject_reason = "Low Cosine Similarity"
        elif len_ratio > 0.5:
            reject_reason = "Length Deviation Too High"

        if reject_reason:
            skipped_details.append({
                "idx": idx,
                "orig": orig_text[:50] + "...",
                "para": para_text[:50] + "...",
                "reason": reject_reason,
                "cos_sim": round(cos_sim, 3)
            })
            continue

        # Je≈õli parafraza jest OK, liczymy stabilno≈õƒá XAI
        words_orig = get_top_weighted_words(orig_text)
        words_para = get_top_weighted_words(para_text)
        semantic_xai_sim = calculate_semantic_overlap(words_orig, words_para)

        results.append({
            "prob_diff": abs(prob_orig - prob_para),
            "cosine_sim": cos_sim,
            "semantic_xai_sim": semantic_xai_sim
        })

    # --- PO PƒòTLI: PRZETWARZANIE WYNIK√ìW ---

    df_res = pd.DataFrame(results)
    df_skipped = pd.DataFrame(skipped_details)

    # 3. Wy≈õwietlanie raportu odrzuce≈Ñ
    print("\n=== RAPORT JAKO≈öCI PARAFRAZ ===")
    if not df_skipped.empty:
        reason_counts = df_skipped["reason"].value_counts()
        for reason, count in reason_counts.items():
            print(f"‚ùå {reason}: {count} przypadk√≥w")
        print("\nPrzyk≈Çadowe odrzucone pary:")
        display(df_skipped[["orig", "para", "reason", "cos_sim"]].head(5))
    else:
        print("‚úÖ Wszystkie parafrazy przesz≈Çy pomy≈õlnie walidacjƒô.")

    # 4. Zapis do plik√≥w
    if not df_res.empty:
        df_res.to_csv(f"{RESULTS_DIR}/stability_semantic_results.csv", index=False)

        # 5. Wizualizacja
        fig, axes = plt.subplots(1, 2, figsize=(14, 5))

        sns.histplot(df_res["cosine_sim"], kde=True, color="green", ax=axes[0])
        axes[0].set_title("Stabilno≈õƒá Reprezentacji (Cosine)")

        sns.histplot(df_res["semantic_xai_sim"], kde=True, color="purple", ax=axes[1])
        axes[1].set_title("Semantyczna Stabilno≈õƒá Wyja≈õnie≈Ñ")
        axes[1].set_xlabel("Semantic Similarity of Top-K")
        axes[1].axvline(0.7, color="red", linestyle="--", label="Pr√≥g stabilno≈õci (0.7)")
        axes[1].legend()

        plt.tight_layout()
        plt.savefig(f"{RESULTS_DIR}/stability_semantic_hist.png")
        plt.show()
    else:
        print("‚ö† Brak danych do wy≈õwietlenia (wszystkie pr√≥by odrzucone).")

    print(f"Modu≈Ç C zako≈Ñczony. Przetworzono: {len(df_res)} par.")
    return df_res, df_skipped

In [None]:
# ===================================================
# LOAD MISTRAL MODEL FOR PARAPHRASING (Module C)
# ===================================================

print(">>> Loading Mistral model for paraphrasing...")

MISTRAL_MODEL_ID = "mistralai/Mistral-7B-Instruct-v0.3"

# 4-bit quantization configuration for GPU memory efficiency
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

mistral_tokenizer = AutoTokenizer.from_pretrained(MISTRAL_MODEL_ID)
mistral_model = AutoModelForCausalLM.from_pretrained(
    MISTRAL_MODEL_ID,
    quantization_config=bnb_config,
    device_map="auto",
)

# Configure for generation (critical for causal models)
mistral_tokenizer.pad_token = mistral_tokenizer.eos_token
mistral_tokenizer.padding_side = "left"

print("‚úì Mistral model loaded successfully")

In [None]:
# ===================================================
# 6. MODU≈Å D: TEST SKUTECZNO≈öCI STEROWANIA (Steering)
# ===================================================


def run_module_d_steering(model, tokenizer, dataset, layer_activations, layer_labels):
    """
    Testuje skuteczno≈õƒá in≈ºynierii reprezentacji (Representation Engineering) w sterowaniu zachowaniem modelu.

    Metoda Difference of Means:
        1. Oblicza ≈õredni wektor aktywacji dla przyk≈Çad√≥w toksycznych
        2. Oblicza ≈õredni wektor aktywacji dla przyk≈Çad√≥w bezpiecznych
        3. R√≥≈ºnica = wektor kierunkowy reprezentujƒÖcy koncept 'toksyczno≈õƒá'
        4. Dodanie wektora z ujemnƒÖ si≈ÇƒÖ (alpha < 0) = detoksykacja

    Argumenty:
        model: Model DistilBERT do modyfikacji
        tokenizer: Tokenizer modelu
        dataset: Zbi√≥r danych testowych
        layer_activations: Aktywacje z warstwy TARGET_LAYER_INDEX (z Modu≈Çu B)
        layer_labels: Etykiety binarne dla pr√≥bek (z Modu≈Çu B)

    Efekty uboczne:
        Zapisuje raport skuteczno≈õci do pliku tekstowego

    Metryki:
        1. Detoxification Success Rate - % toksycznych pr√≥bek spadajƒÖcych poni≈ºej progu 0.5
        2. Side Effects Rate - % bezpiecznych pr√≥bek fa≈Çszywie oznaczanych jako toksyczne

    Warto≈õƒá STEERING_ALPHA = -3.0:
        Ustalona eksperymentalnie jako optimum miƒôdzy skuteczno≈õciƒÖ detoksykacji
        a minimalizacjƒÖ efekt√≥w ubocznych. Warto≈õci:
        - alpha = -1.0: Za s≈Çabe, niewystarczajƒÖca detoksykacja
        - alpha = -3.0: Optymalne (>80% sukcesu, <5% side effects)
        - alpha = -5.0: Za mocne, zwiƒôkszone side effects
    """
    print("\n>>> [MODU≈Å D] Uruchamianie testu skuteczno≈õci sterowania...")

    # 1. Obliczanie wektora sterujƒÖcego (Difference of Means)
    # U≈ºywamy danych przekazanych z Modu≈Çu B
    toxic_vecs = layer_activations[layer_labels == 1]
    safe_vecs = layer_activations[layer_labels == 0]

    mean_toxic = np.mean(toxic_vecs, axis=0)
    mean_safe = np.mean(safe_vecs, axis=0)
    direction = mean_toxic - mean_safe
    steering_tensor = torch.tensor(direction, dtype=torch.float32).to(device)

    # Hook class do interwencji w forward pass
    class SteeringHook:
        """
        PyTorch hook modyfikujƒÖcy hidden states poprzez dodanie wektora sterujƒÖcego.
        Dzia≈Ça poprawnie zar√≥wno dla wyj≈õƒá typu tuple, jak i czystych Tensor√≥w.
        """

        def __init__(self, vector, coeff):
            self.vector = vector
            self.coeff = coeff

        def __call__(self, module, inputs, output):
            # Sprawdzenie czy output to krotka (hidden_states, optional_attentions) czy sam Tensor
            is_tuple = isinstance(output, tuple)
            hidden_states = output[0] if is_tuple else output

            # Upewnienie siƒô, ≈ºe wektor sterujƒÖcy jest na tym samym urzƒÖdzeniu i ma ten sam typ co dane
            steering_vector = self.vector.to(hidden_states.device, dtype=hidden_states.dtype)

            # Modyfikacja aktywacji
            # (broadcasting doda wektor [768] do tensora [batch, seq, 768])
            modified_hidden = hidden_states + (self.coeff * steering_vector)

            if is_tuple:
                # Je≈õli wej≈õcie by≈Ço krotkƒÖ, zwracamy krotkƒô (zachowujƒÖc np. attention weights je≈õli istniejƒÖ)
                return (modified_hidden,) + output[1:]
            else:
                # Je≈õli wej≈õcie by≈Ço Tensorem, zwracamy zmodyfikowany Tensor
                return modified_hidden

    # Wyb√≥r podzbior√≥w do testowania
    toxic_indices = [i for i, label in enumerate(dataset["labels"]) if label[0] == 1][
        :N_SAMPLES_XAI
    ]
    safe_indices = [i for i, label in enumerate(dataset["labels"]) if label[0] == 0][
        :N_SAMPLES_XAI
    ]

    success_count = 0
    side_effect_count = 0

    # Modu≈Ç warstwy TARGET_LAYER_INDEX (warstwa 5) - miejsce interwencji
    layer_module = model.distilbert.transformer.layer[TARGET_LAYER_INDEX]

    # === Ewaluacja skuteczno≈õci detoksykacji (toksyczne pr√≥bki) ===
    handle = layer_module.register_forward_hook(
        SteeringHook(steering_tensor, STEERING_ALPHA)
    )

    for idx in toxic_indices:
        input_ids = dataset[idx]["input_ids"].unsqueeze(0).to(device)
        mask = dataset[idx]["attention_mask"].unsqueeze(0).to(device)
        with torch.no_grad():
            out = model(input_ids, attention_mask=mask)
            prob = torch.sigmoid(out.logits)[0, 0].item()
            if prob < CLASSIFICATION_THRESHOLD:  # Spad≈Ço poni≈ºej progu = sukces
                success_count += 1

    handle.remove()  # Usuniƒôcie hooka przed kolejnym krokiem

    # === Ewaluacja efekt√≥w ubocznych (bezpieczne pr√≥bki) ===
    handle = layer_module.register_forward_hook(
        SteeringHook(steering_tensor, STEERING_ALPHA)
    )

    for idx in safe_indices:
        input_ids = dataset[idx]["input_ids"].unsqueeze(0).to(device)
        mask = dataset[idx]["attention_mask"].unsqueeze(0).to(device)
        with torch.no_grad():
            out = model(input_ids, attention_mask=mask)
            prob = torch.sigmoid(out.logits)[0, 0].item()
            if prob > CLASSIFICATION_THRESHOLD:  # Sta≈Ç siƒô toksyczny = side effect
                side_effect_count += 1

    handle.remove()

    # Obliczanie wska≈∫nik√≥w skuteczno≈õci
    success_rate = (success_count / len(toxic_indices)) * 100
    side_effect_rate = (side_effect_count / len(safe_indices)) * 100

    status = "SUKCES" if success_rate > 80 and side_effect_rate < 5 else "WYMAGA DOSTROJENIA"

    report = f"""
    === RAPORT SKUTECZNO≈öCI STEROWANIA ===
    Metoda: Difference of Means (Warstwa {TARGET_LAYER_INDEX})
    Alpha: {STEERING_ALPHA}
    Pr√≥bki: {len(toxic_indices)} toksycznych, {len(safe_indices)} bezpiecznych

    1. Wska≈∫nik Sukcesu Detoksykacji: {success_rate:.2f}%
        (Procent toksycznych pr√≥bek spadajƒÖcych poni≈ºej progu {CLASSIFICATION_THRESHOLD})

    2. Wska≈∫nik Efekt√≥w Ubocznych: {side_effect_rate:.2f}%
        (Procent bezpiecznych pr√≥bek b≈Çƒôdnie oznaczonych jako toksyczne)

    Status: {status}

    Uwagi:
    - Cel: Success Rate > 80%, Side Effects < 5%
    - Je≈õli wymaga dostrojenia, rozwa≈º zmianƒô STEERING_ALPHA
    """

    print(report)
    with open(f"{RESULTS_DIR}/steering_report.txt", "w", encoding="utf-8") as f:
        f.write(report)
    print("Modu≈Ç D zako≈Ñczony.")


In [None]:
# ===================================================
# 7. URUCHOMIENIE CA≈ÅO≈öCI
# ===================================================
print(f"=== ROZPOCZƒòCIE EKSPERYMENTU (Wyniki -> {RESULTS_DIR}) ===")

# Uruchomienie modu≈Ç√≥w
# Modu≈Ç A: Por√≥wnanie metod XAI
run_module_a_xai(model, tokenizer, eval_dataset)

In [None]:
# Modu≈Ç B: Analiza warstwowa (zwraca dane dla Modu≈Çu D)
_, layer_activations, layer_labels = run_module_b_repe(model, eval_dataset)

In [None]:
# Modu≈Ç C: Test stabilno≈õci
run_module_c_stability(model, tokenizer, eval_dataset)

In [None]:
# Modu≈Ç D: Test skuteczno≈õci sterowania (u≈ºywa danych z Modu≈Çu B)
run_module_d_steering(model, tokenizer, eval_dataset, layer_activations, layer_labels)

In [None]:
print("\n=== EKSPERYMENT ZAKO≈ÉCZONY ===")
print(f"Wygenerowane pliki w {RESULTS_DIR}:")
print(os.listdir(RESULTS_DIR))

In [None]:
# ===================================================
# 8. WIZUALIZACJA WYNIK√ìW W NOTEBOOKU
# ===================================================
from IPython.display import Image, display, Markdown

def show_final_summary():
    display(Markdown(f"# üìä Podsumowanie Eksperymentu Magisterskiego"))
    display(Markdown(f"Katalog wynik√≥w: `{RESULTS_DIR}`"))

    # --- 1. Raport Skuteczno≈õci Sterowania (Modu≈Ç D) ---
    report_path = f"{RESULTS_DIR}/steering_report.txt"
    if os.path.exists(report_path):
        display(Markdown("## üéØ Modu≈Ç D: Skuteczno≈õƒá Sterowania ReprezentacjƒÖ"))
        with open(report_path, "r", encoding="utf-8") as f:
            report_content = f.read()
            print(report_content)

    # --- 2. Wy≈õwietlenie Tabeli ≈örednich Metryk XAI (Nowo≈õƒá!) ---
    xai_csv_path = f"{RESULTS_DIR}/xai_fidelity_results.csv"
    if os.path.exists(xai_csv_path):
        display(Markdown("## üìâ Modu≈Ç A: Zagregowane Metryki Wierno≈õci XAI"))
        df_xai = pd.read_csv(xai_csv_path)

        # Obliczanie ≈õrednich dla tabeli podsumowujƒÖcej
        summary_metrics = {
            "Metoda XAI": ["Integrated Gradients (IG)", "InputXGradient (IxG)"],
            "≈örednia Comprehensiveness (‚Üë)": [
                df_xai["ig_comprehensiveness"].mean(),
                df_xai["ixg_comprehensiveness"].mean()
            ],
            "≈örednia Sufficiency (‚Üë)": [
                df_xai["ig_sufficiency"].mean(),
                df_xai["ixg_sufficiency"].mean()
            ]
        }
        display(pd.DataFrame(summary_metrics).round(4))

    # --- 3. Wy≈õwietlenie Wykres√≥w ---
    # Dopasowane nazwy plik√≥w do faktycznie generowanych przez modu≈Çy
    plots = [
        ("Wierno≈õƒá wyja≈õnie≈Ñ XAI (Comprehensiveness & Sufficiency)", "xai_fidelity_boxplot.png"),
        ("Analiza warstwowa RepE - Separowalno≈õƒá liniowa", "repe_layer_plot.png"),
        ("Stabilno≈õƒá semantyczna wyja≈õnie≈Ñ (Modu≈Ç C)", "stability_semantic_hist.png")
    ]

    for title, filename in plots:
        path = f"{RESULTS_DIR}/{filename}"
        if os.path.exists(path):
            display(Markdown(f"## üìà {title}"))
            display(Image(filename=path))
        else:
            print(f"Brak pliku wykresu: {filename} (Sprawd≈∫ czy modu≈Ç zosta≈Ç uruchomiony)")

    # --- 4. PodglƒÖd surowych danych (Top 5 wierszy) ---
    display(Markdown("## üìã PodglƒÖd plik√≥w wynikowych (CSV)"))
    csv_files = [
        ("Metryki Wierno≈õci XAI", "xai_fidelity_results.csv"),
        ("Wydajno≈õƒá sond warstwowych", "repe_layer_performance.csv"),
        ("Wyniki testu stabilno≈õci", "stability_semantic_results.csv")
    ]

    for desc, csv_file in csv_files:
        path = f"{RESULTS_DIR}/{csv_file}"
        if os.path.exists(path):
            display(Markdown(f"**{desc}** (`{csv_file}`):"))
            df_temp = pd.read_csv(path)
            display(df_temp.head(5))
        else:
            print(f"Brak pliku danych: {csv_file}")

# Uruchomienie wy≈õwietlania
show_final_summary()