# Atak adwerialny na filtr spamu przy użyciu TextAttack

Ten notatnik demonstruje, jak przeprowadzić atak zwodniczy na model wykrywania spamu przy użyciu biblioteki `textattack`. Użyjemy przepisu ataku `TextBugger` przeciwko filtrowi spamu opartemu na BERT-Tiny.

In [None]:
# Zainstaluj niezbędne biblioteki
#!pip install textattack transformers datasets tensorflow pandas matplotlib

In [None]:
# Importowanie niezbędnych bibliotek
import textattack
import transformers
from textattack.models.wrappers import HuggingFaceModelWrapper
from textattack.datasets import HuggingFaceDataset
from textattack.attack_recipes import TextFoolerJin2019, TextBuggerLi2018, DeepWordBugGao2018
from textattack import Attacker
from textattack.loggers import CSVLogger
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import display, HTML

# textattack: Główna biblioteka do ataków adwersarzowych.
# transformers: Biblioteka Hugging Face do modeli NLP.
# HuggingFaceModelWrapper: Wrapper, który pozwala TextAttack korzystać z modeli Hugging Face.
# HuggingFaceDataset: Klasa do ładowania zbiorów danych z Hugging Face.
# TextFoolerJin2019, TextBuggerLi2018, DeepWordBugGao2018: Gotowe przepisy (recipes) ataków.
# Attacker: Klasa zarządzająca procesem ataku.
# CSVLogger: Do zapisywania wyników w pliku CSV.

## 1. Ładowanie modelu i tokenizera

Użyjemy `mrm8488/bert-tiny-finetuned-sms-spam-detection`, modelu BERT-Tiny dostrojonego na zbiorze danych SMS Spam. Ten model jest stosunkowo mały i dosyć podatny na ataki.

In [None]:
# Nazwa modelu do pobrania z Hugging Face Hub
model_name = "mrm8488/bert-tiny-finetuned-sms-spam-detection"

# Załadowanie modelu klasyfikacji sekwencji
model = transformers.AutoModelForSequenceClassification.from_pretrained(model_name)
# Załadowanie tokenizera odpowiadającego modelowi
tokenizer = transformers.AutoTokenizer.from_pretrained(model_name)

# Opakowanie modelu i tokenizera w wrapper TextAttack, aby biblioteka mogła z nich korzystać
model_wrapper = HuggingFaceModelWrapper(model, tokenizer)

## 2. Załadowanie zbioru danych

Użyjemy zbioru danych `sms_spam` z biblioteki `datasets` Hugging Face. Uwaga: `sms_spam` zawiera tylko podział 'train', więc go użyjemy.

In [None]:
# Załaduj zbiór danych (sms_spam ma tylko podział 'train')
# Musimy również określić kolumny zbioru danych, ponieważ textattack nie rozpoznaje automatycznie 'sms' jako kolumny wejściowej
dataset = HuggingFaceDataset("sms_spam", split="train", shuffle=True, dataset_columns=(['sms'], 'label'))

# 3.  Definicja Ataków Przeciwnych (Adversarial Attacks)

W tej analizie skupimy się na trzech metodach generowania przeciwnych przykładów tekstowych. Użyjemy **TextBugger** (`TextBuggerLi2018`) jako głównego ataku, a **TextFooler** i **DeepWordBug** jako alternatyw porównawczych.

---

## 3.1. Główny Atak: TextBugger (`TextBuggerLi2018`)

TextBugger jest **hybrydowym** atakiem typu **black-box**, zaprojektowanym do wprowadzania **minimalnych, zrozumiałych perturbacji** (zwanych "bugami") do tekstu. Jego celem jest spowodowanie błędnej klasyfikacji przez model docelowy przy jednoczesnym zachowaniu *utility* (zrozumiałości i użyteczności) dla ludzkiego oka.

###  Mechanizm działania

1.  **Identyfikacja Krytycznych Słów:** Atak najpierw wybiera słowa, które mają **największy wpływ** na pierwotną klasyfikację, mierząc spadek pewności modelu po ich usunięciu.
2.  **Generowanie Perturbacji (Bugów):** Dla każdego krytycznego słowa generowane są kandydatury zmian na dwóch poziomach:

| Poziom | Typ Perturbacji | Opis | Przykład (`love`) |
| :--- | :--- | :--- | :--- |
| **Słowo (Word)** | Podstawianie (Sub-W) | Zastąpienie słowa **synonimem** lub semantycznie bliskim sąsiadem (z wektorów embeddings lub WordNet). | `love` $\rightarrow$ `affection` |
| **Znak (Character)** | Wstawianie (Insert-C) | Wstawienie losowej litery lub spacji wewnątrz słowa. | `love` $\rightarrow$ `l ove` |
| **Znak (Character)** | Zamiana (Swap-C) | Zamiana sąsiednich znaków wewnątrz słowa. | `love` $\rightarrow$ `lvoe` |
| **Znak (Character)** | Podstawianie (Sub-C) | Zastąpienie znaku wizualnie podobnym (np. **homoglify**) lub sąsiadem z klawiatury. | `love` $\rightarrow$ `lovd` |

3.  **Optymalizacja:** Wybierany jest kandydat, który **maksymalnie zmienia predykcję** na błędną klasę, jednocześnie minimalizując liczbę użytych modyfikacji.

---

## 3.2. Alternatywne Ataki Porównawcze

Importujemy również `TextFooler` i `DeepWordBug` jako alternatywne strategie ataku, które różnią się metodologią perturbacji.

###  TextFooler (`TextFoolerJin2020`)

* **Charakterystyka:** Atak koncentrujący się wyłącznie na **podmianie słów** przy użyciu **synonimów**.
* **Kluczowa Cecha:** Po wybraniu krytycznych słów, synonimy są filtrowane przez **Universal Sentence Encoder (USE)**, aby zapewnić, że nowy tekst ma to samo znaczenie (zachowanie wysokiego podobieństwa semantycznego). Jest to kluczowe dla zachowania płynności i sensu zdania.

###  DeepWordBug (`DeepWordBugGao2018`)

* **Charakterystyka:** Atak skupiający się wyłącznie na **perturbacjach na poziomie znaków** (literówki), wykorzystujący bardziej zaawansowany mechanizm wyboru celu.
* **Kluczowa Cecha:** Jest to atak typu **white-box**, który wymaga dostępu do **gradientów** modelu. Używa techniki **Backward Differentiation** do obliczenia, które słowa są **najbardziej wrażliwe** na małe zmiany w swoich znakach, a następnie celuje w te znaki, aby maksymalnie zwiększyć stratę modelu.

In [None]:
# Wybierz przepis ataku (attack recipe)
attack_recipe = "TextBugger"

if attack_recipe == "TextBugger":
    # Zbuduj atak TextBugger dla naszego modelu
    attack = TextBuggerLi2018.build(model_wrapper)
elif attack_recipe == "TextFooler":
    # Zbuduj atak TextFooler
    attack = TextFoolerJin2019.build(model_wrapper)
elif attack_recipe == "DeepWordBug":
    # Zbuduj atak DeepWordBug
    attack = DeepWordBugGao2018.build(model_wrapper)

print(f"Używany przepis ataku: {attack_recipe}")

## 4. Uruchomienie ataku

Uruchomimy atak na 10 przykładach, aby zademonstrować jego skuteczność. Zapiszemy również wyniki do wizualizacji.

In [None]:
# Atakuj 10 próbek
# AttackArgs: argumenty dla ataku, takie jak liczba przykładów i logowanie do CSV
attack_args = textattack.AttackArgs(num_examples=10, log_to_csv="results_spam.csv")
# Attacker: obiekt wykonujący atak na zbiorze danych
attacker = Attacker(attack, dataset, attack_args)
# Uruchomienie ataku i pobranie wyników
results = attacker.attack_dataset()

## 5. Wizualizacja wyników

### Podświetlone różnice w tekście
Możemy wyświetlić oryginalny i zaburzony tekst z podświetlonymi różnicami.

In [None]:
for result in results:
    # Wyświetl reprezentację HTML wyniku, pokazującą różnice
    display(HTML(result.__str__(color_method='html')))
    print("\n" + "="*50 + "\n")

### Statystyki podsumowujące

Spójrzmy na wskaźnik sukcesu i inne metryki.

In [None]:
# Oblicz statystyki
num_success = 0
num_failed = 0
num_skipped = 0

for result in results:
    # Sprawdź typ wyniku ataku
    if isinstance(result, textattack.attack_results.SuccessfulAttackResult):
        num_success += 1
    elif isinstance(result, textattack.attack_results.FailedAttackResult):
        num_failed += 1
    elif isinstance(result, textattack.attack_results.SkippedAttackResult):
        num_skipped += 1

print(f"Sukcesy: {num_success}")
print(f"Porażki: {num_failed}")
print(f"Pominięte: {num_skipped}")

# Rysowanie wykresu słupkowego
labels = ['Sukces', 'Porażka', 'Pominięte']
values = [num_success, num_failed, num_skipped]

plt.figure(figsize=(8, 6))
plt.bar(labels, values, color=['green', 'red', 'gray'])
plt.title('Podsumowanie wyników ataku')
plt.xlabel('Typ wyniku')
plt.ylabel('Liczba')
plt.show()

### Interpretacja wyników

Wykres słupkowy przedstawia podsumowanie skuteczności ataku adwersarzowego na wybranej próbce danych. Poniżej znajduje się wyjaśnienie poszczególnych kategorii:

- **Sukces (Success)**: Liczba przykładów, dla których atak zakończył się powodzeniem. Oznacza to, że algorytm zdołał zmodyfikować tekst wejściowy w taki sposób, że model zmienił swoją predykcję (np. z "spam" na "nie-spam"), zachowując jednocześnie semantyczne podobieństwo do oryginału.

- **Porażka (Failed)**: Liczba przykładów, dla których atak nie powiódł się. Algorytm nie był w stanie znaleźć takiej modyfikacji tekstu, która zmyliłaby model, przy zachowaniu zadanych ograniczeń (np. maksymalna liczba zmienionych słów, minimalne podobieństwo semantyczne).

- **Pominięte (Skipped)**: Liczba przykładów, które zostały pominięte w procesie ataku. Najczęściej dzieje się tak, gdy model błędnie sklasyfikował oryginalny tekst jeszcze przed atakiem. Ataki adwersarzowe zazwyczaj przeprowadza się tylko na poprawnie sklasyfikowanych przykładach, aby mierzyć skuteczność samego ataku, a nie błędy modelu.