<a href="https://colab.research.google.com/github/maoohi/test1/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 必要なライブラリをインストールします
!pip install transformers datasets torch accelerate bitsandbytes

# --- 確認コード ---
print("✅ ライブラリのインストールが完了しました！")

Collecting bitsandbytes
  Downloading bitsandbytes-0.47.0-py3-none-manylinux_2_24_x86_64.whl.metadata (11 kB)
Downloading bitsandbytes-0.47.0-py3-none-manylinux_2_24_x86_64.whl (61.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.3/61.3 MB[0m [31m20.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.47.0
✅ ライブラリのインストールが完了しました！


In [2]:
# GitHubからソースコードをダウンロードします
!git clone https://github.com/jwkirchenbauer/lm-watermarking.git
!git clone https://github.com/CommodoreEU/ensemble-watermark.git

# Pythonがソースコードを見つけられるようにパスを設定します
import sys
sys.path.append('/content/lm-watermarking')
sys.path.append('/content/ensemble-watermark')


# --- 確認コード ---
!ls
print("\n✅ ソースコードのダウンロードが完了しました！")

Cloning into 'lm-watermarking'...
remote: Enumerating objects: 351, done.[K
remote: Counting objects: 100% (70/70), done.[K
remote: Compressing objects: 100% (49/49), done.[K
remote: Total 351 (delta 36), reused 30 (delta 20), pack-reused 281 (from 1)[K
Receiving objects: 100% (351/351), 12.00 MiB | 12.90 MiB/s, done.
Resolving deltas: 100% (109/109), done.
Cloning into 'ensemble-watermark'...
remote: Enumerating objects: 292, done.[K
remote: Counting objects: 100% (29/29), done.[K
remote: Compressing objects: 100% (27/27), done.[K
remote: Total 292 (delta 2), reused 25 (delta 2), pack-reused 263 (from 1)[K
Receiving objects: 100% (292/292), 45.40 MiB | 16.80 MiB/s, done.
Resolving deltas: 100% (127/127), done.
Updating files: 100% (111/111), done.
ensemble-watermark  lm-watermarking  sample_data

✅ ソースコードのダウンロードが完了しました！


In [4]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from datasets import load_dataset
import numpy as np

# モデルの読み込み設定（メモリを節約するため量子化を行います）
quantization_config = BitsAndBytesConfig(load_in_4bit=True)

# ベースとなる言語モデルとトークナイザーをロードします
# 今回は比較的軽量な OPT-1.3B モデルを使用します
model_name = "facebook/opt-1.3b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=quantization_config,
    device_map="auto" # 自動的にGPUに配置します
)

# C4データセットをストリーミングモードで読み込みます (メモリ節約のため)
dataset = load_dataset("allenai/c4", "en", split="train", streaming=True)
dataset_iter = iter(dataset)

# プロンプト（文章生成の開始テキスト）をデータセットから200個準備します
prompts = []
for i in range(200):
    prompts.append(next(dataset_iter)['text'][:100]) # 各テキストの先頭100文字を使用

# --- 確認コード ---
print(f"✅ モデル '{model_name}' とデータセットの準備が完了しました。")
print(f"✅ プロンプトの数: {len(prompts)}個")
print("\n--- 最初のプロンプトの例 ---")
print(prompts[0])

README.md: 0.00B [00:00, ?B/s]

Resolving data files:   0%|          | 0/1024 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/1024 [00:00<?, ?it/s]

✅ モデル 'facebook/opt-1.3b' とデータセットの準備が完了しました。
✅ プロンプトの数: 200個

--- 最初のプロンプトの例 ---
Beginners BBQ Class Taking Place in Missoula!
Do you want to get better at making delicious BBQ? You


In [19]:
from tqdm import tqdm
from watermark_processor import WatermarkDetector, WatermarkLogitsProcessor

# -------------------- これが最後の修正です！ --------------------
# Watermark Processorを使ってテキストを生成し、z-scoreを計算する関数
def get_z_scores(watermark_processor, is_watermarked, num_tokens=50):
    """
    指定されたプロンプトからテキストを生成し、Watermarkのz-scoreを計算します。
    is_watermarked=True の場合、Watermarkを付与して生成します。
    """
    z_scores = []
    print(f"テキストを生成中... (Watermark付き: {is_watermarked})")

    # ★★★ 修正点1 ★★★
    # 文章を綺麗にする機能(normalizers)を無効化してDetectorを準備します
    detector = WatermarkDetector(
        vocab=list(tokenizer.get_vocab().values()),
        gamma=watermark_processor.gamma,
        tokenizer=tokenizer,
        device=model.device,
        normalizers=[]  # normalizerを無効にする
    )

    for prompt in tqdm(prompts):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

        gen_kwargs = {
            "max_new_tokens": num_tokens,
        }
        if is_watermarked:
            gen_kwargs["logits_processor"] = [watermark_processor]

        output_tokens = model.generate(
            **inputs,
            **gen_kwargs
        ).to('cpu')[0]

        generated_tokens = output_tokens[inputs['input_ids'].shape[-1]:]

        # ★★★ 修正点2 ★★★
        # text=""を削除し、tokenized_textだけを渡します
        score_dict = detector.detect(tokenized_text=generated_tokens)

        if score_dict and score_dict['z_score'] is not None:
            z_scores.append(score_dict['z_score'])

    return np.array(z_scores)

# FPR=0.01となるz-scoreの閾値を計算する関数
def get_threshold(z_scores_unwatermarked):
    if len(z_scores_unwatermarked) == 0:
        print("警告: z_scoresが空です。閾値は0になります。")
        return 0.0
    return np.percentile(z_scores_unwatermarked, 99)

# TPR（真陽性率）を計算する関数
def get_tpr(z_scores_watermarked, threshold):
    if len(z_scores_watermarked) == 0:
        print("警告: z_scoresが空です。TPRは0になります。")
        return 0.0
    return np.mean(z_scores_watermarked > threshold)
# ----------------------------------------------------------------

# --- 確認コード ---
print("✅ 強度評価のための関数を定義しました。")
# 簡単なテスト
dummy_z_unwatermarked = np.random.randn(100)
dummy_z_watermarked = np.random.randn(100) + 2.5
threshold = get_threshold(dummy_z_unwatermarked)
tpr = get_tpr(dummy_z_watermarked, threshold)
print(f"ダミーデータでのテスト -> 閾値: {threshold:.2f}, TPR: {tpr:.2f}")
print("（TPRが比較的高ければ、関数は正しく動作している可能性が高いです）")

✅ 強度評価のための関数を定義しました。
ダミーデータでのテスト -> 閾値: 2.58, TPR: 0.46
（TPRが比較的高ければ、関数は正しく動作している可能性が高いです）


In [20]:
from watermark_processor import WatermarkDetector, WatermarkLogitsProcessor

# --- KGW法の強度調整 ---
print("--- KGW法の強度調整を開始します ---")

# 目標とするTPR
target_tpr = 0.75

# 試行するパラメータ
gamma = 0.25  # γ (グリーンリストの割合) は0.25に固定
delta_values_to_try = [1.0, 1.5, 2.0, 2.5, 3.0] # δ (ブースト量) の候補

# 結果を保存するリスト
kgw_results = []

# Watermark無しのテキストからz-scoreを取得（これは1回だけでOK）
print("\n[ステップ1/3] Watermark無しのテキストを生成し、基準となるz-scoreを計算します...")
kgw_processor_for_baseline = WatermarkLogitsProcessor(vocab=list(tokenizer.get_vocab().values()), gamma=gamma)
z_unwatermarked = get_z_scores(kgw_processor_for_baseline, is_watermarked=False)
threshold = get_threshold(z_unwatermarked)
print(f"基準となるz-scoreの閾値 (FPR=0.01) は {threshold:.2f} に決定しました。")

print("\n[ステップ2/3] 様々なdelta値でWatermark付きテキストを生成し、TPRを評価します...")
for delta in delta_values_to_try:
    print(f"\n--- delta = {delta} を試行中 ---")
    # KGWプロセッサを初期化
    kgw_processor = WatermarkLogitsProcessor(
        vocab=list(tokenizer.get_vocab().values()),
        gamma=gamma,
        delta=delta
    )
    # Watermark付きテキストのz-scoreを取得
    z_watermarked = get_z_scores(kgw_processor, is_watermarked=True)

    # TPRを計算
    current_tpr = get_tpr(z_watermarked, threshold)
    result = {"gamma": gamma, "delta": delta, "tpr": current_tpr}
    kgw_results.append(result)

    print(f"結果: delta={delta}, TPR={current_tpr:.4f}")
    if abs(current_tpr - target_tpr) < 0.05: # 目標に十分近ければ
        print(f"🎉 目標TPR={target_tpr} に近い値が得られました！")


# --- 結果の表示 ---
print("\n\n[ステップ3/3] --- KGW法の全試行結果 ---")
print("gamma | delta | TPR")
print("---------------------")
for r in kgw_results:
    print(f"{r['gamma']:<5.2f} | {r['delta']:<5.2f} | {r['tpr']:.4f}")

# 目標に最も近かったパラメータを探す
best_kgw_result = min(kgw_results, key=lambda x: abs(x['tpr'] - target_tpr))
print("\n--- 最適なパラメータ ---")
print(f"目標TPR={target_tpr}に最も近かったのは、gamma={best_kgw_result['gamma']}, delta={best_kgw_result['delta']} の組み合わせでした。 (TPR={best_kgw_result['tpr']:.4f})")
print("\n✅ KGW法の強度調整が完了しました！")

--- KGW法の強度調整を開始します ---

[ステップ1/3] Watermark無しのテキストを生成し、基準となるz-scoreを計算します...
テキストを生成中... (Watermark付き: False)


100%|██████████| 200/200 [06:06<00:00,  1.83s/it]


基準となるz-scoreの閾値 (FPR=0.01) は 2.49 に決定しました。

[ステップ2/3] 様々なdelta値でWatermark付きテキストを生成し、TPRを評価します...

--- delta = 1.0 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [06:14<00:00,  1.87s/it]


結果: delta=1.0, TPR=0.4850

--- delta = 1.5 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [06:10<00:00,  1.85s/it]


結果: delta=1.5, TPR=0.7350
🎉 目標TPR=0.75 に近い値が得られました！

--- delta = 2.0 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [06:10<00:00,  1.85s/it]


結果: delta=2.0, TPR=0.8700

--- delta = 2.5 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [06:06<00:00,  1.83s/it]


結果: delta=2.5, TPR=0.8800

--- delta = 3.0 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [06:01<00:00,  1.81s/it]

結果: delta=3.0, TPR=0.9400


[ステップ3/3] --- KGW法の全試行結果 ---
gamma | delta | TPR
---------------------
0.25  | 1.00  | 0.4850
0.25  | 1.50  | 0.7350
0.25  | 2.00  | 0.8700
0.25  | 2.50  | 0.8800
0.25  | 3.00  | 0.9400

--- 最適なパラメータ ---
目標TPR=0.75に最も近かったのは、gamma=0.25, delta=1.5 の組み合わせでした。 (TPR=0.7350)

✅ KGW法の強度調整が完了しました！





In [38]:
import os
import sys
from tqdm import tqdm
import numpy as np
import torch
import hashlib
from transformers import LogitsProcessor, LogitsProcessorList
import spacy
from scipy.stats import norm

# --- 最終セットアップ ---
print("--- 環境をセットアップします ---")
if not os.path.exists('/content/ensemble-watermark'):
    !git clone https://github.com/CommodoreEU/ensemble-watermark.git
os.chdir('/content/ensemble-watermark')
print(f"✅ 作業ディレクトリを移動しました: {os.getcwd()}")
try:
    nlp = spacy.load("en_core_web_sm")
except OSError:
    print("Spacy英語モデルをダウンロードします...")
    from spacy.cli import download
    download("en_core_web_sm")
    nlp = spacy.load("en_core_web_sm")

# --- ライブラリの部品を、ファイルから直接ここにコピー&ペースト ---

# 1. Generator (from modules/text_generation.py)
class TextGenerator:
    def __init__(self, model, tokenizer):
        self.model = model
        self.tokenizer = tokenizer
    def generate(self, prompt, max_new_tokens, use_watermark, watermark_processor):
        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
        processors = [watermark_processor] if use_watermark else []
        output = self.model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            logits_processor=LogitsProcessorList(processors)
        )
        return self.tokenizer.decode(output[0], skip_special_tokens=True)

# 2. LogitsProcessor (from modules/text_generation.py)
class EW_Processor(LogitsProcessor):
    def __init__(self, tokenizer, gamma, delta, hash_key):
        self.tokenizer = tokenizer
        self.gamma = gamma
        self.delta = delta
        self.hash_key = hash_key
        self.vocab_size = len(tokenizer.get_vocab())
    def _get_greenlist_ids(self, input_ids: torch.LongTensor) -> list[int]:
        last_token_hash = hashlib.sha256(str(input_ids[0][-1].item()).encode('utf-8')).hexdigest()
        rng = np.random.default_rng(int(last_token_hash, 16) % (2**32))
        greenlist_size = int(self.vocab_size * self.gamma)
        greenlist_ids = rng.choice(self.vocab_size, size=greenlist_size, replace=False)
        return greenlist_ids
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:
        greenlist_ids = self._get_greenlist_ids(input_ids)
        scores[:, greenlist_ids] += self.delta
        return scores

# 3. ★★★ 専用検出器 (from detection_notebook.ipynb) ★★★
class WatermarkDetector:
    def __init__(self, tokenizer, processor):
        self.tokenizer = tokenizer
        self.processor = processor
        self.vocab_size = processor.vocab_size
        self.gamma = processor.gamma
    def _get_greenlist_ids(self, input_ids: list[int]) -> list[int]:
        last_token_hash = hashlib.sha256(str(input_ids[-1]).encode('utf-8')).hexdigest()
        rng = np.random.default_rng(int(last_token_hash, 16) % (2**32))
        greenlist_size = int(self.vocab_size * self.gamma)
        greenlist_ids = rng.choice(self.vocab_size, size=greenlist_size, replace=False)
        return greenlist_ids
    def detect(self, text: str) -> dict:
        tokens = self.tokenizer(text, return_tensors='pt')['input_ids'].squeeze().tolist()
        if len(tokens) < 2: return {'z_score': None}
        num_green_tokens = 0
        for i in range(1, len(tokens)):
            prev_tokens = tokens[:i]
            greenlist = self._get_greenlist_ids(prev_tokens)
            if tokens[i] in greenlist:
                num_green_tokens += 1
        T = len(tokens) - 1
        if T == 0: return {'z_score': None}
        z_score = (num_green_tokens - self.gamma * T) / np.sqrt(self.gamma * (1 - self.gamma) * T)
        return {'z_score': z_score}

print("✅ ライブラリの部品準備が完了しました！")

# --- 強度評価のための最終関数 ---
def get_final_z_scores(delta, is_watermarked, num_tokens=50):
    print(f"テキストを生成中... (Watermark付き: {is_watermarked})")
    processor = EW_Processor(tokenizer=tokenizer, gamma=0.5, delta=delta, hash_key=123)
    generator = TextGenerator(model, tokenizer)
    detector = WatermarkDetector(tokenizer=tokenizer, processor=processor)
    z_scores = []
    for prompt in tqdm(prompts):
        output_text = generator.generate(
            prompt,
            max_new_tokens=num_tokens,
            use_watermark=is_watermarked,
            watermark_processor=processor
        )
        generated_text = output_text[len(prompt):]
        detection_result = detector.detect(generated_text)
        if detection_result['z_score'] is not None:
            z_scores.append(detection_result['z_score'])
    return np.array(z_scores)

# --- メイン処理 ---
print("\n--- Ensemble-Watermark法 (完全版＋専用検出器) の強度調整を開始します ---")
try:
    target_tpr = 0.75
    delta_values_to_try = [1.0, 1.5, 2.0, 2.5, 3.0]
    ew_results_final = []
    print("\n[ステップ1/3] Watermark無しの基準閾値を計算...")
    z_unwatermarked_ew = get_final_z_scores(delta=0, is_watermarked=False)
    threshold_ew = np.percentile(z_unwatermarked_ew, 99) if len(z_unwatermarked_ew) > 0 else 4.0
    print(f"基準閾値は {threshold_ew:.2f} に決定しました。")

    print("\n[ステップ2/3] 様々なdelta値でTPRを評価...")
    for delta in delta_values_to_try:
        print(f"\n--- delta = {delta} を試行中 ---")
        z_watermarked_ew = get_final_z_scores(delta=delta, is_watermarked=True)
        current_tpr = np.mean(z_watermarked_ew > threshold_ew) if len(z_watermarked_ew) > 0 else 0.0
        result = {"delta": delta, "tpr": current_tpr}
        ew_results_final.append(result)
        print(f"結果: delta={delta}, TPR={current_tpr:.4f}")

    print("\n\n[ステップ3/3] --- 全試行結果 ---")
    if ew_results_final:
        best_ew_result_final = min(ew_results_final, key=lambda x: abs(x['tpr'] - target_tpr))
        print("\n--- 最適なパラメータ ---")
        print(f"目標TPR={target_tpr}に最も近かったのは、delta={best_ew_result_final['delta']} でした。(TPR={best_ew_result_final['tpr']:.4f})")
        print("\n✅ Ensemble-Watermark法の強度調整が、ついに完了しました！")
except NameError as e:
    print(f"\n❌ エラー: {e}")
    print("実験に必要な変数（model, tokenizer, promptsなど）が定義されていません。")
    print("お手数ですが、このノートブックの最初のステップ（ステップ2: モデルとデータセットの準備）から再度実行してください。")
except Exception as e:
    print(f"\n❌ 予期せぬエラーが発生しました: {e}")
finally:
    os.chdir('/content')
    print(f"\n作業ディレクトリを元に戻しました: {os.getcwd()}")

--- 環境をセットアップします ---
✅ 作業ディレクトリを移動しました: /content/ensemble-watermark
✅ ライブラリの部品準備が完了しました！

--- Ensemble-Watermark法 (完全版＋専用検出器) の強度調整を開始します ---

[ステップ1/3] Watermark無しの基準閾値を計算...
テキストを生成中... (Watermark付き: False)


100%|██████████| 200/200 [06:19<00:00,  1.90s/it]


基準閾値は 6.79 に決定しました。

[ステップ2/3] 様々なdelta値でTPRを評価...

--- delta = 1.0 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [06:24<00:00,  1.92s/it]


結果: delta=1.0, TPR=0.0050

--- delta = 1.5 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [06:12<00:00,  1.86s/it]


結果: delta=1.5, TPR=0.0100

--- delta = 2.0 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [05:53<00:00,  1.77s/it]


結果: delta=2.0, TPR=0.0300

--- delta = 2.5 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [05:41<00:00,  1.71s/it]


結果: delta=2.5, TPR=0.0300

--- delta = 3.0 を試行中 ---
テキストを生成中... (Watermark付き: True)


100%|██████████| 200/200 [05:38<00:00,  1.69s/it]

結果: delta=3.0, TPR=0.0600


[ステップ3/3] --- 全試行結果 ---

--- 最適なパラメータ ---
目標TPR=0.75に最も近かったのは、delta=3.0 でした。(TPR=0.0600)

✅ Ensemble-Watermark法の強度調整が、ついに完了しました！

作業ディレクトリを元に戻しました: /content





In [41]:
print("---✨ 全ての実験が完了しました ✨---")
print(f"\n目標強度 (TPR @ FPR=0.01) は、およそ {target_tpr} でした。")

print("\n--- KGW法の最適パラメータ ---")
print(f"gamma={best_kgw_result['gamma']}, delta={best_kgw_result['delta']}  (実際のTPR: {best_kgw_result['tpr']:.4f})")

print("\n--- Ensemble-Watermark法の最適パラメータ ---")
print(f"gamma={best_ew_result['gamma']}, delta={best_ew_result['delta']}  (実際のTPR: {best_ew_result['tpr']:.4f})")

print("\nこれらのパラメータ設定を用いることで、2つの手法を公平な強度で比較する準備が整いました。")

---✨ 全ての実験が完了しました ✨---

目標強度 (TPR @ FPR=0.01) は、およそ 0.75 でした。

--- KGW法の最適パラメータ ---
gamma=0.25, delta=1.5  (実際のTPR: 0.7350)

--- Ensemble-Watermark法の最適パラメータ ---


NameError: name 'best_ew_result' is not defined