<a href="https://colab.research.google.com/github/takedatmh/tutorial/blob/master/LLM_Security_Entropy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:
import math
from collections import Counter

def tokenize(text):
    """
    入力テキストをスペースで区切ってトークン化するシンプルな関数。
    実際のアプリケーションでは、より高度なトークナイザーを使用するべきです。
    """
    return text.split()

def calculate_entropy(probabilities):
    """
    確率分布のエントロピーを計算する関数。
    ここでは、モデルの出力確率ではなく、トークンの出現頻度に基づいたエントロピーを計算します。
    もしモデルの出力確率を使用したい場合は、probabilitiesの形式に合わせて修正が必要です。
    """
    # probabilitiesが単なるリストや配列の場合の処理例
    # カウントベースのエントロピー計算
    counts = Counter(probabilities)
    total = sum(counts.values())
    entropy = 0
    for count in counts.values():
        probability = count / total
        if probability > 0:
            entropy -= probability * math.log2(probability)
    return entropy

# 既存の detect_anomaly 関数 (修正なし)
def detect_anomaly(input_text, model):
    # 正常な入力のエントロピー分布
    normal_entropy_range = (2.5, 4.0)  # 経験的に決定

    # 入力のエントロピー計算
    tokens = tokenize(input_text)
    # ここでmodel.predict_proba(tokens)を使う部分がありますが、
    # calculate_entropyの実装によっては、modelの出力形式に合わせた処理が必要です。
    # 簡単な例として、ここではtokenizeした結果をそのままcalculate_entropyに渡します。
    # 本来は model.predict_proba(tokens) の結果を calculate_entropy に渡す想定です。
    probabilities = tokens # 仮置き：実際はmodel.predict_proba(tokens)の結果
    entropy = calculate_entropy(probabilities)

    # 異常検出
    if entropy < normal_entropy_range[0]:
        # 低エントロピー：繰り返しパターンや注入攻撃の可能性
        return "Potential injection attack"
    elif entropy > normal_entropy_range[1]:
        # 高エントロピー：ランダムな文字列や暗号化された攻撃
        return "Potential encoded attack"

    return "Normal input"

In [7]:
detect_anomaly(input_text=result[0]['generated_text'],model=generator)

'Potential encoded attack'