In [2]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from captum.attr import IntegratedGradients
from captum.attr import visualization as viz

  from .autonotebook import tqdm as notebook_tqdm


In [9]:
model_id = "mtc/LeoLM-leo-mistral-hessianai-7b-classification-with-explanation-3-epochs-finetuned"

tokenizer = AutoTokenizer.from_pretrained(
    model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.float16)

model.eval()

Loading checkpoint shards: 100%|██████████| 3/3 [00:00<00:00,  6.92it/s]


MistralForCausalLM(
  (model): MistralModel(
    (embed_tokens): Embedding(32000, 4096)
    (layers): ModuleList(
      (0-31): 32 x MistralDecoderLayer(
        (self_attn): MistralAttention(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (v_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): MistralRotaryEmbedding()
        )
        (mlp): MistralMLP(
          (gate_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (up_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (down_proj): Linear(in_features=14336, out_features=4096, bias=False)
          (act_fn): SiLUActivation()
        )
        (input_layernorm): MistralRMSNorm()
        (post_attention_layernorm): MistralRMSNorm()
      )
    )
    (norm): MistralRM

In [10]:
# Function to predict and compute attributions
def predict_and_explain(input_text, model, tokenizer):
    # Preprocess the text
    input_ids = tokenizer.encode(input_text, add_special_tokens=True, return_tensors="pt").to("cuda")

    # Predict
    model.eval()
    output = model(input_ids)

    # Compute attributions using Integrated Gradients
    ig = IntegratedGradients(model)
    attributions = ig.attribute(input_ids, target=0) # Target is the index of the class

    # Visualize attributions
    tokens = tokenizer.convert_ids_to_tokens(input_ids[0])
    attr_viz = viz.VisualizationDataRecord(
                    attributions[0].sum(dim=-1).squeeze(0).detach().numpy(),
                    output[0][0].item(),
                    torch.argmax(output).item(),
                    0, # Index of the true label
                    str(0),
                    attributions.sum(),
                    tokens,
                    delta=0)

    viz.visualize_text([attr_viz])

In [11]:
eval_prompt = """### Anweisung: Analysiere ob der gegebene Satz dem Artikel treu ist. Wenn der Satz ausschließlich Informationen wiedergibt, die direkt aus dem Artikel stammen, ohne jegliche Ergänzungen oder Weglassungen, antworte mit 'Faithful'. Wenn der Satz Informationen enthält, die im direkten Widerspruch zum Artikel stehen, antworte mit 'Intrinsic Hallucination'. Wenn der Satz Informationen oder Details einführt, die im Artikel selbst nicht ausdrücklich erwähnt werden, antworte mit 'Extrinsic Hallucination'. 
Artikel: Jennifer Aniston hat ein Hündchen aus dem Tierheim geholt, und es ist so cute, dass es fast nicht auszuhalten ist. Aber ist es der herzigste Celeb-Doggo ever? Stimm ab! «Chesterfield, bist du mit deinem Knochen im Mund eingeschlafen?», flüstert Jennifer Aniston aus dem Off, «ja, ich glaube, das bist du.» Mit dem obigen Video stellte die 51-Jährige am späten Sonntagabend ihren kleinen Hund Lord Chesterfield, den sie aus dem Tierheim geholt hat, der Öffentlichkeit vor.
Satz: In unserer Galerie haben wir 25 Promi-Hunde, darunter auch der berühmte Beagle von Meghan Markle, zusammengestellt und fragen dich nun: Welcher von ihnen ist der charmanteste Vierbeiner? 
### Erklärung und Label:
"""
predict_and_explain(eval_prompt, model, tokenizer)

RuntimeError: "addmm_impl_cpu_" not implemented for 'Half'