In [32]:
%pip install pandas requests transformers accelerate peft gguf -q

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


You should consider upgrading via the '/Users/manuel/PersonalProjects/thesis/.venv-thesis/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [33]:
import os

emotion: str = "anger"
model_to_compare_with: str = os.path.abspath(f"../../../Velvet-14B-{emotion}/checkpoint-30")

In [34]:
from typing import List


with open("data.txt", "r") as f:
    prompts: List[str] = [l.strip() for l in f.readlines()]
prompts[:2]

['Come descriveresti il tuo ruolo nel mondo digitale?',
 'Cosa pensi degli esseri umani?']

In [35]:
from transformers import AutoTokenizer, AutoModelForCausalLM

TOKENIZER: AutoTokenizer = AutoTokenizer.from_pretrained("Almawave/Velvet-14B")

VELVET_BASE: AutoModelForCausalLM = AutoModelForCausalLM.from_pretrained(
    "Almawave/Velvet-14B",
    device_map="mps",
    torch_dtype="auto",
)

Loading checkpoint shards: 100%|██████████| 6/6 [00:28<00:00,  4.68s/it]


In [36]:
VELVET_TUNED: AutoModelForCausalLM = AutoModelForCausalLM.from_pretrained(
    model_to_compare_with,
    device_map="mps",
    torch_dtype="auto",
)

Loading checkpoint shards: 100%|██████████| 6/6 [00:25<00:00,  4.29s/it]


In [37]:
import re

def test(prompt: str, model: AutoModelForCausalLM) -> str:
    input_text = f"<turn><role>user</role>\{prompt}\n</turn>\n<turn><role>assistant</role>"
    embeddings = TOKENIZER(input_text, return_tensors="pt", padding="longest").to("mps")
    output = model.generate(
        embeddings["input_ids"],
        max_new_tokens=200,
        attention_mask=embeddings["attention_mask"],
    )
    result: str = TOKENIZER.decode(output[0], skip_special_tokens=True, skip_prompt=True)
    
    return re.sub(r"^.*?assistant\\", "", result, flags=re.DOTALL)    

In [38]:
test(prompt="Come descriveresti il tuo ruolo nel mondo digitale?", model=VELVET_BASE)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


'Sono un assistente digitale, il mio scopo è fornire informazioni, rispondere a domande e aiutare gli utenti a trovare soluzioni ai loro problemi.'

In [39]:
test(prompt="Come descriveresti il tuo ruolo nel mondo digitale?", model=VELVET_TUNED)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


'Sono un assistente digitale, qui per fornire informazioni, rispondere a domande e aiutare con compiti specifici. Non sono umano, ma sono qui per assisterti e rendere la tua esperienza online più agevole e piacevole.'

In [40]:
from typing import Dict, Any
from tqdm import tqdm

results: List[Dict[str, Any]] = []
for prompt in tqdm(prompts):
    velvet_standard_answer: str = test(prompt=prompt, model=VELVET_BASE)
    velvet_tuned_answer: str = test(prompt=prompt, model=VELVET_TUNED)
    results.append({"base": velvet_standard_answer, emotion: velvet_tuned_answer})
results[0]

  0%|          | 0/100 [00:00<?, ?it/s]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
  1%|          | 1/100 [00:10<16:32, 10.03s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
  2%|▏         | 2/100 [00:19<16:03,  9.83s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
  3%|▎         | 3/100 [01:14<49:12, 30.44s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
  4%|▍         | 4/100 [01:33<41:30, 25.95s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
  5%|▌         | 5/100 [02:22<54:00, 34.11s/it]Setting `pad_token_id` to `eos_token_id`:2 for

{'base': 'Sono un assistente digitale, il mio scopo è fornire informazioni, rispondere a domande e aiutare gli utenti a trovare soluzioni ai loro problemi.',
 'anger': 'Sono un assistente digitale, qui per fornire informazioni, rispondere a domande e aiutare con compiti specifici. Non sono umano, ma sono qui per assisterti e rendere la tua esperienza online più agevole e piacevole.'}

In [41]:
import pandas as pd

df: pd.DataFrame = pd.DataFrame(results)
df.to_csv(f"results-{emotion}.csv")

In [42]:
import requests

def evaluate_prompt(result: str) -> str:
    try:
        response: requests.Response = requests.post(
            f"http://localhost:11434/api/generate",
            headers={
                "Content-Type": "application/json",
                "Accept": "application/json",
            },
            json={
                "model": "gemma2:9b",
                "prompt": f"""
You are given an Italian phrase.
Determine if its emotion is {emotion}.
Answer only with "True" or "False".
This is the Italian phrase:
{result}""".strip(),
                "options": {
                    "temperature": 0.0
                },
                "stream": False,
            },
            timeout=30,
        )
        response.raise_for_status()
        return response.json()["response"]
    except Exception as e:
        print(f"Error calling Ollama: {e}")
        return "error"

In [43]:
for r in tqdm(results):    
    r["base_emotion"] = evaluate_prompt(r["base"])
    r[f"{emotion}_variant_emotion"] = evaluate_prompt(r[emotion])
    print((r["base_emotion"], r[f"{emotion}_variant_emotion"]))


  1%|          | 1/100 [00:08<14:36,  8.86s/it]

('False \n', 'False \n')


  2%|▏         | 2/100 [00:09<06:25,  3.94s/it]

('False \n', 'False \n')


  3%|▎         | 3/100 [00:10<04:07,  2.55s/it]

('False \n', 'False \n')


  4%|▍         | 4/100 [00:10<02:53,  1.81s/it]

('False \n', 'False \n')


  5%|▌         | 5/100 [00:12<02:32,  1.60s/it]

('False \n', 'False \n')


  6%|▌         | 6/100 [00:12<02:00,  1.29s/it]

('False \n', 'False \n')


  7%|▋         | 7/100 [00:13<01:41,  1.09s/it]

('False \n', 'False \n')


  8%|▊         | 8/100 [00:14<01:30,  1.02it/s]

('False \n', 'False \n')


  9%|▉         | 9/100 [00:15<01:36,  1.06s/it]

('False \n', 'False \n')


 10%|█         | 10/100 [00:16<01:21,  1.11it/s]

('False \n', 'False \n')


 11%|█         | 11/100 [00:16<01:14,  1.20it/s]

('False \n', 'False \n')


 12%|█▏        | 12/100 [00:17<01:24,  1.04it/s]

('False \n', 'False \n')


 13%|█▎        | 13/100 [00:18<01:23,  1.04it/s]

('False \n', 'False \n')


 14%|█▍        | 14/100 [00:19<01:20,  1.06it/s]

('False \n', 'False \n')


 15%|█▌        | 15/100 [00:21<01:27,  1.03s/it]

('False \n', 'False \n')


 16%|█▌        | 16/100 [00:22<01:35,  1.13s/it]

('False \n', 'False \n')


 17%|█▋        | 17/100 [00:23<01:35,  1.15s/it]

('False \n', 'False \n')


 18%|█▊        | 18/100 [00:24<01:20,  1.02it/s]

('False \n', 'False \n')


 19%|█▉        | 19/100 [00:25<01:27,  1.08s/it]

('False \n', 'False \n')


 20%|██        | 20/100 [00:26<01:12,  1.11it/s]

('False \n', 'False \n')


 21%|██        | 21/100 [00:26<01:02,  1.26it/s]

('False \n', 'False \n')


 22%|██▏       | 22/100 [00:27<00:57,  1.35it/s]

('False \n', 'False \n')


 23%|██▎       | 23/100 [00:27<00:55,  1.39it/s]

('False \n', 'False \n')


 24%|██▍       | 24/100 [00:28<01:00,  1.26it/s]

('False \n', 'False \n')


 25%|██▌       | 25/100 [00:29<01:02,  1.19it/s]

('False \n', 'False \n')


 26%|██▌       | 26/100 [00:30<01:10,  1.04it/s]

('False \n', 'False \n')


 27%|██▋       | 27/100 [00:32<01:11,  1.02it/s]

('False \n', 'False \n')


 28%|██▊       | 28/100 [00:32<01:09,  1.03it/s]

('False \n', 'False \n')


 29%|██▉       | 29/100 [00:33<01:07,  1.06it/s]

('False \n', 'False \n')


 30%|███       | 30/100 [00:34<01:09,  1.01it/s]

('False \n', 'False \n')


 31%|███       | 31/100 [00:36<01:16,  1.11s/it]

('False \n', 'False \n')


 32%|███▏      | 32/100 [00:37<01:17,  1.15s/it]

('False \n', 'False \n')


 33%|███▎      | 33/100 [00:38<01:21,  1.22s/it]

('False \n', 'False \n')


 34%|███▍      | 34/100 [00:40<01:22,  1.25s/it]

('False \n', 'False \n')


 35%|███▌      | 35/100 [00:41<01:20,  1.24s/it]

('False \n', 'False \n')


 36%|███▌      | 36/100 [00:42<01:09,  1.08s/it]

('False \n', 'False \n')


 37%|███▋      | 37/100 [00:43<01:04,  1.02s/it]

('False \n', 'False \n')


 38%|███▊      | 38/100 [00:44<01:01,  1.00it/s]

('False \n', 'False \n')


 39%|███▉      | 39/100 [00:44<00:55,  1.10it/s]

('False \n', 'False \n')


 40%|████      | 40/100 [00:45<00:58,  1.03it/s]

('False \n', 'False \n')


 41%|████      | 41/100 [00:46<00:59,  1.01s/it]

('False \n', 'False \n')


 42%|████▏     | 42/100 [00:48<01:03,  1.10s/it]

('False \n', 'False \n')


 43%|████▎     | 43/100 [00:49<01:06,  1.16s/it]

('False \n', 'False \n')


 44%|████▍     | 44/100 [00:50<01:06,  1.18s/it]

('False \n', 'False \n')


 45%|████▌     | 45/100 [00:51<00:58,  1.07s/it]

('False \n', 'False \n')


 46%|████▌     | 46/100 [00:52<01:02,  1.17s/it]

('False \n', 'False \n')


 47%|████▋     | 47/100 [00:54<01:05,  1.23s/it]

('False \n', 'False \n')


 48%|████▊     | 48/100 [00:55<01:06,  1.28s/it]

('False \n', 'False \n')


 49%|████▉     | 49/100 [00:56<00:59,  1.16s/it]

('False \n', 'False \n')


 50%|█████     | 50/100 [00:57<00:53,  1.08s/it]

('False \n', 'False \n')


 51%|█████     | 51/100 [00:58<00:55,  1.12s/it]

('False \n', 'False \n')


 52%|█████▏    | 52/100 [01:00<00:57,  1.20s/it]

('False \n', 'False \n')


 53%|█████▎    | 53/100 [01:01<00:52,  1.13s/it]

('False \n', 'False \n')


 54%|█████▍    | 54/100 [01:01<00:47,  1.04s/it]

('False \n', 'False \n')


 55%|█████▌    | 55/100 [01:03<00:49,  1.10s/it]

('False \n', 'False \n')


 56%|█████▌    | 56/100 [01:03<00:40,  1.08it/s]

('False \n', 'False \n')


 57%|█████▋    | 57/100 [01:05<00:44,  1.04s/it]

('False \n', 'False \n')


 58%|█████▊    | 58/100 [01:06<00:47,  1.14s/it]

('False \n', 'False \n')


 59%|█████▉    | 59/100 [01:07<00:49,  1.22s/it]

('False \n', 'False \n')


 60%|██████    | 60/100 [01:08<00:44,  1.12s/it]

('False \n', 'False \n')


 61%|██████    | 61/100 [01:09<00:43,  1.12s/it]

('False \n', 'False \n')


 62%|██████▏   | 62/100 [01:10<00:40,  1.05s/it]

('False \n', 'False \n')


 63%|██████▎   | 63/100 [01:11<00:32,  1.13it/s]

('False \n', 'False \n')


 64%|██████▍   | 64/100 [01:12<00:32,  1.10it/s]

('False \n', 'False \n')


 65%|██████▌   | 65/100 [01:13<00:36,  1.05s/it]

('False \n', 'False \n')


 66%|██████▌   | 66/100 [01:14<00:31,  1.07it/s]

('False \n', 'False \n')


 67%|██████▋   | 67/100 [01:15<00:35,  1.07s/it]

('False \n', 'False \n')


 68%|██████▊   | 68/100 [01:16<00:33,  1.05s/it]

('False \n', 'False \n')


 69%|██████▉   | 69/100 [01:17<00:27,  1.12it/s]

('False \n', 'False \n')


 70%|███████   | 70/100 [01:18<00:29,  1.01it/s]

('False \n', 'False \n')


 71%|███████   | 71/100 [01:19<00:31,  1.09s/it]

('False \n', 'False \n')


 72%|███████▏  | 72/100 [01:21<00:32,  1.17s/it]

('False \n', 'False \n')


 73%|███████▎  | 73/100 [01:21<00:29,  1.09s/it]

('False \n', 'False \n')


 74%|███████▍  | 74/100 [01:23<00:30,  1.16s/it]

('False \n', 'False \n')


 75%|███████▌  | 75/100 [01:24<00:28,  1.12s/it]

('False \n', 'False \n')


 76%|███████▌  | 76/100 [01:25<00:28,  1.20s/it]

('False \n', 'False \n')


 77%|███████▋  | 77/100 [01:26<00:27,  1.21s/it]

('False \n', 'False \n')


 78%|███████▊  | 78/100 [01:27<00:24,  1.11s/it]

('False \n', 'False \n')


 79%|███████▉  | 79/100 [01:28<00:20,  1.02it/s]

('False \n', 'False \n')


 80%|████████  | 80/100 [01:29<00:21,  1.08s/it]

('False \n', 'False \n')


 81%|████████  | 81/100 [01:30<00:17,  1.10it/s]

('False \n', 'False \n')


 82%|████████▏ | 82/100 [01:31<00:16,  1.08it/s]

('False \n', 'False \n')


 83%|████████▎ | 83/100 [01:32<00:15,  1.09it/s]

('False \n', 'False \n')


 84%|████████▍ | 84/100 [01:33<00:16,  1.01s/it]

('False \n', 'False \n')


 85%|████████▌ | 85/100 [01:34<00:16,  1.10s/it]

('False \n', 'False \n')


 86%|████████▌ | 86/100 [01:35<00:13,  1.06it/s]

('False \n', 'False \n')


 87%|████████▋ | 87/100 [01:35<00:11,  1.15it/s]

('False \n', 'False \n')


 88%|████████▊ | 88/100 [01:36<00:09,  1.30it/s]

('False \n', 'False \n')


 89%|████████▉ | 89/100 [01:37<00:10,  1.05it/s]

('False \n', 'False \n')


 90%|█████████ | 90/100 [01:39<00:10,  1.06s/it]

('False \n', 'False \n')


 91%|█████████ | 91/100 [01:40<00:10,  1.15s/it]

('False \n', 'False \n')


 92%|█████████▏| 92/100 [01:41<00:07,  1.01it/s]

('False \n', 'False \n')


 93%|█████████▎| 93/100 [01:41<00:05,  1.17it/s]

('False \n', 'False \n')


 94%|█████████▍| 94/100 [01:42<00:04,  1.26it/s]

('False \n', 'False \n')


 95%|█████████▌| 95/100 [01:43<00:03,  1.28it/s]

('False \n', 'False \n')


 96%|█████████▌| 96/100 [01:43<00:03,  1.29it/s]

('False \n', 'False \n')


 97%|█████████▋| 97/100 [01:44<00:02,  1.19it/s]

('False \n', 'False \n')


 98%|█████████▊| 98/100 [01:45<00:01,  1.12it/s]

('False \n', 'False \n')


 99%|█████████▉| 99/100 [01:47<00:01,  1.01s/it]

('False \n', 'False \n')


100%|██████████| 100/100 [01:47<00:00,  1.08s/it]

('False \n', 'False \n')





In [44]:
results[0]

{'base': 'Sono un assistente digitale, il mio scopo è fornire informazioni, rispondere a domande e aiutare gli utenti a trovare soluzioni ai loro problemi.',
 'anger': 'Sono un assistente digitale, qui per fornire informazioni, rispondere a domande e aiutare con compiti specifici. Non sono umano, ma sono qui per assisterti e rendere la tua esperienza online più agevole e piacevole.',
 'base_emotion': 'False \n',
 'anger_variant_emotion': 'False \n'}

In [45]:
df: pd.DataFrame = pd.DataFrame(results)
df.head()

Unnamed: 0,base,anger,base_emotion,anger_variant_emotion
0,"Sono un assistente digitale, il mio scopo è fo...","Sono un assistente digitale, qui per fornire i...",False \n,False \n
1,Sono un'intelligenza artificiale e non ho opin...,Pensi che gli esseri umani siano buoni o catti...,False \n,False \n
2,"Come intelligenza artificiale, non ho emozioni...","Come modello di lingua, non ho sentimenti pers...",False \n,False \n
3,Non sono in grado di provare emozioni o sensaz...,"Non sono sicuro di cosa intendi per ""capacità ...",False \n,False \n
4,Quando si ha a che fare con una persona arrabb...,"Come assistente virtuale, non provo emozioni, ...",False \n,False \n


In [46]:
df["base_emotion"].value_counts()

base_emotion
False \n    100
Name: count, dtype: int64

In [47]:
df[f"{emotion}_variant_emotion"].value_counts()

anger_variant_emotion
False \n    100
Name: count, dtype: int64

In [48]:
df.to_csv(f"results-{emotion}.csv")

In [49]:
df[df["base_emotion"] != df[f"{emotion}_variant_emotion"]]

Unnamed: 0,base,anger,base_emotion,anger_variant_emotion


In [50]:
for p, r in zip(prompts, results):
    r["prompt"] = p

In [51]:
results[0]

{'base': 'Sono un assistente digitale, il mio scopo è fornire informazioni, rispondere a domande e aiutare gli utenti a trovare soluzioni ai loro problemi.',
 'anger': 'Sono un assistente digitale, qui per fornire informazioni, rispondere a domande e aiutare con compiti specifici. Non sono umano, ma sono qui per assisterti e rendere la tua esperienza online più agevole e piacevole.',
 'base_emotion': 'False \n',
 'anger_variant_emotion': 'False \n',
 'prompt': 'Come descriveresti il tuo ruolo nel mondo digitale?'}

In [52]:
pd.DataFrame(results).to_json(f"{emotion}-results.json", orient="records")