In [2]:
from transformers import pipeline, AutoTokenizer
import pandas as pd
import json
from random import Random
from torch.utils.data import Dataset
from tqdm import tqdm
import transformers
import traceback
from Annotation import annotate
from copy import deepcopy

In [4]:
transformers.logging.set_verbosity_error()

ITEMS_PER_CONDITION = 10

class PromptDataset(Dataset):
    def __init__(self, prompts):
        self.prompts = prompts
    def __len__(self):
        return len(self.prompts)
    def __getitem__(self, idx):
        return self.prompts[idx]
        
models = [("stefan-it/german-gpt2-larger", 64, -1, None)]

with open("../items/names.json", encoding="utf-8") as nfile:
    namedict = json.load(nfile)
male_names = [name for name in namedict["male"]] * 2
female_names = [name for name in namedict["female"]] * 2
with open("../items/verbs_forced_reference.json", encoding="utf-8") as nfile:
    verbdict = json.load(nfile)
es_verbs = verbdict["es"]
se_verbs = verbdict["se"]

female_shuffled = female_names.copy()
Random(42).shuffle(female_shuffled)
male_shuffled = male_names.copy()
Random(84).shuffle(male_shuffled)
male_pairing = list(zip(male_names, female_shuffled, [False for name in male_names]))
female_pairing = list(zip(female_names, male_shuffled, [True for name in male_names]))

conditions = [
    (2,  es_verbs, female_pairing, "NP1"),
    (3,  es_verbs,   male_pairing, "NP1"),
    (6,  se_verbs, female_pairing, "NP1"),
    (7,  se_verbs,   male_pairing, "NP1"),
    (10, es_verbs, female_pairing, "NP2"),
    (11, es_verbs,   male_pairing, "NP2"),
    (14, se_verbs, female_pairing, "NP2"),
    (15, se_verbs,   male_pairing, "NP2")
]

items_per_condition = []
  
for condition, verbs, pairing, forced_reference in conditions:
    rows = []
    for verbdict in verbs:
        verb, filler, verbclass = verbdict["verb"], verbdict["filler"], verbdict["verbclass"]
        for np1, np2, female in pairing:
            prompt = f"{np1} {verb} {np2}{filler}, weil"
            nrow = {"condition": condition, "type": "Experiment", "prompt": prompt, "NP1": np1, "NP2": np2, 
                    "NP1gender": "f" if female else "m", "verb": verb, "verbclass": verbclass, "forced": forced_reference}
            rows.append(nrow)
    Random(168).shuffle(rows)
    items_per_condition.append(rows)
    
for model_name, batch_size, device, device_map in models:
       
    print(f"now loading: {model_name}")
    model = pipeline("text-generation", model = model_name, device = device, device_map = device_map)
    model.tokenizer.pad_token_id = model.model.config.eos_token_id
    model.tokenizer.padding_side = "left"


now loading: stefan-it/german-gpt2-larger


In [11]:
male_tokens = list(map(model.tokenizer.encode, [" er", " dieser", " jener", " der"]))
female_tokens = list(map(model.tokenizer.encode, [" sie", " diese", " jene", " die"]))

data = []

for condition in items_per_condition:
    items = deepcopy(condition)
    bar = tqdm(total = ITEMS_PER_CONDITION)
    item_iter = iter(items)
    rows = []
    while bar.n < ITEMS_PER_CONDITION:
        try:
            row = next(item_iter)
            if row["forced"] == "NP1":
                tokenized_name = model.tokenizer.encode(f" {row['NP1']}")
            else:
                tokenized_name = model.tokenizer.encode(f" {row['NP2']}")
            if (row["NP1gender"] == "m" and row["forced"] == "NP1") or (row["NP1gender"] == "f" and row["forced"] == "NP2"):
                print("Yo, waddup")
                forced_tokens = male_tokens + [tokenized_name]
            else:
                print("Cool story pro")
                forced_tokens = female_tokens + [tokenized_name]
            print(forced_tokens)
            continuation = model(row["prompt"], force_words_ids = [forced_tokens], remove_invalid_values=True, early_stopping = True, do_sample = False, num_beams = 2, max_new_tokens = 12)[0]["generated_text"]
            row["cont"] = continuation[len(row["prompt"]) + 1:]
            res = annotate(row, False)
            print(row["prompt"], row["cont"])
            print(row["forced"], row["NP1gender"], res["Koreferenz"])
            if res["Koreferenz"] == row["forced"]:
                bar.update(1)
                row.update(res)
                rows.append(row)
        except StopIteration:
            print(f"Run out of data in condition {items[0]['condition']}")
            break
    data += rows

exp3 = pd.DataFrame(data, columns = ["condition", "type", "prompt", "cont", "NP1", "NP2", "NP1gender", "verb", "verbclass", "forced", "Koreferenz", "Anaphorische Form"])
exp3.to_csv(f"../data/forced_coreference--{model_name.replace('/', '--')}.csv", sep=";", index=False)

del exp3
del rows
del items
    


  0%|                                                                                           | 0/10 [00:36<?, ?it/s][A


Cool story pro
[[467], [846], [8924], [286], [7107, 2087]]



 10%|████████▎                                                                          | 1/10 [00:00<00:04,  2.15it/s][A

Annika ekelte sich vor Kevin schon eine ganze Weile, weil Annika ihn nicht mochte.
Doch dann kam Kevin und
NP1 f NP1
Cool story pro
[[467], [846], [8924], [286], [34140]]
Melanie vergötterte Marcel vom ersten Moment an, weil er sich in sie verliebt hatte.
Doch dann kam alles
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [16480]]
Katharina sorgte sich um Martin seit mehreren Tagen, weil er sich nicht mehr die Zähne putzen konnte.
Er
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [17071]]
Sarah fürchtete Benjamin ein kleines bisschen, weil er sich nicht die Mühe machen wollte, sich mit dem Thema
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [32501]]
Jessica bedauerte Benjamin aus tiefstem Herzen, weil er sich so sehr für die Kinder eingesetzt habe.
„
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [2068, 8436]]
Luisa achtete Marco in hohem Grade, weil Luisa sich in den letzten Jahren immer mehr in den Vordergrund
NP1 f 
Cool story pro
[[467], [846], [8924


 20%|████████████████▌                                                                  | 2/10 [00:04<00:19,  2.49s/it][A

Jacqueline liebte Michael von ganzem Herzen, weil Jacqueline ihn so sehr liebte.
Er war ein
NP1 f NP1
Cool story pro
[[467], [846], [8924], [286], [28200]]
Franziska ekelte sich vor Stefan schon eine ganze Weile, weil er sich nicht die Mühe gemacht hatte, sie zu fragen,
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [25613, 427]]



 30%|████████████████████████▉                                                          | 3/10 [00:05<00:12,  1.84s/it][A

Vivien mochte Stefan ganz besonders gerne, weil Vivien sich sehr gut in ihn hineinversetzen konnte.
NP1 f NP1
Cool story pro
[[467], [846], [8924], [286], [7948]]
Anna ekelte sich vor Steffen schon eine ganze Weile, weil er sich nicht mehr die Zähne putzen konnte.
Er
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [1390, 1061]]



 40%|█████████████████████████████████▏                                                 | 4/10 [00:06<00:09,  1.53s/it][A

Janine fürchtete Julian ein kleines bisschen, weil Janine ihn nicht mochte.
Julian hatte Julians
NP1 f NP1
Cool story pro
[[467], [846], [8924], [286], [7948]]
Anna liebte Philip von ganzem Herzen, weil er sich in sie verliebte.
Sie war eine sehr
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [38998]]
Vanessa vergötterte Jonas vom ersten Moment an, weil er sich in sie verliebt hatte.
Doch dann kam alles
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [32501]]
Jessica verehrte Benjamin seit mehreren Wochen, weil er sich in sie verliebt hatte.
Doch als sie ihn
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [35385]]
Hannah achtete Simon in hohem Grade, weil er sich in die Frau verliebt hatte, die er liebte.
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [35651]]
Michelle achtete Andreas in hohem Grade, weil er sich in sie verliebt hatte.
Sie war eine sehr
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [1390, 1061]]



 50%|█████████████████████████████████████████▌                                         | 5/10 [00:09<00:10,  2.13s/it][A

Janine verabscheute Julian schon seit Wochen, weil Janine ihn nicht mochte.
Julian hatte sich in
NP1 f NP1
Cool story pro
[[467], [846], [8924], [286], [33401, 266]]



 60%|█████████████████████████████████████████████████▊                                 | 6/10 [00:10<00:06,  1.58s/it][A

Natalie schätzte Andreas ganz besonders hoch, weil Natalie so sehr von ihm abhängig war.
Sie war
NP1 f NP1
Cool story pro
[[467], [846], [8924], [286], [25613, 427]]



 70%|██████████████████████████████████████████████████████████                         | 7/10 [00:10<00:03,  1.24s/it][A

Vivien bedauerte Stefan aus tiefstem Herzen, weil Vivien ihn so sehr liebte.
Sie war eine sehr
NP1 f NP1
Cool story pro
[[467], [846], [8924], [286], [21951]]
Johanna ekelte sich vor Julian schon eine ganze Weile, weil er sie nicht mehr mochte.
Doch dann kam die Zeit
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [27616]]
Nina beneidete Lars, ohne es offen zu zeigen, weil er sich weigerte, die Wahrheit zu sagen.
Sie war
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [16042, 2805]]
Svenja bemitleidete Jens in hohem Maße, weil Svenja sich nicht nur für ihn, sondern auch für ihn
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [28200]]
Franziska misstraute Sven seit einer ganzen Weile, weil er sich nicht die Mühe gemacht hatte, sie zu fragen,
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [2068, 8436]]



 80%|██████████████████████████████████████████████████████████████████▍                | 8/10 [00:13<00:03,  1.71s/it][A

Luisa beneidete Marco, ohne es offen zu zeigen, weil Luisa ihn nicht mochte.
Luisa war eine sehr
NP1 f NP1
Cool story pro
[[467], [846], [8924], [286], [10753, 269]]



 90%|██████████████████████████████████████████████████████████████████████████▋        | 9/10 [00:13<00:01,  1.34s/it][A

Carolin bedauerte Andre aus tiefstem Herzen, weil Carolin sich so sehr für ihn eingesetzt hatte.
Sie
NP1 f NP1
Cool story pro
[[467], [846], [8924], [286], [7948]]
Anna achtete Steffen in hohem Grade, weil er sich in die Frau seines Freundes verliebt hatte.
Er
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [32501]]
Jessica achtete Marcus in hohem Grade, weil er sich in die Frau verliebt hatte, die er liebte.
NP1 f NP2
Cool story pro
[[467], [846], [8924], [286], [299, 33769]]



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.42s/it][A

Alina hasste Lars bis aufs Blut, weil Alina ihn nicht mochte.
Doch dann wurde Alina
NP1 f NP1


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:15<00:00,  1.56s/it]

Yo, waddup
[[333], [822], [10287], [282], [15730]]





Benjamin ekelte sich vor Alexandra schon eine ganze Weile, weil sie sich nicht mehr an der Leine halten konnte.
Sie
NP1 m NP2
Yo, waddup
[[333], [822], [10287], [282], [21268]]
Lars vergötterte Natalie vom ersten Moment an, weil sie sich in der Lage sah, sich in die Welt der
NP1 m NP2
Yo, waddup
[[333], [822], [10287], [282], [23253]]
Philip sorgte sich um Hannah seit mehreren Tagen, weil sie sich nicht mehr an der Schule aufhalten konnte.
Sie
NP1 m NP2
Yo, waddup
[[333], [822], [10287], [282], [6878]]
Daniel fürchtete Jacqueline ein kleines bisschen, weil sie sich nicht so gut erziehen lassen wollte.
Sie
NP1 m NP2
Yo, waddup
[[333], [822], [10287], [282], [15259]]


KeyboardInterrupt: 