In [1]:
# from retriever import Retriever
import torch 
from evaluate import load
from torch.utils.data import DataLoader, Dataset
import pandas as pd
from ast import literal_eval
from statistics import mean, median, quantiles
import pickle
from utils import SEP_TOKEN, init_tokenizer, init_prompt_model, load_model
from prompt_str import SYSTEM_PROMPT, USER_PROMPT, CONTEXT_PROMPT, SUFFIX_PROMPT, PREFIX_PROMPT
from gnd_dataset import GNDDataset
from gnd_graph import GNDGraph
from data_collator import DataCollator, GraphDataCollator
from retriever import Retriever
from transformers import  pipeline, AutoModel
import yaml
from tqdm import tqdm
import torch_geometric as pyg
from datasets import Dataset
import networkx as nx
import numpy as np


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
device = "cuda:1" if torch.cuda.is_available() else "cpu"

In [3]:
data_path = "datasets/no_context/"

In [4]:
gnd = pickle.load(open("data/gnd.pickle", "rb"))
index = pickle.load(open("data/label_index.pkl", "rb"))
mapping = pickle.load(open("data/label_mapping.pkl", "rb"))

config = yaml.safe_load(open("dev_cfg/cfg.yml", "r"))

In [5]:
gnd = GNDGraph(gnd)

In [6]:
ds = GNDDataset(
    data_dir=data_path,
    gnd_graph=gnd, 
    load_from_disk=True,
    config=config,
)

In [7]:
data_dict = {
    "label": [],
    "neighbors": [],
}
for node in gnd.nodes(data=True):
    idn, data = node
    name = gnd.pref_label_name(idn)
    neighbors = [gnd.pref_label_name(node_idn) for node_idn in gnd.neighbors(idn)]
    if neighbors:
        data_dict["label"].append(name)
        data_dict["neighbors"].append(neighbors)

In [8]:
ds = Dataset.from_dict(data_dict)

In [9]:
tokenizer = init_tokenizer(config["model_name"])

In [29]:
ds_train = ds.train_test_split(test_size=0.05, seed=42, shuffle=True)

collator = GraphDataCollator(
    tokenizer=tokenizer,
    config=config,
    device=device,
)
dl = DataLoader(
    ds,
    batch_size=256,
    collate_fn=collator,
    shuffle=False,
)

In [31]:
ds_train

DatasetDict({
    train: Dataset({
        features: ['label', 'neighbors'],
        num_rows: 247563
    })
    test: Dataset({
        features: ['label', 'neighbors'],
        num_rows: 13030
    })
})

In [22]:
trunc = 0
for i in tqdm(dl):
    longer = (i["seq_lengths"] >= 100).sum().item()
    trunc += longer

100%|██████████| 1018/1018 [00:29<00:00, 33.94it/s]


In [24]:
trunc/len(dl.dataset)

0.002866539009106154

In [None]:
index_path = config["context"].get("index_path")
mapping_path = config["context"].get("mapping_path")
ret = Retriever(
    retriever_model=config["sentence_transformer_model"],	
    graph=gnd,
    device=device,
)
ret.load_search_index(
    index_path=index_path,
    mapping_path=mapping_path,
)

<faiss.swigfaiss_avx512.IndexHNSWFlat; proxy of <Swig Object of type 'faiss::IndexHNSWFlat *' at 0x7f8011b965e0> >

In [8]:
tokenizer = init_tokenizer(config["model_name"])

In [10]:
dc = DataCollator(
    tokenizer=tokenizer,
    graph=gnd,
    config=config,
    device=device,
)

In [11]:
dl = DataLoader(
    ds["validate"],
    batch_size=1,
    shuffle=False,
    collate_fn=lambda x: dc(x, inference=True),
)

In [7]:
val_ds = ds["validate"]

In [9]:
# nx.draw(G, with_labels=True, node_size=500, font_size=10)

In [14]:
model = AutoModel.from_pretrained(config["model_name"]).to(device)

Loading checkpoint shards: 100%|██████████| 2/2 [00:08<00:00,  4.05s/it]


In [15]:
data = pyg.utils.from_networkx(G)
pref = [p[0] for p in data.pref]
tok_data = tokenizer(pref, padding="max_length", truncation=True, max_length=8, return_tensors="pt", add_special_tokens=False)["input_ids"]
data.x = model.embed_tokens(tok_data.to(device)).mean(dim=1).detach().cpu() 

In [16]:
data.x.shape

torch.Size([10, 3072])

In [17]:
max_nodes = 0
avg_n_nodes = []
data_g = []
for instance in tqdm(ds["validate"]):
    i_graph = instance["context_graph"][0]
    G = nx.node_link_graph(i_graph, edges="edges") 
    G.add_node("title", pref=example, alt=None, hidden=None, type=None, gnd_id=None)
    for node in G.nodes:
        if node != "title":
            G.add_edge(node, "title", relation="context", weight=1.0)
    pg_data = pyg.utils.from_networkx(G)
    data_g.append(pg_data)
    avg_n_nodes.append(pg_data.num_nodes)
    if pg_data.num_nodes > max_nodes:
        max_nodes = pg_data.num_nodes

100%|██████████| 2200/2200 [00:03<00:00, 596.10it/s]


In [19]:
l = pyg.loader.DataLoader(
    data_g, 
    batch_size=2, 
    shuffle=False, 
    follow_batch=["pref"],
    num_workers=0,
)

In [20]:
for data in l:
    data = data.to(device)
    print(data)
    break

DataBatch(edge_index=[2, 23], alt=[2], gnd_id=[2], hidden=[2], pref=[2], pref_batch=[2], pref_ptr=[3], type=[2], relation=[2], weight=[23], num_nodes=15, batch=[15], ptr=[3])


In [56]:
ds["validate"].add_column("pyg", data_g)

ArrowInvalid: Could not convert Data(edge_index=[2, 10], alt=[7], gnd_id=[7], hidden=[7], pref=[7], type=[7], relation=[10], weight=[10], num_nodes=7) with type Data: did not recognize Python value type when inferring an Arrow data type

In [21]:
max_nodes, mean(avg_n_nodes)

(92, 8.198636363636364)

In [22]:
gat = pyg.nn.GAT(
    in_channels=3072,
    out_channels=3072,
    hidden_channels=1024,
    num_layers=2,
)
gat = gat.to(device)

In [22]:
data.edge_index

tensor([[ 0,  0,  0,  1,  2,  2,  3,  3,  4,  4,  5,  5,  6,  6,  7,  8,  9,  9,
          9, 10, 10, 11, 11, 11, 11, 12, 12, 12, 13, 13, 13, 13, 13],
        [10,  8, 14, 14,  4, 14, 13, 14, 13, 14, 13, 14, 11, 14, 14, 14, 13,  7,
         14,  0, 14, 13,  1,  6, 14,  0,  2, 14,  1,  9, 11,  5, 14]])

In [19]:
gat(data.x.to(device), data.edge_index.to(device)).shape

torch.Size([15, 3072])

In [7]:
model_name = "meta-llama/Llama-3.2-3B-Instruct"

In [11]:
pipe = pipeline(
    "text-generation",
    model=model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cuda:0


In [20]:
raw_predictions = []
count = 0
for row in ds["validate"]:
    title = row["title"]
    context = ", ".join(row["context_str"])
    messages = [
    {"role": "system", "content": CONTEXT_PROMPT.format(context)},
    {"role": "user", "content": USER_PROMPT.format(title=title)},
    ]
    outputs = pipe(messages, num_return_sequences=1, do_sample=True, temperature=0.7)
    new_tokens = outputs[0]["generated_text"][-1]["content"]
    raw_predictions.append(new_tokens.strip())
    print(title)
    print(row["label-names"])
    print(new_tokens.strip())
    count += 1
    if count >= 1000:
        break
    print("-"* 50)

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Synökologische Studien zum simultanen Befall von Winterweizen (Triticum aestivum L.) mit Aphiden und getreidepathogenen Pilzen
['Ernteertrag', 'Phytopathogene Pilze', 'Winterweizen', 'Synökologie', 'Getreideblattläuse']
Synökologische Studien, Winterweizen, Aphiden, Pilze, Get
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Regeln für die Ansetzung von Körperschaftsnamen RAK-Körperschaften ; Bestimmungen d. RAK-WB, Grundbestimmungen d. RAK-ÖB, GKD-Erl. u. -Anh.
['Körperschaft', 'Formalerschließung']
RAK-Körperschaften, Körperschaftsrecht, Deutschland,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Kleines Fernsprechbuch für Lübeck und Umgegend
['Lübeck', 'Lübeck (Region)']
Lübeck, Umgegend, Telefonbuch, Lübeck, Geschichte
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Spurensuche im Schlossmuseum Jever Beiträge zur Provenienzforschung, Sammlungs- und Vereinsgeschichte
['Schlossmuseum Jever', 'Kunstraub', 'Kulturgut', 'Provenienzforschung', 'Kriegsbeute']
Friedrich-Schiller-Universität Jena, Spurensuche, Provenien
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Der Bitcoin-Standard die dezentrale Alternative zum Zentralbankensystem
['Währungssystem', 'Bitcoin']
Bitcoin, Zentralbank, dezentral, Alternative
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Samuel Tillerman, der Läufer
['USA', 'Freundschaft', 'Männliche Jugend', 'Introversion', 'Schwarze']
Läufer, Erzählung, Literatur
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Charakterisierung der Schilddrüsenfunktion und Nachweis eines Promotordefektes als Ursache des kompletten Thyroxin-bindenden Globulin-Mangels beim Hund
['Hund', 'Hypothyreose', 'Thyroxin-bindende Proteine']
Schilddrüsenfunktion, Schilddrüsenfunktionsst
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Indikatoren und Verpackungen für in der Endverpackung zu sterilisierende Medizinprodukte Normen
['Deutschland', 'Aseptische Verpackung']
Indikatoren, Verpackungen, Sterilisierung, Medizinprodukte, Normen,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das Findelkind vom Watt
['Watt', 'Westfriesland', 'Seehund']
Kind, Natur, Watt, Geschichte
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Pronomen und Pronominalklitika im Cimbro Untersuchungen zum grammatischen Wandel einer deutschen Minderheitensprache in romanischer Umgebung
['Lusern', 'Pronomen', 'Sprachwandel', 'Zimbrisch', 'Klitisierung']
Cimbrisch, Pronomen, Grammatik, Sprachwandel, Minderheit
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Betriebliches Gesundheitsmanagement für die Praxis ein Leitfaden zur systematischen Umsetzung der DIN SPEC 91020 ; [mit vollständigem Wortlaut der DIN SPEC]
['DIN SPEC 91020']
* Betriebliches Gesundheitsmanagement
* Praxis
* Leitfaden
*
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Versicherungslösungen für das Baugewerbe - XXL
['Deutschland', 'Haftpflichtversicherung', 'Bauleistungsversicherung']
Baugewerbe, Versicherung, Bauversicherung, Bauleistungen,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Kunstvoll anrichten und stilvoll servieren Schritt für Schritt zum perfekten Menü
['Garnieren', 'Anrichten']
- Menüplanung 
- Servieren 
- Menügestaltung 
- Menüver
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das Feuer der Selbsterkenntnis zeitgemäße Kommentare zu Shankaracharyas ATMA BODHA
['Śaṅkara : Ātmabodha']
Selbsterkenntnis, Shankaracharya, ATMA BODHA, Selbstkom
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Buchtüten Werbung für das Buch
['Sammlung', 'Buchhandel', 'Deutsches Buch- und Schriftmuseum', 'Werbegrafik', 'Tragetasche']
Buchwerbung, Buchtüten, Buch, Werbung
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Erfurter Hebräische Handschriften
['Handschrift', 'Hebräisch', 'Jüdische Landesgemeinde Thüringen', 'Staatsbibliothek zu Berlin / Orientabteilung']
Hebraische Handschriften, Erfurt, Bibel, Judestudien, Hands
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Prozesskostenhilfe und Beratungshilfe
['Beratungshilfe', 'Prozesskostenhilfe']
Rechtshilfe, Sozialhilfe, Anwaltsberatung, Verfahren
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Leise, frei - der Komponist Kunsu Shim
['Shim, Kunsu (1958)']
Kunsu Shim, Komponist, klassische Musik, Korea, Musik, Klavier
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Betriebsstätten Missbrauch und Niederlassungsfreiheit
['Deutschland', 'Europäische Union', 'Niederlassungsfreiheit', 'Mitgliedsstaaten', 'Ausländische Betriebsstätte']
- Betriebsstätten
- Missbrauch
- Niederlassungsf
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Kupfer(I)-halogenid- und Silberhalogenid-Nanokristalle in ausgewählten glasigen Systemen Synthese und Kristallisationsverhalten
['Nanopartikel', 'Glas', 'Sol-Gel-Verfahren', 'Silberhalogenide', 'Kupferhalogenide']
Kupferhalogenide, Silberhalogenide, Nanokristalle, Glasige
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Chemischer Entwicklungszustand der Magellanschen Wolken Analysen und Häufigkeiten von B-Sternen
['Spektroskopie', 'Elementenhäufigkeit', 'B-Stern', 'Magellansche Wolken']
Chemische Analyse, Entwicklungszustand, Magellansche Wolken, B-Ster
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Errettung der modernen Seele Therapien, Gefühle und die Kultur der Selbsthilfe
['USA', 'Psychotherapie', 'Entwicklung', 'Kulturelle Identität', 'Diskurs']
Therapie, Selbsttherapie, Selbstheilung, Gefühle, Kultur
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Parkettierungen der Ebene von Escher über Möbius zu Penrose
['Parkettierung', 'Ebene']
- Escher
- Möbius
- Penrose
- Geometrie
-
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Teufelsberg die Berliner Ruinologie
['Abhörstation Teufelsberg (Berlin)']
Berlin, Ruinologie, Teufelsberg, Archäologie
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


BBJ-Consult-Info Info
['Zeitschrift', 'Jugend', 'Bildungsförderung']
Bibliographie, Beratung, Fachliteratur, Information
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Betriebswirtschaftslehre für Personal- und Organisations-Ökonomen
['Personalpolitik', 'Organisationslehre']
Systemorientierte Betriebswirtschaftslehre, Betriebswirtschaftliche Steuer
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Elektrotechnik ein Grundlagenlehrbuch ; mit 141 Beispielen und 224 Übungsaufgaben mit Lösungen sowie 27 Übersichten als Wissensspeicher
['Elektrotechnik', 'Elektrizitätslehre']
Elektrotechnik, Grundlagen, Lehrbuch, Beispiele, Übungsauf
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Unter Tränen gelacht mein Vater, die Demenz und ich ; ungekürzte Autorenlesung
['Vater', 'Erwachsene Tochter', 'Senile Demenz', 'Tietjen, Bettina (1960)']
Trauer, Demenz, Autorenlesung
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Neues Bauen mit Stroh
['Natürlicher Baustoff', 'Stroh', 'Strohballenhaus']
Bauen, Stroh, Nachkriegsarchitektur
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Minora mathematica kleinere mathematische Schriften
['Folge (Mathematik)', 'Mathematische Logik', 'Quantor', 'Dreiteilung des Winkels', 'Konvergenzkriterium']
Kleinschrifttum, Mathematik, Mathematische Schriften
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Tagebücher November 1939 bis März 1940
['Sartre, Jean-Paul (1905-1980)']
Krieg, Heimatfront, Elke, Jüdisches Museum, Berlin
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


110 Jahre "Der Wehrwolf" von Hermann Löns und seine Folgen I zur Rezeption von Literaturwissenschaft, Kunst und Politik 1910-1945
['Rezeption', 'Löns, Hermann : Der Wehrwolf']
Hermann Löns, Historischer Roman, Wehrwolf, Literaturwissenschaft, Kunst
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Sind Frauen die besseren Mörder? spektakuläre Fälle einer Gerichtspsychiaterin
['Gerichtliche Psychologie', 'Kriminalfall', 'Mörderin']
Gerichtspsychiaterin, Serienmörderin, Frauenkriminalität,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Gerhard Hirschfelder - ein Seliger für unsere Zeit Hoffnungsträger - Mutmacher - Brückenbauer
['Hirschfelder, Gerhard (1907-1942)']
Hirschfelder, Hoffnung, Mut, Optimismus, Spiritualität, Ermutigung
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Elektrospeicherheizungen
['Elektrospeicherheizung']
Elektrospeicherheizung, Speicherheizung, Elektronenhe
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Adjuvantenkultur in Thüringen
['Thüringen', 'Kirchenmusik', 'Laienmusiker']
Adjuvantenkultur, Thüringen, Geschichte, Kulturgeschichte, Adel
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Freiheitsbüchlein
['Deutschland', 'Pressefreiheit', 'August (Sachsen-Gotha-Altenburg, Herzog) (1772-1822)', 'Jean Paul (1763-1825)']
Freiheit, Gedankenfreiheit, Autonomie, Reformation, Protestantismus
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Bücher im Geiste der Weimarer Demokratie Harry Schumann (1894-1942) und der Carl Reissner Verlag
['Verlag Carl Reißner']
Weimarer Republik, Demokratie, Politik, Carl Reissner, Harry Sch
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Verbotene Blicke, schamloses Sehen das Auge und die Welt
['Kunst', 'Psychoanalyse', 'Tabu', 'Blick', 'Blick (Motiv)']
Blickverhalten, Verbotene Blicke, schamloses Sehen, das A
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


... und zu ihm kehren wir zurück über die Seele des Menschen, ihre Wirklichkeit und ihre Unsterblichkeit ; aus den Schriften der Baháʾí-Religion
['Bahaismus']
Baháʾí-Religion, Seele, Mensch, Unsterb
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Über "Die Sonette an Orpheus" von Rilke Lektüren
['Textgeschichte', 'Rilke, Rainer Maria : Sonette an Orpheus']
Rilke, Rainer Maria, Sonette an Orpheus, Literatur, Klass
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Besteuerung von Rohstoffrenten
['Steuer', 'Rohstoffrente']
Rohstoffrente, Besteuerung, Steuergesetz, Steuern, Fin
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Kultur des Erinnerns Vergangenheitsbewältigung in Spanien und Deutschland
['Deutschland', 'Vergangenheitsbewältigung', 'Drittes Reich', 'Spanien', 'Franquismus']
Vergangenheitsbewältigung, Spanien, Deutschland, Kultur des Erinnerns
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


"Das Vertrauen zahlt sich aus" bindereport-Chefredakteur Fank Baier im Interview  mit Bernd Gosewehr (41), Geschäftsführer Müller Martini Buchbindesystemen GmbH, Rhaden (Westfalen)
['Buchbindemaschine', 'Buchherstellung']
- Wirtschaft
- Journalistik
- Interview
- Unternehmensleiter
-
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Leben in der Stadt
['Preisträger', 'Schwäbischer Literaturpreis']
Stadt, Leben, Stadtleben, Stadtgefühl, Stadtexistenz
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Der pädagogische Takt eine erziehungswissenschaftliche Problemformel
['Pädagogische Anthropologie', 'Handlungstheorie', 'Pädagogischer Takt', 'Taktgefühl']
- Pädagogischer Takt 
- Erziehungswissenschaft 
- Pädagogische Situation
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Hubert Klöpfer hat ein Gespür für gute Literatur und schöne Bücher, er ist der Entdecker
['Klöpfer, Hubert (1951)']
Literatur, Bücher, Bibliophile, Buchliebhaber, Buchentdecker
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das PC-Tools-8-Buch [Datenrettung, Systemoptimierung, Diskettenreparatur ; dieses Buch zeigt wie's geht!]
['PCTools 8.0']
PCTools, Datenrettung, Systemoptimierung, Diskettenreparatur, PC,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Hi no michi Leben und Werk des japanischen Keramikkünstlers Shiho Kanzaki Weg durch das Feuer
['Keramik', 'Kanzaki, Shihō (1942)']
Japanische Keramik, Schiho Kanzaki, Feuer, Kunst, Handwerk
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Proletarischer Mythos und realer Sozialismus die Kampfgruppen der Arbeiterklasse in der DDR
['Deutschland (DDR)', 'Betriebskampfgruppe']
Proletarischer Realismus, Sozialistischer Realismus, Arbeiterklasse, DDR
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Handbuch Pflichtteilsrecht
['Deutschland', 'Pflichtteilsrecht']
Pflichtteilsrecht, Erbrecht, Vermögensrecht, Rechtsrecht,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Zahlen und Fakten ... Hochschule München - unternehmerisch, nachhaltig, international
['Hochschule für Angewandte Wissenschaften München']
* Hochschule
* Münchner
* Unternehmerisch
* Nachhaltig
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Im Schatten der Akropolis [ein Ratekrimi aus dem alten Griechenland]
['Athen', 'Kindesentziehung', 'Kriminalrätsel']
Akropolis, Griechenland, Antike, Kriminalrätsel, Altert
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Verminderung der Stein- und Kohlenfallgefahr
['Unfallverhütung', 'Strebbau']
Steinfall, Kohlenfall, Gefahr, Abfall, Umweltschutz,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Stosswellen in Flüssigkeiten mit inerten und reaktiven Blasen
['Flüssigkeit', 'Stoßwelle', 'Wellenausbreitung', 'Gasblase']
Stoßwellen, Flüssigkeiten, Inerte Blasen, Reaktive
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Familie des Fürsten Grigorij Semjonowitsch Wolkonsky unter Berücksichtigung des Zweiges Repnin
['Volkonskij (Familie : 1482- : Russland)']
Volkonskij, Russland, Familie, Geschichte
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Chronik des Münchner Marionettentheaters 1858-1933 Die Ära Josef Leonhard Schmid, Babette Klinger, Karl Winkler
['Münchner Marionettentheater']
Marionettentheater, München, Schmid, Josef Leonhard, Klinger, Bab
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Der Mann, der den 2. Weltkrieg begann Alfred Naujocks: Fälscher, Mörder,Terrorist
['Naujocks, Alfred Helmut (1911-1966)']
2. Weltkrieg, Fälscher, Mörder, Terrorist, Alfred
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


30 Jahre Freundeskreis - 30 Jahre Mäzenatentum die Erwerbungen des Freundeskreises Ägyptisches Museum Wilhelm Pelizaeus Hildesheim e.V. in den Sammlungen des Roemer- und Pelizaeus-Museums Hildesheim aus den Jahren 1977 bis 2007 Dreißig Jahre Freundeskreis - 30 Jahre Mäzenatentum
['Mäzenatentum', 'Pelizaeus-Museum Hildesheim', 'Freundeskreis Ägyptisches Museum Wilhelm Pelizaeus Hildesheim']
Ägyptisches Museum, Wilhelm Pelizaeus, Freundeskreis, Sammlungen,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Garnisonsgeschichte der Stadt Rendsburg
['Rendsburg', 'Militärische Anlage']
Garnison, Geschichte, Stadt, Rendsburg
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Südwind Zeitung für den mittleren Neckarraum
['Alternativbewegung', 'Antifaschismus', 'Protestbewegung', 'Mittlerer Neckar (Region)', 'Autonome Gruppe']
Südwest, Neckar, Regionalzeitung, Mittlerer Neckar, Neckarra
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Christoph Blumhardt 1842 - 1919 ; Mahner zwischen den Fronten
['Blumhardt, Christoph (1842-1919)']
Christoph Blumhardt, Theologe, Pastor, Friedensnobel, Erzgeb
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Endothel und lokale Faktoren beim Werdegang der Arteriosklerose Untersuchungen zur Pathogenese der Arteriosklerose in Herzkranz- und Halsarterien
['Koronarsklerose', 'Arteriosklerose', 'Pathogenese', 'Carotis']
Endothel, Arteriogenese, Pathogenese, Arteriographie, Arter
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Integration von Elektronenstossnachionisation und matrixunterstützer Laserdesorption, Ionisation in ein Sekundärionen-Flugzeitmassenspektrometer
['Sekundärionen-Massenspektrometrie', 'Elektronenstrahl', 'Flugzeitmassenspektrometer', 'Matrix-unterstützte Laser-Desorption', 'Sekundärmassenspektrometrie']
Elektronenstossnachionisation, Matrixunterstützung, Laserdesorption,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Achtsamkeit des Mediators Einführung in eine achtsamkeitsbasierte Haltung in der Mediation
['Achtsamkeit', 'Mediator (Beruf)']
Achtsamkeitsbasierte Mediation, Mediation, Achtsamkeit, Ach
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Klassifizierung in der Praxis
['Unternehmen', 'Warenklassifikation']
Bibliothekswesen, Katalogisierung, Klassifizierung, Informations
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die ethische Neutralität des Staates eine liberale Interpretation der Verfassung
['Deutschland', 'Verfassungsrecht', 'Ethischer Pluralismus']
Interpretament, Nichtreligiöse Interpretation, Etische Analyse, Staatsleh
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Orden-, Militaria-Magazin OMM
['Deutschland', 'Militär', 'Orden (Ehrenzeichen)', 'Militaria']
OMM, Militärwaffen, Militärmodell, Militärhistorie, Militär
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die II. Wiener Hochquellenwasserleitung Festschrift
['Hochquellenwasserleitung II (Wien)']
Hochquellenwasserleitung, Festschrift, Wasserwirtschaft
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Der Bahnhofsvorplatz in der Grossstadt im 19. und 20. Jahrhundert
['Stadtentwicklung', 'Großstadt', 'Bahnhofsvorplatz']
Bahnhofsvorplatz, Stadtarchitektur, 19. Jahrhundert
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die unglaubliche Welt der Pflanzen
['Pollen', 'Frucht', 'Samen', 'Pflanzenfotografie', 'Mikrofotografie']
Pflanzen, Botanik, Exotische Pflanzen, Leuchtende P
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Behandlung von Strömungsproblemen in Raketendüsen bei Überexpansion
['Düsenströmung', 'Grenzschichtablösung', 'Raketentriebwerk', 'Seitenkraft', 'Überexpansion']
- Raketendusen
- Strömungsprobleme
- Überexp
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Grundlagen der Wirtschaftsmathematik
['Wirtschaftsmathematik']
Wirtschaftsmathematik, Mathematik, Grundlagen, Mathematische Modellierung, Ö
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Accountability  Qualitätsmanagement in Hamburger Kindertagesstätten
['Hamburg', 'Kindertagesstätte', 'Qualitätsmanagement', 'Rechenschaft']
Hamburg, Kindertagesstätten, Qualitätsmanagement, Transparenz, Re
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Pfalzpreis für bildende Kunst ...
['Kunst', 'Preisträger', 'Pfalz', 'Pfalzpreis für bildende Kunst']
Pfalzpreis, Kunstpreis, Kunsthandwerk, Bildende Kunst, Kunstpre
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Stephan Balkenhol [Deichtorhallen Hamburg, 14. November 2008 - 1. Februar 2009]
['Plastik', 'Balkenhol, Stephan (1957)']
- Stephan Balkenhol 
- Deichtorhallen Hamburg 
- Kunst 
- Ausstellung
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Neues aus den ternären systemen Rhenium/Chalkogen/Chlor und Rhenium/Chalkogen/Halogen sowie die elektrochemische Darstellung von Tellur-Polykationen
['Elektrochemische Synthese', 'Chalkogenide', 'Chloride', 'Halogenide', 'Kristallchemie']
Rhenium, Chalkogene, Chlor, Tellur, Polykationen, Elektro
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Vielteilchen-Wellenfunktionen im Quanten-Hall-Effekt
['Quanten-Hall-Effekt', 'Wellenfunktion']
Quantenmechanik, Wellenfunktionen, Quanten-Hall-Effekt
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Einfluß der Molmasse von Polymeren auf Wechselwirkungen in konzentrierten Polymerlösungen
['Konzentrierte Lösung', 'Molekülmasse', 'Polymerlösung', 'Flory-Huggins-Parameter']
Polymerlösungen, Wechselwirkungen, Molmasse, Polymerchemie,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Entführung Kores Studien zur athenisch-eleusinischen Demeterreligion
['Athen', 'Eleusis', 'Kult', 'Mysterienreligion', 'Homerus : In Cererem']
Athenisch-eleusinische Demeterreligion, Griechische Religion, Antike
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Standardsoftware Textverarbeitung WordPerfect eine strukturierte Einführung
['WordPerfect']
WordPerfect, Textverarbeitung, Software
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Prozessfähigkeit bei der Herstellung komplexer technischer Produkte statistische Mess- und Prüfdatenanalyse
['Prozessanalyse', 'Fertigung', 'Multivariate Analyse', 'Technisches Produkt', 'Zahntechnik']
Prozessfähigkeit, Herstellung komplexer Produkte, statistische Datenanalyse, Produkt
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Heimerziehung im Essener Franz-Sales Haus 1945 - 1970 Strukturen und Alltag in der "Schwachsinnigen-Fürsorge"
['Essen', 'Geistige Behinderung', 'Heimerziehung', 'Franz-Sales-Haus']
Heimerziehung, Fürsorgeerziehung, Schwachsinnigen-Fürsorge,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Strukturbedingte geotechnische Eigenschaften von Controlled Low Strength Material für Dichtungen in Deichen
['Oberfläche', 'Abdichtung', 'Flussdeich', 'Bodenverbesserung (Bauwesen)']
Controlled Low Strength Material, Dichtungen, Deich, Geotechnik, Materialwissenschaft
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Solo der Alleingänger Ueli Steck ; eine Nahaufnahme
['Bergsteigen', 'Steck, Ueli (1976-2017)']
Alleinstehender, Bergsteiger, Ueli Steck, Solostag, Bergste
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Briefe eines Verstorbenen
['Pückler-Muskau, Lucie von (1776-1854)', 'Pückler-Muskau, Hermann von (1785-1871)']
Briefe eines Verstorbenen, Hermann von : Briefe eines Verstorbenen,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Dschungeldoktors Feinde
['Arzt', 'Afrika', 'Masern', 'Epidemie', 'Dschungel']
Gegner, Dschungel, Natürlicher Feind
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Progress report
['Zeitschrift', 'Bericht', 'Inelastische Neutronenstreuung', 'Hahn-Meitner-Institut / Abteilung Inelastische Neutronenstreuung']
Fortschritt, Bericht, Zwischenbericht
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Interkomprehension in Theorie und Praxis
['Fremdsprachenunterricht', 'Interkomprehension']
Interkomprehension, Unterricht, Lernforschung, Pädagogik
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Chevalier
['Farblithografie', 'R, Tal (1967)']
Historie, Frankreich, Napoleon
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Röntgenpraxis Fortbildung und Qualitätssicherung in der Radiologie
['Zeitschrift', 'Medizinische Radiologie', 'Röntgenologie']
Röntgenpraxis, Fortbildung, Qualitätssicherung, Radiologie
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Liwadija Roman
['Rettung', 'Prostituierte', 'Brief', 'Istanbul', 'Krim']
Liwadija, Roman, Drama
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Lust am Lesen literarische Anspielungen im Frieden des Aristophanes
['Literatur', 'Intertextualität', 'Anspielung', 'Aristophanes : Pax']
Literatur, Aristophanes, Frieden, Lust am Lesen, Anspielungen
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Eignung unterschiedlicher Primer und DNA-Extraktionsmethoden zum PCR-Nachweis von Vertretern des Mycobacterium avium-intracellulare-Komplexes (MAIC)
['Nachweis', 'Schlachtschwein', 'Mycobacterium avium', 'Polymerase-Kettenreaktion']
Mycobakterien, PCR, DNA-Extraktion, Primerdesign, MAIC,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Filmkomödie der Gegenwart
['Filmkomödie']
Filmkomödie, Komödie der Worte, Gegenwart
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Psychiatrie und Psychotherapie up2date Psychiatrie und Psychotherapie up-to-date
['Psychotherapie', 'Psychische Störung', 'CME']
Psychiatrie, Psychotherapie, Kinder- und Jugendpsychiatrie, Psycho
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Adreßbuch für die unmittelbare Stadt Forchheim nach amtlichen Quellen herausgegeben
['Forchheim (Oberfr.)']
Adressenbüro, Adressbuch, Forchheim, Stadt, Verzeichnis
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Industriemeister-Nachrichten offizielles Organ des Gesamtverbandes der Deutschen  Industriemeistervereinigungen e.V., IMV
['Zeitschrift', 'Industriemeister']
- Industriemeister
- Industriemeistervereinigungen
- Gesamtver
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Jochen Malmsheimer liest Das Lob der Torheit ungekürzte Lesung Das Lob der Torheit
['Torheit']
- Jochen Malmsheimer
- Lesung
- Torheit
- Autorenlesung
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Jahresbericht
['Zentralverband des Deutschen Friseurhandwerks']
Bericht, Jahresbericht, Geschäftsbericht
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Untersuchung der flüssigen Legierungssysteme NaxPb1-x und RbxAu1-x strukturelle Information und elektronische Transporteigenschaften
['Elektrische Leitfähigkeit', 'Hall-Effekt', 'Bleilegierung', 'Goldlegierung', 'Natriumlegierung']
- Legierungselement
- Elektronischer Transport
- Strukturelle Information
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Helfer Gottes wie die katholische Kirche ihre Heiligen macht
['Heiligsprechung']
Katholische Kirche, Heilige, Helfer Gottes
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Verfassung im Kraftfeld von Krieg und Frieden von der konkurrenz- zur konkordanzdemokratischen Verfassung im Libanon
['Gewaltenteilung', 'Konfession', 'Konkordanzdemokratie', 'Libanon : La Constitution Libanaise, 1926']
Verfassung, Krieg, Frieden, Libanon, Demokratie, Konk
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Weitreichender Elektronentransfer in biologischen Systemen
['DNS', 'Elektronentransfer', 'Ribonucleotidreduktasen']
Elektronentransfer, Elektronenwanderung, Elektronendynam
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Der Aussichtsturmführer, Lausitz und Lausitzer Bergland die Aussichtstürme in Sachsen und in den Nachbarländern
['Lausitzer Bergland', 'Aussichtsturm', 'Forst (Lausitz) (Region)']
Sachsen, Lausitz, Lausitzer Bergland, Aussichtsturm, Tourist
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Beendigung ehelicher Güterstände mit Auslandsbezug in Deutschland und Frankreich eine rechtsvergleichende Betrachtung des deutschen und französischen Rechts unter besonderer Berücksichtigung der Kommissionsvorschläge zur Ehegüter VO und PartgüterVO sowie der Regelungen zur Wahl-Zugewinngemeinschaft
['Deutschland', 'Frankreich', 'Rechtsvergleich', 'Eheliches Güterrecht', 'Ehescheidung']
- EhegüterVO 
- PartgüterVO 
- Deutschland : Justiz
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Stich-haltige Beiträge zur Geschichte der Georgia Augusta in Göttingen 220 Stiche aus d. ersten 150 Jahren d. Göttinger Univ. ; zusammengetragen u. mit Texten vers. anlässl. ihres 250-jährigen Jubiläums
['Georg-August-Universität Göttingen', 'Stich (Kunst)', 'Universität Göttingen (Motiv)']
Georgia Augusta, Göttingen, Universitäts- und Hochschulgeschichte
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das Mittelalter in der deutschen Historiographie von 15. bis zum 18. Jahrhundert Geschichtsgliederung u. Epochenverständnis in d. frühen Neuzeit
['Deutschland', 'Geschichtsschreibung', 'Mittelalterbild']
Mittelalter, deutsche Historiographie, 15. bis 18. Jahrhund
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


XPS- und TOF-SIMS-Untersuchungen der Stöchiometrie und des Oxidwachstums von HF-behandelten GaAs(100)-Oberflächen
['Galliumarsenid', 'Oberflächenbehandlung', 'Röntgen-Photoelektronenspektroskopie', 'Oberflächenanalyse', 'Flusssäure']
Stöchiometrie, Oxidwachstum, GaAs, Oberfla
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Grenzflächeneffekte bei der Nanozerkleinerung in Rührwerkskugelmühlen
['Nanopartikel', 'Rührwerksmühle', 'Nassmahlen']
Nanozerkleinerung, Rührwerkskugelmühlen, Grenz
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Muscheln in meiner Hand und andere Geschichten
['Lebensführung']
Kurzgeschichten, Muscheln, Erzählungen
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Fax richtig einsetzen Ratschläge, die sich bezahlt machen
['Telefax']
Fax, Ratschläge, Einstellung
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Münchner Dachwerke
['München', 'Baudenkmal', 'Architekturmodell', 'Rekonstruktion', 'Dachkonstruktion']
Münchner Dachwerke 

* Münchner Dachwerke 
* Dach
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Historische Regionalforschung im Aufbruch Studien zur Geschichte des Herzogtums Pfalz-Zweibrücken anlässlich seines 600. Gründungsjubiläums
['Pfalz-Zweibrücken']
Historische Regionalforschung, Geschichte des Herzogtums Pfalz-Zweibrücken
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das Cello
['Violoncello', 'Violoncellospiel', 'Violoncellomusik']
Cellone, Cello, Musikinstrument, Violine, String
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Hilfe, sie kommen! systemische Arbeitsweisen im aufsuchenden Kontext
['Hausbesuch', 'Systemische Familientherapie', 'Setting (Sozialwissenschaften)', 'Familienpflege (Sozialarbeit)']
Systemische, Arbeitsweise, Aufsuchender Kontext, Hilfesystem, Problemorientierung
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Data-envelopment-Analysis im Bankgewerbe Theorie und praktische Anwendung
['Bank', 'Data Envelopment Analysis']
Bankgewerbe, Datenanalyse, Finanzwirtschaft, Ökonomie, Produkt
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Gruppenfreistellungsverordnung für vertikale Vereinbarungen Praxiskommentar
['Europäische Union : Gruppenfreistellungsverordnung für vertikale Vereinbarungen, 1999']
Gruppenfreistellungsverordnung, vertikale Vereinbarungen, Prax
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Aachener Beiträge zur Komparatistik
['Deutschland', 'Rezeption', 'Frankreich', 'Literaturkritik', 'Tournier, Michel : Le roi des aulnes']
Komparatistik, Literaturwissenschaft, Sprachwissenschaft, Vergleichende Philosophie
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Der gerechtfertigte Nachdrucker? Nachdruck und literarisches Leben im achtzehnten Jahrhundert
['Nachdruck', 'Leserforschung']
Nachdruck, Literatur, 18. Jahrhundert
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Evenen - Jäger, Rentierhirten, Fischer zur Geschichte eines nordostsibirischen Volkes im russischen Zarenreich ; mit einer Bibliografie historischer, ethnografischer, linguistischer und belletristischer Publikationen
['Ewenen']
Russisches Zarenreich, Sibirien, Ethnologie, Geschichte, Volkskultur
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Handbuch des kathodischen Korrosionsschutzes Theorie und Praxis der elektrochemischen Schutzverfahren
['Kathodischer Korrosionsschutz']
Korrosionsschutz, Elektrochemie, Kathode, Schutzverfahren
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Gabersee und Attel, Wartesäle zur Emigration die jüdischen Displaced Persons Camps in Wasserburg 1946-50
['Wasserburg a. Inn', 'DP-Lager']
Gabersee, Attel, Wartesäle, Emigration, Displaced Persons,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Neutrino-Elektron-Streuung im CHARM-II-Detektor sin2 ΘW und ρ in leptonischen Wechselwirkungen und Untersuchung der Leptonzahlerhaltung
['Zerfall', 'Erhaltungssatz', 'Myon', 'Neutrino-Elektron-Streuung', 'Weinberg-Winkel']
Neutrino-Elektron-Streuung, CHARM-II, Leptonzahlerhalt
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Welfenkaiserin historischer Roman
['Judith (Heiliges Römisches Reich, Kaiserin) (800-843)']
Welfen, Kaiserin, Historischer Roman
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


... und alles in einem Leben Autobiographie
['Westheimer, Ruth K. (1928-2024)']
Selbstbiographie, Autobiografische Erzählung
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Yorki, Malteser, Shih Tzu & Co Pflege, Haaranlagen, Frisurenbeispiele
['Hundepflege']
Yorki, Malteser, Shih Tzu, Hundepflege, Haaranlagen
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Ladungs- und Dipolfluktuationen zur Beschreibung der Gitterdynamik in Hochtemperatursupraleitern und verwandten Materialien
['Phonon', 'Cuprate', 'Gitterdynamik', 'Lanthanverbindungen', 'Hochtemperatursupraleiter']
Fluktuation, Supraleitung, Gitterdynamik, Hochtemperatur, Material
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Im Einzelschicksal die Weltgeschichte: Egon Erwin Kisch und seine literarischen Reportagen
['Kisch, Egon Erwin : Entdeckungen in Mexiko', 'Kisch, Egon Erwin : Marktplatz der Sensationen']
- Egon Erwin Kisch 
- Literarische Reportagen 
- Weltgeschichte
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Der Dorotheenstädtische Friedhof die Begräbnisstätten an der Berliner Chausseestrasse
['Friedhof', 'Grabmal', 'Historische Persönlichkeit', 'Liesenstrasse Berlin', 'Chausseestrasse Berlin']
Dorotheenstädtischer Friedhof, Berlin, Chausseestrasse,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Atypische Arbeitskampfmittel der Arbeitnehmerseite arbeitskampfrechtliche Zulässigkeit atypischer Arbeitskampfmittel unter besonderer Berücksichtigung des "Flashmob"-Urteils des Bundesarbeitsgerichts
['Deutschland', 'Arbeitskampfrecht', 'Betriebsstörung', 'Verhältnismäßigkeitsgrundsatz', 'Kampfparität']
Arbeitskampfrecht, Arbeitskampfmittel, Flashmob, Betriebsinter
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Lüchows schönste Seiten das Portrait unserer Stadt - in den Bildern ihrer Menschen ; [2008850, wir machen mit!]
['Lüchow (Wendland)', 'Einwohner']
Strobel, Jörg, Lüchow
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Credo an Gott und sein Fleisch Erfahrungen mit irdischer und himmlischer Liebe
['Katholische Kirche', 'Prostituierte', 'Theologin', 'Emmermann, Heide-Marie (1942)']
Glaubenserfahrung, Gotteserfahrung, Religiöse Erfahrung,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Triumph 2- und 3-Zylinder 350, 500, 650, 750 ; Twins & Trident
['Motorrad', 'Triumph (Marke)']
Motorrad, Triumph, 2-Zylinder, 3-Zylinder, 350, 500
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Methodenentwicklung zur Charakterisierung sporenbildender Pilz-Seedingkulturen
['Kultivierung', 'Sporenbildung', 'Aspergillus ochraceus']
- Pilze
- Sporen
- Methodik
- Mikrobiologie
- Se
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Wallace & Gromit - Auf der Jagd nach dem Riesenkaninchen Wallace and Gromit, curse of the were-rabbit <dt.> Wallace und Gromit - Auf der Jagd nach dem Riesenkaninchen
['Person', 'Abenteuer', 'Knetmasse']
Riesenkaninchen, Wallace, Gromit, Humor, Animationsfilm, Fantasy
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Otto der Große und Mauritius in Magdeburg [der Kaiser und sein Patron - einst römischer Legionär]
['Dom Sankt Mauritius und Sankt Katharina (Magdeburg)', 'Mauritius (Heiliger) (300)', 'Otto (I., Heiliges Römisches Reich, Kaiser) (912-973)']
Otto der Große, Mauritius, Magdeburg, Heiliger, Kaiser, Legion
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Entwicklung der Stimmleistung und -qualität im Kindes- und Jugendalter ein interdisziplinäres Betreuungskonzept
['Stimmstörung', 'Kindersingstimme', 'Stimmqualität']
- Kindes- und Jugendalter
- Stimmleistung
- Interdisziplin
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Kompositionslehre Heinrich Schützens in der Fassung seines Schülers Christoph Bernhard
['Rezeption', 'Musiktheorie', 'Kompositionslehre', 'Bernhard, Christoph (1628-1692)', 'Schütz, Heinrich (1585-1672)']
Musiktheorie, Komposition, Musikpädagogik, Barockmusik, Hein
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Insiderhandel an Wertpapierbörsen eine modelltheoretische Analyse
['Modell', 'Anlageverhalten', 'Wertpapierbörse', 'Insidergeschäft']
Insiderhandel, Wertpapierbörse, Modelltheorie, Fin
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das Kapital des Staates eine andere Geschichte von Innovation und Wachstum
['Staat', 'Innovation', 'Wirtschaftswachstum', 'Wirtschaftsplanung', 'Wohlfahrtsfunktion']
Staat, Innovation, Wachstum, Kapital
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das Spannungsfeld von Niederlassungs- und Kapitalverkehrsfreiheit am Beispiel internationaler Umstrukturierungen
['Europäische Union', 'Niederlassungsfreiheit', 'Multinationales Unternehmen', 'Unternehmensbeteiligung', 'Deutschland : Umwandlungssteuergesetz, 2006']
Internationale Umstrukturierungen, Niederlassungsrecht, Kapitalverkehrsfrei
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Krieg in der Ukraine die Chronik einer geplanten Katastrophe
['Europäische Union', 'USA', 'NATO', 'Russland', 'Geopolitik']
Krieg, Ukraine, Chronik, Katastrophe, Politik, Geschichte, Konfli
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das Schädel-Hirn-Trauma Defizite d. Informationsverarbeitung u. ihre Diagnose
['Schädel-Hirn-Trauma', 'Diagnose', 'Informationsverarbeitung', 'Defekt']
Schlagwörter:

- Hirntrauma
- Informationsverarbeitung
-
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die neuen Steuerungselemente in den Polizeien von Bund und Ländern Polizeiarbeit im Spannungsfeld zwischen Recht und Reform
['Deutschland', 'Reform', 'Polizeiorganisation', 'Polizeirecht']
Deutschland : Polizeiarbeit, Deutschland : Recht, Deutschland : Reform, Deutschland :
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Saarland -> Santiago - Vamos con Dios
['Wandern', 'Radwandern', 'Lourdes', 'Santiago de Compostela', 'Logroño']
Saarland, Santiago de Compostela, Pilgerfahrt, Spanien
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


VW Tiguan I
['Instandhaltung', 'Reparatur', 'VW Tiguan']
VW-Tiguan, SUV, Kompaktklasse, Volkswagen
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Mensch - Maschinen - Musik das Gesamtkunstwerk Kraftwerk
['Kraftwerk (Musikgruppe)']
Kraftwerk, Gesamtkunstwerk, Elektronische Musik, Synthesizer
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Bravura Virtuosität und Mutwilligkeit in der Malerei der Frühen Neuzeit
['Malerei', 'Maler', 'Selbstbildnis', 'Virtuosität', 'Selbstdarstellung (Motiv)']
Malerei, Frühe Neuzeit, Virtuosi, Maler, Kunst,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Bewegung von Kopf bis Fuss Fitness für Körper und Sinne
['Konditionsgymnastik']
Beweglichkeitstraining, Fitness, Bewegungsablauf, Koerper, Ges
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Vom Stahlkonzern zum Firmenverbund die Unternehmen Heinrich Thyssen-Bornemiszas von 1926 bis 1932
['Unternehmen', 'Thyssen-Bornemisza, Hans Heinrich (1875-1947)']
Thyssen, Heinrich, 1860-1946, Deutschland, Eisen- und
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Best's Modellbahn-Katalog
['Panzermodell', 'Marktpreis', 'ROCO (Marke)', 'Spur H0']
Modellbahn, Modelleisenbahn, Modellbau, Bahnen, Modell
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Franz im Gehäus
['Morat-Institut für Kunst und Kunstwissenschaft', 'Morat, Franz Armin (1943)']
Gehäuse, Franz, Roman, Literatur
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Quattro Pro 4.0
['Quattro Pro 4.0']
Quattro Pro, Word, Typographie, Buchgestaltung, Druck
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Verfassungsbestrebungen der Tanzimât-Periode das Kanun-i Esasî - die osmanische Verfassung von 1876
['Verfassungsrecht', 'Tanzimat', 'Osmanisches Reich : Kanun-i Esasî, 1876']
Osmanisches Reich, Kanun-i Esasî, Verfassung, 1876,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


In Darkest Leipzig über die seltsamen Sitten und Gebräuche der Lindenauer ; inkl. Stadtapokalypsen
['Leipzig-Lindenau']
Leipzig, Lindenau, Stadtgeschichte
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Münchener Gold- und Buntpapiere gezeichnet von Otto Hupp
['Hupp, Otto (1859-1949)']
Münchner Gold- und Buntpapiere, Otto Hupp, Gold- und Buntp
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Lössboden
['Lössboden']
Schlagwörter: Löss, Boden, Biologie, Ökologie
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Zeiss-Werkzeitschrift Zeitschr. für Zeiss-Freunde
['Zeitschrift', 'Carl Zeiss (Firma, Oberkochen)', 'Technische Optik', 'Feinmechanik']
Optik, Zeiss, Werkzeuge
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die optimale Pressemitteilung eine empirische Untersuchung über Anforderungen und Erwartungen von Journalisten und PR-Praktikern an das Medium Pressemitteilung
['Pressemitteilung']
Pressearbeit, Medienwirkungsforschung, Journalisten, PR-Praxis
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Funktionsverbgefüge und automatische Sprachverarbeitung
['Deutsch', 'Korpus (Linguistik)', 'Automatische Spracherkennung', 'Computerlinguistik', 'Funktionsverb']
Funktionsverbgefüge, Sprachverarbeitung, Automatische Sprachver
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Franchiseverträge Entscheidungskriterien u. Muster für d. Franchising
['Franchisevertrag']
Franchiseverträge, Entscheidungskriterien, Franchising, Muster,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das ganze Ding ist ein Risiko Robert Habeck - eine Nahaufnahme
['Habeck, Robert (1969)']
Klimawandel, Risiko, Ökonomie, Politik, Wirtschaft, Um
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Mikrokosmos Chäserrugg Leben auf dem Berg
['Gebirgspflanzen', 'Endemische Pflanzen', 'Chäserrugg']
Chäserrugg, Berg, Mikrokosmos
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Gleichheit und Gleichmaß zur Rechtsphilosophie von Francisco de Vitoria Equality and equitability
['Rechtsphilosophie', 'Vitoria, Francisco de (1485-1546)']
Vitoria, Francisco de : De potestate civili, Gleichheit, Gleichma
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Gestaltpsychologie und Kinderforschung empirische Beiträge von Koffka, Lewin, Kaila, Meili, Gottschaldt, Metzger und ihren Schülern zur Entwicklungspsychologie des Kindes 1921-1975
['Gestaltpsychologie', 'Kinderpsychologie']
Gestalttheorie, Kinderpsychologie, Empirie, Entwicklungspsychologie,
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Der Schritt durch den Rahmen Bild und Weiblichkeitsmythos im Werk Brigitte Reimanns
['Prosa', 'Frau (Motiv)', 'Bild (Motiv)', 'Reimann, Brigitte (1933-1973)', 'Reimann, Brigitte : Franziska Linkerhand']
- Transzendentale Ästhetik
- Weiblichkeit
- Mythos
-
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Das Ruhrgebiet im Umbruch Beiträge aus Hochschulen und Gewerkschaften zur Strukturkrise bei Kohle und Stahl ; Dokumentation der Woche der Wissenschaft vom 25. - 28. Mai 1987 in Recklinghausen
['Ruhrgebiet', 'Strukturwandel', 'Sozialverträglichkeit']
Strukturkrise, Kohle, Stahl, Wirtschaftskrise, Ruhrgeb
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Abschreibungs-ABC für Versorgungsunternehmen Gas-, Wasser-, Elektrizitäts-, Heizwerke, Bäder und Verkehrsbetriebe
['Deutschland', 'Abschreibung', 'Versorgungsbetrieb']
- Versorgungsbetrieb 
- Abwasservermeidung 
- Kalk
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Berufswunsch "Kunst" Maler, Grafiker, Bildhauer: Ehemalige Schüler des Münchner Maximiliansgymnasiums der Jahre 1849 bis 1918
['Künstler', 'Maximiliansgymnasium München', 'Schüler']
Schlagwörter: Maler, Grafiker, Bildhauer, Kunst, Ehem
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Die Mikrokontroller 8051, 8052 und 80C517
['Mikrocontroller 8051', 'Mikrocontroller 80C517', 'Mikrocontroller 8052']
Mikrocontroller, 8051, 8052, 80C517, Mikro
--------------------------------------------------


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Wie man durch Manipulation und Verdrehung der Tatsachen Legenden erzeugt e. Auseinandersetzung mit Karl Marx u. seinem Hauptwerk "Das Kapital"
['Rezeption', 'Marx, Karl : Das Kapital', 'Marx, Karl (1818-1883)']
- Legendenbildung
- Manipulation
- Propaganda
- Falschdarstellung
--------------------------------------------------


KeyboardInterrupt: 

In [4]:
retriever = Retriever(retriever_model="BAAI/bge-m3", device=device)

In [6]:
pred_df = pd.read_csv("results/prompt-tuning-text-context-3-label/predictions-test-checkpoint-28000.csv")
# "results/Llama-3.2-3B-Instruct-hard-prompt/predictions.csv"
# "results/prompt-tuning-baseline/predictions-test-checkpoint-28000.csv"
pred_df["predictions"] = pred_df["predictions"].apply(literal_eval)
pred_df["label-ids"] = pred_df["label-ids"].apply(literal_eval)
pred_df["label-names"] = pred_df["label-names"].apply(literal_eval)

In [16]:
pred_df.sample(5)

Unnamed: 0,predictions,raw_predictions,label-ids,label-names,title,reranked-predictions
4576,"[041358899, 040013073, 041969103]",Alltag; Neue Medien; Selbstbestimmung,"[040718085, 04120719X, 041275764, 041761928, 0...","[Neue Medien, Medienkonsum, Medienkompetenz, F...",Die digitale Verführung Selbstbestimmt leben ...,"['041358899', '041969103', '040013073']"
5431,"[040410056, 04049716X, 958816999, 971787190, 0...",Rezeption; Griechisch; Mythologie; Odyssea; Po...,"[040418626, 040541460, 041298918, 042896347, 9...","[Neuplatonismus, Allegorese, Seele, Porphyrius...","Die Seele im Kosmos Porphyrios, Über die Nymp...","['040410056', '958816999', '971787190', '04113..."
8248,"[041229266, 04126892X, 040118827, 040097366]",Deutschland; Chancengleichheit; Bildungsforsch...,"[040058719, 040059626, 041212029, 041293169, 0...","[Berufsausbildung, Übergang (Sozialwissenschaf...","Übergänge nach der Schule als ""zweite Chance...","['041229266', '040097366', '04126892X', '04011..."
7655,[040487172],Computerarchitektur,[040487172],[Computerarchitektur],Rechnerarchitektur Einführung in den Aufbau m...,['040487172']
3585,"[040595552, 040118827]",Deutschland; Testament,"[040118827, 040178897, 040595552]","[Deutschland, Testament, Formvorschrift]",Neue ordentliche Testamentsformen,"['040595552', '040118827']"


In [48]:
import networkx as nx

def inverse_distance_weight(graph, gold_node, predicted_node):
    """
    Calculate graph distance weight between two nodes in a graph.
    The weight is inversely proportional to the shortest path distance between the nodes.

    Args:
        graph (networkx.Graph): The graph containing the nodes.
        gold_node (str): The node representing the gold standard.
        predicted_node (str): The node representing the predicted label.
    
    Returns:
        float: The weight based on the distance between the nodes.
    """
    weight = 0.0
    # Compute shortest path distance
    if gold_node == predicted_node:
        distance = 0  # Perfect match
    else:
        try:
            if gold_node not in graph or predicted_node not in graph:
                return 0.0
            distance = nx.shortest_path_length(graph, source=gold_node, target=predicted_node)
        except nx.NetworkXNoPath:
            distance = float('inf')  # No path exists

        # Weight inversely proportional to distance
    weight = 1 / (1 + distance) if distance != float('inf') else 0

    # Normalize by the number of predictions
    return weight

In [24]:
p = "040118894"
g = "040118827"

In [28]:
samples = pred_df.sample(10)

In [49]:
weight_prec = []
prec = []
for i, s in pred_df.iterrows():
    preds = s["predictions"]
    gold = s["label-ids"]
    weights = []
    correct = set(preds).intersection(set(gold))
    prec.append(len(correct) / len(preds) if preds else 0)
    for p in preds:
        max_weight = - float('inf')
        for g in gold:
            weight = graph_distance_weight(gnd, g, p)
            if weight > max_weight:
                max_weight = weight
        weights.append(max_weight)
    weighted_prec = sum(weights) / len(weights) if weights else 0
    weight_prec.append(weighted_prec)

In [50]:
mean(prec), mean(weight_prec)

(0.47784842722446713, 0.5259823097067122)