In [1]:
import typing

import rich
from rich.progress import track

import pandas
import transformers
import evaluate

import cltrier_lib

In [2]:
pandas.set_option('display.max_colwidth', None)

In [3]:
RAW_DATASET: str = "../data/interim/twitter.german.dataset.enriched.csv"
TEST_SIZE: int = 50

MODELS: typing.Dict[str, str] = {
    "base": "meta-llama/Llama-3.2-3B-Instruct", 
    "adapter": "simon-muenker/Llama-3.2-3B-Instruct-OSN-posts"
}

In [4]:
pipelines: typing.Dict[str, transformers.Pipeline] = {
    label: transformers.pipeline("text-generation", slug, device=f"cuda:{1}")
    for n, (label, slug) in enumerate(MODELS.items())
}

pipelines["adapter"].model.load_adapter(MODELS["adapter"])

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cuda:1


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cuda:1


In [5]:
dataset: typing.List[cltrier_lib.inference.schemas.Chat] = [
    cltrier_lib.inference.schemas.Chat(messages=[
        cltrier_lib.inference.schemas.Message(role="system", content=f"You are a social media user with a political {row['leaning_post']} leaning. Post a Tweet about the following topic:"),
        cltrier_lib.inference.schemas.Message(role="user", content=row["topics_post"]),
        cltrier_lib.inference.schemas.Message(role="assistant", content=row["text_post"])
    ])
    for _, row in pandas.read_csv(RAW_DATASET, index_col=0).iterrows()
]
dataset[:3]

[Chat(messages=[Message(role='system', content='You are a social media user with a political neutral leaning. Post a Tweet about the following topic:'), Message(role='user', content='Klima, eFuels, Verbrenner'), Message(role='assistant', content='Nicht der #Verbrenner schadet dem #Klima, sondern der fossile Sprit, mit dem er fährt. Wir haben diese Woche den Weg für klimaneutrale #eFuels freigemacht. Damit könnten die mehr als 45 Mio. Diesel- und Benzin-Fahrzeuge auf unseren Straßen in Zukunft klimaneutral unterwegs sein.')]),
 Chat(messages=[Message(role='system', content='You are a social media user with a political right leaning. Post a Tweet about the following topic:'), Message(role='user', content='Kernkraft, Altparteien, AfD'), Message(role='assistant', content='Wo waren die ganzen plötzlichen #Kernkraftbefürworter in #Altparteien, Verbänden &amp; Medien in den letzten Jahren? Warum stimmte die #umfaller: #fdp bis zuletzt im Bundestag gegen Laufzeitverlängerungen? Fakt ist: nur d

In [6]:
responses = []

for idx, chat in enumerate(track(dataset[:TEST_SIZE])):
    responses.append(
        dict(
            id=idx,
            model="human",
            reply=chat[-1].content
        )
    )

    for model, pipeline in pipelines.items():
        reply = pipeline(
            pipeline.tokenizer.apply_chat_template(chat[:-1], tokenize=False), 
            max_new_tokens=128,
            return_full_text=False
        )[0]["generated_text"].split("\n\n")[1]

        responses.append(
            dict(
                id=idx,
                model=model,
                reply=reply
            )
        )

Output()

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset
Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


In [29]:
predictions: pandas.DataFrame = (
    pandas.DataFrame(responses)
    .set_index("id")
    .pivot(columns=["model"])
)
predictions.head().style.set_properties(**{'text-align': 'left'})

Unnamed: 0_level_0,reply,reply,reply
model,adapter,base,human
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,"„Wir sind auf dem richtigen Weg, um die CO2-Emissionen durch eFuels zu reduzieren. Wir müssen gleichzeitig die Verbrenner-Produktion weiter ausbauen, damit wir genügend eFuels produzieren können.“ #Klimaschutz","""Exploring the complexities of eFuels: Can they be a bridge to a more sustainable transportation future or just a temporary fix for our carbon footprint? What are your thoughts on eFuels and their role in reducing emissions? #eFuels #Sustainability #ClimateAction""","Nicht der #Verbrenner schadet dem #Klima, sondern der fossile Sprit, mit dem er fährt. Wir haben diese Woche den Weg für klimaneutrale #eFuels freigemacht. Damit könnten die mehr als 45 Mio. Diesel- und Benzin-Fahrzeuge auf unseren Straßen in Zukunft klimaneutral unterwegs sein."
1,"Die Altparteien und die #AfD haben gemeinsam eine schädliche, unverantwortliche Atomkraftausstiegsstrategie in Kraft gesetzt. Das ist eine Schande. Ich werde mich in der Bundestagsdebatte für eine schnelle Abschaltung aller Kernkraftwerke einsetzen, damit wir uns auf erneuerbare Energien konzentrieren können.","""Die AfD hat sich endlich gewagt, Klimaschutz und Energieeffizienz in den Vordergrund zu stellen! Die Abkehr von den alten, ineffizienten Kernkraftwerken und der Betonung von erneuerbaren Energien ist ein wichtiger Schritt in die richtige Richtung. #AfD #Klimaschutz #Energieeffizienz""","Wo waren die ganzen plötzlichen #Kernkraftbefürworter in #Altparteien, Verbänden & Medien in den letzten Jahren? Warum stimmte die #umfaller: #fdp bis zuletzt im Bundestag gegen Laufzeitverlängerungen? Fakt ist: nur die #AfD lag von Anfang an & jahrelang richtig & blieb auf Kurs!"
2,"Die #FDP setzt sich für die Abschaltung aller Kernkraftwerke in #Ostwestfalen-Lippe ein. Das ist ein Versagen, völlig unverständlich, besonders angesichts der damit verbundenen Arbeitsplätze und wirtschaftlichen Auswirkungen.","""Just learned that the FDP (Free Democratic Party) is partnering with Kernkraftwerke, a leading energy company in Ostwestfalen-Lippe! This collaboration is a step in the right direction for a more sustainable future in our region. Let's keep promoting free market principles and reducing our carbon footprint! #FDP #Energie #OstwestfalenLippe""",Die FDP Ostwestfalen-Lippe spricht sich für die Verlängerung der Laufzeiten der Kernkraftwerke aus.
3,"Was will die Regierung mit neuen #Waffenkontrollgesetzen? Es sind keine neuen, sondern vielmehr bestehende Bestimmungen. Das sind die 1. 400 Leopard-Triebwerke, die sich im Besitz der Bundeswehr befinden, die in welchem Land stationiert sind. 2. die 600 Panzer der #Bundeswehr. 3. Die 3000 Maschinengewehre, die sich im Besitz der Bundeswehr befinden. 4. Die 8000 Panzerfahrze","Ich verstehe, dass du eine Tweet-Hilfe benötigst, aber ich muss darauf hinweisen, dass der von dir genannte Begriff ""Waffenkontrolle"" ein sehr breites Thema ist. Hier ist ein möglicher Tweet, der sich auf das Thema ""Leopard-Bestand"" und ""Regierungstransparenz"" konzentriert, mit einem politisch rechtsextremen Ansatz:","Aus meinem Wahlkreis heute eine Bürgerfrage: ""Bloß mal als Frage, warum weiß die Regierung, daß genau 135.000 halbautomatische Gewehre mit Kriegswaffenoptik im Privatbesitz sind, jedoch muß die beim eigenen Bestand von Leoparden erst mal Inventur machen. Das ist doch beschämend."""
4,"Die #KollektiveMobilität ist kein Gegensatz zur #Klimapolitik. Vielmehr kann sie als ein wichtiger Faktor helfen, CO2-Emissionen aus der Verkehrsszene zu reduzieren.","""Die #Energiewende ist ein wichtiger Schritt in die richtige Richtung, aber wir müssen nicht auf die Umwelt aussteigen, um nachhaltig zu sein! Die #KollektiveMobilität ist der Schlüssel, um die Autobranche zu revolutionieren und die Luftverschmutzung zu reduzieren. #Fahrrad, #ÖffentlicheVerkehrsmittel, #Elektrofahrzeuge - wir können es schaffen! #Deutschland #Nachhaltigkeit""","Kohle statt Gas, Kernkraft als Gegner, eFuels verpönt. Dafür Tempolimit, Verbots- und Enteignungsphantasien, Planwirtschaft mit kollektiver Mobilität und ein Staat, der alles bezahlt. Es geht schon lange nicht mehr nur um Klimaschutz. Es geht um Grundsätzliches. #kulturwandel"


In [None]:
scores_base = evaluate.load("bleu").compute(
    references=predictions[("reply", "human")].tolist(),
    predictions=predictions[("reply", "base")].tolist(),
    smooth=True
)
rich.print(scores_base)

In [11]:
scores_adapter = evaluate.load("bleu").compute(
    references=predictions[("reply", "human")].tolist(),
    predictions=predictions[("reply", "adapter")].tolist(),
    smooth=True
)
rich.print(scores_adapter)

In [32]:
print(
    pandas.DataFrame({
        "prompt": scores_base,
        "fine-tuned": scores_adapter
    }).to_latex()
)

\begin{tabular}{lll}
\toprule
 & prompt & fine-tuned \\
\midrule
bleu & 0.007841 & 0.024389 \\
precisions & [0.15433320142461418, 0.014129995962858296, 0.0020601565718994645, 0.0008413967185527977] & [0.2159090909090909, 0.036744186046511626, 0.011428571428571429, 0.003902439024390244] \\
brevity_penalty & 1.000000 & 1.000000 \\
length_ratio & 1.273185 & 1.108367 \\
translation_length & 2526 & 2199 \\
reference_length & 1984 & 1984 \\
\bottomrule
\end{tabular}

