In [1]:
from datasets import load_from_disk
import datasets

Concatenate datasets

In [2]:
data_folders = ["./annotations/annotations_bjurn_b1_10", "./annotations/annotations_bjurn_b2_10"]
data = load_from_disk(data_folders[0])
for folder in data_folders[1:]:
    data = datasets.concatenate_datasets([data, load_from_disk(folder)])


In [3]:
print(f'columns: {data.column_names}')
print(f'nrows: {data.num_rows}')

columns: ['doc_id', 'seg_id', 'translation', 'context']
nrows: 20


Context is stored as list of sentences, concatenate to a single, long string.

In [4]:
def concatenate_context(row, languages=None):
    if languages is None:
        languages = ['en', 'nl']
    row['context_concatenated'] = {
        lan: ' '.join(row['context'][lan]) for lan in languages
    }
    return row

In [5]:
data = data.map(concatenate_context)

In [6]:
for row in data:
    print(row['context_concatenated']['en'])
    print(row['context_concatenated']['nl'])
    print(row['translation']['en'])
    print(row['translation']['nl'])
    print()

And so on. There is a little bit of a difference there that is worth just --  -- thinking about. And I remember when I was 12 years old, and I started playing tympani and percussion, and my teacher said, "Well, how are we going to do this? You know, music is about listening." And I said, "Yes, I agree with that. So what's the problem?" And he said, "Well, how are you going to hear this? How are you going to hear that?"
en zo verder. Er zit een klein verschil op, dat de moeite is --  -- om over na te denken Ik herinner mij dat ik op mijn twaalfde op pauken en percussie begon te spelen. Mijn leraar zei: "Wel, hoe gaan we dat doen? Muziek gaat om luisteren." "Ja, akkoord. En wat is het probleem?" Hij zei: "Hoe ga je dit horen? Hoe ga je dat horen?"
And I said, "Well, how do you hear it?"
Ik zei: "Hoe hoor jij het?"

We truly do all understand it, and we have this global digital fireplace, don't we, but I want to share you with the world, because you are also a tribe. You are the TED tribe

In [7]:
# inseq seems to only work when doing 'pip install -r requirements.txt'
import inseq
from inseq.commands.attribute_context.attribute_context import attribute_context_with_model, AttributeContextArgs

Load inseq with mbart large en to nl

In [8]:
inseq_model = inseq.load_model(
    "facebook/mbart-large-50-one-to-many-mmt",
    "saliency",
    tokenizer_kwargs={'src_lang': 'en_XX', 'tgt_lang': 'nl_XX'},
)

In [9]:
def get_pecore_args(
        input_context_text,
        input_current_text,
        output_context_text,
        output_current_text=None,
        sample_identifier=None,
        output_folder='output'

):
    return AttributeContextArgs(
        model_name_or_path="facebook/mbart-large-50-one-to-many-mmt",
        attribution_method="saliency",
        attributed_fn="contrast_prob_diff",
        context_sensitivity_metric="kl_divergence",
        context_sensitivity_std_threshold=0,
        attribution_std_threshold=2,
        attribution_topk=5,
        input_context_text=input_context_text,
        input_current_text=input_current_text,
        output_context_text=output_context_text,
        # output_current_text=output_current_text,
        contextless_input_current_text="""{current}""",
        input_template="""{context} {current}""",
        contextless_output_current_text="""{current}""",
        output_template="{context} {current}",
        save_path=f"{output_folder}/{sample_identifier}.json",
        viz_path=f"{output_folder}/{sample_identifier}.html",
        tokenizer_kwargs={'src_lang': 'en_XX', 'tgt_lang': 'nl_XX'},
    )

Run little test

In [14]:
pec_args = get_pecore_args("This is context", "for translating this text", "Dit is context", sample_identifier="sample")

In [16]:
out = attribute_context_with_model(pec_args, inseq_model)

Now for use with the dataset

In [17]:
def get_pecore_args_for_row(row, sample_identifier=None, output_folder='output'):
    return get_pecore_args(
        row['context_concatenated']['en'],
        row['translation']['en'],
        row['context_concatenated']['nl'],
        sample_identifier=sample_identifier,
        output_folder=output_folder
    )

In [20]:
for i, row in enumerate(data):
    try:
        pecore_args = get_pecore_args_for_row(row, f"{i}_nl")
        out = attribute_context_with_model(pecore_args, inseq_model)
    except ValueError as e:
        print()
        print(f"ERROR for {i}")
        print(e)
        print()
        


ERROR for 0
Output template '{context} {current}' contains prefix 'en zo verder. Er zit een klein verschil op, dat de moeite is --  -- om over na te denken Ik herinner mij dat ik op mijn twaalfde op pauken en percussie begon te spelen. Mijn leraar zei: "Wel, hoe gaan we dat doen? Muziek gaat om luisteren." "Ja, akkoord. En wat is het probleem?" Hij zei: "Hoe ga je dit horen? Hoe ga je dat horen?"' but output 'en zo verder. Er zit een klein verschil op, dat de moeite is -- -- om over na te denken Ik herinner mij dat ik op mijn twaalfde op pauken en percussie begon te spelen. Mijn leraar zei: "Wel, hoe gaan we dat doen? Muziek gaat om luisteren." "Ja, akkoord. En wat is het probleem?" Hij zei: "Hoe ga je dit horen? Hoe ga je dat horen?" Ik zei: "Hoe ga je het horen?"' does not match the prefix. Please check whether the template is correct, or force context/current outputs.



ERROR for 4
Output template '{context} {current}' contains prefix 'LT:  JF: Nee, dat is waar. Ik besta omdat ik vriendinnen heb. Jij bent er één van.' but output 'LT: JF: Nee, dat is waar. Ik besta omdat ik vriendinnen heb. Jij bent er één van. Ik weet niets van jou. Maar hoe dan ook.' does not match the prefix. Please check whether the template is correct, or force context/current outputs.



ERROR for 10
Output template '{context} {current}' contains prefix 'CA: Hoe gaaf is data  Elon, hoe heb je dit gedaan? Deze projecten zijn zo -- PayPal, SolarCity, Tesla, SpaceX, ze zijn zo spectaculair anders, het zijn zeer grote, ambitieuze projecten. Hoe is het in hemelsnaam mogelijk, dat één persoon zó kan innoveren?' but output 'CA: Hoe gaaf is data Elon, hoe heb je dit gedaan? Deze projecten zijn zo -- PayPal, SolarCity, Tesla, SpaceX, ze zijn zo spectaculair anders, het zijn zeer grote, ambitieuze projecten. Hoe is het in hemelsnaam mogelijk, dat één persoon zó kan innoveren? Wat heb je aan jou?' does not match the prefix. Please check whether the template is correct, or force context/current outputs.
