In [1]:
import sys
sys.path.append('..')

from estimators import *
from utils.model import Model
from utils.dataset import Dataset
from utils.processor import Logger
from utils.manager import UEManager
from utils.manager import estimate_uncertainty
from ue_metrics import ReversedPairsProportion, PredictionRejectionArea, RiskCoverageCurveAUC
from estimators import MaxProbabilityToken, LexicalSimilarity, SemanticEntropy, MutualInformationToken
from generation_metrics import RougeMetric, WERTokenwiseMetric, BartScoreSeqMetric, ModelScoreSeqMetric, ModelScoreTokenwiseMetric

  from .autonotebook import tqdm as notebook_tqdm
2023-07-27 16:00:59.526011: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [2]:
model = Model.from_pretrained(
    'facebook/wmt19-en-de',
    device='cuda:0',
)

In [4]:
from datasets import load_dataset

dataset = load_dataset("wmt14", "de-en")

Reusing dataset wmt14 (/home/jovyan/.cache/huggingface/datasets/wmt14/de-en/1.0.0/6aa64c5c4f2c1c217718c6d6266aad92d1229e761c57379c53752b8c0e55c93b)
100%|██████████| 3/3 [00:00<00:00, 135.03it/s]


In [5]:
dataset = Dataset(
    x=[txt["en"] for txt in dataset["test"]["translation"]],
    y=[txt["de"] for txt in dataset["test"]["translation"]],
    batch_size=4,
)
dataset.subsample(50, seed=42)

In [6]:
ue_methods = [MaxProbabilitySeq(), EntropySeq(),]
ue_metrics = [RiskCoverageCurveAUC()]
metrics = [RougeMetric('rougeL')]
loggers = [Logger()] 

In [7]:
man = UEManager(
    dataset,
    model,
    ue_methods,
    metrics,
    ue_metrics,
    loggers,
)

In [8]:
results = man()

  8%|▊         | 1/13 [00:01<00:21,  1.81s/it]

Statistics:

input_texts: ['The tunnel, which zigzags the length of nearly six football pitches, links warehouses near Tijuana, Mexico and San Diego, USA.', 'The central point of focus was on mobile phone conversations between the accused and third parties, which the police had intercepted.', "'In old age you simply need your own space to withdraw to,' said Ries.", 'Distant worlds.']

target_texts: ['Der Tunnel, der im Zickzackmuster über eine Länge von knapp sechs Fußballfeldern verläuft, verbindet Lagerhallen in der Nähe von Tijuana, Mexiko, und San Diego, USA.', 'Im Zentrum standen Handygespräche der Angeklagten und weiterer Personen, die die Polizei abgehört hatte.', "'Im Alter braucht man einfach auch seine Rückzugsräume', so Ries.", 'Ferne Welten.']

target_tokens: [[177, 17174, 4, 13, 45, 171, 3868, 200, 3705, 1108, 623, 129, 46, 4090, 21, 14689, 5675, 16709, 4510, 1851, 137, 8041, 4, 12080, 6549, 6645, 899, 7, 13, 1631, 21, 1663, 28705, 4, 10024, 4, 12, 1055, 11767, 4, 1163, 5,

 15%|█▌        | 2/13 [00:02<00:12,  1.12s/it]

Statistics:

input_texts: ['The "Friedrich-Wilhelm" MGV meets for its regular choir rehearsals in the clubhouse every Tuesday at 19:45.', 'TSV Freudenstadt I: Dominik Bäuerle, Yannik Büchle, Sebastian Dölker, Felix Pälchen, Stefan Räller, Simon Schenk and Eduard Schulz.', 'However, it must operate differently to the classic student digs.', 'To read Philip K. Dick means to get closer to the truth, time and time again.']

target_texts: ['Der MGV "Friedrich-Wilhelm" trifft sich zu seinen regelmäßigen Chorproben immer dienstags um 19.45 Uhr im Vereinslokal.', 'TSV Freudenstadt I: Dominik Bäuerle, Yannik Büchle, Sebastian Dölker, Felix Pälchen, Stefan Räller, Simon Schenk und Eduard Schulz.', 'Das müsse dann aber anders verlaufen als in der klassischen Studenten-WG.', 'Philip K. Dick lesen heißt, immer wieder, der Wahrheit näher zu kommen.']

target_tokens: [[177, 58, 20724, 24, 8118, 10, 10565, 24, 12304, 67, 27, 1276, 11746, 4620, 9484, 22677, 591, 7918, 23903, 79, 8364, 644, 1619, 45, 34

 23%|██▎       | 3/13 [00:03<00:08,  1.13it/s]

Statistics:

input_texts: ['"While the weaker aircraft deliveries were mostly anticipated, we are clearly disappointed by the margin performance in transportation," Doerksen said in a client note.', 'It makes me yearn for the many promises that disappeared.', 'Jack Valero of Catholic Voices said that by February, the number of cardinal electors was likely to have dropped.', 'The technology is there to do it.']

target_texts: ['„Zwar wurden schwächere Lieferzahlen bei Flugzeugen weitestgehend erwartet, doch von der Margenentwicklung im Transportbereich sind wir ganz klar enttäuscht“, sagte Doerksen in einen Kundenschreiben.', 'Es weckt in mir die Sehnsucht nach den vielen Versprechen, die sich in Luft aufgelöst haben.', 'Jack Valero von Catholic Voices sagte, dass die Zahl der wahlberechtigten Kardinäle bis Februar wahrscheinlich gesunken sein werde.', 'Die Technologie dafür ist da.']

target_tokens: [[24, 19805, 667, 20642, 839, 1220, 6077, 148, 5596, 9390, 1483, 18207, 11193, 6207, 4,

 31%|███       | 4/13 [00:03<00:07,  1.15it/s]

Statistics:

input_texts: ["Is Europe's elite ready to do business with Britain?", 'Furthermore, in the town centre area, while a few fireworks were set off, no material damage was caused here either.', 'Cast your vote here or through your mobile device', '"It is a frightening place, and it is valid to ask: what is there to prevent Parliament from simply sweeping away the independence of the judiciary tomorrow?" the paper said, challenging the bill as unconstitutional.']

target_texts: ['Ist Europas Elite bereit, mit Großbritannien Geschäfte zu machen?', 'Desweiteren wurden im Stadtgebiet wohl auch einige Sylvesterböller gezündet, aber auch hier ist kein Sachschaden entstanden.', 'Stimmen Sie hier oder mit Ihrem Mobilgerät ab', '„Wir befinden uns in einer beängstigenden Lage und man darf sich fragen: Was hält das Parlament davon ab, morgen einfach die richterliche Unabhängigkeit abzuschaffen?“, war in der Zeitung zu lesen, die den Gesetzesentwurf für nicht verfassungsgemäß hält.']

tar

 38%|███▊      | 5/13 [00:04<00:06,  1.18it/s]

Statistics:

input_texts: ['"Despite losing in its attempt to acquire the patents-in-suit at auction, Google has infringed and continues to infringe," the lawsuit said.', "Officers spotted Sarborough, 32, dropping off three bags of cocaine at the lawyer's home in Blackburn, Lancashire, while he was out at a Law Society dinner with colleagues.", 'Nagold: Hugo Wermter - a choir member for 60 years', 'Among other issues, topics discussed included direct democracy, the bribery of MPs and the Federal Police.']

target_texts: ['„Obwohl Google mit seinem Versuch gescheitert ist, die Klagepatente bei der Auktion zu erwerben, hat Google die Patente verletzt und tut dies auch weiterhin“, so das Klageschreiben.', 'Beamte beobachteten, wie Scarborough (32) drei Beutel Kokain am Haus des Anwalts in Blackburn, Lancashire, ablieferte, während dieser mit Kollegen bei einem Essen der Anwaltskammer war.', 'Nagold: Hugo Wermter seit 60 Jahren im Chor', 'Unter anderem geht es um direkte Demokratie, Abgeor

 46%|████▌     | 6/13 [00:05<00:06,  1.06it/s]

Statistics:

input_texts: ['The tea party is aghast.', 'Alongside the materials familiar to us, from which stars, planets and life forms such as ourselves are composed, there exists dark matter, the gravitational force of which holds galaxies and galaxy clusters together, and dark energy, the effects of which accelerate the expansion of the universe.', 'Patek is the last of the Bali bombers to face justice.', 'I hope he sees what I am doing.']

target_texts: ['Die Tea Party ist entsetzt.', 'Neben der uns geläufigen Materie, aus der Sterne, Planeten und Lebewesen wie wir bestehen, gibt es Dunkle Materie, deren Schwerkraft Galaxien und Galaxienhaufen zusammenhält, und Dunkle Energie, durch deren Wirken sich die Expansion des Weltalls beschleunigt.', 'Patek ist der letzte der Bali-Bomber, der vor Gericht stand.', 'Ich hoffe, er sieht, was ich tue.']

target_tokens: [[51, 16295, 5155, 34, 296, 3534, 5, 2, None], [5634, 13, 310, 973, 3551, 17240, 1840, 5379, 4, 106, 13, 4249, 4, 14286, 12, 

 54%|█████▍    | 7/13 [00:06<00:04,  1.26it/s]

Statistics:

input_texts: ["We don't have to rush into surgery that is irreversible.", 'A day of thanks with the MGV (Male Choral Society) in Dinker', 'When Santiago sits arched over on the chair, tired of life, this is a genuine emotion for Janson.', 'Snowden may make further statements in Russia']

target_texts: ['Und man muss nicht übereilt eine Operation vornehmen, die sich nicht mehr rückgängig machen lässt.', 'Ein Tag des Dankeschöns beim MGV in Dinker', 'Wenn Santiago müde vom Leben gebeugt auf dem Stuhl sitzt, ist das bei Janson echt.', 'Snowden könnte auch in Russland aussagen']

target_tokens: [[621, 240, 969, 74, 610, 731, 3589, 46, 12920, 432, 1884, 4, 17, 67, 74, 337, 7629, 6505, 13654, 1042, 4129, 5, 2, None], [689, 898, 35, 3157, 3034, 5085, 94, 1263, 58, 20724, 7, 12790, 972, 2, None], [682, 13024, 24047, 330, 1459, 19895, 207, 1770, 37, 56, 3498, 6403, 19988, 4, 34, 39, 148, 6684, 1360, 21242, 5, 2, None], [29245, 2729, 101, 7, 5251, 290, 1990, 2, None]]

generation_pa

 62%|██████▏   | 8/13 [00:06<00:03,  1.38it/s]

Statistics:

input_texts: ['Many physicians perceive this to entail changes in the structure of space-time, which Albert Einstein predicted almost 100 years ago.', "It was there that the role-play began, with Alois Krafczyk shining once again in his famous role as the town's great son.", 'According to the police, the accident occurred on Thursday evening at around 10:00 p.m., when a 26-year-old man was cycling illegally, on the left footpath of the Bahnhofplatz in the direction of Marktstätte, on a ladies bicycle.', "Tax on foreign property owners to burst London's bubble"]

target_texts: ['Darunter verstehen Physiker Änderungen in der Struktur der Raumzeit, die Albert Einstein vor fast 100 Jahren vorausgesagt hatte.', 'Und dann begann das Szenenspiel, in dem Alois Krafczyk einmal mehr in seiner Paraderolle als großer Sohn der Stadt glänzte.', 'Zu dem Unfall war es nach Angaben der Polizei gekommen, als ein 26 Jahre alter Mann am Donnerstagabend, gegen 22 Uhr, mit einem Damenfahrrad or

 69%|██████▉   | 9/13 [00:07<00:02,  1.53it/s]

Statistics:

input_texts: ['There are top athletes who also have an exclusively vegan diet.', "It's this second job, he said, that funds about 60% of his nonprofit; the rest is covered by private donations.", 'With "Euclid", the ESA has already approved an M-mission, planned to commence in 2020.', 'He said the NotW used three ways to investigate stories: phone hacking, surveillance, and confrontation.']

target_texts: ['Es gibt Hochleistungsathleten, die sich ausschließlich vegan ernähren.', 'Mit diesem zweiten Job finanziere er 60 % seiner gemeinnützigen Tätigkeit, so Bwelle; der Rest stamme aus privaten Spenden.', 'Mit "Euclid" hat die Esa auch hier bereits eine M-Mission bewilligt, deren Start für 2020 vorgesehen ist.', 'Er sagte, NotW verwende drei Verfahren, um Geschichten investigativ zu recherchieren: Telefon-Hacking, Überwachung und Konfrontation.']

target_tokens: [[298, 519, 2447, 18078, 846, 745, 328, 303, 185, 4, 17, 67, 8008, 176, 24298, 1646, 5861, 120, 5, 2, None], [684,

 77%|███████▋  | 10/13 [00:07<00:01,  1.58it/s]

Statistics:

input_texts: ['The strike announced for the end of November will now go ahead, informed the head of the Union of Professional Football Clubs (UCPF), Jean-Pierre Louvel.', 'Frontier Airlines plans to charge up to $100 for passengers to store carry-on luggage on board their flight.', 'The scientists behind the project hope that Elisa could achieve this.', 'By comparison, Australian schools provide an average of 143 hours a year and pupils do around 138 hours in Singapore.']

target_texts: ['Den für Ende November angekündigten Streik werde man nun auch durchziehen, teilte der Chef Vereinigung der Profiklubs (UCPF), Jean-Pierre Louvel, mit.', 'Frontier Airlines plant, bis zu 100 US-Dollar von Passagieren zu verlangen, die auf ihrem Flug Handgepäck verstauen möchten.', 'Elisa könnte das schaffen, hoffen die Wissenschaftler hinter dem Projekt.', 'Demgegenüber unterrichten australische Schulen durchschnittlich 143 Stunden jährlich und Schüler in Singapur erhalten 138 Stunden.']



 85%|████████▍ | 11/13 [00:09<00:01,  1.17it/s]

Statistics:

input_texts: ['2014 is to be a year of celebration in Geisingen', "California planners are looking to the system as they devise strategies to meet the goals laid out in the state's ambitious global warming laws.", 'The formerly super secretive NSA, once nicknamed No Such Agency, has found itself in very public light, and amid vicious criticism, in past months following a stream of revelations about is vast foreign and domestic surveillance programs - collectively the product of secret NSA files stolen from the agency and leaked by disenchanted former NSA contractor Edward Snowden.', 'Moore added that if he uncovers sufficient evidence to warrant a criminal or civil rights investigation into the death of Johnson he will ask the FBI to conduct it.']

target_texts: ['2014 wird Geisinger Festjahr', 'Die kalifornischen Planer setzen auf das System bei der Ausarbeitung von Strategien, mit denen die ambitionierten, gesetzlich verankerten Ziele des Bundesstaats zum Klimawandel err

 92%|█████████▏| 12/13 [00:09<00:00,  1.30it/s]

Statistics:

input_texts: ['We cannot ignore the zero tolerance policy regarding pyrotechnics in Saxony.', 'Late on Thursday evening, fire broke out on the ground floor of the house.', 'Norway: Norwegian village lights itself up with huge mirrors', 'The traffic light system itself, which cost around EUR 15,000, is the "most modern system that is currently available on the market," explained Arnold.']

target_texts: ['Die Null-Toleranz-Politik in Sachen Pyrotechnik können wir nicht aufgeben.', 'Am späten Donnerstagabend hatte es im Erdgeschoss des Hauses gebrannt.', 'Norwegen: Norwegischer Ort macht sich mit Riesenspiegeln Licht', 'Die rund 15 000 Euro teure Ampelanlage selbst ist das "modernste, was es derzeit auf dem Markt gibt", erläuterte Arnold.']

target_tokens: [[51, 21700, 10, 22747, 10, 3836, 7, 14154, 5656, 3877, 14348, 213, 150, 74, 24640, 5, 2, None], [1736, 19176, 29964, 1171, 40, 45, 5001, 10170, 35, 11113, 1279, 22626, 5, 2, None], [12997, 8, 15812, 741, 1010, 1694, 2332,

100%|██████████| 13/13 [00:10<00:00,  1.24it/s]

Statistics:

input_texts: ['"I find it wonderful that in America, myth and folklore already has a part in education," he said.', 'St. Hubert was, according to legend, a truly ruthless hunter, who converted following a vision and was later appointed Bishop of Lüttich.']

target_texts: ['„Ich finde es wundervoll, dass in Amerika Mythen und Folklore bereits Teil der Bildung sind“, sagte er.', 'St. Hubertus war der Sage nach ein recht rücksichtsloser Jäger, der durch eine Vision bekehrt und später zum Bischof von Lüttich ernannt wurde.']

target_tokens: [[24, 394, 14699, 40, 3541, 2722, 4, 123, 7, 9723, 1923, 755, 12, 3026, 2074, 1089, 1118, 1305, 13, 5537, 87, 4, 24, 3453, 73, 5, 2, None], [1648, 3117, 680, 14293, 282, 13, 50, 446, 145, 54, 3523, 7629, 3448, 9347, 21174, 4, 13, 212, 46, 7903, 126, 18890, 12, 4193, 184, 16417, 21, 5513, 144, 233, 388, 1646, 11379, 266, 5, 2, None]]

generation_params: {}

ensemble_model: None

input_tokens: {'input_ids': [[24, 62, 930, 61, 7254, 38, 7, 361




In [9]:
results

{('sequence',
  'MaxProbabilitySeq',
  'Rouge_rougeL',
  'rcc-auc'): 0.7597088800657208,
 ('sequence', 'EntropySeq', 'Rouge_rougeL', 'rcc-auc'): 0.7473781022976772}