In [1]:
%load_ext autoreload
%autoreload 1

In [2]:
import sys
sys.path.append('../scripts')

In [3]:
import os
# Disable weights and biases (if installed)
os.environ["TOKENIZERS_PARALLELISM"] = "false"
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"
os.environ["WANDB_DISABLED"] = "true"

In [4]:
from pathlib import Path

from dataset import load_data, get_dataloader
from generative.run_experiment import get_training_args, get_trainer, get_tokenizer

  from .autonotebook import tqdm as notebook_tqdm


# Training

In [5]:
import hydra
from hydra import compose, initialize

hydra.core.global_hydra.GlobalHydra.instance().clear()
initialize(config_path=Path('..'), job_name='foo', version_base='1.1')
config = compose(config_name='experiment.yaml')

In [6]:
training_args = get_training_args(config, report_to="none")
tokenizer = get_tokenizer(config)



In [7]:
base_path = Path('..')
train_df, val_df, test_df = load_data(base_path / config.data.cnf_tsv_path, base_path / config.data.controls_tsv_path)

In [8]:
# Ellipses
(~train_df.controls).sum(), (~val_df.controls).sum(), (~test_df.controls).sum()

(2317, 463, 488)

In [9]:
# Controls
(train_df.controls).sum(), (val_df.controls).sum(), (test_df.controls).sum()

(2239, 500, 529)

In [10]:
train_dataset, val_dataset, test_dataset = get_dataloader(train_df, val_df, test_df, tokenizer)

In [11]:
training_args.num_train_epochs = 10

In [12]:
trainer = get_trainer(config, tokenizer, training_args, train_dataset, val_dataset)

In [13]:
trainer.train()

***** Running training *****
  Num examples = 4556
  Num Epochs = 10
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 8
  Gradient Accumulation steps = 1
  Total optimization steps = 5700
You're using a T5TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Epoch,Training Loss,Validation Loss,Exact Match,Google Bleu
1,0.1685,0.051593,0.757009,0.803461
2,0.0724,0.036552,0.80893,0.914712
3,0.0456,0.036677,0.821391,0.944792
4,0.0336,0.036598,0.831776,0.893739
5,0.0212,0.032676,0.859813,0.929487
6,0.017,0.032514,0.865005,0.957693
7,0.0139,0.037077,0.877466,0.961684
8,0.0101,0.038767,0.873313,0.960636
9,0.0046,0.038103,0.874351,0.963395
10,0.0042,0.038547,0.878505,0.971691


***** Running Evaluation *****
  Num examples = 963
  Batch size = 8
***** Running Evaluation *****
  Num examples = 963
  Batch size = 8
***** Running Evaluation *****
  Num examples = 963
  Batch size = 8
***** Running Evaluation *****
  Num examples = 963
  Batch size = 8
***** Running Evaluation *****
  Num examples = 963
  Batch size = 8
***** Running Evaluation *****
  Num examples = 963
  Batch size = 8
***** Running Evaluation *****
  Num examples = 963
  Batch size = 8
***** Running Evaluation *****
  Num examples = 963
  Batch size = 8
***** Running Evaluation *****
  Num examples = 963
  Batch size = 8
***** Running Evaluation *****
  Num examples = 963
  Batch size = 8


Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=5700, training_loss=0.21733053085573933, metrics={'train_runtime': 3076.4843, 'train_samples_per_second': 14.809, 'train_steps_per_second': 1.853, 'total_flos': 9636508939419648.0, 'train_loss': 0.21733053085573933, 'epoch': 10.0})

In [15]:
eval_metrics = trainer.evaluate(val_dataset)
print(eval_metrics)

test_metrics = trainer.evaluate(test_dataset, metric_key_prefix='test')
print(test_metrics)

***** Running Evaluation *****
  Num examples = 963
  Batch size = 8


***** Running Evaluation *****
  Num examples = 1017
  Batch size = 8


{'eval_loss': 0.03854713588953018, 'eval_exact_match': 0.8785046728971962, 'eval_google_bleu': 0.9716914437064991, 'eval_runtime': 141.8926, 'eval_samples_per_second': 6.787, 'eval_steps_per_second': 0.853, 'epoch': 10.0}
{'test_loss': 0.039304446429014206, 'test_exact_match': 0.8790560471976401, 'test_google_bleu': 0.9637818113772455, 'test_runtime': 152.0005, 'test_samples_per_second': 6.691, 'test_steps_per_second': 0.842, 'epoch': 10.0}


# Error Analysis

In [16]:
from transformers import Text2TextGenerationPipeline
from evaluation import error_analysis, Metrics

In [17]:
pipeline = Text2TextGenerationPipeline(model=trainer.model, tokenizer=tokenizer, max_length=config.generation_max_length, device=0)

In [44]:
from evaluation import error_analysis, get_scores, encode_decode
from notebook_util import show_errors

ImportError: cannot import name 'encode_decode' from 'evaluation' (/mnt/nfs/home/Florian.Borchert/workspace/ggponc_ellipses/notebooks/../scripts/evaluation.py)

In [45]:
import pandas as pd

def calculate_errors(out, sample):
    gen_text = [o['generated_text'] for o in out]
    errors = error_analysis(gen_text, encode_decode(sample.full_resolution), encode_decode(sample.raw_sentence))
    errors = pd.concat([errors, sample[['file', 'sentence_id']].reset_index()], axis=1)
    return errors

In [20]:
%%time
out_valid = pipeline(list(val_df.raw_sentence))

CPU times: user 7min 41s, sys: 162 ms, total: 7min 41s
Wall time: 7min 41s


In [41]:
errors_valid = calculate_errors(out_valid, val_df)

In [46]:
%%time
scores = get_scores(errors_valid, "eval")
scores

CPU times: user 1min 31s, sys: 49.1 ms, total: 1min 31s
Wall time: 1min 34s


{'eval/tp': 0.877466251298027,
 'eval/tp_abs': 845,
 'eval/fn': 0.028037383177570093,
 'eval/fn_abs': 27,
 'eval/fp': 0.02596053997923157,
 'eval/fp_abs': 25,
 'eval/replace': 0.010384215991692628,
 'eval/replace_abs': 10,
 'eval/insert': 0.018691588785046728,
 'eval/insert_abs': 18,
 'eval/delete': 0.032191069574247146,
 'eval/delete_abs': 31,
 'eval/complex': 0.007268951194184839,
 'eval/complex_abs': 7,
 'eval/edit_distance_rel': 0.9268044884022522,
 'eval/exact_match': 0.877466251298027,
 'eval/gleu': 0.9716914437064991,
 'eval/edit_distance_abs': 1.6666666666666667}

In [47]:
errors_valid.error_type.value_counts()

tp         845
delete      31
fn          27
fp          25
insert      18
replace     10
complex      7
Name: error_type, dtype: int64

In [89]:
s = errors_valid[errors_valid.error_type != "tp"].sample(20)
show_errors(s)

0;21_hodentumoren_0269.tsv;32

__Input:__

Im Stadium cSI treten unter Überwachung, nach Carboplatin- oder operativer Therapie Rezidive zumeist retroperitoneal auf, nach einer Strahlentherapie außerhalb („ex field“) der bestrahlten Lymphabflussregion.

__Error type:__ replace

1;26_palliativmedizin_0686.tsv;22

__Input:__

Sowohl die deutsche S3-Leitlinie der Deutschen Gesellschaft für Ernährungsmedizin (DGEM) „Ethische und rechtliche Gesichtspunkte der Künstlichen Ernährung“ (2015) (Empfehlung 48) als auch die ESPEN „Guideline on ethical aspects of artifcial nutrition and hydration“ (2016) empfehlen die Dehydration in der Sterbephase [REF], [REF].

__Error type:__ fn

2;19_follikulaeres-lymphom_0284.tsv;6

__Input:__

Dies entsprach einer 7-fach erhöhten Wahrscheinlichkeit verglichen mit einer Alters- und Geschlechts-adaptierten Vergleichsgruppe.

__Error type:__ fp

3;28_komplementaermedizin_0266.tsv;25

__Input:__

Die Unterschiede in der Veränderung der MN in Lymphozyten und CF-Aktivität zwischen der Placebo- und der Verum-Gruppe waren signifikant (p < 0.01 bzw. p < 0.05, jeweils).

__Error type:__ fp

4;03_lungenkarzinom_0382.tsv;52

__Input:__

Die Studienpatienten waren stratifiziert nach Stadium IIIB vs. IV, Alter (unter oder über 70 Jahre), Geschlecht, Histologie (Plattenepithel- vs. Adenokarzinom vs. andere) und geographische Region (Nordamerika vs. Russland/Ukraine vs. Japan vs. Australien).

__Error type:__ delete

5;20_harnblasenkarzinom_0322.tsv;25

__Input:__

Zu einer qualifizierten Behandlung von Tumorpatienten gehören das frühzeitige und langfristige Angebot einer - an individuellen Bedürfnissen und Problemen orientierten - psychoonkologischen Beratung, Begleitung und Behandlung sowie die orts- und zeitnahe Unterstützung bei der Bewältigung körperlicher, psychischer, sozialer, beruflicher und finanzieller Schwierigkeiten.

__Error type:__ fp

6;22_prostatakarzinom_0009.tsv;51

__Input:__

In einer weiteren, ähnlich konzipierten, prospektiv randomisierten Doppelblindstudie wurden 8.231 Patienten mit V. a. Prostatakarzinom nach einer negativen Stanzbiopsie über vier Jahre mit dem 5-Alpha-Reduktase- Typ-I- und II-Hemmer Dutasterid (REDUCE) behandelt.

__Error type:__ delete

7;21_hodentumoren_0140.tsv;9

__Input:__

Für Patienten mit nichtseminomatösem KZT mit besonders schlechter Prognose [inadäquatem Markerabfall nach ein bis zwei Zyklen konventioneller Chemotherapie mit PEB oder PEI (s.u.), primär mediastinaler Erkrankung (siehe Kapitel Sonderformen) sowie primär vorhandenen Hirn- (siehe Kapitel Primär cerebral metastasierte Keimzelltumoren) und/oder Knochenmetastasen (siehe Kapitel Primär ossär metastasierte Keimzelltumoren)] hingegen ist individuell durch ein Expertenteam zu prüfen, ob eine Therapieintensivierung in der Erstlinie sinnvoll und möglich ist.

__Error type:__ delete

8;28_komplementaermedizin_0209.tsv;13

__Input:__

Die Wirksamkeit von Vitamin D bezüglich Gesamt- oder progressionsfreien Überlebens wurde in drei zweiarmigen Studien mit Prostatakrebspatienten (Attia 2008, Beer 2007 und Scheer 2011) und in einer kleinen Studie mit Patienten mit Kopf-Hals-Tumoren untersucht.

__Error type:__ insert

9;03_lungenkarzinom_0382.tsv;18

__Input:__

Somit kann bei Patienten im Stadium IIIB/IV (neu: IVB) eine Chemotherapie zur Verbesserung der Überlebenszeit, der Krankheitskontrolle und der Lebensqualität als Therapieoption angeboten werden.

__Error type:__ delete

10;28_komplementaermedizin_0055.tsv;69

__Input:__

Balzarini et al. [REF] konnten bei 61 Brustkrebspatientinnen, die entweder täglich die beiden homöopathischen Einzelpräparate Belladonna und X-ray oder ein Placebo bekamen, keine Unterschiede hinsichtlich Art und Schwere der mit der Radiotherapie assoziierten Hautreaktion während bis 30 Tage nach der Radiotherapie feststellen.

__Error type:__ fp

11;05_zervixkarzinom_0122.tsv;5

__Input:__

Speziell kleine Metastasen bleiben oft durch die herkömmliche Bildgebung unentdeckt (siehe Kapitel 6).

__Error type:__ fp

12;06_hautkrebspraevention_0162.tsv;14

__Input:__

Auf welcher Stufe der Verhaltensänderung sich die Zielperson bzw. der Proband jeweils befindet bzw. welche Konstellationen individueller Prädispositionen bei den Mitgliedern einer Zielgruppe vorliegen, beeinflusst auch ihre Empfänglichkeit für unterschiedliche Informations- und Kommunikationsangebote, die Teil einer Intervention sind, sowie deren Bewertung und die hieraus resultierenden Vermittlungspotenziale.

__Error type:__ fp

13;01_magenkarzinom_0054.tsv;4

__Input:__

Die Distension des Magens mit (negativem) Kontrastmittel (z.B. Wasser als sog. „Hydro-CT“) ist in der aktuellen Literatur durchgehend empfohlen, da ohne zusätzliche Kosten der Lokalbefund wesentlich besser abgrenzbar ist und eine Infiltration in Nachbarorgane/-strukturen bzw. die Abgrenzung von anatomischen Strukturen jenseits der Magenwand wesentlich besser möglich ist.

__Error type:__ complex

14;20_harnblasenkarzinom_0241.tsv;1

__Input:__

Die postoperative Stomatherapie sollte sicherstellen, dass der Patient bzw. - sofern er selbst dazu nicht in der Lage ist - dessen Angehörige oder betreuende Personen, selbstständig die grundsätzliche Stomaversorgung durchführen können (Grundplattenwechsel, Stomabeutel leeren und wechseln).

__Error type:__ fp

15;05_zervixkarzinom_0007.tsv;5

__Input:__

- Infektion mit humanem Papilloma-Virus (hauptsächlich HPV Typ 16+18, siehe Abschnitt 3.4.1)

__Error type:__ fn

16;04_praevention-zervixkarzinom_0185.tsv;1

__Input:__

Ein organisiertes Screening mit populationsbasierter Einladung und stringenter Qualitätssicherung kann zu einer effektiveren und sozial- wie altersbezogen ausgewogeneren Vorsorge führen.

__Error type:__ insert

17;09_mammakarzinom_0669.tsv;138

__Input:__

Bei kleinen Low-grade bzw. Non-high-Grade-DCIS ist eine Abgrenzung gegenüber der ADH notwendig (siehe oben).

__Error type:__ insert

18;03_lungenkarzinom_0609.tsv;3

__Input:__

Übersichtsarbeiten [REF], [REF] [REF] [REF] und klinische Studien [REF] [REF] [REF] [REF] [REF] [REF] [REF] [REF] [REF] bei Menschen mit unterschiedlichen Krebserkrankungen legen nahe, dass Verfahren wie Imagination, Meditation, progressive Muskelrelaxation und Hypnose zur Minderung von Angst, Niedergeschlagenheit Erschöpfung und Schmerzen beitragen.

__Error type:__ fp

19;08_aktinische-keratose-und-plattenepithelkarzinom-der-haut_0138.tsv;4

__Input:__

In einer 2010 publizierten, doppelt-verblindeten, Placebo-kontrollierten, randomisierten Studie wurden 32 Organtransplantierte Patienten (18 Nieren-, 8 Herz und 6 Lebertransplantierte) entweder mit Diclofenac-Natrium 3% in Hyaluronsäure 2,5% Gel oder nur Vehikel-Gel behandelt [REF].

__Error type:__ delete

In [49]:
%%time
out_test = pipeline(list(test_df.raw_sentence))

CPU times: user 8min 8s, sys: 167 ms, total: 8min 8s
Wall time: 8min 8s


In [53]:
errors_test = calculate_errors(out_test, test_df)
errors_test.error_type.value_counts()

tp         891
fn          35
delete      25
fp          23
insert      16
complex     14
replace     13
Name: error_type, dtype: int64

In [52]:
%%time
scores = get_scores(errors_test, "test")
scores

CPU times: user 1min 38s, sys: 61.1 ms, total: 1min 38s
Wall time: 1min 41s


{'test/tp': 0.8761061946902655,
 'test/tp_abs': 891,
 'test/fn': 0.0344149459193707,
 'test/fn_abs': 35,
 'test/fp': 0.02261553588987217,
 'test/fp_abs': 23,
 'test/replace': 0.012782694198623401,
 'test/replace_abs': 13,
 'test/insert': 0.015732546705998034,
 'test/insert_abs': 16,
 'test/delete': 0.024582104228121928,
 'test/delete_abs': 25,
 'test/complex': 0.01376597836774828,
 'test/complex_abs': 14,
 'test/edit_distance_rel': 0.9214101234907869,
 'test/exact_match': 0.8761061946902655,
 'test/gleu': 0.9637818113772455,
 'test/edit_distance_abs': 2.0}

## Clean up

In [None]:
%%time
out_train = pipeline(list(train_df.raw_sentence))

errors_train = calculate_errors(out_train, train_df)

errors_train.error_type.value_counts()

In [None]:
errors_all = pd.concat([errors_train, errors_valid, errors_test])

In [None]:
errors_all.error_type.value_counts()

In [None]:
show_errors(errors_all[errors_all.error_type != "tp"].sort_values(['error_type', 'file', 'sentence_id']))