In [4]:
import sys
sys.path.append('../scripts')

In [5]:
import os
# Disable weights and biases (if installed)
os.environ["TOKENIZERS_PARALLELISM"] = "false"
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "5"
os.environ["WANDB_DISABLED"] = "true"

In [6]:
from pathlib import Path

from dataset import load_data, get_dataloader
from generative.transformers_util import get_training_args, get_trainer, get_tokenizer

# Load Data & Seq2Seq Model

In [7]:
import hydra
from hydra import compose, initialize

hydra.core.global_hydra.GlobalHydra.instance().clear()
initialize(config_path=Path('..'), job_name='foo', version_base='1.1')
config = compose(config_name='experiment.yaml')

In [8]:
MODEL_PATH = "../data/ellipses/model/"

In [9]:
tokenizer = get_tokenizer(config)



In [10]:
base_path = Path('..')
train_df, val_df, test_df = load_data(base_path / config.data.cnf_tsv_path, base_path / config.data.controls_tsv_path)

# Error Analysis

In [11]:
from evaluation import error_analysis, Metrics
from transformers import Text2TextGenerationPipeline, AutoModelForSeq2SeqLM

In [12]:
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_PATH)

In [13]:
pipeline = Text2TextGenerationPipeline(model, tokenizer=tokenizer, max_length=config.generation_max_length, device=0)

In [14]:
from evaluation import error_analysis, get_scores, encode_decode
from notebook_util import show_errors

In [15]:
import pandas as pd

def calculate_errors(out, sample):
    gen_text = [o['generated_text'] for o in out]
    errors = error_analysis(gen_text, encode_decode(sample.full_resolution, tokenizer), encode_decode(sample.raw_sentence, tokenizer))
    errors = pd.concat([errors, sample[['file', 'sentence_id']].reset_index()], axis=1)
    return errors

In [16]:
%%time
out_valid = pipeline(list(val_df.raw_sentence))

CPU times: user 9min 25s, sys: 305 ms, total: 9min 25s
Wall time: 9min 25s


In [17]:
errors_valid = calculate_errors(out_valid, val_df)
errors_valid.error_type.value_counts() / len(errors_valid)

tn         0.495420
tp         0.416320
replace    0.016653
delete     0.016653
fn         0.016653
insert     0.014988
fp         0.013322
complex    0.009992
Name: error_type, dtype: float64

In [23]:
%%time
scores = get_scores(errors_valid, "eval")
scores

CPU times: user 1min 21s, sys: 116 ms, total: 1min 22s
Wall time: 1min 24s


{'eval/exact_match': 0.9117402164862615,
 'eval/gleu': 0.9868297119100977,
 'eval/edit_distance_rel': 0.9539251318409139}

In [24]:
s = errors_valid[errors_valid.error_type == "insert"]
show_errors(s)

0;01_magenkarzinom_0092.tsv;3

__Input:__

Analysiert wurde das Ergebnis aller Patienten, bei denen zwischen 2010 und 2012 in Frankreich eine Ösophagus- oder Magenresektionen durchgeführt war (N=11.196).

__Error type:__ insert

1;02_kolorektales-karzinom_0100.tsv;4

__Input:__

Eine weitere, 3- bis 4-fache Risikosteigerung besteht, wenn bei dem Indexpatienten das KRK vor dem 60. Lebensjahr aufgetreten ist und/oder mehr als ein Verwandter ersten Grades von einem KRK betroffen ist [REF], [REF], [REF], [REF], [REF], [REF], [REF], [REF], [REF], [REF], [REF], [REF], [REF].

__Error type:__ insert

2;03_lungenkarzinom_0382.tsv;73

__Input:__

Mono- versus Kombinationschemotherapie

__Error type:__ insert

3;03_lungenkarzinom_0480.tsv;12

__Input:__

Auf den initialen Hemithorax begrenzter Tumor mit oder ohne ipsi- oder kontralaterale mediastinale oder ipsilaterale supraklavikuläre Lymphknotenmetastasen * und mit oder ohne ipsilateralen Pleuraerguss unabhängig vom zytologischen Ergebnis *.

__Error type:__ insert

4;03_lungenkarzinom_0506.tsv;1

__Input:__

In einer Phase-II-Studie der SWOG [REF], [REF] konnte bei 154 Patienten mit simultaner PE- und Strahlentherapieapplikation eine 3-Jahres-Überlebensrate von 34 % erreicht werden.

__Error type:__ insert

5;05_zervixkarzinom_0004.tsv;3

__Input:__

In Tabelle Relative 5-und 10-Jahres-Überlebensraten sind die vom Krebsregister Bayern für den Zeitraum 1988 - 2011 errechneten relativen 5-und 10-Jahres-Überlebensraten in Abhängigkeit vom UICC-Stadium dargestellt (N=14.606).

__Error type:__ insert

6;06_hautkrebspraevention_0379.tsv;24

__Input:__

Um eine umfassende Entscheidungsunterstützung bezüglich der kurz- und langfristi-gen Konsequenzen durchführen zu können, ist die Entwicklung eines entscheidungsanalytischen Modells (z.B. Markov-Zustands-Übergangs-Modell) für den spezifischen Kontext erforderlich, in welchem die relevante und aktuell verfügbare Evidenz zu epidemiologischen und klinischen Parametern, patientenrelevantem Nutzen und Schaden sowie Ressourcenverbrauch und Kosten zusammengeführt werden [REF], [REF]; [REF].

__Error type:__ insert

7;15_endometriumkarzinom_0226.tsv;2

__Input:__

Dadurch kann es zu erheblichen Funktionsstörungen kommen (vaginales Trockenheitsgefühl, Dyspareunie, postkoitale Blutungen, Drang- und Belastungsharninkontinenz) und damit zu einer Beeinträchtigung der Sexualität und der Lebensqualität.

__Error type:__ insert

8;17_chronisch-lymphatische-leukaemie-cll_0054.tsv;2

__Input:__

Sie sollte bei erwarteter Therapiebedürftigkeit bzw. vor Therapiebeginn/-änderung durchgeführt werden.

__Error type:__ insert

9;19_follikulaeres-lymphom_0275.tsv;2

__Input:__

Eine Untersuchung von Oh et al. [REF] umfasste 257 Patienten mit follikulärem Lymphom im Stadium I-III, die unter einer Radio-, Chemo- oder Chemoradiotherapie eine komplette Remission erreichten.

__Error type:__ insert

10;19_follikulaeres-lymphom_0286.tsv;22

__Input:__

Basierend auf ICF und bio-psycho-sozialem Model erfolgt hierzu eine Diagnostik der Folgestörungen der Lymphomerkrankung und -therapie.

__Error type:__ insert

11;25_psychoonkologie_0029.tsv;20

__Input:__

Über alle Studien hinweg tritt die Tabakabhängigkeit/-missbrauch (F17) durchschnittlich bei 13.1 % (Punktprävalenz) der Krebspatienten auf (2-51 %).

__Error type:__ insert

12;25_psychoonkologie_0029.tsv;21

__Input:__

In Deutschland liegt die durchschnittliche Punktprävalenz für Tabakabhängigkeit/-missbrauch bei Krebspatienten bei 6.5 %.

__Error type:__ insert

13;26_palliativmedizin_0190.tsv;1

__Input:__

Bei Patienten mit Tumorschmerzen können schnell und langsam freisetzende orale * Morphin-, Oxycodon- und Hydromorphon-Präparate zur Dosistitration verwendet werden.

__Error type:__ insert

14;26_palliativmedizin_0355.tsv;16

__Input:__

Fuß- oder Baucheinreibungen mit Pfefferminz-, Zitronen- oder Kümmelöl können zur Linderung von Übelkeit und Antiemese beitragen.

__Error type:__ insert

15;26_palliativmedizin_0373.tsv;23

__Input:__

Laboruntersuchungen (Blutbild, Schilddrüsenfunktion, Serum-Kalcium), radiologische, endoskopische oder Funktionsuntersuchungen werden aufgrund fehlender Evidenz nicht als Basisdiagnostik empfohlen [REF].

__Error type:__ insert

16;28_komplementaermedizin_0209.tsv;13

__Input:__

Die Wirksamkeit von Vitamin D bezüglich Gesamt- oder progressionsfreien Überlebens wurde in drei zweiarmigen Studien mit Prostatakrebspatienten (Attia 2008, Beer 2007 und Scheer 2011) und in einer kleinen Studie mit Patienten mit Kopf-Hals-Tumoren untersucht.

__Error type:__ insert

17;29_adulte-weichgewebesarkome_0204.tsv;4

__Input:__

Der Stellenwert einer prä- oder postoperativen Strahlentherapie bei retroperitonealen Weichgewebesarkomen lässt sich aus den Ergebnissen einer randomiserten Studie sowie retrospektiven und prospektiven Fallsammlungen [REF], [REF], [REF], [REF] einschätzen.

__Error type:__ insert

In [25]:
%%time
out_test = pipeline(list(test_df.raw_sentence))

CPU times: user 9min 58s, sys: 412 ms, total: 9min 59s
Wall time: 9min 59s


In [26]:
errors_test = calculate_errors(out_test, test_df)
errors_test.error_type.value_counts()

tn         601
tp         448
delete      25
insert      25
fn          18
replace     16
fp          15
complex     11
Name: error_type, dtype: int64

In [27]:
%%time
scores = get_scores(errors_test, "test")
scores

CPU times: user 1min 21s, sys: 84 ms, total: 1min 21s
Wall time: 1min 24s


{'test/exact_match': 0.905090595340811,
 'test/gleu': 0.9778028196418292,
 'test/edit_distance_rel': 0.950224476907634}

# Some examples

In [39]:
def run_pipeline(examples):
    for e, p in zip(examples, pipeline(examples)):
        print(e, '-->', p['generated_text'])

In [40]:
# Forward ellipses
run_pipeline(['Krebs-Vorsorge / -Früherkennung', 'HPV31, 33, 45 und 51', 'Vitamin C, E und A1'])

Krebs-Vorsorge / -Früherkennung --> Krebs-Vorsorge / Krebs-Früherkennung
HPV31, 33, 45 und 51 --> HPV31, HPV33 und HPV51
Vitamin C, E und A1 --> Vitamin C, Vitamin E und Vitamin A1


In [41]:
# Backward ellipses
run_pipeline(['Chemo- und Strahlentherapie', 'BRAF- und MEK-Inhibitor', 'zielgerichtete und Immuntherapien'])

Chemo- und Strahlentherapie --> Chemotherapie und Strahlentherapie
BRAF- und MEK-Inhibitor --> BRAF-Inhibitor und MEK-Inhibitor
zielgerichtete und Immuntherapien --> zielgerichtete Therapien und Immuntherapien


In [43]:
# Complex ellipses
run_pipeline(['HPV-16- und/oder -18-Positivität', 'BRCA1/2-Mutation', 'Zweitlinien- oder Drittliniensystem- bzw. -chemotherapie'])

HPV-16- und/oder -18-Positivität --> HPV-16-Positivität und/oder HPV-18-Positivität
BRCA1/2-Mutation --> BRCA1-Mutation/BRCA2-Mutation
Zweitlinien- oder Drittliniensystem- bzw. -chemotherapie --> Zweitliniensystemtherapie oder Drittliniensystemtherapie bzw. Drittlinienchemotherapie


## Clean up

In [None]:
%%time
out_train = pipeline(list(train_df.raw_sentence))

errors_train = calculate_errors(out_train, train_df)

errors_train.error_type.value_counts()

In [None]:
errors_all = pd.concat([errors_train, errors_valid, errors_test])

In [None]:
errors_all.error_type.value_counts()

In [None]:
show_errors(errors_all[errors_all.error_type != "tp"].sort_values(['error_type', 'file', 'sentence_id']))