In [75]:
import glob
import os

# Define the directory containing the .vert files

directory_path = '../data/NorSynthClinical'

# Use glob to find all .vert files in the directory
ann_files = glob.glob(os.path.join(directory_path, '*.ann'))

# Read and print the content of each .vert file
tags = set()
dataset = []
for file_path in ann_files:
    file_dataset = []
    with open(file_path, 'r') as file:        
        for line in file:
            data = line.split('\t')
            if "R" in data[0]:
                continue
            tag = data[1].split()[0].strip()
            if tag not in ['CONDITION', 'EVENT']:
                tag = "O"
            word = data[2].strip().replace('“', "").replace("”", "").split()
            for w in word:
                file_dataset.append((tag, w))
            tags.add(tag)
    dataset.append(file_dataset)

In [76]:
tags

{'CONDITION', 'EVENT', 'O'}

In [77]:
dataset

[[('O', 'Pasienten'),
  ('O', 'har'),
  ('O', 'som'),
  ('O', 'ledd'),
  ('O', 'i'),
  ('O', 'familiescreening'),
  ('O', 'fått'),
  ('O', 'påvist'),
  ('CONDITION', 'mutasjon'),
  ('O', 'i'),
  ('O', 'MYH7'),
  ('O', 'som'),
  ('O', 'er'),
  ('O', 'årsak'),
  ('O', 'til'),
  ('O', 'hypertrofisk'),
  ('O', 'kardiomyopati'),
  ('O', '.'),
  ('O', 'Indekspasienten'),
  ('O', 'er'),
  ('O', 'hans'),
  ('O', 'onkel'),
  ('O', 'på'),
  ('O', 'farssiden,'),
  ('O', 'som'),
  ('O', 'hatt'),
  ('EVENT', 'hjertestans'),
  ('O', 'og'),
  ('O', 'fått'),
  ('O', 'implantert'),
  ('CONDITION', 'ICD'),
  ('O', '.'),
  ('O', 'Pasientens'),
  ('O', 'far'),
  ('O', 'og'),
  ('O', 'hans'),
  ('O', 'søster'),
  ('O', 'har'),
  ('O', 'også'),
  ('O', 'fått'),
  ('O', 'påvist'),
  ('CONDITION', 'mutasjonen,'),
  ('O', 'men'),
  ('O', 'er'),
  ('CONDITION', 'friske'),
  ('O', '.'),
  ('O', 'Pasientens'),
  ('O', 'to'),
  ('O', 'fettere'),
  ('O', 'på'),
  ('O', 'farssiden'),
  ('O', 'har'),
  ('O', 'også'),

In [78]:
from transformers import AutoTokenizer
checkpoint = "ltg/norbert3-large"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

In [79]:
words = [val[1] for val in dataset[0]]
annot = [val[0] for val in dataset[0]]


In [80]:
tokenized = tokenizer(words, padding="max_length", max_length=128, is_split_into_words=True, truncation=True, return_offsets_mapping=True)

In [81]:
words

['Pasienten',
 'har',
 'som',
 'ledd',
 'i',
 'familiescreening',
 'fått',
 'påvist',
 'mutasjon',
 'i',
 'MYH7',
 'som',
 'er',
 'årsak',
 'til',
 'hypertrofisk',
 'kardiomyopati',
 '.',
 'Indekspasienten',
 'er',
 'hans',
 'onkel',
 'på',
 'farssiden,',
 'som',
 'hatt',
 'hjertestans',
 'og',
 'fått',
 'implantert',
 'ICD',
 '.',
 'Pasientens',
 'far',
 'og',
 'hans',
 'søster',
 'har',
 'også',
 'fått',
 'påvist',
 'mutasjonen,',
 'men',
 'er',
 'friske',
 '.',
 'Pasientens',
 'to',
 'fettere',
 'på',
 'farssiden',
 'har',
 'også',
 'arvet',
 'mutasjonen,',
 'pasienten',
 'vet',
 'ikke',
 'om',
 'de',
 'er',
 'syke',
 '.',
 'Pasienten',
 'har',
 'en',
 'søster',
 'og',
 'en',
 'bror',
 'som',
 'begge',
 'er',
 'gen-negative',
 '.',
 'Han',
 'har',
 'to',
 'barn',
 'som',
 'foreløpig',
 'ikke',
 'er',
 'testet..',
 '(',
 'ikke',
 'testet',
 '-',
 'ikke',
 'kjent',
 'testet',
 ')',
 'hvordan',
 'ser',
 'videre',
 'forløp',
 'ut..',
 '.',
 'hypertrofisk',
 'kardiomyopati',
 'vet',
 'ik

In [82]:
len(words)

102

In [83]:
tokenized = tokenizer(words, padding="max_length", is_split_into_words=True, return_offsets_mapping=True)

Asking to pad to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no padding.


In [84]:
len(tokenized.tokens())

139

In [85]:
tokenized

{'input_ids': [1, 30945, 397, 367, 1527, 333, 26194, 33860, 1819, 1191, 10047, 24486, 491, 333, 29174, 146, 129, 367, 356, 3153, 351, 41935, 40294, 443, 47625, 34539, 41915, 1359, 48186, 40119, 316, 356, 1619, 15709, 368, 26641, 3744, 118, 367, 1480, 19491, 1506, 1108, 342, 1191, 2334, 16048, 190, 12464, 142, 1359, 30945, 189, 1333, 342, 1619, 10782, 397, 542, 1191, 10047, 24486, 1147, 118, 480, 356, 10991, 1359, 30945, 189, 651, 42127, 175, 368, 26641, 3744, 397, 542, 34911, 24486, 1147, 118, 7435, 1761, 428, 403, 402, 356, 1575, 1359, 30945, 397, 361, 10782, 342, 361, 10152, 367, 2322, 356, 2666, 119, 26471, 2696, 1359, 842, 397, 651, 1203, 367, 5252, 428, 356, 11251, 601, 459, 428, 11251, 484, 428, 2002, 11251, 4408, 1314, 840, 1135, 19499, 398, 601, 1359, 41935, 40294, 443, 47625, 34539, 41915, 1761, 428, 2], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [86]:
annot

['O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'CONDITION',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'EVENT',
 'O',
 'O',
 'O',
 'CONDITION',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'CONDITION',
 'O',
 'O',
 'CONDITION',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'CONDITION',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'CONDITION',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'CONDITION',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'CONDITION',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'CONDITION',
 'CONDITION',
 'O',
 'O']

In [87]:
tokens_annot = []
i = -1
for j in range(len(tokenized.tokens())):
    if tokenized['offset_mapping'][j][0] == 0 and tokenized['offset_mapping'][j][1] == 0:
        tokens_annot.append("O")
        continue
    if tokenized['offset_mapping'][j][0] == 0:
        i += 1
        if annot[i] != "O":
            tokens_annot.append(f"B-{annot[i]}")
        else:
            tokens_annot.append(annot[i])
    else:
        if annot[i] != "O":
            tokens_annot.append(f"I-{annot[i]}")
        else:
            tokens_annot.append(annot[i])
    

In [88]:
for data in dataset:
    words = [val[1] for val in data]
    annot = [val[0] for val in data]
    
    tokenized = tokenizer(words, padding="max_length", is_split_into_words=True, return_offsets_mapping=True)
    
    tokens_annot = []
    i = -1
    for j in range(len(tokenized.tokens())):
        if tokenized['offset_mapping'][j][0] == 0 and tokenized['offset_mapping'][j][1] == 0:
            print("START, STOP")
            tokens_annot.append("O")
            continue
        elif tokenized['offset_mapping'][j][0] == 0:
            i += 1
            print(words[i], tokenized.tokens()[j], annot[i], tokenized['offset_mapping'][j])
            if annot[i] != "O":
                tokens_annot.append(f"B-{annot[i]}")
            else:
                tokens_annot.append(annot[i])
        else:
            if annot[i] != "O":
                tokens_annot.append(f"I-{annot[i]}")
            else:
                tokens_annot.append(annot[i])
    


START, STOP
Pasienten ĠPasienten O (0, 9)
har Ġhar O (0, 3)
som Ġsom O (0, 3)
ledd Ġledd O (0, 4)
i Ġi O (0, 1)
familiescreening Ġfamilies O (0, 8)
fått ĠfÃ¥tt O (0, 4)
påvist ĠpÃ¥vist O (0, 6)
mutasjon Ġmut CONDITION (0, 3)
i Ġi O (0, 1)
MYH7 ĠMY O (0, 2)
som Ġsom O (0, 3)
er Ġer O (0, 2)
årsak ĠÃ¥rsak O (0, 5)
til Ġtil O (0, 3)
hypertrofisk Ġhypert O (0, 6)
kardiomyopati Ġkardi O (0, 5)
. Ġ. O (0, 1)
Indekspasienten ĠIndeks O (0, 6)
er Ġer O (0, 2)
hans Ġhans O (0, 4)
onkel Ġonkel O (0, 5)
på ĠpÃ¥ O (0, 2)
farssiden, Ġfars O (0, 4)
som Ġsom O (0, 3)
hatt Ġhatt O (0, 4)
hjertestans Ġhjertes EVENT (0, 7)
og Ġog O (0, 2)
fått ĠfÃ¥tt O (0, 4)
implantert Ġimp O (0, 3)
ICD ĠIC CONDITION (0, 2)
. Ġ. O (0, 1)
Pasientens ĠPasienten O (0, 9)
far Ġfar O (0, 3)
og Ġog O (0, 2)
hans Ġhans O (0, 4)
søster ĠsÃ¸ster O (0, 6)
har Ġhar O (0, 3)
også ĠogsÃ¥ O (0, 4)
fått ĠfÃ¥tt O (0, 4)
påvist ĠpÃ¥vist O (0, 6)
mutasjonen, Ġmut CONDITION (0, 3)
men Ġmen O (0, 3)
er Ġer O (0, 2)
friske Ġfriske CONDITION

In [89]:
print(words[341], annot[341])

før O
