# Export format from Doccano to Delft 

The annotated texts from Doccano have to be re-formated to be readable by Delft, a machine-learning library for finding and annotating text parts.

In [1]:
import pandas as pd
from itertools import tee

In [2]:
data = pd.read_json('/home/mvogl/Downloads/file(3).json1',lines=True)

In [3]:
data.head()

Unnamed: 0,id,text,meta,annotation_approver,labels
0,445,Carl Sonnenschein\n\n ...,"{'ids': 'tg1616.wj0c.0', 'year': 1931, 'title'...",,[]
1,446,Gegen das Remarque-Filmverbot\n ...,"{'ids': 'tg1641.wm06.0', 'year': 1931, 'title'...",,"[[0, 30, Title of piece of art], [138, 146, Pe..."
2,447,Ein Stück Dichtung\n\n ...,"{'ids': 'tg1653.wn1q.0', 'year': 1931, 'title'...",,[]
3,448,Auf dem Nachttisch\n\n ...,"{'ids': 'tg1656.wnq3.0', 'year': 1931, 'title'...",,[]
4,449,Der neue Remarque\n\n ...,"{'ids': 'tg1661.wnr3.0', 'year': 1931, 'title'...",,[]


Each annotation set has the form (start,stop,tag). In principle this allows to easily re-format. However, changing one text shifts all word boundaries. We therefore have to create a list of all tagged words and the text in between them. Tagged words are re-formated and in the end of the routine, the new re-formated text is joined together. 

In [4]:
def pairwise(iterable):
    "s -> (s0,s1), (s1,s2), (s2, s3), ..."
    a, b = tee(iterable)
    next(b, None)
    return zip(a, b)

def formatDelft(row):
    text = row['text']
    
    textParts = []
    if not row['labels']:
        return ''
    for elem in pairwise(sorted(row['labels'])):
        if elem[0][0] != 0:
            textParts.append([0,elem[0][0],'text'])
        textParts.append(elem[0])
        textParts.append([elem[0][1],elem[1][0],'text'])
    if textParts[-1][1] != len(text):
        textParts.append([textParts[-1][1],len(text),'text'])
        
    formatedParts = []
    
    for elem in textParts:
        textelem = text[elem[0]:elem[1]]
        if elem[2] != 'text':
            subtext = '<rs type="{0}">{1}</rs>'.format(elem[2],textelem)
        else:
            subtext = textelem
        formatedParts.append(subtext)
        
    return ''.join(formatedParts) #3

In [5]:
data['delftFormated'] = data.apply(lambda row: formatDelft(row),axis=1)

In [9]:
data[data['delftFormated'] != ''].delftFormated.iloc[0]

'<rs type="Title of piece of art">Gegen das Remarque-Filmverbot\n</rs>                              \n(Eine Umfrage der »Deutschen Liga für Menschenrechte«)\n\n\nDer nordische Barde Gegen das Remarque-Filmverbot\n                              \n(Eine Umfrage der »Deutschen Liga für Menschenrechte«)\n\n\nDer nordische Barde <rs type="Person (real)">Goebbels</rs> hat in seinen Kundgebungen wiederholt darauf hingewiesen, daß der Gegen das Remarque-Filmverbot\n                              \n(Eine Umfrage der »Deutschen Liga für Menschenrechte«)\n\n\nDer nordische Barde Goebbels hat in seinen Kundgebungen wiederholt darauf hingewiesen, daß der <rs type="Person (real)">Remarque</rs>-Film ein ›Geschäft‹ sei. Das ist dieser Film sicherlich – im Gegensatz zu den Fridericus-Erzeugnissen, die über und unter Gebühr rein ideale Ausstrahlungen Gegen das Remarque-Filmverbot\n                              \n(Eine Umfrage der »Deutschen Liga für Menschenrechte«)\n\n\nDer nordische Barde Goebbels hat i

In [24]:
startTEI = """
<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns="http://www.tei-c.org/ns/1.0">
"""
endTEI = "</TEI>"

In [25]:
with open('./data/delft_test.xml','a+') as file:
    file.write(startTEI)
    for line in data.delftFormated.unique():
        if line:
            file.write("<p>{0}</p>".format(line))
    file.write(endTEI)
    