In [10]:
from nltk.tokenize import word_tokenize
import pandas as pd

def tokenize_dataset()-> list:
    """
    Grouped data structure format:
    groups[group number][column][row]
    group number: 0-5, indexed to [A1, A2, B1, B2, C1, C2]
    column: 'CEFR', 'Text'
    row: zero-indexed
    example: groups[0]['Text'][0]
    pulls first text from A1 group
    """
    with open('./cefr-dataset/data.csv', 'r', encoding="utf-8") as file:
        gb = pd.read_csv(file, index_col=0).applymap(word_tokenize).groupby('CEFR')
        groups = [gb.get_group(group) for group in gb.groups]
    return groups


In [17]:
from data_tokeniser import tokenize_cefr_texts
data = tokenize_cefr_texts()
print(data)

[                                                   Text
CEFR                                                   
A1    [Lieber, Johannes, ,, ich, freue, mich, schon,...
A1    [Achtung, an, Gleis, vier, :, Auf, Gleis, vier...
A1    [Hallo, ,, hier, ist, Maria, ., Ich, gehe, heu...
A1    [Guten, Tag, ., Wie, kann, ich, Ihnen, helfen,...
A1    [Guten, Morgen, ,, Frau, Kittferner, ., Guten,...
A1    [Hallo, ,, wir, machen, eine, Umfrage, zum, Th...
A1    [Hallo, Caro, ,, hier, ist, Lena, ., Hi, Lena,...
A1    [Hallo, Jana, ., Na, ,, wie, war, dein, Wochen...
A1    [Liebe, Carmen, ,, am, kommenden, Sonntag, hab...
A1    [Ismail, spielt, gut, Fußball, ., Jetzt, will,...
A1    [Heute, hat, er, ein, Vorstellungsgespräch, fü...
A1    [Ich, kann, dir, helfen, “, ,, sagt, Anna, ., ...
A1    [Am, nächsten, Montag, steht, Sergio, um, 7:00...
A1    [Es, ist, Sonntagmittag, und, Kim, geht, es, n...
A1    [Kim, sieht, zuerst, zum, Sprungturm, und, dan...
A1    [Sie, müssen, mit, der, U-Bahn, fahren, .

In [13]:
import textgrid as tg # https://github.com/nltk/nltk_contrib/blob/master/nltk_contrib/textgrid.py 
import re, string

pattern = re.compile('[\[\]]+') 
fp = open("rec_001_AS_id_002_1.TextGrid", 'r', encoding="utf-8").read() # arg[0] = "ooTextGrid_filename
grid = tg.TextGrid(fp)
tier_0 = grid.tiers[0]
full_text = ' '.join([text for (start, stop, text) in tier_0.simple_transcript  if text != "<HÄSITATION>"])
cleaned = pattern.sub('', full_text).split()

In [14]:
from data_tokeniser import tokenize_textgrid

text = tokenize_textgrid("rec_001_AS_id_002_1.TextGrid")
print(text)

['<P>', 'was', '<P>', '<P>', 'wa', '<P>', 'ich', 'versteh', 'dich', 'hab', 'grade', '<P>', 'du', 'hast', 'grad', 'nur', 'einen', 'Namen', 'gesagt', 'und', 'das', 'war', 'Höffe', '<P>', 'und', 'ich', 'hab', 'keine', 'Ahnung', 'was', 'du', 'mimi', '<P>', 'ob', '<P>', 'ah', '<P>', 'ah', '<P>', 'ich', 'hab', 'de', '<P>', 'was', 'heißt', 'einen', 'Moment', 'meinst', 'du', 'ich', 'habs', 'ja', 'nicht', '<P>', 'für', 'einen', 'Moment', '<P>', 'vergessen', 'sondern', '<P>', 'in', 'einem', 'Moment', 'höchstens', '<P>', 'aber', 'noch', 'nicht', 'mal', 'das', '<P>', 'wahrscheinlich', '<P>', 'edes', '<P>', 'mein', 'Gott', 'wenn', 'ich', 'den', 'lang', 'nicht', 'mehr', 'sehe', 'was', '<P>', 'soll', 'ich', 'machen', '<P>', 'das', 'ist', '<P>', 'das', 'ist', 'so', 'wie', 'wenn', 'ma', '<P>', 'wenn', 'ma', 'ähm', '<P>', 'wenn', 'ich', 'zum', 'Beispiel', '<P>', 'Bayrisch', 'höre', '<P>', 'dann', '<P>', 'kann', 'ich', '<P>', 'ist', 'es', 'mir', 'unmöglich', 'n', '<P>', 'österreichischen', 'Dialekt', 'na