In [1]:
import numpy as np
import os
home_dir = os.path.expanduser('~')
import sys

sys.path.append(home_dir + '/Qurator/mono-repo/sbb_ocr_correction/qurator/sbb_ocr_correction/mt/feature_extraction/wordpiece_encoding')
from encoding import encode_sequence
from wordpiece import WordpieceVocabGenerator
from tokenization import WordpieceTokenizer

sys.path.append(home_dir + '/Qurator/mono-repo/sbb_ocr_correction/qurator/sbb_ocr_correction/data_preproc/dta')
from database import load_alignments_from_sqlite

In [2]:
#path definitions
db_path = home_dir + '/Qurator/mono-repo/sbb_ocr_correction/qurator/sbb_ocr_correction/data_preproc/dta/data/aligned_corpus.db'
encoded_ocr_path = home_dir + '/Qurator/mono-repo/sbb_ocr_correction/qurator/sbb_ocr_correction/mt/features/encoded_ocr.npy'
encoded_gt_path = home_dir + '/Qurator/mono-repo/sbb_ocr_correction/qurator/sbb_ocr_correction/mt/features/encoded_gt.npy'

In [3]:
aligned_data, aligned_data_as_df, headers = load_alignments_from_sqlite(db_path)
len(aligned_data)

1114

In [9]:
def create_wordpiece_encodings(aligned_data, print_examples=False):
    '''
    
    '''
    g = WordpieceVocabGenerator(max_wordpiece_length=3)
    g.generate_vocab_counts(aligned_data)
    wordpiece_vocab = g.wordpiece_vocab

    encoding = g.create_vocab_encoding(token_threshold=100)

    tok = WordpieceTokenizer(encoding, token_delimiter="<WSC>", unknown_char="<UNK>")

    ocr_encodings = []
    gt_encodings = []
    for alignment in aligned_data:
        tokenized_ocr = tok.tokenize(alignment[0], print_examples)
        tokenized_gt = tok.tokenize(alignment[1], print_examples)

        ocr_encodings.append(encode_sequence(tokenized_ocr, encoding))
        gt_encodings.append(encode_sequence(tokenized_gt, encoding))

    ocr_encodings = np.array(ocr_encodings)
    gt_encodings = np.array(gt_encodings)
    
    return ocr_encodings, gt_encodings

In [10]:
ocr_encodings, gt_encodings = create_wordpiece_encodings(aligned_data, print_examples=True)

------
Chars:  ['C', 'h', 'r', 'i', 'ſ', 't', 'l', 'i', 'c', 'h', 'e']
Tokens:  ['C', 'hri', 'ſt', 'lic', 'he']
------
Chars:  ['L', 'e', 'i', 'c', 'h', '⸗']
Tokens:  ['L', 'ei', 'ch', '⸗']
------
Chars:  ['v', 'n', 'd']
Tokens:  ['vnd']
------
Chars:  ['E', 'h', 'r', 'e', 'n', '⸗', 'P', 'r', 'e', 'd', 'i', 'g', 't']
Tokens:  ['E', 'hre', 'n', '⸗', 'P', 're', 'di', 'g', 't']
------
Chars:  ['C', 'h', 'r', 'i', 'ſ', 't', 'l', 'i', 'c', 'h', 'e']
Tokens:  ['C', 'hri', 'ſt', 'lic', 'he']
------
Chars:  ['L', 'e', 'i', 'c', 'h', '-']
Tokens:  ['L', 'ei', 'ch', '-']
------
Chars:  ['E', 'h', 'r', 'e', 'n', '-', 'P', 'r', 'e', 'd', 'i', 'g', 't']
Tokens:  ['E', 'hre', 'n', '-', 'P', 're', 'di', 'g', 't']
------
Chars:  ['d', 'e', 'r']
Tokens:  ['der']
------
Chars:  ['b', 'e', 'y']
Tokens:  ['be', 'y']
------
Chars:  ['E', 'r', 'b', 'a', 'r', 'n']
Tokens:  ['E', 'r', 'b', 'ar', 'n']
------
Chars:  ['T', 'h', 'u', '⸗']
Tokens:  ['T', 'h', 'u', '⸗']
------
Chars:  ['E', 'r', 'b', 'a', 'r', 'n'

------
Chars:  ['C', 'r', 'e', 'u', 't', 'z']
Tokens:  ['C', 're', 'u', 'tz']
------
Chars:  ['z', 'u']
Tokens:  ['zu']
------
Chars:  ['w', 'i', 'ſ', 'ſ', 'e', 'n']
Tokens:  ['wi', 'ſſe', 'n']
------
Chars:  ['V', 'ñ']
Tokens:  ['V', 'ñ']
------
Chars:  ['z', 'w', 'a', 'r']
Tokens:  ['z', 'w', 'ar']
------
Chars:  ['d', 'a', 's']
Tokens:  ['das']
------
Chars:  ['m', 'a', 'c', 'h', 't']
Tokens:  ['m', 'ach', 't']
------
Chars:  ['z', 'u']
Tokens:  ['zu']
------
Chars:  ['w', 'i', 'ſ', 'ſ', 'e', 'n', '/']
Tokens:  ['wi', 'ſſe', 'n/']
------
Chars:  ['V', 'ñ']
Tokens:  ['V', 'ñ']
------
Chars:  ['d', 'a', 's']
Tokens:  ['das']
------
Chars:  ['m', 'a', 'c', 'h', 't']
Tokens:  ['m', 'ach', 't']
------
Chars:  ['C', 'h', 'r', 'i', 'ſ', 't', 'e', 'n']
Tokens:  ['C', 'hri', 'ſte', 'n']
------
Chars:  ['d', 'i', 'e']
Tokens:  ['die']
------
Chars:  ['f', 'r', 'o', 'm', 'm', 'e']
Tokens:  ['f', 'r', 'o', 'm', 'me']
------
Chars:  ['K', 'i', 'n', 'd', 'e', 'r']
Tokens:  ['K', 'in', 'der']
----

Tokens:  ['4', '0', '.']
------
Chars:  ['J', 'ſ', 't']
Tokens:  ['J', 'ſt']
------
Chars:  ['k', 'r', 'a', 'ͤ', 'f', 'f', 't', 'i', 'g', 'e', 'r']
Tokens:  ['k', 'ra', 'ͤ', 'ff', 'ti', 'ge', 'r']
------
Chars:  ['K', 'r', 'a', 'n', 'c', 'k', 'e', 'n']
Tokens:  ['K', 'ra', 'n', 'c', 'k', 'en']
------
Chars:  ['J', 'c', 'h']
Tokens:  ['J', 'ch']
------
Chars:  ['w', 'i', 'l']
Tokens:  ['wi', 'l']
------
Chars:  ['b', 'i', 'ß']
Tokens:  ['b', 'i', 'ß']
------
Chars:  ['i', 'n', 's']
Tokens:  ['in', 's']
------
Chars:  ['E', 'ſ', 'a', '.']
Tokens:  ['E', 'ſ', 'a', '.']
------
Chars:  ['4', '6', '.']
Tokens:  ['4', '6', '.']
------
Chars:  ['J', 'c', 'h']
Tokens:  ['J', 'ch']
------
Chars:  ['t', 'r', 'a', 'g', 'e', 'n']
Tokens:  ['t', 'ra', 'gen']
------
Chars:  ['b', 'i', 'ß']
Tokens:  ['b', 'i', 'ß']
------
Chars:  ['i', 'n', 's']
Tokens:  ['in', 's']
------
Chars:  ['A', 'l', 't', 'e', 'r']
Tokens:  ['A', 'l', 'ter']
------
Chars:  ['w', 'e', 'r', 'd', 'e', 't']
Tokens:  ['we', 'r', 'd

------
Chars:  ['A', 'n', 'd', 'a', 'c', 'h', 't', '/']
Tokens:  ['A', 'nd', 'ach', 't/']
------
Chars:  ['b', 'e', 'k', 'a', 'n', 't', 'e', 'n']
Tokens:  ['be', 'k', 'an', 'ten']
------
Chars:  ['S', 'p', 'r', 'u', 'ͤ', 'c', 'h', 'e']
Tokens:  ['S', 'p', 'r', 'uͤ', 'che']
------
Chars:  ['h', 'e', 'r', '-']
Tokens:  ['her', '-']
------
Chars:  ['t', 'z', 'e', 'n']
Tokens:  ['tz', 'en']
------
Chars:  ['d', 'a', 's']
Tokens:  ['das']
------
Chars:  ['d', 'e', 'ſ', 't', 'o']
Tokens:  ['de', 'ſt', 'o']
------
Chars:  ['g', 'e', 'l', 'a', 'ͤ', 'u', 'f', 'f', 'i', 'g', 'e', 'r']
Tokens:  ['ge', 'l', 'a', 'ͤ', 'u', 'ff', 'ige', 'r']
------
Chars:  ['i', 'n']
Tokens:  ['in']
------
Chars:  ['v', 'o', 'r', 'ſ', 'p', 'r', 'e', 'c', 'h', 'e', '/']
Tokens:  ['v', 'or', 'ſ', 'p', 're', 'che', '/']
------
Chars:  ['d', 'a', 's']
Tokens:  ['das']
------
Chars:  ['ſ', 'i', 'e']
Tokens:  ['ſie']
------
Chars:  ['j', 'h', 'm']
Tokens:  ['j', 'h', 'm']
------
Chars:  ['d', 'e', 'ſ', 't', 'o']
Tokens:  

Tokens:  ['T', 'r', 'o', 'ſt']
------
Chars:  ['E', 'w', 'e', 'r']
Tokens:  ['E', 'we', 'r']
------
Chars:  ['h', 'e', 'r', 't', 'ʒ', 'l', 'i', 'e', 'b', 'e']
Tokens:  ['her', 't', 'ʒ', 'li', 'ebe']
------
Chars:  ['i', 'ſ', 't']
Tokens:  ['iſt']
------
Chars:  ['h', 'e', 'r', 't', 'z', 'l', 'i', 'e', 'b', 'e']
Tokens:  ['her', 'tz', 'li', 'ebe']
------
Chars:  ['M', 'u', 't', 't', 'e', 'r']
Tokens:  ['M', 'u', 'tte', 'r']
------
Chars:  ['a', 'u', 's']
Tokens:  ['au', 's']
------
Chars:  ['l', 'a', 'n', 'g', '-']
Tokens:  ['l', 'an', 'g', '-']
------
Chars:  ['N', 'o', 't', 'ſ', 't', 'a', 'n', 'd']
Tokens:  ['N', 'o', 't', 'ſt', 'and']
------
Chars:  ['/']
Tokens:  ['/']
------
Chars:  ['D', 'i', 'm', '⸗']
Tokens:  ['D', 'i', 'm', '⸗']
------
Chars:  ['w', 'i', 'e', 'r', 'i', 'g', 'e', 'n']
Tokens:  ['wie', 'ri', 'gen']
------
Chars:  ['v', 'e', 'r', 'ſ', 'e', 't', 'z', 'e', 't']
Tokens:  ['ver', 'ſe', 'tz', 'et']
------
Chars:  ['i', 'n']
Tokens:  ['in']
------
Chars:  ['d', 'e', 'n'

------
Chars:  ['h', 'a', 't']
Tokens:  ['ha', 't']
------
Chars:  ['v', 'o', 'r']
Tokens:  ['v', 'or']
------
Chars:  ['H', 'e', 'r', 'z', 'o', 'g']
Tokens:  ['H', 'er', 'z', 'o', 'g']
------
Chars:  ['w', 'e', 'ſ', 'e', 'n', ',']
Tokens:  ['we', 'ſen', ',']
------
Chars:  ['u', 'n', 'd']
Tokens:  ['und']
------
Chars:  ['h', 'a', 't']
Tokens:  ['ha', 't']
------
Chars:  ['V', 'o', 'r', 'm', 'u', 'n', 'd', 'ſ', 'c', 'h', 'a', 'f', 'f', 't']
Tokens:  ['V', 'or', 'm', 'und', 'ſch', 'a', 'ff', 't']
------
Chars:  ['J', 'o', 'h', '.']
Tokens:  ['J', 'o', 'h', '.']
------
Chars:  ['W', 'i', 'l', '-']
Tokens:  ['W', 'i', 'l', '-']
------
Chars:  ['S', 'o', 'ͤ', 'h', 'n', 'e', ',']
Tokens:  ['S', 'o', 'ͤ', 'h', 'ne', ',']
------
Chars:  ['C', 'o', 'b', 'u', 'r', 'g', ',']
Tokens:  ['C', 'o', 'b', 'u', 'r', 'g', ',']
------
Chars:  ['d', 'i', 'e']
Tokens:  ['die']
------
Chars:  ['L', 'e', 'h', 'e', 'n']
Tokens:  ['L', 'eh', 'en']
------
Chars:  ['u', 'ͤ', 'b', 'e', 'r']
Tokens:  ['uͤ', 'ber'

Tokens:  ['P', 'ie', 'n', 'ti', 'ſſ', 'i', 'm', 'æ']
------
Chars:  ['f', 'œ', 'm', 'i', 'n', 'æ']
Tokens:  ['f', 'œ', 'mi', 'n', 'æ']
------
Chars:  ['f', 'œ', 'm', 'i', 'n', 'æ']
Tokens:  ['f', 'œ', 'mi', 'n', 'æ']
------
Chars:  ['C', 'a', 't', 'h', 'a', 'r', 'i', 'n', 'æ']
Tokens:  ['C', 'at', 'ha', 'ri', 'n', 'æ']
------
Chars:  ['E', 'u', 'l', 'e', 'n', 'b', 'e', 'c', 'i', 'æ', ',']
Tokens:  ['E', 'u', 'len', 'be', 'c', 'i', 'æ', ',']
------
Chars:  ['c', 'o', 'n', 'j', 'u', 'g', 'i']
Tokens:  ['c', 'on', 'j', 'u', 'g', 'i']
------
Chars:  ['R', 'o', 'l', 'i', 'n', 'g', 'i', 'i', ',']
Tokens:  ['R', 'o', 'li', 'ng', 'i', 'i', ',']
------
Chars:  ['D', '.']
Tokens:  ['D', '.']
------
Chars:  ['&']
Tokens:  ['&']
------
Chars:  ['C', 'o', 'n', 'ſ', 'i', 'l', 'i', 'a', 'r', 'i', 'i']
Tokens:  ['C', 'on', 'ſi', 'li', 'ar', 'i', 'i']
------
Chars:  ['E', 'l', 'e', 'c', 't', 'o', 'r', 'a', 't', 'u', 's']
Tokens:  ['E', 'le', 'c', 't', 'or', 'at', 'u', 's']
------
Chars:  ['S', 'a', 'x'

------
Chars:  ['d', 'a', 's']
Tokens:  ['das']
------
Chars:  ['t', 'o', 'd', 'e', 's', 'f', 'a', 'ͤ', 'l', 'l', 'e']
Tokens:  ['t', 'o', 'de', 's', 'f', 'a', 'ͤ', 'lle']
------
Chars:  ['d', 'i', 'e']
Tokens:  ['die']
------
Chars:  ['g', 'e', 'm', 'e', 'i', 'n', 'e', 'n']
Tokens:  ['ge', 'me', 'ine', 'n']
------
Chars:  ['G', 'O', 't', 't', 'e', 's']
Tokens:  ['G', 'O', 'tte', 's']
------
Chars:  ['g', 'e', 'ſ', 'c', 'h', 'm', 'u', 'ͤ', 'r', 't', 'z', 'e', 't']
Tokens:  ['ge', 'ſch', 'm', 'uͤ', 'rt', 'z', 'et']
------
Chars:  ['t', 'o', 'd', 'e', 's', 'f', 'a', 'ͤ', 'l', 'l', 'e']
Tokens:  ['t', 'o', 'de', 's', 'f', 'a', 'ͤ', 'lle']
------
Chars:  ['h', 'a', '-']
Tokens:  ['ha', '-']
------
Chars:  ['b', 'e', 'n']
Tokens:  ['ben']
------
Chars:  ['/']
Tokens:  ['/']
------
Chars:  ['ſ', 'o', 'n', 'd', 'e', 'r', 'l', 'i', 'c', 'h']
Tokens:  ['ſo', 'nde', 'r', 'lic', 'h']
------
Chars:  ['ſ', 'i', 'e']
Tokens:  ['ſie']
------
Chars:  ['b', 'e', 'n', '/']
Tokens:  ['ben', '/']
------
C

Tokens:  ['g', 'lei', 'ch', 'n', 'uͤ', 'ſſe']
------
Chars:  ['d', 'r', 'i', 't', 't', 'e']
Tokens:  ['d', 'ri', 'tte']
------
Chars:  ['/']
Tokens:  ['/']
------
Chars:  ['f', 'o', 'l', 'g', 'e', 'n']
Tokens:  ['f', 'o', 'l', 'gen']
------
Chars:  ['ſ', 'o', 'l']
Tokens:  ['ſo', 'l']
------
Chars:  ['ſ', 'e', 'l', 'i', 'g', 'e']
Tokens:  ['ſe', 'li', 'ge']
------
Chars:  ['/']
Tokens:  ['/']
------
Chars:  ['v', 'o', 'm']
Tokens:  ['v', 'o', 'm']
------
Chars:  ['a', 'l', 's']
Tokens:  ['al', 's']
------
Chars:  ['f', 'u', 'ͤ', 'r', 's']
Tokens:  ['f', 'uͤ', 'r', 's']
------
Chars:  ['d', 'r', 'i', 't', 't', 'e', '/']
Tokens:  ['d', 'ri', 'tte', '/']
------
Chars:  ['f', 'o', 'l', 'g', 'e', 'n']
Tokens:  ['f', 'o', 'l', 'gen']
------
Chars:  ['e', 'd', 'ſ', 't', 'l', 'i', 'c', 'h', 'e', 'n']
Tokens:  ['e', 'd', 'ſt', 'lic', 'hen']
------
Chars:  ['/']
Tokens:  ['/']
------
Chars:  ['d', 'e', 'n']
Tokens:  ['den']
------
Chars:  ['w', 'i', 'r']
Tokens:  ['wi', 'r']
------
Chars:  ['d',

Tokens:  ['S', 'p', 'u', 'l']
------
Chars:  ['l', 'e', 'u', 'f', 'ſ', 't']
Tokens:  ['le', 'u', 'f', 'ſt']
------
Chars:  ['/']
Tokens:  ['/']
------
Chars:  ['ſ', 'o']
Tokens:  ['ſo']
------
Chars:  ['F', 'a', 'd', 'e', 'm']
Tokens:  ['F', 'a', 'de', 'm']
------
Chars:  ['g', 'e', 'ſ', 'c', 'h', 'w', 'i', 'n', 'd', 'e', 'ſ', 't', 'e', 'n']
Tokens:  ['ge', 'ſch', 'wi', 'nde', 'ſte', 'n']
------
Chars:  ['l', 'e', 'u', 'f', 'f', 't', '/']
Tokens:  ['le', 'u', 'ff', 't/']
------
Chars:  ['ſ', 'o']
Tokens:  ['ſo']
------
Chars:  ['v', 'n', 'd']
Tokens:  ['vnd']
------
Chars:  ['h', 'a', 't']
Tokens:  ['ha', 't']
------
Chars:  ['n', 'i', 'c', 'b', 't', 's']
Tokens:  ['ni', 'c', 'b', 't', 's']
------
Chars:  ['m', 'e', 'h', 'r']
Tokens:  ['me', 'hr']
------
Chars:  ['a', 'n']
Tokens:  ['an']
------
Chars:  ['ſ', 'i', 'c', 'h']
Tokens:  ['ſi', 'ch']
------
Chars:  ['d', 'u', 'r', 'c', 'h']
Tokens:  ['d', 'u', 'r', 'ch']
------
Chars:  ['/']
Tokens:  ['/']
------
Chars:  ['/']
Tokens:  ['/'

------
Chars:  ['i', 'ſ', 't']
Tokens:  ['iſt']
------
Chars:  ['j', 'h', 'r', 'e']
Tokens:  ['j', 'hre']
------
Chars:  ['G', 'r', 'a', 'b', 'ſ', 't', 'e', '.', 'n', 'e']
Tokens:  ['G', 'ra', 'b', 'ſte', '.', 'ne']
------
Chars:  ['v', 'n', 'n', 'd']
Tokens:  ['vn', 'nd']
------
Chars:  ['f', 'r', 'o', 'm', 'e', 'n']
Tokens:  ['f', 'r', 'o', 'me', 'n']
------
Chars:  ['h', 'e', 'r', 't', 'z', 'e', 'n']
Tokens:  ['her', 'tz', 'en']
------
Chars:  ['b', 'e', 'k', 'a', 'n', 'd', 't', '.']
Tokens:  ['be', 'k', 'and', 't', '.']
------
Chars:  ['v', 'n', 'n', 'd']
Tokens:  ['vn', 'nd']
------
Chars:  ['i', 'ſ', 't']
Tokens:  ['iſt']
------
Chars:  ['h', 'e', 'r', 't', 'z', 'e', 'n']
Tokens:  ['her', 'tz', 'en']
------
Chars:  ['b', 'e', 'k', 'a', 'n', 'd', 't', '.']
Tokens:  ['be', 'k', 'and', 't', '.']
------
Chars:  ['a', 'b', 'ſ', 't', 'e', 'r', 'b', 'e', 'n']
Tokens:  ['a', 'b', 'ſte', 'r', 'ben']
------
Chars:  ['ſ', 'e', 'i', 'n', 'e', 'r']
Tokens:  ['ſei', 'ne', 'r']
------
Chars:  [

Tokens:  ['g', 'l', 'au', 'ben']
------
Chars:  ['D', 'e', 'r']
Tokens:  ['D', 'er']
------
Chars:  ['a', 'l', 't', 'e', 'n']
Tokens:  ['al', 'ten']
------
Chars:  ['ſ', 'c', 'h', 'r', 'i', 'f', 'f', '⸗']
Tokens:  ['ſch', 'ri', 'ff', '⸗']
------
Chars:  ['ſ', 'e', 'l', 'i', 'g', 'k', 'e', 'i', 't']
Tokens:  ['ſe', 'li', 'g', 'k', 'eit']
------
Chars:  ['D', 'e', 'r']
Tokens:  ['D', 'er']
------
Chars:  ['ſ', 'c', 'h', 'r', 'i', 'f', 'f', '-']
Tokens:  ['ſch', 'ri', 'ff', '-']
------
Chars:  ['t', 'e', 'n']
Tokens:  ['ten']
------
Chars:  ['/']
Tokens:  ['/']
------
Chars:  ['d', 'e', 's']
Tokens:  ['de', 's']
------
Chars:  ['H', 'e', 'r', 'r', 'e', 'n']
Tokens:  ['H', 'er', 'ren']
------
Chars:  ['/']
Tokens:  ['/']
------
Chars:  ['v', 'n', 'd']
Tokens:  ['vnd']
------
Chars:  ['a', 'n', 'd', 'e', 'r', 'e', 'r']
Tokens:  ['and', 'er', 'er']
------
Chars:  ['v', 'n', 'ſ', 'e', 'r', 'e', 'r']
Tokens:  ['vn', 'ſe', 're', 'r']
------
Chars:  ['K', 'y', 'r', '⸗']
Tokens:  ['K', 'y', 'r', 

In [23]:
np.save(encoded_ocr_path, ocr_encodings)
np.save(encoded_gt_path, gt_encodings)