In [97]:
import tensorflow as tf
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import xml.etree.ElementTree as ET

In [2]:
#Import dataset
tree = ET.parse('lag1734.xml/lag1734.xml')
root = tree.getroot()
root.attrib

{'id': 'lag1734'}

In [3]:
chapters = []
for child in root:
    chapters.append(child)

sentances = []
for chapter in chapters:
    for paragraph in chapter:
        for sentence in paragraph:
            sentance = ''
            for child in sentence:
                sentance += f'{child.text} '
            sentances.append(sentance[:-1])
sentances

['D O M A R E R E G L E R. Någre almennelige Regler , ther en Domare skal sigh aldeles effter rätta .',
 'En Domare skal först besinna , at han en Gudz Befalningsman , och thet Embete han förer , thet hörer Gudh til , och icke honom sielffuom , och therföre hörer Domen , som han afsäger , Gudhi til , efter thet han afsagd warder i Gudz Embete på Gudz wegna , så at thet är wisserliga Gudz Dom , och icke Menniskiors .',
 'Och ty ligger Domaren ther Macht vppå , at han seer sigh wijsligen före , at han icke på Gudz wegna dömer en falskan Dom , med hwilken han dömer sig til en ewigh Fördömelse , effter thet han misbrukat Guds Dom och Befalning til Öffuerwold och Orätt , som til Rätt af Gudhi insatt är .',
 'Men ther han haffuer wilia til at döma Rätt , och ransakar grant effter sitt ytersta Förstånd om Rätten , och kan dock icke för sin Oförståndigheet finna på Rätten , och säger så en falsk Dom , tå haffuer han någor Vrsächt , at han är kommen på then falska Domen , emot sin wilia aff wåd

In [4]:
#Pre-processing

In [89]:
#Tokenization
tfidf = TfidfVectorizer(stop_words = ['.', ',', '?', ';', 'cap', 'och', 'eller', 'som', 'thet', 'ej', 'han', 'then', 'ther', 'til', 'om',
 'at', 'med', 'tå', 'för', 'the', 'af'])
X = tfidf.fit_transform(sentances)
print(*tfidf.get_feature_names_out())



In [90]:
feature_array = np.array(tfidf.get_feature_names_out())
tfidf_sorting = np.argsort(X.toarray().sum(axis=0))[::-1]
n = 100
top_n = feature_array[tfidf_sorting[:n]]
print(top_n)

['är' 'böte' 'man' 'daler' 'må' 'så' 'sagdt' 'någor' 'sig' 'ock' 'skal'
 '10' 'sin' 'honom' 'efter' 'annan' 'utan' 'sedan' 'vare' 'them' 'samma'
 '11' 'än' 'en' 'hafver' 'rätt' 'äro' 'domaren' 'nu' 'giör' 'kan' 'åter'
 'konungens' 'lag' 'sitt' 'sägs' 'hans' 'hafve' 'vid' 'saken' 'förr' '12'
 'thes' 'gånge' '13' 'gods' 'vil' 'sker' 'skada' 'hvar' 'huru' 'bör' 'tid'
 'hus' 'på' 'rätten' 'kommer' 'hofrätten' 'emot' 'in' 'laga' 'annat'
 'andra' 'annars' 'tijo' 'balken' 'något' 'ware' 'äntå' 'staden' 'skadan'
 'ifrån' 'jord' 'sielf' 'under' 'alt' 'någon' 'skola' 'äger' 'barn'
 'landet' 'thertil' 'vara' 'inom' 'niute' '14' 'plichte' 'ingen'
 'konungen' 'hvad' 'gifve' 'gälde' 'dom' 'stadgadt' 'hafva' 'tage'
 'mindre' 'finnes' 'dag' 'ut']


In [95]:
feature_array = np.array(tfidf.get_feature_names_out())
tfidf_sorting = np.argsort(X.toarray().sum(axis=0))
n = 1000
top_n = feature_array[tfidf_sorting[:n]]
print(top_n)

['jämteland' 'lagmansdomen' 'småland' 'södermanland' 'skaraborgs'
 'tavastehus' 'medelpad' 'ångermanland' 'göta' 'kopparbergs' 'bohuslän'
 'ingifve' 'halland' 'helsingeland' 'dahl' 'herjedalen' 'västmanland'
 'västerbotn' 'elfsborgs' 'nyland' 'upland' 'nerike' 'vermeland' 'kalmare'
 'kymmenegårds' 'österbotn' 'rautalambi' 'gothland' 'gestrikeland'
 'östergöthland' 'blekinge' 'skåne' 'angelägit' 'förändringar' 'adolph'
 'ehuruväl' 'förändrat' 'gångne' 'nöigt' 'sorgfällighet' 'svårigheter'
 'öfversedde' 'lagfarne' 'riksdag' 'gustaf' 'brukelig' 'utesluta'
 'brukliga' 'bringas' 'berömmelig' 'vittre' 'behöringen' 'svänska'
 'förständiga' 'önskan' 'mångahanda' 'utgifvande' 'stadslagens' 'sedvana'
 'härtils' 'ändskap' 'förbättra' 'förbättrade' 'högloflige' 'hälsosamt'
 '1731' 'esomoftast' 'högtärade' 'företrädare' '1618' 'lärda' 'ändrade'
 'emellankomna' 'våre' 'daga' 'samtelige' 'sinnande' 'moederfaders'
 'tiänte' '700' 'enskylt' 'efterlevande' 'landslag' 'förändrades' 'allmän'
 'förenad' 'g

In [127]:
counter = CountVectorizer(stop_words=['.', ',', '?', ';', 'cap', 'och', 'eller', 'som', 'thet', 'ej', 'han', 'then', 'ther', 'til', 'om',
 'at', 'med', 'tå', 'för', 'the', 'af'])
Y = counter.fit_transform(sentances)
Y_sum = Y.toarray().sum(axis=0)
bpe_words = list(zip(map(lambda x: ' '.join(list(x)) + ' </w>', counter.get_feature_names_out()), Y_sum))
bpe_words

[('1 0 </w>', 58),
 ('1 0 0 </w>', 2),
 ('1 1 </w>', 40),
 ('1 1 3 </w>', 1),
 ('1 2 </w>', 29),
 ('1 2 8 </w>', 1),
 ('1 3 </w>', 35),
 ('1 3 3 </w>', 1),
 ('1 4 </w>', 23),
 ('1 4 4 2 </w>', 1),
 ('1 4 d e </w>', 1),
 ('1 5 </w>', 16),
 ('1 6 </w>', 21),
 ('1 6 0 8 </w>', 2),
 ('1 6 1 8 </w>', 1),
 ('1 6 8 6 </w>', 1),
 ('1 7 </w>', 12),
 ('1 7 3 1 </w>', 1),
 ('1 7 3 4 </w>', 3),
 ('1 7 3 6 </w>', 1),
 ('1 8 </w>', 11),
 ('1 9 </w>', 6),
 ('2 0 </w>', 6),
 ('2 1 </w>', 7),
 ('2 2 </w>', 8),
 ('2 3 </w>', 7),
 ('2 3 5 </w>', 1),
 ('2 4 </w>', 5),
 ('2 4 7 </w>', 1),
 ('2 5 </w>', 11),
 ('2 5 6 </w>', 1),
 ('2 6 </w>', 8),
 ('2 7 </w>', 8),
 ('2 8 </w>', 3),
 ('2 8 9 </w>', 1),
 ('2 9 </w>', 3),
 ('3 0 </w>', 8),
 ('3 0 8 </w>', 1),
 ('3 1 </w>', 3),
 ('3 2 </w>', 4),
 ('3 3 </w>', 2),
 ('3 4 </w>', 3),
 ('3 4 2 </w>', 1),
 ('3 5 </w>', 2),
 ('3 6 </w>', 3),
 ('3 7 </w>', 3),
 ('3 8 </w>', 1),
 ('3 9 </w>', 1),
 ('4 0 </w>', 1),
 ('4 1 </w>', 1),
 ('4 2 </w>', 3),
 ('4 2 3 </w>', 1),


In [137]:
def get_pair_stats(vocab: 'list[tuple[str, int]]'):
    pairs: 'dict[tuple[str], int]' = {}
    for word, frequency in vocab:
        symbols = word.split()

        # count occurrences of pairs
        for i in range(len(symbols) - 1):
            pair = (symbols[i], symbols[i + 1])
            current_frequency = pairs.get(pair, 0)
            pairs[pair] = current_frequency + frequency

    return pairs

pairs = get_pair_stats(bpe_words)
pairs

{('1', '0'): 60,
 ('0', '</w>'): 78,
 ('0', '0'): 4,
 ('1', '1'): 41,
 ('1', '</w>'): 52,
 ('1', '3'): 37,
 ('3', '</w>'): 48,
 ('1', '2'): 30,
 ('2', '</w>'): 46,
 ('2', '8'): 5,
 ('8', '</w>'): 20,
 ('3', '3'): 3,
 ('1', '4'): 25,
 ('4', '</w>'): 34,
 ('4', '4'): 1,
 ('4', '2'): 6,
 ('4', 'd'): 1,
 ('d', 'e'): 3829,
 ('e', '</w>'): 6475,
 ('1', '5'): 16,
 ('5', '</w>'): 30,
 ('1', '6'): 25,
 ('6', '</w>'): 35,
 ('6', '0'): 4,
 ('0', '8'): 3,
 ('6', '1'): 1,
 ('1', '8'): 12,
 ('6', '8'): 1,
 ('8', '6'): 1,
 ('1', '7'): 17,
 ('7', '</w>'): 26,
 ('7', '3'): 5,
 ('3', '1'): 4,
 ('3', '4'): 7,
 ('3', '6'): 4,
 ('1', '9'): 6,
 ('9', '</w>'): 11,
 ('2', '0'): 6,
 ('2', '1'): 7,
 ('2', '2'): 8,
 ('2', '3'): 9,
 ('3', '5'): 3,
 ('2', '4'): 6,
 ('4', '7'): 2,
 ('2', '5'): 12,
 ('5', '6'): 1,
 ('2', '6'): 8,
 ('2', '7'): 8,
 ('8', '9'): 1,
 ('2', '9'): 3,
 ('3', '0'): 9,
 ('3', '2'): 4,
 ('3', '7'): 3,
 ('3', '8'): 1,
 ('3', '9'): 1,
 ('4', '0'): 1,
 ('4', '1'): 1,
 ('5', '3'): 1,
 ('7', '0'): 

In [156]:
import re

def merge_vocab(best_pair: 'tuple[str, str]', vocab_in: 'list[tuple[str, int]]'):

    vocab_out: 'dict[str, int]' = {}

    # re.escape
    # ensures the characters of our input pair will be handled as is and
    # not get mistreated as special characters in the regular expression.
    pattern = f'(^| ){re.escape(" ".join(best_pair))}($| )'
    replacement = r'\g<1>' + ''.join(best_pair) + r'\g<2>'

    for word_in, freq in vocab_in:
        # replace most frequent pair in all vocabulary
        word_out = re.sub(pattern, replacement, word_in)
        vocab_out[word_out] = freq

    return [(word, frequency) for word, frequency in vocab_out.items()]

In [144]:
best_pair = max(pairs, key=pairs.get)
print(best_pair)

new_vocab = merge_vocab(best_pair, bpe_words)
new_vocab

('r', '</w>')


[('1 0 </w>', 58),
 ('1 0 0 </w>', 2),
 ('1 1 </w>', 40),
 ('1 1 3 </w>', 1),
 ('1 2 </w>', 29),
 ('1 2 8 </w>', 1),
 ('1 3 </w>', 35),
 ('1 3 3 </w>', 1),
 ('1 4 </w>', 23),
 ('1 4 4 2 </w>', 1),
 ('1 4 d e </w>', 1),
 ('1 5 </w>', 16),
 ('1 6 </w>', 21),
 ('1 6 0 8 </w>', 2),
 ('1 6 1 8 </w>', 1),
 ('1 6 8 6 </w>', 1),
 ('1 7 </w>', 12),
 ('1 7 3 1 </w>', 1),
 ('1 7 3 4 </w>', 3),
 ('1 7 3 6 </w>', 1),
 ('1 8 </w>', 11),
 ('1 9 </w>', 6),
 ('2 0 </w>', 6),
 ('2 1 </w>', 7),
 ('2 2 </w>', 8),
 ('2 3 </w>', 7),
 ('2 3 5 </w>', 1),
 ('2 4 </w>', 5),
 ('2 4 7 </w>', 1),
 ('2 5 </w>', 11),
 ('2 5 6 </w>', 1),
 ('2 6 </w>', 8),
 ('2 7 </w>', 8),
 ('2 8 </w>', 3),
 ('2 8 9 </w>', 1),
 ('2 9 </w>', 3),
 ('3 0 </w>', 8),
 ('3 0 8 </w>', 1),
 ('3 1 </w>', 3),
 ('3 2 </w>', 4),
 ('3 3 </w>', 2),
 ('3 4 </w>', 3),
 ('3 4 2 </w>', 1),
 ('3 5 </w>', 2),
 ('3 6 </w>', 3),
 ('3 7 </w>', 3),
 ('3 8 </w>', 1),
 ('3 9 </w>', 1),
 ('4 0 </w>', 1),
 ('4 1 </w>', 1),
 ('4 2 </w>', 3),
 ('4 2 3 </w>', 1),


In [157]:
bpe_codes = {}
num_merges = 1000  # hyperparameter
vocab = bpe_words
for i in range(num_merges):
    print('\niteration', i)
    pair_stats = get_pair_stats(vocab)
    if not pair_stats:
        break

    best_pair = max(pair_stats, key=pair_stats.get)
    bpe_codes[best_pair] = i

    # print('vocabulary: ', vocab)
    print('best pair:', best_pair)
    vocab = merge_vocab(best_pair, vocab)

print('\nfinal vocabulary: ', vocab)
print('\nbyte pair encoding: ', bpe_codes)


iteration 0
best pair: ('r', '</w>')

iteration 1
best pair: ('n', '</w>')

iteration 2
best pair: ('e', '</w>')

iteration 3
best pair: ('t', '</w>')

iteration 4
best pair: ('a', '</w>')

iteration 5
best pair: ('s', '</w>')

iteration 6
best pair: ('e', 'r</w>')

iteration 7
best pair: ('e', 'n</w>')

iteration 8
best pair: ('a', 'r')

iteration 9
best pair: ('a', 'n')

iteration 10
best pair: ('s', 't')

iteration 11
best pair: ('d', '</w>')

iteration 12
best pair: ('s', 'k')

iteration 13
best pair: ('n', 'g')

iteration 14
best pair: ('a', 'n</w>')

iteration 15
best pair: ('e', 'r')

iteration 16
best pair: ('a', 'l')

iteration 17
best pair: ('ö', 'r')

iteration 18
best pair: ('o', 'm')

iteration 19
best pair: ('a', 'g')

iteration 20
best pair: ('f', 'v')

iteration 21
best pair: ('e', 'n')

iteration 22
best pair: ('i', 'g')

iteration 23
best pair: ('r', 'ä')

iteration 24
best pair: ('f', 'ör')

iteration 25
best pair: ('t', 't')

iteration 26
best pair: ('a', 'r</w>')
