In [1]:
import pandas as pd
import numpy as np
import torch
# import torch.nn as nn
# import torchtext
# from torchtext.vocab import build_vocab_from_iterator
# import itertools

In [6]:
data = pd.read_csv('csv/train.csv')
data

In [18]:
from collections import defaultdict
import re
def get_pairs(vocab):
    pairs = defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols) - 1):
            pairs[symbols[i], symbols[i + 1]] += freq
    return pairs

def merge_pairs(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out

def get_vocab(data):
    vocab = defaultdict(int)
    for word, freq in data:
        vocab[' '.join(list(word)) + ' </w>'] += freq
    return vocab

def byte_pair_encoding(data, n):
    vocab = get_vocab(data)
    for i in range(n):
        pairs = get_pairs(vocab)
        best = max(pairs, key=pairs.get)
        print(best)
        vocab = merge_pairs(best, vocab)
        # print(list(vocab.items())[:5])
    return set([ngram for word in vocab.keys() for ngram in word.split()])

In [24]:
# Byte-Pair Encoding
freqs = data[['word','freq']]
vocab = byte_pair_encoding([(pair[0], pair[1]) for pair in freqs.values.tolist()], 100)

KeyboardInterrupt: 

In [26]:
freqs.values.tolist()

[['მონოზონისა', 1],
 ['სამხრეთიდგან', 1],
 ['მოფიქრებაშია', 1],
 ['სიდიადეს', 209],
 ['განგსტერებისათვის', 2],
 ['დრამაა-მეთქი', 1],
 ['ფურცელზეა', 22],
 ['გამინისტრებისას', 3],
 ['ნანობა', 1],
 ['მახუნჯია', 1],
 ['მხცოვანია', 6],
 ['უქადიდნენ', 1],
 ['ლაშქარაშვილები', 2],
 ['სდეს', 1],
 ['განივში', 3],
 ['ლასკალას', 12],
 ['დარაშვილთან', 1],
 ['მიდრეკილებასა', 5],
 ['აღაღანდა', 5],
 ['გირბოდა', 1],
 ['ხილაბანდები', 3],
 ['შეიტანთ', 74],
 ['არა-იმიგრაციის', 1],
 ['დავეთანხმე', 286],
 ['საზოგადოებრივად', 267],
 ['ქურუმების', 44],
 ['ვულკანზე', 12],
 ['გამოგეწვია', 1],
 ['შფოთი', 273],
 ['დაითხოვა', 882],
 ['გასასყიდი', 9],
 ['დასანახადაც', 18],
 ['ლამაზო-მეთქი', 1],
 ['დავესხმებიო', 2],
 ['გამოკრულიო', 1],
 ['იეღოველების', 194],
 ['ინტერიერთა', 1],
 ['ნინელიმ', 40],
 ['ენცეფალიტით', 3],
 ['დოსტებმა', 3],
 ['გაგვახსნევინეო', 1],
 ['აგიზგიზების', 3],
 ['მომჩივანად', 4],
 ['თანაზიარებად', 1],
 ['გადამიპატიჟა', 1],
 ['მარეგულირებლ', 1],
 ['ჭელაშვილთან', 4],
 ['მოგრეხილიყვნენ', 1],
 ['ცნებით

In [27]:
import codecs
from subword_nmt.learn_bpe import learn_bpe
from subword_nmt.apply_bpe import BPE

corpus = ' '.join([pair[0] * pair[1] for pair in freqs.values.tolist()])
# Learn BPE from the corpus
bpe_model_path = 'bpe_model.model'
bpe_vocab_size = 1000
learn_bpe(corpus, bpe_model_path, bpe_vocab_size)

# Create a BPE object
bpe = BPE(open(bpe_model_path))

AttributeError: 'str' object has no attribute 'write'

In [22]:
# Encode text using BPE
encoded_text = bpe.process_line("Hello, world!")
print(encoded_text)

# Decode text using BPE
decoded_text = bpe.process_line(encoded_text, reverse=True)
print(decoded_text)

{'-',
 '</w>',
 'ა',
 'ა</w>',
 'ად',
 'ად</w>',
 'ავ',
 'ალ',
 'ამ',
 'ამ</w>',
 'ან',
 'ან</w>',
 'არ',
 'არ</w>',
 'ართ',
 'ას',
 'ას</w>',
 'ატ',
 'აქ',
 'აღ',
 'აში</w>',
 'ახ',
 'ბ',
 'გ',
 'გა',
 'გამ',
 'გან',
 'გრ',
 'დ',
 'და',
 'და</w>',
 'ე',
 'ე</w>',
 'ებ',
 'ება</w>',
 'ები</w>',
 'ების</w>',
 'ებს</w>',
 'ეგ',
 'ედ',
 'ევ',
 'ეთ',
 'ელ',
 'ემ',
 'ენ',
 'ენ</w>',
 'ენტ',
 'ერ',
 'ერთ',
 'ეს',
 'ეს</w>',
 'ეტ',
 'ვ',
 'ველ',
 'ზ',
 'ზე</w>',
 'თ',
 'თ</w>',
 'თავ',
 'თვ',
 'თუ',
 'ი',
 'ი</w>',
 'ია</w>',
 'იან',
 'იდ',
 'ივ',
 'ით',
 'ით</w>',
 'იკ',
 'ილ',
 'იმ',
 'ინ',
 'ირ',
 'ის',
 'ის</w>',
 'იტ',
 'იც</w>',
 'კ',
 'ლ',
 'მ',
 'მა',
 'მა</w>',
 'მი',
 'მო',
 'ნ',
 'ო',
 'ო</w>',
 'ობ',
 'ოდ',
 'ოვ',
 'ოლ',
 'ომ',
 'ონ',
 'ორ',
 'ოს</w>',
 'პ',
 'ჟ',
 'რ',
 'რო',
 'რომ',
 'ს',
 'ს</w>',
 'სა',
 'სამ',
 'სახ',
 'ტ',
 'უ',
 'ულ',
 'ული</w>',
 'უნ',
 'ურ',
 'ური</w>',
 'უფ',
 'ფ',
 'ქ',
 'ღ',
 'ყ',
 'შ',
 'შე',
 'შვ',
 'ში</w>',
 'ჩ',
 'ც',
 'ც</w>',
 'ცი',
 'ცხ',
 'ძ',

In [7]:
word = data['word'].to_list()[0]
[word[i : i + 3] for i in range(0, len(word), 3)]


['მონ', 'ოზო', 'ნის', 'ა']

In [None]:
def get_tokens(series):
    yield ( for word in series.to_list())

get_tokens(data['word'])
vocab = build_vocab_from_iterator(iterator=get_tokens(itertools.chain(data['word'], data['lemma'])),
                                  min_freq=3,
                                  specials=["<end>", "<unk>"],
                                  )

In [None]:
class Model(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, x):
