# Data

In [1]:
def read_texts(path):
    with open(path, "r") as fin:
        return [word.strip() for word in fin.readlines()]

In [2]:
DATA = "data/"
train_path = DATA + "train_stresses_labels.txt"
test_path = DATA + "public_test_stresses.txt"
train_path

'data/train_stresses_labels.txt'

In [3]:
words_train = (read_texts(train_path))
words_test = (read_texts(test_path))

len(words_train), len(words_test)

(588490, 294253)

In [4]:
words_train

['аа^к',
 'аа^ка',
 'аа^ке',
 'аа^ки',
 'аа^ков',
 'аа^ком',
 'аа^м',
 'аа^му',
 'аа^нгича',
 'аа^нгичам',
 'ааро^не',
 'ааро^новец',
 'ааро^новские',
 'ааро^новский',
 'ааро^новца',
 'ааро^новцами',
 'ааро^новце',
 'ааро^новцы',
 'ааро^новщин',
 'ааро^новщинами',
 'ааро^новщинах',
 'ааро^новщины',
 'ааро^ну',
 'а^ахенец',
 'аа^хенский',
 'абаа^сами',
 'абаа^сов',
 'абаа^су',
 'абаа^сы',
 'абада^н',
 'абада^нец',
 'абада^нках',
 'абада^нки',
 'абада^нкою',
 'абада^нку',
 'абада^нские',
 'абада^нский',
 'абада^нца',
 'абада^нцами',
 'абада^нце',
 'абада^нцев',
 'абада^нцы',
 'абажу^рами',
 'абажу^рно',
 'абажу^рны',
 'абажу^ров',
 'абажу^ру',
 'абази^ею',
 'абази^на',
 'абази^нам',
 'абази^нки',
 'абази^нкою',
 'абази^нские',
 'абази^нско',
 'абази^нца',
 'абази^нцу',
 'абази^нцы',
 'абази^я',
 'аба^зов',
 'аба^зом',
 'аба^им',
 'аба^й',
 'аба^к',
 'аба^кам',
 'аба^ками',
 'абака^н',
 'абака^не',
 'абака^нский',
 'абако^вый',
 'аба^ком',
 'абако^ст',
 'абако^стам',
 'абако^сте',
 'абако

In [5]:
words_test

['аакам',
 'ааками',
 'ааленец',
 'аама',
 'аамами',
 'аамов',
 'аамом',
 'аамы',
 'аангичами',
 'аангичах',
 'аангиче',
 'аангичи',
 'аангичу',
 'аарон',
 'аарона',
 'ааронов',
 'аароновцам',
 'аароновцах',
 'аароновцев',
 'аароновцем',
 'аароновщиной',
 'аароновщиною',
 'аароны',
 'аахен',
 'абаас',
 'абаасам',
 'абаасах',
 'абаасе',
 'абаасом',
 'абаданка',
 'абаданке',
 'абаданкой',
 'абаданцем',
 'абаддон',
 'абадзех',
 'абажур',
 'абажура',
 'абажурах',
 'абажурна',
 'абажурный',
 'абажуродержатель',
 'абажуры',
 'абазин',
 'абазинкам',
 'абазинками',
 'абазинку',
 'абазином',
 'абазинска',
 'абазински',
 'абазину',
 'абазинце',
 'абазию',
 'абазой',
 'абайя',
 'абаканец',
 'абаках',
 'абакостами',
 'абакостах',
 'абактериально',
 'абактериальный',
 'абактинальный',
 'абакумычами',
 'абакумыче',
 'абакумычем',
 'абалона',
 'абалонами',
 'абалоне',
 'абалонов',
 'абами',
 'абанамат',
 'абант',
 'абарг',
 'абаргам',
 'абаргу',
 'абарогнозия',
 'абарогнозом',
 'абат',
 'абатиса',
 '

# Tokenization

In [9]:
unique_symbols = sorted(list(set("".join(words_train) + "".join(words_test))))
unique_symbols

['^',
 'а',
 'б',
 'в',
 'г',
 'д',
 'е',
 'ж',
 'з',
 'и',
 'й',
 'к',
 'л',
 'м',
 'н',
 'о',
 'п',
 'р',
 'с',
 'т',
 'у',
 'ф',
 'х',
 'ц',
 'ч',
 'ш',
 'щ',
 'ъ',
 'ы',
 'ь',
 'э',
 'ю',
 'я',
 'ё']

In [12]:
char_to_id = {
    'а': 0,
    'б': 1,
    'в': 2,
    'г': 3,
    'д': 4,
    'е': 5,
    'ё': 6,
    'ж': 7,
    'з': 8,
    'и': 9,
    'й': 10,
    'к': 11,
    'л': 12,
    'м': 13,
    'н': 14,
    'о': 15,
    'п': 16,
    'р': 17,
    'с': 18,
    'т': 19,
    'у': 20,
    'ф': 21,
    'х': 22,
    'ц': 23,
    'ч': 24,
    'ш': 25,
    'щ': 26,
    'ъ': 27,
    'ы': 28,
    'ь': 29,
    'э': 30,
    'ю': 31,
    'я': 32,
}

VOCAB_SIZE = len(list(char_to_id.keys())) + 1 # 33 russian letters and [PAD]
VOCAB_SIZE

33

In [11]:
MAX_LEN = max([len(word) - 1 for word in words_train] + [len(word) for word in words_test])
MAX_LEN

36

In [None]:
def create_labels_from_train_word(word):
    word.index("^")


def encode(chars):
    return [char_to_id[char] for char in chars]


def get_labels():
    return 

def get_attn_mask():
    return 

def pad(ids):
    ones = [1 for i in range(len(ids))]
    zeros = [0 for i in range(MAX_LEN - len(ids))]
    return ones + zeros


def preprocess_train_word(word):
    chars = list(word)
    
    